数据流通与隐私计算
数据流通的层次
隐私计算基本概念
隐私计算与传统数据隐私保护的比较
在传统的数据生成过程中,个人用户将数据交给信任的机构,对数据的全生命周期进行保护。而隐私计算技术采用多用户联合计算、端云协同计算模式,对数据使用而不采集,实现可用而不可见的新型数据融合方式。
隐私计算技术分类
可信
机密计算——基于TEE的隐私计算技术
数据通过远程认证建立的安全通道发送给飞地
集中式计算,然后通过安全通道发送给用户。
- 可信执行环境(TEE)技术
- 可信执行环境(Trusted Execution Environment,简称TEE)是一种安全计算环境,它在不安全的主机操作系统上提供了一个隔离的执行空间。TEE技术的核心目的是保护数据和代码免受恶意软件和未授权访问的威胁,即使在主机操作系统被攻破的情况下也能确保安全。
- 可信硬件(lntel, AMD,ARM)
- 隔离性:可信硬件能够创建隔离的执行环境,如使用ARM TrustZone技术,确保敏感操作和数据与系统的其他部分隔离。
- 加密功能:可信硬件通常内置加密功能,包括密钥生成、存储和使用,以保护数据的机密性和完整性。
- 安全启动:可信硬件支持安全启动机制,确保系统在启动时加载的是经过验证的软件镜像。
- 防篡改:可信硬件设计有防篡改特性,如物理锁定机制或检测篡改的传感器,以防止未授权的物理干预。
- 身份验证:可信硬件可以用于硬件级别的身份验证,如使用生物识别技术或硬件安全模块(HSM)。
- 安全存储:可信硬件提供了安全的存储解决方案,用于存储敏感密钥和数据,如使用安全元素(Secure Element)。
- 远程认证:可信硬件可以支持远程认证机制,允许远程系统验证硬件的身份和状态。
- 合规性:可信硬件设计通常符合行业安全标准和法规要求,如PCI DSS、FIPS 140-2等。
- 可审计性:可信硬件的某些操作和状态可以被审计,以确保它们按照预期的方式运行。
- 生命周期管理:可信硬件支持从生产到退役的整个生命周期管理,确保在硬件的整个使用周期内保持安全。
- 飞地(Enclave)保证TEE安全,在内存中创建加密空间,抵抗虚拟机、操作系统以及恶意程序的攻击
- 远程认证(Remote Attestation)保证执行程序未被篡改,确保在飞地中程序被用户认证、授权
可度量
差分隐私——密码技术
可用于抵抗差分攻击。什么是差分攻击呢?举个简单的例子,假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身。所以张三单身。
这里张三作为一个样本的的出现,使得攻击者获得了额外的知识。而差分隐私需要做到的就是使得攻击者的知识不会因为这些新样本的出现而发生变化。
差分隐私的手段就是加入随机噪声,保证无论数据集中是否存在给定样本,统计分析输出的概率分布最多相差一个小的指定值,同时保证在一定精度损失条件下计算结果的正确性。
简单来说就是差分隐私通过向查询结果加入随机噪声, 使得攻击者不能通过差分的方法获得每个单一样本的确切值。
联邦学习——隐私保护机器学习
可证
多方安全技术MPC——密码技术
假设两个百万富翁想要比较他们的财富,但他们都不愿意公开自己的确切财富数额。他们希望找到一种方法,可以在不泄露各自财富数额的情况下确定谁更富有。这个问题由姚期智院士在1982年的论文《Protocols for Secure Computations》中首次提出,是一个经典的多方安全计算问题。
假设有多个参与方,各参与方都持有一些隐私数据$\{x_!,x_{”},x_\%,x_\#,x_\$,…\}$,现在各方商定计算某个函数$y=f(x_!,x_{”},x_\%,x_\#,x_\$,…)$,最后各方通过一些交互式的协议在没有可信第三方的前提下得到正确的计算结果,并且不泄露除了计算结果外的其他信息。
姚期智基于混淆电路方法提出了首个两方的安全计算协议Yao’s Protocol,后来Goldreich等人基于秘密分享方法将该协议推广到多个参与方,提出了首个多方协议GMW87 Protocol。
多方安全计算的一个重要特例就是隐私求交问题PSI
(Private Set Intersection,PSI),即在不泄露其他秘密信息的情况下,计算两个集合的交集$\mathrm{X}\cap\mathrm{Y}$
另外一个MPC的特例就是匿踪查询PIR
(Private Information Retrieval),它是一种特殊的信息检索技术,旨在允许用户从服务器或数据库检索信息而不泄露任何关于检索内容的信息。PIR 协议确保用户查询的匿名性,即服务器无法确定用户正在查询哪个文件或数据项。
如果PIR协议在整个计算过程中始终没有触碰某一条数据,则服务器端可以确认用户查询的肯定不是这一条数据,这也是某种信息泄露。从这个意义上来讲,RIP协议的通信/计算代价往往与数据库大小呈亚线性关系,即需要遍历整个数据库。
全同态加密——密码技术
全同态加密(Fully Homomorphic Encryption,FHE)允许用户在加密数据上直接进行任意计算,而不需要先对数据进行解密。
零知识证明——密码技术
零知识证明是隐私计算和区块链中常用的密码技术,它允许一方向另一方(验证者)证明某个命题是真实的,而无需提供除了该命题正确性之外的任何信息。即验证者可以确信某个命题是正确的,但不会从中获得任何额外的知识。