坚持价值投资

做创业者的资本战略合伙人

数据安全东风起,隐私计算几时兴 | 彬复研究

首页    彬复研究    数据安全东风起,隐私计算几时兴 | 彬复研究
数字经济是继农业经济、工业经济之后的主要经济形态。历经200余年技术演进,人类从瓦特(Watt)代表的工业经济,大踏步迈入比特(Bit)代表的数字经济。隐私计算技术作为数据流通的“安全锁”,将成为数字经济时代的基础设施,广泛应用于各行各业。

注:全文共计8900+字,阅读大约需要20分钟。彬复行研文章,信息密度较大,但是干货满满,enjoy~

 

数据流通模式新变化

 

数据流通价值巨大,应用场景广泛,主要参与方包括数据源和数据需求方,数据源指通过自主产生或者用户授权而存有大量数据的企业,如运营商、银联、税务部门等;数据需求方是指车企、银行、医院等对数据存在需求的企业。

表:数据流通的部分应用场景

传统数据流通模式下各方存在大量原始数据(通常包含隐私)交换。以贷款场景为例,如图,贷款人E向金融机构A申请贷款,金融机构A的放贷审核条件中,假设有一项指标是贷款人E向其他金融机构贷款的合计金额是否过高,如过高则不予放贷。传统模式下,金融机构A收到申请后会查询贷款人E在其他金融机构的贷款余额,或由贷款人E提供该信息,得到结果后加总再做出放贷决策。

图:传统数据流通模式文中案例均为便于理解的虚构案例)

除查询之外,传统模式下数据流通中的联合建模场景,如金融机构联合公安、运营商等多方数据进行反欺诈风险识别,多方也会基于原始数据直接进行联合建模。

传统模式下存在使用方超限定目的使用风险、数据泄露风险以及合规风险,影响数据价值的释放。

(1)数据使用方在使用过程中接触隐私数据,存在超限定目的使用风险,如用于非数据源意愿目的、转售第三方等;

(2)使用方存储接触到的隐私数据,存在数据源控制之外的泄露风险;

(3)用户隐私数据泄露导致企业违反《数据安全法》《个人信息保护法》《关键基础设施安全保护条例》(以下合并简称“两法一条例”),受到处罚,存在合规风险。

“隐私计算”技术能够在数据流通中保护隐私安全。基于“隐私计算”的数据流通新模式下数据需求方得到的是计算结果,而非包含隐私的原始数据本身。同样以贷款场景为例,隐私计算模式下,金融机构A通过与其他金融机构合作的隐私计算平台,可以得到贷款余额合计是否超过放贷条件的结果,即“是/否”,进而做出放贷决策,在这个过程中不会泄露贷款人E在其他金融机构贷款的具体情况。

图:基于“隐私计算”的数据流通模式

在基于“隐私计算”的数据流通新模式中,参与方除了数据需求方和数据源,还需要连接双方的隐私计算技术提供商,其为双方数据流通提供隐私计算技术。

图:基于“隐私计算”的数据流通模式的主要参与方

 

政策推动数据流通合规化发展

 

政策鼓励数据流通,支持关键技术攻关,加速建立健全数据流通交易规则。2016年起,国家多次发文支持大数据产业发展,鼓励数据流通,促进以数据为关键要素的数字经济发展,推进政务数据开放共享,统筹建设政务大数据平台。

同时,近几年国家越发重视个人隐私安全、数据安全,强调数据流通的合法、合规,要求网络运营者收集、使用个人信息需要经被收集者同意(经过处理无法识别特定个人且不能复原的除外),分级分类、分步有序推动部分领域数据流通应用。

人民银行等机构多次发布行业指导政策,明确提出鼓励隐私计算技术的使用,加强大数据安全技术产品研发,保证在数据合规的基础上行业良性发展。

1. 大数据行业相关政策

2016年至2021年发布的《大数据产业规划》《关于构建更加完善的要素市场化配置体制机制的意见》《关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》《关于印发要素市场化配置综合改革试点总体方案的通知》等政策推出,鼓励数据流通,推进政务数据开放共享,建立健全数据流通交易规则,建立大数据产业体系,探索“原始数据不出域、数据可用不可见”的交易范式。
需要特别说明的是,目前行业对“域”的定义尚不明晰,我们认为“域”是指数据授权使用的范围,具体定义需要等行业细则出台后界定。
表:国家鼓励数据流通的相关政策

2. 数据安全和隐私保护政策

多项政策颁布,强调个人信息受法律保护,数据使用方、运营方需要保证获得个人的授权以及保证数据的安全合规。2021年颁布的“两法一条例”直接推动数据流通行业进入合规发展的阶段。
表:数据安全和隐私保护相关政策

3.  国内政策影响

在国内多个政策的影响下,各地政府纷纷开始政务数据的开放试点工作,各个企业也在趋严的监管力度下开始重视用户隐私的保护,数据需求方业务开展受到一定限制
根据我们的调研,在某重要数据需求场景下,过去数据需求方使用数据进行建模,需将数据样本的特征信息带出库,在数据源的服务器上进行建模。2021年开始,该行业的数据样本的特征信息不允许出域,导致模型无法更新,开展业务只能使用原来的模型。随着模型的时效性变弱,精度下降,数据需求方只能收缩业务以降低风险,这对业务开展造成较大影响。隐私保护政策下,数据流通各方亟需有效的技术供给来保障业务的持续开展。
4.    国外主要隐私保护政策
欧盟和美国推出了数据和隐私保护的政策,强调数据使用需经所有权人许可,或采用隐私计算等技术保护隐私安全。
2018年5月,欧盟出台《通用数据保护条例》(GDPR),其中强调:
  • 数据保护为一项基本权利。数据主体有访问权、整改权、删除权、反对权等。
  • “同意”是数据处理的法律基础。原则上禁止处理个人敏感数据,数据主体明示同意或公共利益、统计、科学或历史研究所必需的处理除外。
  • 确保个人数据采用适当安全的方式进行处理,包括使用适当的技术防止意外丢失、破坏或损坏等。
  • 强调责任共担,数据供应链上的各方都要承担责任,数据收集/使用/处理者要承担合规风险和义务。

     
2018年6月,美国加州颁布《加州消费者隐私法案》(CCPA),这是美国首部数据隐私全面立法。
  • 消费者主要拥有知情权、访问权、删除权、选择权、公平交易权、个人诉讼权。
  • 收集个人信息的服务提供商需要通过适当的技术遵守信息保护的要求。
  • “个人信息”不包括去识别化或聚合消费者信息的消费者信息。
  • 基于科研、公共利益、统计的目的,不需要同意消费者删除个人数据的请求。

 

行业发展阶段预判

 

数据在众多场景中流通产生价值,每一个场景下基于隐私保护的数据流通都要经历三个阶段:平台建设阶段、数据运营阶段和充分流通阶段

1.  平台建设阶段

隐私计算行业中短期以平台建设为主。该阶段的驱动因素是各项数据流通和隐私保护法律法规,部分数据源为了满足数据开放的政策要求、部分数据源和数据需求方为了业务合规而需要搭建隐私计算平台。
金融场景目前已经全面进入平台建设阶段,大型数据供需方开始接触隐私计算,并完成技术测试、平台搭建和数据在有限场景内的初步流通,形成标杆案例。营销和汽车场景也开始向平台建设阶段发展,医疗场景距离该阶段还需一定时间。

(1)数据源

数据源主要分为五类,政务数据(政府)、公共数据(大型国企)、医疗数据、市场化数据(阿里、腾讯等互联网平台)、其他数据(中小企业等)。
  • 政务数据包括社保、税务、气象等数据,通常分散分布在各级地方政府相关职能部门,其开放由政策驱动,目前处于探索阶段。
    政府主导建立的数据流通平台是政务数据的主要开放形式,目前各地都在推动建立该平台,这也是众多隐私计算公司中短期的业务机会。
    根据调研,目前各地平台的定位和方案存在较大差异,尚处于方案探索阶段。该平台后续运营权归属于政府或者政府指定的公司。平台通常提供多家公司的多种隐私计算技术,用户自行选择,因此隐私计算公司很难和某政务数据平台和数据源独家绑定。未来,隐私计算公司有望通过参与数据运营等工作获取数据流通过程中的分润。
  • 公共数据包括电信、能源等数据,其单体数据量大、价值高,数据源通常是大型国企,其中部分对数据流通已有清晰的认知,发展进程较快。公共数据是目前隐私计算公司需要进入的核心数据源生态
    由于独家绑定的风险较大,数据源通常会选择与多家隐私计算公司合作,因此隐私计算公司很难和公共数据源独家绑定
  • 医疗机构数字化程度高,数据量大,但是数据分散,且分享意愿低,因此推动速度较慢
  • 大型互联网公司等所包含的市场化数据量多且丰富,自身具备自研隐私计算技术的能力和意愿,一般不需要其他隐私计算公司提供技术服务
  • 其他数据,现阶段大部分中小企业的数字化程度较低,且数据量小,因此不是现阶段的主要数据源。
我们认为,两类数据源率先使用隐私计算技术,进入平台建设阶段:一是政策驱动的数据源,如政务数据;二是单体数据量大且对数据流通有清晰认知的数据源,如公共数据中的电信数据。这些数据源在平台搭建的同时,也会在部分场景建立标杆案例,并初步规模化复制,上述两类数据源也会较早地进入“数据运营阶段”。
表:数据源情况分析

(2)数据需求方

该阶段的主要需求方是:(1)金融机构等在传统模式下的数据需求方,通过隐私计算平台,实现数据的合规获取和应用;(2)有强烈的数据使用需求,但传统模式下无法获取数据的需求方
对于金融场景,金融机构的科技部门正积极探索搭建隐私计算平台,而合规部门对隐私计算技术暂持谨慎态度。很多分析认为金融机构对数据流通的需求规模大且急迫,因此金融或是隐私计算发展最快的场景。不过根据我们的调研,目前金融机构对隐私计算的认知还存在差异甚至矛盾的观点。
对大多数金融机构来说,现阶段主要是科技部门在做研发试点和场景探索工作,尚未在业务上大规模应用。虽然金融机构业务部门对数据需求依然十分强烈,但是:(1)在隐私保护法规出台之前基于未合规数据形成的业务模型暂时还可以使用;(2)合规部门对隐私计算技术暂持谨慎态度,相关技术在业务上的部署推进较慢,业务部门的需求没有完全释放,因此放慢了金融场景下行业向数据运营阶段发展的节奏。
汽车、营销等场景目前也有部分公司开始尝试搭建隐私计算平台,实现智能驾驶和精准营销。医疗场景中,药厂等数据需求方对数据需求旺盛,但是由于医疗数据分散,数据源开放意愿低,进入平台建设阶段仍然需要一定时间。

(3)市场规模及隐私计算公司发展

根据行业调研和测算,不同主体的隐私计算平台建设支出为数百万元到数千万元不等,平台建设阶段的总体市场规模约数十亿元
在此阶段,隐私计算公司收入以项目制的平台建设费用为主,需要掌握一种或多种隐私计算技术,尽可能多地满足数据源和需求方不同场景的差异化需求,提升定制化解决方案的能力。同时,隐私计算公司需要与更多高价值量的数据源建立连接,以便于在数据运营阶段满足多样化的需求,为数据运营阶段的商业模式建立基础。此外,隐私计算公司可以积极为中小型需求方建立第三方平台,发挥数据的价值。在部分场景中会出现尝试性的数据运营案例,此时价值分配方式和比例差异较大。

2. 数据运营阶段

隐私计算行业中长期为数据运营阶段,该阶段的主要驱动因素是业务对高价值数据的需求。此时主要数据源和部分需求方已完成隐私计算平台的搭建,多个数据应用的标杆案例逐渐形成,并开始规模化复制,但是还未形成充分广泛的覆盖。此阶段隐私计算的主要价值体现在数据运营价值,由于工具覆盖面不够宽广,工具价值相对有限。

(1)数据源

在数据运营阶段,主要数据源已完成隐私计算平台的搭建,陆续部署/兼容多家隐私计算公司的技术,并尝试数据产品标准化,完成数据库的建设和数据治理,使数据达到可用状态。
各地政务数据平台陆续达到可运营状态;医疗机构受政策或者利益驱动,开放意愿增强,连接多方数据的第三方平台建立。

(2)数据需求方

此阶段各个场景的需求快速增长,建立标杆案例并规模化复制。
金融场景中,由于国家权威部门已经出台隐私计算相关的实施细则和技术认证,需求方合规部门对技术的担忧已被解决,业务部门开始规模化使用数据。
营销、汽车等新场景的需求被大量激发;医疗场景进入此阶段的时间较晚,但是随着平台的建立需求也被快速释放。

(3)市场规模及隐私计算公司发展

该阶段场景众多,市场规模或超千亿。隐私计算公司有可能通过数据运营分成的方式获得收益,分成方式包括按量付费、按GMV付费和按其他效果付费,此时价值分配根据各方贡献,逐渐趋于合理。
该阶段隐私计算公司进行路径选择,①部分公司专注于技术服务,逐渐将隐私计算产品标准化,并尽可能多地和行业应用解决方案公司建立深度合作关系,赋能更多的垂直领域,争取尽早实现规模效应和网络效应;
②部分公司深入积累需求场景的行业knowhow,了解数据源的数据资产,深度参与数据运营,成为偏运营类的公司,通过更好地满足用户的需求来最大化数据价值,建立垂直领域的标杆案例,并进行规模化复制。
此时,数据源和隐私计算公司相互赋能,一方面,数据源可以推荐关联公司或合作伙伴使用隐私计算合作伙伴的技术;另一方面,在擅长的需求场景,隐私计算公司成为数据源的“分销商”,撮合供需双方的合作,推动数据的规模化应用。

3. 充分流通阶段

隐私计算最终会到达充分流通阶段,该阶段社会整体数字化水平较高;隐私计算会成为基础设施,数据会成为标准化、自由流通的产品;不同主体间数据互通有无,一些场景下的数据供应方可能在另一些场景下成为数据需求方。
该阶段存在丰富的数据源;数据产品完成分级分类,差异化地提供给不同的需求。各场景的需求方在合规的条件下可以充分使用数据。
该阶段隐私计算公司的定位会进一步分化为:①工具类,专注提供隐私计算相关的标准化软硬件产品,服务于各终端厂商。②运营类,除隐私计算产品外,在部分场景具备很强的运营能力,参与数据分销、业务撮合、模型搭建等工作,获取数据的运营价值。

 

隐私计算的主要技术

 

前文中提到数据流通过程中的多个环节均有可能因恶意攻击导致数据泄露,以联合建模为例,①传统数据流通模式双方直接传输明文数据,数据在流通过程中可能被截获,导致数据泄露;②AB双方的本地运算环境可能被攻击,导致数据泄露。
图:数据泄露的可能途径
针对以上,本部分将不同的隐私计算技术分为两类,第一类解决问题①,能够实现原始数据不出域,数据可用不可见,其中包括联邦学习技术、多方安全计算技术(又称安全多方计算)、同态加密技术和差分隐私技术,联邦学习数据不出域,多方安全计算和同态加密数据“加密”出域,差分隐私保护数据计算结果。第二类解决问题②,能够保护本地安全,主要包括可信执行环境技术。差分隐私技术和可信执行环境技术在数据流通中通常和其他技术结合。
图:隐私计算技术分类

1. 联邦学习

联邦学习(Federated Learning,FL)的本质是一种机器学习框架,即分布式机器学习技术,以一个中央服务器为中心节点,通过与多个参与训练的本地服务器交换网络信息来实现人工智能模型的更新迭代。王爽教授于2012年首先提出了联邦学习框架应用于医疗在线学习,并于2013年发表在专业SCI期刊;2016年谷歌提出了针对手机终端的联邦学习,用于解决安卓手机终端用户在本地更新模型的问题。
联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习三类,其中横向联邦联合样本,纵向联邦聚合特征,迁移联邦的样本、特征重叠都较少。在中国纵向联邦学习的应用场景较多。
例如金融机构A在放贷之前建立放贷模型,由于其自身只有本机构用户存款及消费数据,模型维度不够完整,需要税务数据及征信数据来联合建模。通过联邦学习可以实现数据在本地运算,各方交换中间结果实现联合建模。
图:联邦学习方式下金融机构结合税务、征信数据建立放贷模型
优点:
  • 数据需求方所需算力成本小,其只需要计算自己的数据。
  • 数据需求方的原始数据不出域,数据需求方对数据有绝对掌控。
  • 传输要求低,只需要传输中间结果。
缺点:
  • 数据源需要具备一定算力。
  • 由于中间结果一定程度上可以反推原始数据,存在数据泄露的风险。因此通常和其他加密方法结合,如同态加密、差分隐私、秘密分享等。

2. 多方安全计算

多方安全计算(Secure Multi-Party Computation,MPC)由姚期智院士在1982年提出,指在无可信第三方情况下,通过多方共同参与,安全地完成协同计算,其中通常包括不经意传输、混淆电路、秘密分享、零知识证明等技术。
例如金融机构A在放贷之前建立放贷模型,通过多方安全计算可以实现数据“分片”后出域实现联合建模。
图:多方安全计算方式下金融机构结合税务、征信数据建立放贷模型
优点:
  • 数据安全性高,各方只拥有一片无意义的数据,较难还原为原始数据。
缺点:
  • 对数据源和数据需求方的算力要求较高。
  • 对数据源和数据需求方的传输要求较高。
  • 在实际应用中,通常难以实现3方以上的多方安全计算。

3. 同态加密

同态加密的概念最初在1978年,由Ron Rivest,Leonard Adleman和Michael L. Dertouzos共同提出,旨在解决在不接触数据的前提下,对数据进行加工处理的问题。同态加密是一种允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致的加密算法,其中又包括部分同态加密、些许同态加密、全同态加密三种。
  • 部分同态加密 (Partially Homomorphic Encryption, PHE),又称半同态加密,仅支持加法或者乘法运算,如Paillier算法,比较成熟。
  • 些许同态加密 (Somewhat Homomorphic Encryption, SHE),限制同态加密计算的次数,如BGN方案。
  • 全同态加密 (Fully Homomorphic Encryption, FHE),同时支持加法和乘法运算,且不限制加密次数,计算速度比明文慢几个数量级,计算代价较高,实际应用较少。2009年,Gentry提出了第一个全同态加密方案,现在已经发展出BGV、BFV、GWS、CKKS等多代方案。
图:同态加密原理示意图
例如金融机构A在放贷之前需要查询用户在其他金融机构的贷款情况,可以通过同态加密获得用户贷款数据的总和。
图:同态加密方式下金融机构之间的数据分享
优点:
  • 安全性高。
  • 数据源只需要加密数据,对算力要求低。
缺点:
  • 对数据需求方算力要求极高,计算速度慢。
  • 存在一定精度问题。
  • 未来量子计算技术成熟后,对同态加密的安全性提出了挑战。
4. 差分隐私
差分隐私(Differential Privacy,DP)主要基于噪声算法,适用于从统计数据库查询的场景,主要用于防止差分攻击。以贷款查询为例,差分攻击是指攻击方通过分别查询全部n个用户和(n-1)个用户的贷款总和,将两者结果相减就能得到某个用户的具体贷款金额的情况。
差分隐私算法通过将噪声插入到查询结果中,使得数据失真或者扰乱数据,能够最大限度减少查询记录被攻击方识别。例如金融机构A查询某批用户在其他金融机构的贷款情况,可以通过差分隐私获得贷款数据的总和。
图:差分隐私方式下金融机构之间的数据查询
优点:
  • 实现成本较低。
  • 技术较为成熟。
缺点:
  • 噪声会对结果可用性和准确性造成一定程度影响。
  • 保护目标是计算结果而非计算过程,计算方可以显式的访问训练数据。
5. 可信执行环境
可信执行环境(Trusted Execution Environment,TEE)是通过在基于软硬件的可信环境中执行明文计算,保护数据和应用,达到隐私计算效果的技术。
TEE结合安全传输和安全存储等传统技术,可实现包含传输、存储、计算在内的全周期数据隐私保护。
TEE明文的计算环境分为储存于寄存器、CPU、安全沙箱等几类,不同类型的安全程度不同。
图:可信执行环境示意图
优点:
  • 通用,可以无缝支持通用计算框架和应用。
  • 高效,计算性能基本可匹敌明文计算。
缺点:
  • TEE信任链跟CPU厂商绑定,从而影响到可信执行环境的可信度。
  • 在理论上存在侧信道攻击的可能性。
6. 技术对比
隐私计算各项技术各有特色,不存在一种技术碾压其他技术;实际应用中可以根据不同的场景,选择合适的技术进行部署。
数据供需双方的合规部门在对隐私计算的各项技术“充分信任”前,会影响到技术的选择,例如使用同态加密或多方安全计算技术,会有加密信息出域,数据源目前会谨慎使用。权威机构(如公安、国密局)的认可,将加快各项技术的普及速度。
表:隐私计算部分技术对比

 

长期看好数字经济,静待隐私计算东风起

 

目前隐私计算行业总体上处于平台建设向数据运营过渡的阶段,市场上公司包括初创的隐私计算公司、大型科技互联网公司、金融类公司、AI及区块链公司等,他们各自从技术、数据源、运营等不同角度切入。
图:隐私计算行业版图
彬复资本刘婧表示:现阶段距离隐私计算大规模普及应用还有一段时间,一方面受制于需求方对技术的不信任,另一方面没有细则标准出台明确隐私计算技术的要求及数据合规的程度,需求尚未得到完全释放。对于隐私计算公司来说,现阶段需要积极进入受政策驱动或单体数据量大且对数据流通有清晰认知的数据源生态(如政务数据、公共数据生态),因为一方面此类数据源数据丰富、相对较为集中且拥有开放数据的驱动力,对需求方而言更能满足其对高价值数据的需求;另一方面,此类数据源会率先完成平台搭建,进入数据运营阶段,隐私计算公司可以优先跑通商业模式,在大规模的应用中实现技术服务或者运营服务的产品化。
隐私计算是数据流通和隐私保护的桥梁,在国家促进数据流通和数据合规的大趋势下,隐私计算技术潜力巨大。彬复资本重点关注数字经济板块,并长期看好隐私计算赛道,我们会积极寻找优秀的合作伙伴,共享数字经济新机遇,共绘数字发展新蓝图。

 

刘婧

彬复资本投资经理

 

微信号:dreamlj_

邮箱:jing.liu@beforcapital.com

 

 

编辑:Kristen CAI

▎往期推荐

 

一位“水下狙击手”的2022年终盘点 | 彬复事纪

虚拟人云程发轫,穿透技术寻找投资机会 | 彬复研究

数字经济系列1:觉醒年代,中国数字经济三十年 | 彬复研究

AI视觉检测成熟在即,从场景聚焦到泛化能力的四类玩家和两条路径 | 彬复研究

基于中美对比的视角,看跨境电商如何应对增速放缓的新常态 | 彬复研究

 

 

彬复资本

 
 

 

彬复资本,关注数字经济、绿色经济和新消费领域的早期、成长期投资机会,专注于深耕行业研究,以研究驱动投资,用专注的精神、专业的能力为投资者带来长期稳健的回报。主要出资人包括险资集团、政府引导基金、上市公司、家族财富管理办公室等机构投资者等。彬复资本致力于成为助力创业者成就卓越企业的资本战略合伙人,成立至今,基金主导投资的项目中绝大多数彬复资本是领投或唯一投资方。在彬复资本的助力陪伴下,这些公司纷纷成长为各细分行业的龙头,并有望在不久进入公开资本市场。

“在看”,更多人看见