【区块链+大数据】链博科技“区块链+产业”链改系列报告08

1.引言

相比于区块链技术与2019年才上升为国家战略,大数据技术成为国家战略早了四年,发展更为成熟,产业规模更大,对于国民经济和社会生活的影响也更为深入。不过,大数据产业在发展的过程中,也遇到了诸多的瓶颈和问题,阻碍了自身的进一步发展。

同为新兴技术,区块链技术与大数据技术有着诸多的结合点。前者能够帮助后者克服现有的困难与不足,并且全面驱动后者再上一个新的台阶。

2.大数据发展现状

“大数据”这个概念由《自然》杂志在2008年提出,但其发展时间还要更早。而在2006年之后,大数据技术在以谷歌为首的科技巨头的推动下快速发展;从2009年开始,大数据基本技术成熟,学术界和企业界开始进行大数据技术的应用研究。2013年被称为大数据元年,从此大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,直到今天。

2.1 产业规模大,发展速度快

随着全球互联网的进一步成熟与数字化进程的不断加快,全球数据产量高速增长。在刚刚过去的2019年,全球数据量可达41ZB(1ZB=2的70次方KB),这个数字相当于全世界所有人的脑细胞数量总和,可以说,数据已经填满了我们每个人的大脑。

(图片来源:中国信通院)

在数据量激增的背景下,大数据行业也展现了一个非常高的增速。从2016年到2021年(数据含预测),我国大数据产业规模将从约2800亿元突破8000亿元,每年的增速虽然有所放缓,但仍保持20%以上的年增速,规模扩张仍可谓迅速。

(图片来源:大数据产业联盟)

新一代信息技术快速发展,数字中国和新型智慧城市等建设项目加速推进,以及经济社会的转型发展和动能转换,这些因素都在持续推动我国大数据产业的发展,加速技术革新和应用拓展。

2.2 政策布局覆盖完善

近年来,中央政府和各级地方政府频繁出台与大数据有关的政策,已经形成多层次协同推进的大数据发展政策环境。仅2015年~2018年,中央政府、省级政府及市区级政府出台的大数据相关政策就达到340个。其中影响力最大的主要包括:

2014年大数据被写入政府工作报告;

2015年国务院正式印发了《促进大数据发展行动纲要》,成为我国发展大数据的首部战略性指导文件;

2016年《十三五规划纲要》的公布标志着国家大数据战略的正式提出,彰显了中央对于大数据战略的重视;

2016年12月,工信部发布《大数据产业发展规划(2016-2020 年)》,为大数据产业发展奠定了重要的基础;

2017年10月,党的十九大报告中提出推动大数据与实体经济深度融合,为大数据产业的未来发展指明方向;

2019 年 3 月,政府工作报告第六次提到“大数据”,并且有多项任务与大数据密切相关。

截止目前,全国除港澳台外的全部31个省级行政区都出台了关于大数据的产业政策,合计347条;16个省级行政区和79个市级行政区成立了大数据管理机构;据不完全统计,18个省级行政区共成立了46个大数据产业园区;国内大数据政策环境已经相当完善。

2.3 数据合规要求愈发严格

近两年来,各国在数据合规性方面的重视程度越来越高,但数据合规的进程仍任重道远。2018年5月,旨在保护欧盟公民的个人数据、对企业的数据处理提出了严格要求的《通用数据保护条例》(GDPR)开始实施,并带来了全球隐私保护立法的热潮,成功提升了社会各领域对于数据保护的重视。例如,2020 年1月起, 美国加州的消费者隐私法案(CCPA)也将正式生效,对所有和美国加州居民有业务的数据商业行为进行监管。除加州CCPA外,更多的法案正在美国纽约州等多个州陆续生效。

与全球不断收紧的数据合规政策相类似,我国在数据法律监管方面也日趋严格规范。 当前我国大数据方面的立法呈现出以个人信息保护为核心,包含基本法律、司法解释、部门规章、行政法规等综合框架。一些综合性法律中也涉及了个人信息保护条款。相关法律主要包括五类:

基本法律:

《中华人民共和国网络安全法》和《全国人民代表大会常务委员会关于加强网络信息保护的决定》等;

司法解释:

主要包括《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》、《最高人民法院关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》等

部门规章:

主要包括《电信和互联网用户个人信息保护规定》、《中国人民银行关于银行业金融机构做好个人金融信息保护工作的通知》等;

行政法规:

主要包括《征信业管理条例》等;

综合性法律:

在《民法总则》、《刑法修正案(九)》、《侵权责任法》、《消费者权益保护法》、《反恐怖主义法》等综合性法律中,也有涉及个人信息保护的相关条款。

2019 年以来,数据安全方面的立法进程明显加快。中央网信办针对四项关于数据安全的管理办法相继发布征求意见稿,包括《网络安全审查办法(征求意见稿)》《数据安全管理办法(征求意见稿)》《儿童个人信息网络保护规定(征求意见稿)》和《个人信息出境安全评估办法(征求意见稿)》。其中,《儿童个人信息网络保护规定》已正式公布,并于10月1日开始施行。

但不可否认的是,从法律法规体系方面来看,我国的数据安全法律法规仍不够完善,呈现出缺乏综合性统一法律、缺乏法律细节解释、保护与发展协调不够等问题。2018 年,十三届全国人大常委会立法规划中的“条件比较成熟、任期内拟提请审议的法律草案”包括了《个人信息保护法》《数据安全法》两部。个人信息和数据保护的综合立法时代即将来临。

3.大数据发展痛点

但是,在大数据行业发展至今,技术的负面作用也逐渐显现。数字社会的未来愿景越宏大,大数据的作用越关键,这些负面作用也就越危险,愈发亟待解决。这些隐患和痛点主要分为四个部分,而在这四个部分中,也存在着清楚的逻辑关联。接下来我们首先简述这四个部分,再阐述其中的逻辑关系。

3.1 数据泄露

由于平台掌握了大量用户数据,从而因为主观和客观的原因,例如灰产交易、撞库攻击、内部人员泄露等,均可能造成数据泄露。近年来,数据泄露频发,影响力较大的有Facebook的多次隐私泄露事件,最近的一次就在几天前,每次涉及的全球用户都有数亿之多;而在18年底,喜达屋酒店的用户信息泄露,涉及用户也达到5亿。数据泄露的后果并不局限于侵犯用户的隐私权,更可能造成电信诈骗、系统遭受攻击等更加严重的后果。而我们可以想象,被揭露的隐私泄露事件只是冰山一角。根据波耐蒙研究所发布的《2019年数据泄露成本研究报告:全球分析》所示,目前单次数据泄露事件的平均损失为392万美元,客户信任度的丧失、对企业形象的负面影响等无形资产的损失更是数额巨大、难以估量。

3.2 数据滥用

即使数据没有被泄露或者买卖,平台对于数据的使用也存在诸多问题。例如,平台通过大数据分析用户的特征,然后进行不合理的价格歧视,也就是我们常说的“大数据杀熟”;另外,平台还通过大数据分析用户喜好,过度传播强娱乐化的,较为低俗的信息。应该说,平台合理使用大数据对用户进行用户画像,提供用户喜欢的内容,都是正常的商业行为;但过度滥用数据,损害用户的正常权益,或是只顾流量,不顾社会公序良俗和自身社会责任感,都是数据滥用的负面行为。

3.3 数据确权

在大数据行业中,数据量的规模是非常重要的。一般来说,数据规模越大,越有分析价值。然而,数据的产生者是广大的用户,数据所产生的价值却是由平台享受。这是因为,数据虽然由用户的行为产生,但是由于技术原因,数据的掌控权却在平台手上。另一方面,用户自己的数据单独来看并不能产生价值,而只有将大量用户的数据聚合才能产生价值。从这个角度上来看,用户作为数据的生产者,平台作为数据的聚合者,都理应分享数据的价值,但目前数据却无法确权,数据的生产者和数据的价值无法进行绑定。

3.4 数据共享

由于数据巨大的商业价值,在同一行业的不同竞争对手中,为了防止商业秘密的泄露和商业价值的损害,很难进行数据共享,从而形成了大量数据孤岛。然而,合作在很多场景下是非常必要的,数据的无法共享对行业中的不同角色来说,都会对自身的发展产生阻碍。这也大大增加了平台通过正常途径获取数据的可能性。

四大隐患之间的逻辑关系如下:

(1)数据确权问题是所有问题的起源

无论是隐私泄露、滥用,还是数据共享的困难,其根本原因还是数据确权的问题。由于数据的产生者用户无法对自己的数据进行确权,才使得平台可以泄露、滥用用户的数据;也同样是因为数据的拥有者无法保障自身对于数据的控制,才使得不同平台之间无法达成数据的共享。

(2)部分场景下,数据泄露是无法进行数据共享的替代手段

由于数据共享无法进行,导致部分平台无法通过合理途径获取用户数据,从而试图通过非法手段获取数据,这就给了数据泄露生存的土壤。如果能够促进数据共享,数据泄露情况也会随之减少。

可见,四大隐患之间是相互联系的,而问题的关键症结是数据确权。由此,数据确权问题也是大数据产业所需要解决的核心问题。然而,由于数据确权不同于传统物权,目前法律专家们倾向于将数据的权属分开,即不探讨整体数据权,而是从管理权、使用权、所有权等维度进行探讨。但总的来说,相关研究、法律都尚未形成足够的支撑。

4.区块链技术在大数据行业的应用

4.1 数据确权问题的核心仍然是信任问题

数据作为一种资产,不像传统资产一样具有实体,可以在物理空间进行掌握;同时,因为数据的可复制性,一旦经过他人之手,就存在被盗取的可能性。同时,数据的产生和支配并不一定是同步的,有的数据产生之初由其提供者支配,有的产生之初便被数据收集人支配(如微信聊天内容、电商消费数据等)。

根据这个思路,需要解决两个问题:

一是,如果数据产生之初,就由平台支配,怎么保证平台不盗取数据?

二是,在各种经济活动中,数据总是要流转的,怎么保证这期间数据不被复制或者盗取?

我们可以用通俗一点的方式来思考这两个问题:

(1)如果数据产生之初,就能建立一个多方可信体系,控制好数据,就可以防止平台的盗取。

(2)如果数据在流转时,就能建立一个多方可信体系,监督全流程,就可以防止数据被复制或者盗取。

那么现在问题变成了,如何建立这样一个多方可信体系?

4.2 区块链建立多方可信体系

在我们以前的报告中(可以关注“链博科技”公众号查看)已经详细阐述了区块链技术如何搭建信任的桥梁,并建立多方可信体系。因此,在这里我们可以较快地理解,区块链通过去中心化的分布式存储,保证了自身的真实性和不可篡改性,从而保障区块链网络中数据的可信。因此,将权限写入区块链,即可保障平台未经授权无法访问用户数据,阻止平台的非法访问;而在数据流转的过程中,也可以将业务流程和权限控制写入智能合约,保证数据的使用和共享只在业务流程中进行,不会被复制、盗取或者用于其他用途。

可以说,区块链相当于一个信任机器,在建立信任的基础上,促进数据的共享,构建高效的协作关系。

4.3 通过区块链掌握数据的使用权

区块链的解决方案不着眼于数据的所有权,而是着眼于数据的使用权,因为数据只有使用才能产生价值。我们按照前述,分平台+用户以及平台+平台两种情景来进行阐述。

(1)平台+用户

在一个基于区块链网络的平台上,数据一经产出,就即刻上传至链上。平台自身并没有权限访问这些数据,除非用户对其进行授权。在传统平台上,没有可靠的方法确保平台是否调用了用户的数据;但是通过区块链真实而不可篡改的特性,可以保障平台确实无法获取用户数据。平台如果想要使用用户数据,必须向用户获取授权,甚至支付一定的费用。通过这样的方式,可以实现数据价值的合理分配,既通过控制使用权的方式,保障了用户对数据的确权,又可以将数据资产所产生的价值返还到用户身上。

(2)平台+平台

假设在前文中的两个平台,从用户那里得到授权获取了一批数据,平台之间想要共享数据,仍然可以将各自的数据传到内部的联盟链上,并相互向对方授权。出于商业竞争的目的,平台之间的授权可能不像用户授权那样,直接将数据出售给平台,而是仅允许对方能够调用。也就是说,在这个联盟链之中,成员只能够通过联盟链中的智能合约将数据用于具体的业务流程(例如,银行可以判断某个用户是否符合自己的风控标准,在本书第二章中,我们曾描述过该类案例),而不能看到具体的数据信息(不能看到用户具体是谁,联系方式是什么,名下有没有贷款等等)。

可以看到,无论是哪一种情景,区块链既可以让用户相信链上的数据不会被平台获取,也能让平台之间相信链上的数据不会被其他平台获取,从而保障了数据的确权,促进了数据的共享,防止了数据泄露、数据滥用等情况的发生。

5.区块链+大数据应用案例

5.1 Engima

Engima是一个初创的保护隐私的数据计算平台。Engima的主网在2020年2月上线,其主要功能为保护数据隐私安全并解决数据确权问题。

目前,如果一名用户安装了一个APP,则会无限期地授予这个APP权限,如果用户想撤消访问权限,那么他必须卸载该应用程序并停止使用服务。

Engima的思路是将权限的控制策略存储在区块链上,然后让区块链节点适度访问DHT(Decentralized Hash Table,分布式哈希表)。该解决方案由用户,提供服务的企业或平台、以及区块链这三方共同组成。当用户想要授予或撤消企业或平台对于其个人数据的访问权限时,区块链将会将策略上传至链上,保护用户的权益。

(图片来源:Engima白皮书)

当用户安装新的应用程序时,即会创建一个共享的身份,同时会记录下用户的权限配置策略,将其上传到区块链上。用户对企业或者平台的授权会形成一个复合密钥,该复合密钥由双方的签名密钥对组成,可以保护数据免受无授权方的侵害。

而企业作为被授权方,访问数据时,系统都会根据最新的权限授予策略检查其权限。这意味着用户可以随时调整授权,可以增加授权,也可以取消授权。通过这种方式,Engima完成了对于数据隐私的保护和数据确权的工作。

5.2 上海数据交易中心

2019年10月,上海数据交易中心基于区块链底层技术的数据交易系统正式上线,该系统利用区块链的可追溯和不可篡改等特性,对每笔交易和数据进行确权和记录,解决了大交易量情况下的交易记账、清结算处理和分布式环境下的信息分发、同步和存储问题,构造了开放性、去中心化的可信数据交易服务环境。

基于区块链的数据交易系统采用联盟链、分布式的架构体系,实现将数据交易相关的会员基础信息、交易品信息、订单信息、交易账本存储在区块链节点,利用区块链的可追溯和不可篡改等特性,确保数据交易安全、高效、可信。系统在标准规范上充分兼容区块链网络的通用功能和特性,并在底层对于共识机制、准入机制和保密机制进行改进,由需方节点、供方节点、交易中心、清算节点构成联盟区块链,数据存储通过智能合约实现,包括会员合约、订单合约、交易品合约、账本合约。

供需方节点通过交易平台进行数据交易,交易过程中产生的日志记录定时汇总并提交交易中心节点进行背书签名后写入到区块链平台形成分布式总账,清算节点主要实现根据区块链中的订单结算规则计算交易双方的结算金额,并最终通过账本同步至相关节点。数据供需方节点之间通过数据交易形成逻辑上的交易数据链,通过采用分区共识机制和交易访问权限控制,保证交易参与方只能访问到与其相关的交易信息,保护交易双方商业机密。

(图片来源:上海数据交易中心)

此系统不仅构建了高安全、可信的交易环境激发数据交易主体参与的积极性,且将促成数据交易市场的规模性增长,真正推动各行业、企业运用大数据实现升级转型,推动数字经济快速发展。

参考文献

大数据发展历史,https://blog.csdn.net/cincoutcin/article/details/80586050

大数据白皮书(2019年),中国信通院

数字经济治理白皮书(2019年),中国信通院

2019中国大数据产业发展白皮书,大数据产业生态联盟

2019年度数据泄露成本调研报告,IBM Security&Ponemon Institute,https://www.secrss.com/articles/12633

大数据区块链应用案例,http://www.qgakbjs.com.cn/index.php/2019/11/13/1322/

Engima白皮书,https://enigma.co/ZNP15.pdf

上海数据交易中心基于区块链的数据交易系统正式上线,https://mp.weixin.qq.com/s/M3SUvn1an2SZfTqoPghoTA

发表评论

关闭菜单