注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

罗家德博客

别人的信任就像蝴蝶,你追她追不到,只有诚心静气下来,她冷不防会飞到你身上

 
 
 

日志

 
 
关于我

清华大学社会学系教授.主要授课组织理论,对管理学本土化深感兴趣,感叹管理教育少了人文的关怀,愿意通过这个博客探讨管理和文化等问题,并求教于广大网友.

解析Facebook泄密事件  

2018-03-22 22:58:22|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 

解析Facebook泄密事件

罗家德,清华大学社会学系教授,社会网络研究中心主任

 

关于Facebook事件,里面有很多的技术细节我不是特别清楚,我在这里就自己熟悉的部分,来和大家讲一下。

首先想跟大家分享一下有关于针对社会、商业、营销大数据而有的社会计算(social computing)的三个阶段,我简称其为大数据1.0 、2.0和 3.0的阶段。其他大数据应用,如健康、规划、医学等等是不是如此分,我非专业,不敢说,所以这只对与社会科学及管理学理论有关的社会计算而言。

1.0阶段是data-driven,数据驱动

2.0阶段是theory-driven,理论驱动

3.0阶段是data-driving-theory 数据驱动理论(的改变)

theory-driven跟data-driven的核心是不一样的,这是这一次科辛斯基和剑桥分析公司研究上出大新闻的关键。data-driven的核心是计算机专家的资料挖掘,他们的工作就是大量挖掘数据,然后就作描述性统计或相关分析之类的分析,主要针对两方面,一个是预测变量(predictor)的寻找,另外一个是行为模式( behavior pattern)的挖掘,都是希望从数据中得到更精准的预测结果,主要为实用的目的,比如买尿片和买啤酒高度相关,所以可以在超市放在一起。

但是这种预测在方法论上讲是没有推论能力的,并且不知道何时就会失准。比如尿片与啤酒今天可以预测明天的结果,但是预测一段时间后会不会失准?就不知道,一种预测在美国可行但在中国是不是可行?也不知道。这就需要推论。不过实务的使用者可能不是很在乎这个问题,他们完全可以再拿中国数据来预测当下中国市场,至于更多的情况如何?不需要关心。

theory-driven其实早在十多年前就已经开始了,代表人物如计算机学界的Jon Kleinberg和社会学家Michael Macy等人,之前只是在学术圈子内有人知道。因为对于不成熟,不具备广泛应用价值的分析方法,社会上是不会有人关心的。而这个分析方法的最早的成熟的应用,就是这个被大家广泛关注的大案子——帮特朗普当选的事件。从那时起,大家就开始非常关注这个领域,因为嗅到了实用的滋味。

这个案例跟之前的做法在技术上有哪些不同呢?这是问题的核心。

最大的不同就是它是通过社会科学理论来驱动(theory-driven)的。1.0阶段不用理论,只需要相关和数据挖掘。

过去我们做很多类似分析,譬如说人脸识别,地景识别等,分析架构一般都是很成熟了,刚开始做的时候我们要搞清楚人脸构造的一些问题,但到了后来照片越来越多,经过AI的不断训练,模型就会越来越准。现在很多类似的语音识别、图像识别做得都很厉害。但是还有很多问题如果不经过一定的社会科学理论指导,是不可能完成的。比如帮特朗普竞选的剑桥分析公司在做的大五人格分析,我无法通过在路上拍一张照片,就能判断出你的开放性、随合性、勤勉性、情绪稳定性、外向性等等五类人格特质,如何知道这些?一是心理学理论才会告诉我们大五人格是一个大数据可以分析的对向,二是一定要通过理论进行指导才能收集人格资料,三是理论会指导我们建构预测模型。所以这是theory-driven。

theory-driven的第一个特色是theory会告诉你predictor在哪里,你的modeling要往哪里走,2.0的阶段,都是社科理论theory-driven而不是data-driven。

theory-driven的第二个特色是要ground truth(扎根真相)。大量的data-driven是没有ground truth的,譬如说一个买奶粉的男人为什么还会买啤酒?我们只是mining出了这个结果,但根本不知道ground truth在哪里,顶多是找一个社会学家来诠释一下,这个行为背后到底合不合理。社会学家如果说合理,这件事情就结束了。

人脸识别是有ground truth的,早期人脸识别的基本架构已经有了,我们现在能看到的就是用大量的照片来做AI训练而已。照片就是ground truth。同样的道理,科辛斯基的“大五人格”的心理学测验就是这个事件的ground truth

上面我们大致介绍了一下1.0和2.0时代的技术差距。下面来重点说一下Facebook的问题。

在科辛斯基在“大五人格”这套成熟的理论体系的支撑下,爬虫收集过你的数据,知道你在哪个议题上点赞,哪个议题上点踩,这些数据有了一定量的积累后,就可以开始建模了,针对那些在某个议题上点赞或点踩的人,我就知道你在大五人格中间属于什么样的性格。点赞、点踩都是公开资料,用爬虫爬下来,又是经本人同意的,所以科辛斯基不会违法。

但只有一个人的点赞点踩,没有用啊,所以第二个更厉害的是他想出来的玩游戏,作个心理学测验,给点小惠,对方就把个人资料填了,也知道他大五人格作ground truth了,这时就能训练模型。据别人告诉我,科辛斯基后来也收了十数万笔以上的资料,所以可以把模型训练的十分精准。以后从模型就可以预测一个人的人格,进而预测他喜欢的商品、议题等等,对某一政治议题是支持还是反对等等。

说说科辛斯基,他之前是剑桥的一个学生,不是老师,现在也只是斯坦福的助理教授。他可以说是一个非常敬业的好学者,做出这个大五人格的理论不是为了赚钱,是为了发论文而已,他人生的目标就是当学者,出了这么大名也是心安理得地从「青椒」作起。

他一开始找人做心理测验,会问很多相关的问题,收集很多资料,在问卷的最后会让你提交一个Facebook账号,当然会付一些费用,允许我到Facebook上爬你的资料。这在他做学术的领域是完全合法的。他可以用爬虫去爬内容数据,可能会细到你生活的很多领域中去,获取你在这方面的公开数据。然后这对这些内容进行分析,判断出属于哪个议题,将你所表达的情绪进行建模,然后判断出你的情绪属于支持情绪还是反对情绪,这是一套比较完整的内容分析方法。在外国已经很成熟了。

这种2.0的研究方法最厉害的就是它可以推论,一旦模型十分精确了,可以推论到facebook二十亿用户身上,知道每个人的大五人格。只是一个「假名」、「代号」后面的大五人格分析出来了,还找不到什么实用之处,取得「假名」后面的个人资料,是作精准营销的关键。

 

科辛斯基写完博士论文并发表了很棒的论文之后就去斯坦福大学当助理教授了,他从来没有想过通过自己的研究成果来赚钱,剑桥分析找他,被他拒绝了。但他系上的一个年轻教授Kogan却接了活。学术界,论文发表了,知识就公开了,同系之人近水楼台,就知道如何作了。

剑桥分析公司是跟Kogan合作搜集数据,直接使用科辛斯基的的模型去处理,即是我称之为“theory-driven”的方法,那么我如果知道你在讲什么话,点赞还是点踩,我立刻就知道这个用户是什么人格——这就是2.0方法的厉害,可推论,从二十万人训练的模型可以运用在二十亿人身上。

比如为什么现在开始有无人驾驶车,也就是它把模型训练到不管多快的速度,不管它周围是什么风景,它全部能够立刻还原到它的真实情境,指挥车子作应急反应,这就是预测模型的厉害。人脸识别也是一模一样的道理。大五人格模型建立起来以后,只要能够抓到资料数据就可以做到人格识别。

如果剑桥分析公司到网上去到处扫公开数据,或者说是经过了对方的同意,那么都不会有现在这些事。我最近看到一个美国的判例,有一个小公司去爬了另一个大公司的数据做分析,被爬的公司去告它,但是美国判决说只要是网上公开的信息,那么它就是别人都可以合法使用的,哪怕我没有得到私人的许可说你可以爬我的东西,但是只要我敢在网上写,就算是公开的,理论上来说我就算没有得到你的同意我也不会有事。

那么最核心的问题是什么?

如果我今天晚上从facebook上扫了五千万人的公开内容,我不知道这些人是谁,研究这五千万「假名」的大五人格,这不犯法。

但是,当剑桥分析公司要帮助特朗普竞选,乃至现在要做精准营销的时候,代码后面有个人格对我没有用,我一定要知道这个人的其他信息,比如住在哪里,知道这个人确实是谁,还有一些连络方式可以直接诉求等等,才能针对他们的喜好调整竞争策略。

我记得我当时也和大多数人一样觉得特朗普是胡闹,直到最后一个礼拜,我发现他的竞选策略和美国其他人完全不一样,我才第一次觉得这家伙很可怕,别的人都是搞大型造势,越到后面越大型造势,那都是在「捞空气票」(就是不知道对向的捞,捞到多少算多少),他不一样,他一天飞好几个地方发表演讲,不同地方谈不同议题,就是因为他懂精准营销。

现在已知的信息是Kogan只要到二十七万人的个人信息以及填问卷得到大五人格的「ground truth」 , 但却要这些人给了好友信息,app上一下就抓了五千人的隐私,再去扫他们的内容,就可以用模型推估出他们的大五人格,从而推测他的喜好议题,点赞还是点踩。我不用facebook,所以如何在提供好友时,就提供了他们的隐私,就不了解了。正是这样的未经本人同意,就获取并利用个人信息违法了。另一个问题我不太了解,但好像Kogan在作学术研究时,facebook未作干涉,他和剑桥分析公司合作,2015年facebook就不答应了,要他销毁数据,不知道是不是科学研究受到较大的保护,商业应用则不行。

这事件衍生的问题是,大数据科学的发展与隐私保护间要如例平衡?我以为研究者合法使用网络用户数据的方式有两种,一种是网上公开的数据,一种是私人授权给你使用的数据。

现在的情况是,用户常常不看协议就已经签了协议,用了人家的产品了,又开始后悔:“你们怎么可以使用我的信息!”用户认为政府应该立法对此进行禁止,这就麻烦了。

那么,拥有数据的公司可以将数据拥有到什么程度?可以用到什么程度呢?

有数据的公司可以说,我不知道你的任何隐私,我就是拿这些数据来算,算过之后我就销毁你的资料,但算过之后,对于你的画像就会越来越清楚,可以预测很多事情。这样可以不可以?

所以我们不禁想问,谁可以使用这些数据?

营销不能用,但反恐该用吧?精准扶贫该用吧?那,是不是只有政府能用,而且是政府要求这些企业都保存6个月数据,这些信息就只有政府能用,别人不能用。如果只有政府可以用,那么以「数据为王」的公司,股价全部都要腰斩。

第二,如果不仅政府可以用,那么这些拥有数据的公司可以用吗? 这些拥有数据的公司的联盟公司或联合研究的学界伙伴,可不可以一起用?

当然还有最可怕的一件事,就是第三方机构,那些专门做modeling的公司。他们采用公开的数据没有问题,但拥有数据的公司能把数据开放给一个专门做大数据研究的公司吗?

比如,微信在数据隐私这方面一向是特别谨慎。但还是有一句提问,它可不可以不保留数据,却用它的算法在数据一产生时就对用户做精准画像?另外,很多人希望得到良好服务,这就需要从数据中了解顾客,这是高端服务业,一对一服务的需求,客人有需求,难道不能作分析吗?

再来一个问题就是数据到底可不可以保留,如果一直可以保留,那我还能够追踪你十年、十五年前的事情,这就很可怕了。比如现在罗家德没什么事,但假设有朝一日我成为了一个知名的大人物了,开始有人在网上爬我以前的资料,忽然间爆个什么猛料之类的,这就很可怕了。

所以说这是不同层次上的考虑,我的看法是这些都需要厘清。我觉着这根线既不能切得太紧,也不能切得太松。

现在最大的问题就是政府在法律上要怎么处理?

我在新写的「复杂」一书中谈到关于信息时代复杂社会的治理问题。比如关于事实真相的取得,从前还有记者专业训练、媒体自律、政府监管和法律保障四道关卡,哪怕最后不见得完全是真相,但至少是在向着寻找真相的方向走。现在是谁都可以造谣的时代,就是因为四道关卡关关破,没有了治理机制。

信息时代复杂社会里的新治理模式是什么?我们怎么办?这个事件又暴露了新时代新治理需求的另一个问题。

  评论这张
 
阅读(9567)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018