那些被社交平台偷偷收集的数据,是时候开放给用户了

声明:本文来自于微信公众号全媒派(ID:quanmeipai),作者:腾讯传媒,授权站长之家转载发布。

自两年前那起涉及到 5000 万用户数据泄露的Cambridge Analytica事件[1]发生以来,人们对大数据潜能的负面性又有了新的认知,对平台数据操控的潜在威胁也日益警觉。

习惯了网上冲浪的互联网用户或多或少知道,手机、电脑里的各项软件都在悄无声息地收集着自己的使用数据和个人资料,不同软件之间甚至还可“互通有无”。用户这一秒在浏览器里搜索的关键字,下一秒就可能以对应的广告形式出现在另一个软件里……

在显而易见的信息裸奔风险面前,后知后觉的用户不在少数,以至于当一位互联网大佬公开表示“中国用户更加开放,对隐私问题没那么敏感,在很多情况下愿意用隐私交换便利性”时,网友们才惊觉自己在这件事情上被严重冒犯了。

随着这几年数据副作用的黑匣子被一一打开,有人开始成群结队地反抗。譬如当初,Cambridge Analytica事件曝光短短两天内,Facebook市值便缩水 500 亿美元,负面影响延续至今。

不过,作为一个坐拥 25 亿用户的社交平台,Facebook的生命力极为旺盛;与此同时,广大网友也开启了与数据操控行为作斗争的漫长之路,利用政策规定、平台工具和自己机灵的小脑袋瓜,主动维护起自身信息安全。

本期全媒派(ID:quanmeipai)将以Facebook向用户开放的数据管理工具为主要观察对象,为大家揭示平台数据获取路径的部分细节,总结掌握数据主动权的一些方法。

平台究竟获取了哪些数据?

很多时候,并不是用户对隐私问题没那么敏感,而是用户对平台的数据收集能力、数据利用方式所知甚少。在信息不对称的情况下,想要掌握自身数据的主动权,首先得掌握与平台收集数据相关的基本知识。

今年的国际数据隐私日,意图挽回形象的Facebook敞开技术大门,其新闻室推出文章《以更好地掌控隐私控制权开启这一个十年》[2],催促用户设置账户的隐私、可见度权限,并介绍了关涉隐私的新功能:在全球范围内正式上线off-Facebook activity以及第三方授权登录提示。

首先来看off-Facebook activity。对于多数用户来说,它是帮助了解平台收集数据功能的敲门砖。该功能会让你知道,有哪些第三方软件和网页向Facebook发送了你的使用信息。而且,只要设备曾登录过相应帐号,在用户并没有运行Facebook的情况下,该软件也能源源不断收到用户所用设备上各种第三方软件的使用数据。

Facebook软件内off-Facebook activity相关页面

这些信息汇报清单的丰富程度令人震撼。以我的Facebook账号为例,导出数据中的这些第三方平台既包含了用Facebook作为账号登陆过的应用:游戏、购物软件、新闻资讯App、学术平台;也包含一些没有通过Facebook登录、看起来和它八竿子打不着的应用:比如国内更常用的Keep、美图秀秀等。

以具体的数量来看,作为常用软件是微信的用户,我的off-Facebook activity清单中一共有 62 个第三方平台。而《大西洋月刊》科技记者Kaitlyn Tiffany在探析该功能的文章中提及,她的off-Facebook activity中包含了 1081 个第三方平台。[3]

至于这些看似无关的平台向Facebook发送数据的原因,后者是这么解释的:用户使用第三方平台产生了数据,而相关平台在利用Facebook的商业分析工具时将相应数据上传到了Facebook的数据库,使得Facebook拥有了该数据。根据数据中提供的电话号码、邮箱等信息,可匹配到相应的用户,再利用它来给用户推送广告。

如此看来,Facebook的商业分析库是一个发展成熟、触达广泛的商业工具。其用以自洽的逻辑其实就是,收集数据的是第三方平台,而非Facebook自己先动的手。对于用户而言,影响归根结底只有一个:不管是否主动使用Facebook账号登录,该平台都有可能获取到你在第三方平台的使用痕迹。

Facebook以外的平台数据尚且如此,发生在产品内部的种种用户行为,自然逃不过平台的天眼。想了解后者,我们可以将目光转向Facebook设置中的另一个功能——广告偏好(Ad Preferences),这是该平台向用户公开自身数据使用的另一尝试。

广告偏好(Ad preferences)功能里的六个可选项

广告偏好(Ad preferences)里的广告标签:你的兴趣

该功能页面会向用户展示平台为其贴上的“广告标签”,以及贴上标签的相关原因。用户在自己的广告兴趣偏好一栏中可以发现,平台在对用户进行广告兴趣分类的时候主要有以下两个依据:

1、在Facebook上进行过和该话题相关的动作(点赞了相关的主页或者发文);

2、使用了相关的产品软件。

而在能够控制的个人信息选项中,则可以得知Facebook还会基于教育、恋爱状态、年龄等基本信息进行广告推送。

广告投放中的信息利用与收集,还可以反过来以广告主的视角,从Facebook提供给品牌方的广告定位选项中探知一二。

能够看到,受众定位一共有五种方式[4],五种定位方式透露出的数据收集与前面提及的相关数据基本契合:

1、用户自身的应用数据,包括基本个人信息、过去 7 天/ 30 天内有无进行消费等;

2、商家上传一份目标用户的名单给Facebook对比分析,与off-Facebook activity中提及的操作一致;

3、吸引下载了广告商软件但没有活跃使用的用户,对其进行激活;

4、根据商家的Facebook主页资料,或者商家的常规顾客特征来进行定位;

5、在客户消费时记录下其苹果、安卓账户或Facebook账户的ID,储存相应数据,并以此定位。

至此,我们对Facebook抓取数据的范围和逻辑已经有了一定的认知,如果想再进一步、更加具体地了解Facebook都收集了哪些使用数据,还可以向平台申请“下载你的信息”,在平台审核通过后,再次输入登录密码验证,便可以得到一个庞大的压缩包。压缩包里是Facebook收集的与你相关的站内站外使用信息。

文件包中所有的资料均以网页的形式显示,在你选定的时间范围内的所有活动,详细到你几月几日在平台上向朋友发送的一条消息和使用的设备,全都一览无余。

Off-Facebook activity和Ad Preferences的相关内容都放在ads_and_businesses这个文件夹里,点开就能看到几十个后缀为.html的文件,每个文件都是一个第三方平台发送的数据。数据以时间作为标签排序,被分为申请广告(AD_REQUEST)、打开app(ACTIVATE_APP)、浏览内容(VIEW_CONTENT)、定制(CUSTOM)、生成回应(GEN_RESPONSE)等不同的功能板块。

下载的数据中有关off-Facebook activity的页面:第三方软件向Facebook发送的用户信息具体细节。

夺回自主权:未经我授权的数据,勿用

数据画像的详细与精准,一经挖掘,细思恐极,仿佛真实生活在了数字全景监狱之中,一举一动都被以数据信息的方式记录下来。

技术的发展不可逆转,如今的用户已然无法轻易舍弃技术带来的便利,但每个人仍有选择性开放自身使用数据的权利。至少在数据隐私这件事情上,用户侧的话语权在不断增加。特别是随着欧盟《通用数据保护条例》(GDPR)和美国《加州消费者隐私法案》(CCPA)的出台,平台不得不开始审视、更新自身的数据政策。Facebook主动推出这些提升数据操作透明化的插件功能,在过去是很难想象的,但现在正变成现实。

新学院数据可视化硕士项目主任Daniel Sauter认为,off-Facebook activity的推出可能是为了遵守 1 月 1 日生效的CCPA中的数据收集披露要求。用户能够得到的数据,本身并没有太多的可操作性,更多是起到一种告知功能。[5]

虽然用户能得到的数据有限,但是该工具的发布为用户提供了一个新的选项:关闭数据与账户连结的选项。用户可以利用该功能将自己不愿意让他人获取的信息从自己的账号上抹除。应用该功能以后,在平台上过往的使用信息便与你的账号脱离关联,平台方与广告方都不再能通过该痕迹追踪到你。

“广告偏好”功能中也有相应的举措。在这个功能页面中,Facebook向用户揭示了自己是如何把他们归入不同的“广告类别”的同时,给了用户一份自主选择权:决定自己会看到怎样的广告推送。

如图所示,用户可以自主关闭职业、教育程度等个人信息标签被用于投放相关广告的功能,切断来自第三方软件的数据与广告投放的联系,也可以屏蔽相应的广告主题。如此一来,你看到的广告不再由平台和广告商单方面决定,自己也能跻身决策层,在平台提供选择的范围内进行个人定制。

如果说利用平台提供的工具是收回数据主动权的1. 0 手册,那么根据自己的需求针对性进行数据披露和混淆平台数据算法的视听,便是掌控主动权的2. 0 进阶版手册。

经过上述基础信息的补充研究,可以看到平台和广告商对哪部分的数据痕迹虎视眈眈,而用户大可以对这部分数据类别进行一次详细的审视,思考以下几个问题:

有哪些关乎个人隐私偏好的信息是不想让别人知道的?有哪些类别的数据信息利用可能会产生对自己不利的效果?有哪些类别的数据信息利用可以为日常生活的选择、消费带来一定的便利?

首先知道自己想要什么,然后加上掌握的相应信息资料,制定自己专属的行动方针。例如,如果不想让第三方软件的数据被社交平台捕获,可以准备多个电话邮箱,来构造不同的身份卡片。将在两边使用的电话、邮箱等个人信息区别开来,这样一来Facebook等平台便不能“理所应当”地匹配出你的个人资料。而如果出现了莫名匹配,便可以利用法律武器正当维权。

对于某些特定的不想透露的资料,用户可以在平时网上冲浪时多加注意,从源头开始掐断数据的外显,而不仅仅是依靠平台提供的关闭联系选项。

除此之外,还可以利用信息混淆破除单一环境的信息茧房,让所谓的“人工智能”感受一下“人工智障”的烦恼。

国外有一批年轻人想出这么一个方法:利用修改密码程序上的漏洞,几个人在不同的地点登录使用同一个ins账号,每个人感兴趣的话题不同,浏览和点赞的话题都会有所区别。这样一来,数据算法便难以从中总结出恒定的规律,最后推荐给他们的信息流就一直都会有新花样[6]。

投入更多精力在数据隐私的保护上,未来势必会成为一种常规社交行为。作为数据的创造者和合法拥有者,受众们需要了解的还有很多。无论是利用好平台提供的工具,还是自己大开脑洞与算法斗智斗勇,都是参与式时代下,受众掌握自身数据主动权的积极方式。

数据,和技术一样,本身并无善恶之分,产出结果的好坏很大程度上取决于平台收集和使用的方式。Off-Facebook activity这类面向用户的数据开放工具,值得更多社交平台借鉴参考,至少,平台应该让用户能够随时知道自己的行为数据是怎么被收集、匹配和运用的,而不是仅仅在用户首次打开软件时弹出一个隐私授权协议,这不公平。

参考链接:

[1]https://www.newyorker.com/news/news-desk/cambridge-analytica-and-the-perils-of-psychographics

[2]https://about.fb.com/news/2020/01/data-privacy-day-2020/

[3]https://www.theatlantic.com/technology/archive/2020/01/off-facebook-activity-tool-download-website-data/605680/

[4]https://developers.facebook.com/docs/app-ads/targeting

[5]https://www.theatlantic.com/technology/archive/2020/01/off-facebook-activity-tool-download-website-data/605680/

[6]https://www.cnet.com/google-amp/news/teens-have-figured-out-how-to-mess-with-instagrams-tracking-algorithm/?__twitter_impression=true

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

Related Post