Google邪恶的一面?探索Google的用户数据收集

Tags:

Google公司完完全全地是一个数据公司,在过去,Google在相对公平的竞争环境中,通过比竞争对手更好的运用数据,从而获得了空前的成功。

进入了Web 2.0时代,硬盘,处理器,带宽甚至人力都相对廉价,这使得进入搜索行业的门槛降得很低。由于Google的竞争对手正迎头赶上(比如MSN图片搜索),以及新的竞争对手(比如Cuill)也越来越多,所以Google也正在寻找一些优势。既然每个人都能访问互联网上的内容,行业领导者已经想着获取用户的隐私数据了。对于搜索引擎来说,最有效的方法就是收集已经使用它的服务的用户的数据。Google已经开始很大程度地对其用户进行个性化内容展现。Google的这些方法如果不通过获取个人信息数据,是难以去复制的。


Google获取数据的方法

追踪点击 – Google记录下了它所有的用户在使用它所有的产品时点击数据(包括广告,行为,特征等)

追踪表单 – 除了用户提交的用户名,密码。 Google还一起记录了登陆时间和日期以及提交路径地址。

aa

Google登陆框的源代码

1. 源代码中 <input>标签属性 type=”hidden”意味着用户看不到Google提交的数据。

2. 通过<input>标签的value值可以看到用户提交信息的路径被记录下来

3. 源代码中 <input>标签属性 type=”hidden”意味着用户看不到Google提交的数据。

4. <input>标签的value值传递的是用户referrer数据意味着Google可以知道用户是从哪里点击的“注册”按钮。

Cookies – Google在他所有的网页产品上都使用Cookie。除此之外,Google在全网布置有它的广告Cookie去追踪用户行为。这样,只要网页上有Doubleclick或者Adsense广告,Google就能够追踪在这些页面上的每一个用户。

a
保存在用户计算机上Google产品/服务的Cookie

保存在日志中的服务器请求 – 对Google服务器的每一个请求(比如 GEThttp://www.google.com)都保存在日志文件中。保存的内容取决于请求的类型。(看看一个“普通的搜索”是怎样记录在日志文件中的)

b
日志文件的例子

URL -“http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8”
1. 用户请求网页时的IP地址 – 可以用作对用户地理位置的定位

2. 用户的日期,时间以及时区

3. 被请求的搜索结果页面的语言(在本例里是英文)

4. 搜索关键词

5. 用户的操作系统

6. 用户的浏览器

 

JavaScript– Google在互联网上的一小部分网站上嵌入了JavaScript代码。当用户的浏览器触发了脚本代码时,Google便可以获取很多用户浏览数据(地理位置,操作系统,浏览器及其版本等)

网站信标 – Google在支付页面嵌入了小的透明的gif图片(1*1 像素),就像JavaScript一样,用户浏览器下载了这个看不见的小图片就会把它们计算机的信息传给Google。

网站信标的例子(看不到它吗?那就对了)


理解Google怎样处理这些数据

存储 – Google使用一个叫做 BigTable内部的数据库,这个数据库分布在Google的大约100万台服务器上。

(Source: Bigtable: ADistributed Storage System for Structured Data)

我们把数据用TB表示(1024GB)。这使得Google被披露的数据已经达到了PB 级别(1,048,576 GB)。这还不包括AdSense,Gmail,谷歌地图,街景,Google图片搜索以及其他的私有数据库。即便是现在,这一数据已经被认为是很大的量级了,更何况,这些统计数据是在2年前(2006年)的Web 2.0 Data Rush之前。

大量数据分析 – 这有点像 Charlie和巧克力工厂。我们知道Google获取到了很多原始数据。也看到了Google有效地利用了这些数据,但是不知道两者之间发生了什么。

OompaLoompas 在Google正努力地写着很重要的

我们知道Google有很多算法去排列和组织这些数据。 Page Rank就是最著名的一个。Google也有很多的反垃圾反作弊算法为人们所知,比如重复内容检测算法,探测作弊规则的算法,自然语言分析与翻译的算法,图片识别程序,还有一大堆其他的复杂的程序。

永久备份 – 最后一部分数据空间应该是被永久备份的数据所占据的。Google的隐私条款暗示一些用户数据比如某成人网站由于永久备份永远无法被完全删除。


理解Google收集什么用户数据

下面是一个Google自己声明的会在它的产品上收集数据的列表。这意味着Google有可能默默地收集更多用户数据。事先提醒你,下面的事不要太放在心上。因为在你读了这个之后,你可能会觉得自己像个傻瓜。

Google承认的会收集的用户数据

除了以下追踪数据的方法,Cookies和日志(上文中提到的)也会被用来追踪用户数据。注意:下面有一些数据时需要用户登录才能获取到的。

Google (普通搜索)

  • 搜索结果页
  • 国家域名
  • 搜索词
  • IP地址
  • 语言
  • 搜索结果数
  • 安全搜索
  • 用户额外搜索偏好包括:
    • 道路名称
    • 城市
    • 邮政编码
  • 服务器日志

搜索词

    • URL
    • IP 地址
    • Cookie
    • 浏览器
    • 日期
    • 时间
  • 点击

Google个性化搜索

  • 记录所有用户访问的Google搜索结果页面上的网站。

c

当我搜索这篇文章时,Google记录下来的数据

  • 访问过的网站的内容分析

 

Google 账号

  • 作为个人用户数据的来源
    • 注册
    • 注册日期
    • 用户名
    • 密码
    • 备用邮箱
    • 地理位置 (国家)
  • 个人头像
  • 账号使用情况
    • 好友
    • Google服务使用情况
    • 登陆次数

工具条

  • 所有访问过的网站
  • 使用过的应用
  • 把所有的404页面发送给Google
  • 工具栏同步程序
    • 在线商城自动填充Google账号信息
    • 把Web窗体架构发送给Google
  • 安全浏览
    • 在线商城响应安全警告
  • 在线商城表单自动填充数据
  • 拼写检查发送至Google的服务器

网页浏览历史

  • 从搜索结果页处访问的所有网站
  • 日期
  • 时间
  • 搜索词
  • 点击了的广告
  • 使用了哪个Google的产品/服务

 

Google翻译

  • 发送到Google服务器的所有文本

Google 金融

  • 股票投资
    • 用户的股票
    • 股票的数量
    • 购买的日期和时间
    • 购买时的价格

Google Checkout

  • 买家
    • 姓名
    • 信用卡号
    • 借记卡号
    • 卡的过期日
    • 卡的校验码 (CVN)
    • 账单地址
    • 电话
    • 邮箱
  • 卖家
    • 银行账号
  • 个人地址
  • 业务类别
    • 身份证号
      • 社保卡号
      • 纳税人识别号
    • 销售额
  • 交易额
  • Dun &Bradstreet记录的业务信息
  • 交易
    • 数量
    • 产品描述
    • 卖家姓名
    • 买家姓名
    • 使用何种支付方式
  • 用户趋势数据
    • 网页信标
  • 引荐来源

YouTube

  • YouTube 搜索结果页数据
  • 注册用户数据
    • 上传的视频
    • 发表的评论
    • 标记的视频
    • 订阅
      • 频道
      • 小组
      • 收藏
    • 联系方式
    • 所有浏览过的视频
    • 数据传输频率
    • 数据传输大小
    • 点击的路径信息
    • 展示的信息数据
  • E-mail
    • 追踪数据用的网页信标
      • 打开或被丢弃的邮件
  • 账号基本信息
    • E-mail
    • 密码
    • 用户名
    • 地理位置 (国家)
    • 邮编
    • 生日
    • 性别

Gmail

  • 存储, 处理, 并维护所有的邮件信息
  • 账号活跃度
    • 已使用的容量
    • 登陆次数
  • 展示的数据
  • 点击的链接
  • 储存所有的邮件
  • 联系人列表
  • 垃圾邮件趋势
    • Gchat
      • 所有的聊天记录以及其联系人.
      • 何时Gchat这项服务被使用
      • 联系人列表的大小
      • 联系人
  • 数据传输频率
  • 数据传输大小
  • 点击

日历

  • 姓名
  • 默认语言
  • 时区
    • 使用情况统计
    • 日历服务使用时长
    • 数据交换频率
    • 数据传输大小
    • 事件的数量
    • 日历的数量
    • 点击
    • 每90天删除的情况
  • 所有的事件
    • 参与的邮箱
    • 被邀请的邮箱
    • 评论
    • 描述
    • 日期
    • 事件

桌面

  • 页面索引和存储
    • 文件的版本
    • 用户在计算机上的行为
      • 邮件
      • 会话
      • 网页历史
  • 和搜索结果页混合的情况
  • 登陆状态下,计算机上数据内容分析与搜索结果页面集成
  • 每个应用的号码
  • 应用和Google服务器交互情况
  • 搜索次数和反应时间

Goog 411

  • 电话号码
  • 打电话的时间
  • 通话时长
  • 已选选项
  • 作为识别符的电话号码
  • 记录了所有的语音命令

iGoogle

  • 保存在Cookie里的设置
  • 关联到Google账号的设置

Blogger

  • 用户图片
  • 生日
  • 地区
  • 数据传输频率
  • 数据传输大小
  • 点击
  • Blogger 的手机使用情况
    • 电话号码
    • 关联的Google账号
    • 设备标识符
    • 硬件标识符

Google Docs

  • 邮箱
  • 登陆次数
  • 操作
  • 内存使用情况
  • 点击
  • 所有的协同编辑
  • 所有文字
  • 所有图片
  • 所有的更改 (先前版本)

Groups

  • 邮箱密码
  • 发布的内容
  • 通用页面的内容
  • 外部文件的内容
  • 账号动态
    • 加入的小组
    • 管理的小组
    • 组员列表
    • 被邀请的人的列表
    • 评分
    • 偏好设置

Orkut

  • 姓名
  • 性别
  • 年龄
  • 地理位置
  • 职业
  • 信仰
  • 好友关系信息图
  • 爱好
  • 兴趣
  • 照片
  • 邀请
  • 消息
  • Orkut 手机
    • 手机号
    • 无线网络运营商
    • 消息的内容
    • 日期
    • 时间
  • 用户记录的所有内容
  • 用户阅读过的所有博客

Picasa

  • 好友关系信息图
  • 收藏列表
  • 点击 (基本上所有Google的服务都会追踪点击)
  • 所有的照片
  • 地理位置标签 (Exif 数据)
  • 订阅了照片集的用户

手机

  • 手机号码
  • 设备类型
  • 请求类型
  • 运营商
  • 运营商用户 ID
  • 请求的内容
  • 手机地图
    • 地理位置信息 (GPS)
    • 地址
  • 用户使用Google转码的网站
  • 语音命令

网页加速器

  • 网页请求
  • 网站缓存

DoubleClick/AdWords

  • 点击的广告
  • 年龄
  • 性别
  • 地理位置
  • 以往网站访问趋势
  • IP地址

Health

  • 医疗记录
    • 医生
    • 身体状态
    • 厨房
    • 年龄
    • 性别
    • 种族
    • 血型
    • 体重
    • 身高
    • 过敏史
    • 疗程
    • 测试结果
    • 疫苗接种情况

Postini

  • 邮件地址
  • 流量规律
  • 点击

GrandCentral

  • 信用卡
  • 信用卡到期日
  • 信用卡校验码
  • 账单地址
  • 存储,处理和维护
    • 语音消息
    • 聊天记录
    • 联系人列表
  • 内存使用情况
  • 登陆次数
  • 展现出来的数据
  • 点击
  • 通讯日志信息
    • 呼叫方电话号码
    • 转接电话号码
    • 呼叫时间
    • 呼叫日期
    • 呼叫时长
    • 呼叫类型

Google Merchant Search

  • 姓名
  • 联系方式
    • 邮件地址
    • 电话号码

Notebook

  • 存储, 处理和维护
    • Notebook中的所有内容
    • 昵称
    • 存储空间使用状况
    • 登陆次数

没有在Google隐私条款中列明会收集何种用户数据的Google产品

  • 网站管理员工具
  • Google Analytics
  • AdWords
  • AdSense
  • Alerts
  • Reader
  • Earth
  • FeedBurner (确实有一个隐私条款,但是几乎没用)

垂直搜索

  • 图片搜索
  • 地图搜索
  • 博客搜索
  • 图书搜索
  • 新闻搜索
  • 专利搜索
  • 商品搜索
  • 学术搜索
  • 特殊搜索
  • 视频搜索
  • 代码搜索

另外, Google…

我在你们的网站上发现了一些死链接,在你们主要的隐私条款页面上,锚文本为“Video Player”的链接是一条死链接。除此之外,你们把自己产品名称的小大小写都给弄错了,“GMail”应该是“Gmail“。最后,Google商城的首页有文本编码问题,并且下载sketchup 的链接也是死链。

赶紧给把支票发到我的邮箱里吧(我敢肯定你们早就有我的邮箱地址了)。