这段时间网上有报道说有人下到了3500万份的google profile资料,当然这些资料在google的profile里面都是可以搜到的,只是他将这些东西离线话了,存到了本地,一供后续的分析。
据国外媒体报道,荷兰阿姆斯特丹大学的博士班学生表示,他在今年2月大量下载了含有3500万名用户资料的Google Profiles,而且只花了一个月就将这些资料转成的SQL资料库档案。
看到这个报道以后,我也来尝试的下一份数据来看看,一个晚上开启机子下数据存数据库,目前下到了2100万份左右,也不打算再下了,后面要做的是想把信息提取没有去做。对这些离线数据做分析,比如可以尝试获取用户的gmail,有些google profile是包含了gmail的,查询指定区域的用户信息出来,看看哪个地区的google活跃程度,甚至可以对这些区域的用户进行分析推送广告,当然想法是很恶劣,要离线去处理这部分数据还是很困难的,后面有空在去做的吧。
ps:Mysql里面查看一个数据库占用空间大小的SQL。
use information_schema;
select concat(round(sum(data_LENGTH)/(1024*1024),2),’MB’) as ‘Index Size’ from tables where table_schema=’googleprofiles’;
//’googleprofiles’ 就是你要查询的数据库名字
//concat和“MB”是单位
round和2表明精确2位小数
sum表明所有的索引相加
table_schema=’googleprofiles’ ‘googleprofiles’ 就是你要统计的数据库
I had downloaded 20 million copy of google profile information, and stored to MySQL database.


有利用的价值 呵呵
呵呵,都没有去管他,放在那了。
没,怎么可能,啥都没有干,下了就扔在那了