我谈谈对大数据分析的理解,这要从什么是大数据讲起。
因为从事这一方向,经常会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些书籍(如《大数据时代》、《数学之美》第二版等)和实际的经历,算是有了一些认识,今天我就从大数据的概念开始讲起,试图给大家讲清楚什么是大数据分析。
首先,我来谈谈我对大数据的理解,分为大数据概念和大数据思维。
我把大数据的概念总结为四个字:大、全、细、时。
我们先来看一组数据:
百度每天采集的用户行为数据有1.5PB以上
全国各地级市今天的苹果价格数据有2MB
1998年Google抓取的互联网页面共有47GB(压缩后)
一台风力发电机每天产生的振动数据有50GB
百度每天的行为数据1.5个PB够大吧?我们毫无怀疑这是大数据。但全国各个地级市今天的苹果价格只有2MB大小,是典型的小数据吧?但如果我们基于这个数据,做一个苹果分销的智能调度系统,这就是个牛逼的大数据应用了。Google在刚成立的时候,佩奇和布林下载了整个互联网的页面,在压缩后也就47GB大小,现在一个U盘都能装的下,但Google搜索显然是个大数据的应用。如果再来看一台风机每天的振动数据可能都有50GB,但这个数据只是针对这一台风机的,并不能从覆盖面上,起到多大的作用,这我认为不能叫大数据。
这里就是在强调大,是Big不是Large,我们强调的是抽象意义的大。
我们再来看关于美国大选的三次事件:
2012年Nate Silver通过互联网采集社交、新闻数据,预测大选结果
《文学文摘》所收集的问卷有240万,绝对是够大的,但为什么预测错误了呢?当时《文学文摘》是通过电话调查的,能够装电话的就是一类富人,这类人本身就有不同的政治倾向,调查的结果本身就是偏的。而盖洛普只收集了5万人的意见,但是他采用按照社会人群按照比例抽样,然后汇集总体结果,反而预测正确了。因为这次预测,盖洛普一炮而红,现在成了一个著名的调研公司。当然,后来盖洛普也有预测失败的时候。到了2012年,一个名不见经传的人物Nate Silver通过采集网上的社交、新闻数据,这是他预测的情况和真实的情况: