全国报名热线

15201841284

你可知道大数据到底是什么吗?

时间:2017-08-11 10:31:46   来源:大数据论坛   阅读:
大数据的触点 
随着以博客(信息大门的开放)、社交网络、基于位置的服务LBS为代表的信息发布方式的不断涌现,以及大数据、云计算、物联网和智能化、虚拟等技术的兴起,数据以N倍的速度在不断增长和累积,这就是面临着大数据时代的到来,从而让我们面临对大数据快速处理和挖掘的问题。 
   
 

最早提出“大数据时代”到来的公司是全球知名咨询公司麦肯锡.麦肯锡称:数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯、服务等行业已经潜伏已久,却因为近年来互联网和信息行业的快速发展让大数据赢得了人们的眼球。

几组数据: 
1、根据IDC做出的估测,数据以每年50%的速度增长,也就是每2年增长一倍(大数据摩尔定律),这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 
2、预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。 

总结 
这不是简单的数据增多的问题,而是全新的问题。举例来说,在当今全球范围内的工业 设备、汽车、电子仪表和装运箱中,都有着无数的数字传感器,这些传感器能测量和交流位 置、运动、震动、温度和湿度等数据,甚至还能测量空气中的化学变化。将这些交流传感器 与计算智能连接起来,就是目前“物联网”(Internet of Things)或“工业互联网”(Industrial Internet)。在信息获取的问题上取得进步是促进“大数据”趋势发展的重要原因。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。 


大数据的特点 
从当前的互联网就可以看出,“大数据”是时下最火热的IT行业词汇。其实,早在1980 年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。 
那么,如何给大数据下一个定义呢?一般而言,大家比较认可关于大数据的4V说法。大数据的4个“V”,或者说是大数据的四个特点:
1、数据体量巨大。从TB级别跃升到PB级别; 
2、数据类型繁多。比如网络日志、视频、图片、地理位置信息等等; 
3、价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据只有一两秒; 
4、处理速度快。1秒定律。 
最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4 个“V”——Volume,Variety,Value,Velocity。 

大数据特征 
舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。在舍恩伯格看来,大数据一共具有三个特征: 
1、全样而非抽样; 
2、效率而 非精确; 
3、相关而非因果。 

第一个特征非常好理解。
在过去,由于缺乏获取全体样本的手段,人们发明了“随机调研数据”的方法。
理论上,抽取样本越随机,就越能代表整体样本。但问题是获取一个随机样本代价极高,而且很费时。人口调查就是典型一例,一个稍大一点的国家甚至做不到每 年都发布一次人口调查,因为随机调研实在是太耗时耗力了。 但有了云计算和数据库以后,获取足够大的样本数据乃至全体数据,就变得非常容易了。
谷歌可以供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在 这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。 

第二点其实建立在第一点的基础上。
过去使用抽样的方法,就需要在具体运算上非常精确,因为所谓“差之毫厘便失之千里”。
设想一下,在一个总样本为1亿人口随机抽取1000 人,如果在1000 人上的运算出现错误的话,那么放大到1亿中会有多大的偏差。但全样本 时,有多少偏差就是多少偏差而不会被放大。谷歌人工智能专家诺维格,在他的论文中写道: 大数据基础上的简单算法比小数据基础上的复杂算法更加有效。数据分析的目的并非仅仅就是数据分析,而是有其它用途,故而时效性也非常重要。精确的计算是以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为之。但在样本=总体的大数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。 

第三个特征则非常有趣。
相关性表明变量A和变量B有关,或者说A变量的变化和B变量的变化之间存在一定的正比(或反比)关系。但相关性并不一定是因果关系(A未必是B的因)。 亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可能会喜欢什么,这些 消费记录有可能是别人的,也有可能是该用户历史上的。但它不能说出你为什么会喜欢的原因。难道大家都喜欢购买A和B,就一定等于你买了A 之后的果就是买B吗?未必,但的确需要承认,相关性很高——或者说,概率很大。 舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。这就是数据猜想的依据和数据的魅力! 

上海尚学堂欢迎有志成为IT大牛的您来学习,浦东新区校区大数据实战班即将开班,优惠报名中,不可错过哦:http://www.shsxt.com/data/
分享:0