什么是大数据?大数据时代获取行业先机的数据集

 刘潜   2014-04-27 05:27   18817 人阅读  0 条评论

  关于什么是大数据,业界并没有一个统一的定义,但却有几个一致的观点。有两份资料很好地诠释了大数据的本质,第一个定义来自于Gartner公司,Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇。他认为大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集,管理和处理数据的能力。另一个定义来自于麦肯锡全球数据分析研究所(McKinney Global Institute)在2011年5月发表的一篇论文:“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。“

  这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据,在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同,因为它们所用工具和技术的处理能力可能大相径庭。我们将在本博以后的博文中展开讨论。

  麦肯锡的论文中列举了一些有趣的事实,这些事实能够帮助读者认识今天的数据量是多么的庞大。

  1.在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。

  2.Facebook每个月都会有300亿条新信息被分享。

  3.在美国17大行业中的15个行业,每个企业的平均数据量都超过了美国国会图书馆的数据量。

为什么要驾驭大数据?  

  大数据的大并不仅仅指容量

  尽管大数据必然包含大量的数据,但是大数据并不仅仅指数据的容量。与过去的数据源相比,大数据的速度(例如,数据传输和接收的速度)、复杂度以及多样性都有所增加。

  大数据并不仅仅是指数据的容量即数据量的大小。根据Gartner Group公司的定义,大数据的”大“也涉及大数据源的其他特征。这些特征不仅仅包括不断增加的容量,还包括不断增加的速度和多样性。当然,这些因素也导致了额外的复杂度。这意味着当你在处理大数据时,你并不仅仅是拿到了一堆数据,大数据以其复杂的格式,从不同的数据源高速地朝你奔涌而来。

  所以,不难理解为什么我们要用浪潮来比喻涌向我们的大数据,以及为什么驾驭它们是一个挑战!企业的分析技术、流程和系统已经接近或者超过了其所能处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程,从而更加有效地分析和处理大数据。我将在本博讨论关于大数据的常见问题,论证为什么驾驭大数据所付出的努力是值得的。

发表评论


表情

还没有留言,还不快点抢沙发?