数据:塑造世界的力量
“datos, données, daten, tiedot, デ ー タ,”
data – / deɪtə / day-tə / dætə / da t ə, or / dɑːtə / dah-tə
数据,简而言之,就是一系列事实信息的集合,包括数字、文字、度量、观察结果等等。但更重要的是,这些信息已经被转化为计算机可以理解和处理的形式。
无论你身处哪个行业,无论你的兴趣爱好是什么,你都无法忽视数据正在如何重塑我们的世界。从攻克疾病到提升企业利润,从建造更安全节能的建筑到精准推送的广告,数据都扮演着至关重要的角色。
通常,数据只是信息的另一种说法。但在计算机和商业领域,尤其是当我们谈论“大数据”的时候,数据指的是机器可读的信息,而非人类直接可读的信息。
人类解读 vs. 机器解读
人类可读信息(也称为非结构化数据)是指只有人类才能理解和诠释的信息,例如图像的含义或文本段落的意义。换句话说,如果需要人来解释信息,那么该信息就是人类可读的。
机器可读信息(也称为结构化数据)是指计算机程序可以直接处理的信息。程序是一组用于处理数据的指令集。为了使程序能够对数据执行特定操作,数据必须具有一定的统一结构。
举个例子,美国海军军官马修·莫里将大量手写的航海日志(人类可读)转换成了一系列坐标路线(机器可读)。然后,他对这些路线进行汇总分析,最终找到更高效的航线,将船舶的平均航程缩短了33%。
聚焦新闻中的数据
当我们在商业报告和新闻报道中谈论结构化数据时,以下几种类型的数据往往备受关注:
个人数据
任何与你个人相关的数据,例如年龄、电话号码等,都属于个人数据。它包括你的身份信息、位置信息、电子邮件地址以及其他可以识别你身份的信息。个人数据泄露事件(如阿什利麦迪逊丑闻)经常出现在新闻头条,而一些公司对个人数据的争议性使用(如uber利用乘车数据推断用户是否存在婚外情)也引发了广泛的社会讨论。
许多公司,尤其是社交媒体网站,都在收集你的个人信息。当你提交电子邮件地址或信用卡信息时,你通常也会同时提交更多个人信息。企业通常会利用这些数据为你提供个性化推荐,以鼓励你更多地参与到他们的业务中。例如,facebook会分析你的个人信息,并根据“物以类聚,人以群分”的理念,向你推荐你可能感兴趣的内容。
一些企业专门从事个人数据的收集,然后将其出售给其他公司,这些公司主要将这些数据用于广告目的。这就是为什么你有时会收到一些你从未听说过的公司的精准广告和内容。
交易数据
交易数据指的是任何与交易行为相关的信息记录,例如你点击了哪个广告、完成了哪笔在线购物、浏览了哪个特定网页等。
几乎所有你访问过的网站都会以某种形式收集交易数据,通常是通过谷歌分析或其他第三方系统,或者企业自有的数据采集系统。
交易数据对企业至关重要,因为它可以帮助企业洞察市场变化和优化运营。通过分析海量交易数据,我们可以发现隐藏的关联模式,而这些模式可以帮助企业打造竞争优势,制定更有效的营销策略,从而提升利润。
网络数据
网络数据是指你可以从互联网上获取的任何类型的数据,包括竞争对手的商品信息、公开的政府数据、足球比赛比分等等,包罗万象。
网络数据的重要性在于,它是企业从外部获取信息的主要途径之一。在制定商业模式和做出重要决策时,企业需要充分了解自身情况和外部市场环境。
网络数据可以用于监测竞争对手、跟踪潜在客户、维系渠道竞彩体育的合作伙伴、创造商机、开发应用程序等等。随着将非结构化数据转换为结构化数据的技术不断进步,网络数据的新用途也在不断被挖掘出来。
我们可以通过编写网络爬虫程序来收集网络数据,也可以使用现成的网络抓取工具,或者委托第三方机构进行数据抓取。网络爬虫程序是一种计算机程序,它接收一个url作为输入,然后以结构化格式(通常是json或csv)将网络上的数据下载到本地。
传感器数据
传感器数据是由物理对象产生的数据,通常被称为物联网数据。它涵盖了各种各样的信息,从你的智能手表测量的你的心率数据,到建筑物外部传感器收集的天气数据。
目前,传感器数据主要用于优化流程。例如,亚洲航空公司使用ge传感器和相关技术来降低运营成本,提高飞机利用率,每年节省3000万至5000万美元的运营成本。通过测量物体周围的物理环境,机器可以采取智能化的行动来提高生产效率,并在需要维护时向人们发出提醒。
数据如何变成“大数据”?
从技术层面讲,上述所有类型的数据都构成了大数据。对于“大”的定义,并没有一个官方的标准。这个术语仅仅代表着不断增长的数据量和数据种类。
数字化趋势带来海量数据,推动数据分析变革
随着网络信息爆炸式增长,越来越多的信息被数字化并转移到网上,使得分析师能够直接利用这些数据作为数据源。社交媒体、电子书、音乐、视频和传感器等数据的激增,让可用数据以惊人的速度增长,赋能数据分析师以全新的维度。
从传统数据到“大数据”
过去,“常规数据”和“大数据”的区别在于其收集、存储和分析工具不同,而如今这一界限变得模糊。借助先进的数据分析工具,无需再依赖抽样调查。相反,我们可以一次处理完整数据集,更全面地了解周围世界。
数据科学家:21 世纪最令人神往的职业
在利用数据进行深入分析决策之前,需要对数据进行处理和解释—这就是数据科学家所做的工作。
数据科学家现已成为最受欢迎的职位之一。谷歌公司的一位前高管甚至称其为“21 世纪最性感的工作”。成为一名数据科学家,你需要具备计算机科学、数学建模、统计学、分析和数学方面的扎实基础。他们不同于传统工作者的称号,是因为他们对商业流程有深刻理解,并且能够有效地与商界人士和 it 领导者沟通,这在一定程度上影响着企业走向商业奇迹的道路。
数据资源
如果你对学习大数据很感兴趣,或者想学习如何充分利用大数据,以下博客、会议、公司和数据资源将对你大有帮助:
大数据博客
flowing data:dr. nathan yau 的博客,包括教程、资源、书籍推荐和对行业难题的精彩讨论。
fivethirtyeight:data-wiz 公司 nate silver 的博客,主要对政治、文化、体育和经济热点进行大数据分析。
edwin chen:dropbox 资深数据科学家 edwin chen 以自己名字命名的博客,提供深入浅出的算法技巧和分析技术。
data science weekly:该博客定期发布大数据科学界最新动态和新鲜资讯。
no free hunch (kaggle):该博客由许多预测模型比赛的主办者撰写,涵盖几乎所有与体育相关的的大数据项目。
smartdata collective:由 social media 审核的一个网络社区,提供有关商业智能和大数据管理的最新动态。
kdnuggets:任何对大数据科学社区感兴趣的人都不应该错过这个综合性资源的集大成者。
data elixir:提供有关互联网和大数据的新鲜资讯,你还可以订阅其服务以定时收到推送资讯。
36dsj.com:一个关注大数据创业和大数据产业链的网站,有超多的大数据应用案例和入门教程。
marcus borba (cto spark):marcus borba 致力于将复杂的互联网概念可视化,并为大众提供多种典型的非关联式数据管理方式。
lillian pierson (author, data science for dummies):作者在其 twitter 上链接了许多大数据相关文章,其中包括最新的企业利用大数据的案例,以及在大数据科学和商业领域有影响力的人物博客。
大数据相关会议
strata hadoop world – new york, ny (sept. 29 – oct. 1)– 专注于大数据对大企业的意义。
data summit 2016 – new york, ny (may 9-11) – 将政府部门、公共结构和前沿商业联合起来,利用新技术和策略使混合式大数据服务于普罗大众的日常生活中。
big data tech con 2015 – chicago, il (november 2 -4)– 对于如何使用大数据提供详细指南,证明新企业如何运用大数据非常具有参考意义。
big data innovation summit – las vegas, nv (january 21-22) – 从 hershey、netflix 以及 department of homeland security 处获得经验和知识,了解如何让数据更有执行性和有效性。
大数据资源
udemy:部分付费的在线课程,内容丰富多样,旨在传授大数据知识。
code school:在线编程课程,课程内容循序渐进,理论结合操作。
decoded:对解锁数字世界巨大潜力感兴趣吗?这门课程是对 decoded 的基本介绍及入门。
data camp:大数据科学领域的基础课程,同时该课程能进一步强化你 r 语言编程能力。
coursera:世界名校及教育机构的精品课程皆于其中。
w3schools:学习基础编程和数据分析方法?该网站是你不错的选择。
数据分析工具
openrefine:一个数据清理软件,你可以使用它来预处理待分析数据。
wolframalpha:提供技术搜索和复杂计算帮助。对于商业用户来说,它能提供信息图表,对价格波动记录、商品信息分析以及种类概述任务来说,该软件是优良之选。
import.io:该软件能够帮助您将网页上的非模块化数据转换为模块化数据。
trifacta:清理和鉴别你在 excel 中不能处理的数据、文件和数据集,其提供大量可靠的统计学分析工具。
tableau:一个优秀的可视化工具,为数据观察提供新的视角。
google fusion tables:一个多用途数据分析工具,能够完成大规模数据集的可视化和数学映射工作。
blockspring:该软件能帮助您获得实时街景数据,创建交互式的数学映射,执行图像识别,并且能保存到 dropbox 中。
silk.co:用户创建、公开发布以及分享优质的数据可视化项目提供了良好的平台。
plot.ly:助力数据可视化,让你更快获得市场趋势分析结果和商业洞察。
luminoso:帮助确认数据中的关键词和概念关联,进行更深入的产品见解。
bigml:针对市场情况构建模型,可自定义所需变量,如产品价格、产品特性和地域方位。