“21世纪的竞争是数据的竞争,谁掌握数据,谁就掌握未来。”
——马云
不难理解大数据在我们生活的重要性。随着科技发展,网络无处不在,存储信息的本质是数字0和1(至少目前的计算机是如此),因而可以说数据无处不在。
一、回归方程带来的冲击
![大数据时代,你会思考些什么呢? 大数据时代,你会思考些什么呢?]()
从前人们的决策几乎全靠人为经验判断,举一个了“寻找棒球队员”的例子,传统的方式是经理人(暂以此名字代表挖掘球员的人)通过观看无数场(书中有列出具体数字)球赛,观察球员的每一个细致动作,经理人根据经验判断该球员是否有潜力成为球星。该方式代价非常大且人为主观因素会影响决策正确率。大数据思维则是分析球员历史训练及比赛的记录数据,利用数理统计的回归方法(必须掌握)分析数据,从而预测有潜力值球员。相对传统方式,大数据方法成本大大降低,且准确率更高。显然,新的方式对传统经理人带来的冲击是极大的,新的思想总会被质疑、抗拒。不过最终由一个胖球员不被看好,数据显示有潜力,最终成为球星的例子证明大数据引导决策是正确的。
![大数据时代,你会思考些什么呢? 大数据时代,你会思考些什么呢?]()
数据比人客观,且现在大规模数据的获取更加容易,价格便宜甚至免费。回归方法在数据处理中还是十分的有用,必须掌握这一技能。
二、随机试验
![大数据时代,你会思考些什么呢? 大数据时代,你会思考些什么呢?]()
随机抽取样本,控制单一变量,进行试验,分析试验数据检验哪个方式更加具有价值。
这里采用的例子很多,其中一个就是某一个网站(具体网站名忘了……暂且称作Test)利用随机随机试验方法为网站开发者提供工具检测怎样的界面用户更加喜欢。例如,某一栏是“收藏”还是“收藏与购买”。 Test利用随机试验思想对开发网站采取控制变量检测,随机为用户展示以上两种方式的开发网站(仅“收藏”与“收藏与购买”的差异),通过统计用户点击行为,则可以评估哪种网页更被用户喜欢。
随机试验思维在大数据下显得更加有用,随机试验思想确实是一个很实用的方法,在以后遇到数据处理、数据决策之前应不忘考虑这种方法。
三、大数据决策的弊端
![大数据时代,你会思考些什么呢? 大数据时代,你会思考些什么呢?]()
万物皆有两面性,大数据决策为我们提供很多快捷、准确的预测。但是,过分依赖数据则让我们在很多时候得出的结果相差很大。例如,根据某人的历史数据分析预测下周五会去看电影,然而周末该人不小心骨折住院。尽管数据采集到骨折数据,模型不会因此而改变,因为该数据历史影响甚微,模型会忽略,仍然会认为该人去看电影。根本原因在于模型不会像人那样正确考虑到骨折的权值,即使是神经网络模型(我的理解是至少现在的神经网络模型还是没有人那么聪明),计算机的经验是有限的,尽管他能够存储很多内容,不代表他有人的智慧。所以很多情况下,人为的干预是十分重要的。
三、大数据下的隐私
![大数据时代,你会思考些什么呢? 大数据时代,你会思考些什么呢?]()
随着科技发展,智能设备越来越普及,信息无处不在,数据无处不在。谷歌等都倡议数据共享,建立人人都可以利用的数据库。对于数据开发者、数据决策者而言的确是十分有利的。能够为客户创造价值,如机票预测是客户购买实惠机票很好的工具,这种情况客户也是乐意见到的。然而,一些恶意黑客当然也会因此入侵,获取用户数据,对人们生活带来很多干扰甚至是安全隐患。
所以说,大数据下仍然很多问题,不过利益在驱动,还是会继续发展。这些书中提到的应用和隐患大都基于美国现状的考虑。对于国内,确实还是有很大差距。首先应用方面,尽管很多互联网企业开始发力与大数据开发,但是总体的思维还是比较保守,许多模式几乎照搬国外,就类似云计算、物联网,大数据也很多公司只是在搞概念,还有很大的发展空间,必须好好把握好时机。