434 次浏览

《数据思维》-樊登讲书

读完本文约需23分钟,樊登对谈王汉生:大数据,从精准投放到预测未来。

樊登:前两天我拿到了一本书,题目特别好,叫作《数据思维》,副标题是从数据分析到商业价值。我觉得,未来的大数据会像电一样会成为我们的一个基础设施。所以,每一个在现代生活的人都得具备数据思维,否则的话你会吃大亏。

 

我就说一定要把这本书啃下来讲给大家听,结果翻了一下发现看不懂,因为里边好多数学知识。虽然我原来数学也不错,但是真的是已经远离了。好在这本书的的作者王汉生教授,他是北大光华管理学院的统计学著名的教授,也是我们樊登读书会的会员。他特别开心地来到我们作者光临,给大家讲讲最近的这本新书,叫《数据思维》,欢迎您王教授!

 

王汉生:谢谢樊老师,非常荣幸能到这儿来。因为我自己就是樊登读书的会员,我跟樊老师,还有很多朋友都讲过。我自己是个理科背景的人,尤其在宗教、美学、人文方面的素养特别差。樊老师给我分享了很多,我学习到很多特别好的东西。这次也是一个特别好的机会,所以来当面说声“谢谢”。

 

樊登:太开心了,能影响到北大的教授,我真是三生有幸。

 

前两天王教授写了一篇文章,里边写到在光华管理学院教统计学是一件非常困难的事,非常有挑战性。因为底下坐的都是些大佬,都是些企业家。他经过很多这样的商业的行为,老师们没有干过这事,所以经常会被底下的学生挑战。那您讲这个可以说有点枯燥、有点难懂的统计学,是怎么说服那些企业家能够开开心心地听下去的?

 

王汉生:这个是一个慢慢成长的过程,第一次上课的时候,自然是非常有挑战性的。我曾经跟我们的年轻老师们开过一个玩笑——因为我们有统计系,我是统计系的教员。我们还有营销、战略、组织行为、经济学、金融学等等。我说:“你们是没有吃过猪肉,但是至少见过猪跑的。”

 

这就是说,即使有一天,年轻的老师从来没有跟企业有真实的合作经验,那么,至少当你是学生的时候,当你读研究生的时候,你的老师会给你讲非常多管理学大师的经验和教训,有很多案例。我的背景从小到大是偏数学的,属于没有吃过猪肉,连猪长什么样都没见过的。

 

那对我来说,这自然是个很痛苦的、漫长的、历练的过程,经常讲着讲着挺高兴的——讲个啤酒尿布的故事。同学就举手说:“王老师你讲得好像很有道理,你干过没?”那很尴尬。

 

很客观地说,我就只能当场认怂,说“这故事我也是听来的,我也没有干过”。看人家怎么看这件事情就是了。

 

当时对我来说可能有两个选择,一个是这学生太调皮了,算了,以后换一个高大上的,把他糊弄住。另外一种就是我直面这个痛苦,我要解决这个问题,所以我就从2003年到光华,现在2014年,这11年中我非常近距离地看我们中国的数据产业是怎么样一个个变化起来的。

 

当然非常幸运,北大光华有一个特别好的平台,我们自己的MBA同学、EMBA同学、ExEd的同学都非常优秀,跟他们能学到很多东西。在这个过程中慢慢地去理解在中国的制度环境下,我们的数据是怎么样变成商业价值的。从这些我们合作中产生的案例,再到课堂上的时候,那就好太多了。

 

樊登:今天您的任务其实也挺挑战的。咱们只有不到一个小时的时间,您要给这么多的书友普及一下数据思维到底是怎么回事。那咱们就先从这个定义开始,您觉得什么叫数据思维?

 

王汉生:这是一个特别好的问题,先说我们如果在百度上搜“数据思维”四个字,那么会跳出一堆一堆的东西来,让人怀着无限的敬意。我想人家说的也是数据思维,但是可能跟我讲的不大一样,没有半点理由说,我说的就是对的,人家就是错的。那在我的脑袋里,数据思维关心一个核心问题——我常常问:同学们,我们为什么要做数据分析?是为了追求高大上吗?是为了追求茶余饭后讲点段子吗?

 

不是,在商业实践中,我们做数据分析的唯一的目的是要解决业务问题、创造商业价值。所以,数据思维在我这里,就是用了四个字总结了我这十几年摸索的一套方法论。什么方法论?让数据怎么变成商业价值,这是我说的数据思维所代表的核心的问题。

 

樊登:这是一个定义,那具体来讲数据思维有哪些方面?

 

王汉生:我把它总结成三个方面的内容。第一个就是我们要深刻地理解数据和价值之间的关系。这里的价值我指的是商业价值而不是科学价值。因为数据之于科学价值,可能是从亚里士多德到牛顿那个时代,大家都知道的,不言自明的。

 

但是商业价值很重要,为什么?我们如果说,不清楚数据与商业价值的关系的话,数据产业也许就是一个空谈,所以,第一个,我们要关心数据和价值之间的关系。

 

樊登:那这个关系的建立,您有没有一个案例?

 

王汉生:我们举一个特别具体的例子,中文的文本是不是数据,我们肯定会认为点评是数据对不对?那为什么跟中文文本相关的数据分析的产业和商业产品,是在过去的20年差不多也才兴起的,才变得热火朝天的?它跟我们技术的进步是有关系的。

 

樊登:按理说古代就该有,但是没有。

 

王汉生:那时候没有技术手段,所以,在我脑袋里我给了它一个非常狭隘的定义,但这个定义可能带着个人的偏见。但这个定义帮助我们比较轻松地理解数据的商业价值。

 

什么是数据?在我的脑袋里凡是可以被电子化记录的才叫数据。其他你也可以定义数据,但那种定义对于我理解数据产业的商业价值和它的发展帮助不大。从这个角度看,数据的定义有着非常强的时代特征。因为不同的时代赋予我们不同的技术手段,所以,1000年前图像不是数据,现在是了。1000年前可能文本声音都不是数据,现在都是了。

 

如果我们有一个这样数据的时代观的话,它自然而然产生的一个问题是:在未来什么东西会变成数据?那么,这应该是在投资和产业发展中很关心的问题。未来还不能扯太远,太远了没有意义,可能我们自己都已经不存在了。未来的四年到五年,这是一般的基金它要求回报的一个自然的周期。那么,在未来的四到五年里,什么样的东西正在变成数据,这是我们关心的一个特别要点。

 

樊登:就好像我们原来认为堵车这事不是一个数据,但是现在堵车可以非常完整地呈现出来;出租车过去是想往哪儿跑就往哪儿跑,现在有了滴滴以后它变成了数据;OFO把自行车数据化了。那将来还有什么可以数据化?

 

王汉生:这些全部都是依赖于我们技术的进步给它们提供了机会。樊老师您正好提到特别好的例子。我们现在说图像是数据,这好像已经是过去时了。那么,您提到OFO、提到了滴滴,这些都跟有一个基础的技术是相关的,就是跟我们的车联网、物联网的技术成熟相关。

 

我们自己的团队非常幸运的是亲自经历了这个过程。大概两到三年前,当我们谈到车联网的时候,我们可能还认为是一个理念,因为在国外的媒体上,我们能够看得到。

 

那么,在过去的两三年里,我们亲眼看到我们自己的中国有很多优秀的创业团队陆陆续续地起来,他们把技术做成熟了。现在无论是大卡车也好,小汽车也好,或者自行车也好,都能够大量地采集这样的数据了。

 

但为什么我说它是进行时,这条路似乎还没有走完?因为技术成熟之后,它的商业化还没走完,仍然是一个巨大的问号,我们看到的情形是在国外,比方说这种车联网数据的商业化的一个重要的手段,可能是这种保险,叫作Usage Based Insurance(驾驶行为保险)。

 

那么,在中国好像是这条路是挑战重重,未来的出路在哪里,我们都在拭目以待。这就是个特别好的例子,它的数据带有强烈的时代特征。

 

樊登:这就解释了为什么从数据能够变成价值,就是在保险业当中,只要我能够获取更加准确的信息,我的保费就可能会更低。

 

王汉生:有可能,而且你的利润率还更高。

 

樊登:或者对某些人我就得收更高的保费。因为你过去没法区分,所以造成了大量的社会交易成本,这是第一个方面的数据。

 

王汉生:刚才樊老师您还提到另一个很重要的问题就是价值。价值到底是什么?我自己这本书的第一章叫作《朴素的数据价值观》。我特别提到了两个字“朴素”,我觉得我不大喜欢随着一般的媒体说大数据四个“V”。我要是给它整五个“V”是不是更厉害?没有太大意义。我们的这些媒体,或者说我们经常怀着无限的好奇心讲谷歌的故事,讲亚马逊的故事。

 

我不知道樊老师您有没有这样的感慨,我们看这个故事会热血沸腾,回过头来这些书之于樊登读书的运营有什么帮助,我觉得很难落地。

 

所以,这些年的思考,让我琢磨透了一件事情,别人家的故事跟我没有太大的关系,数据之于我的价值一定是关乎我们自己业务的核心诉求。它要解决我的业务问题,比方说,我常常开个玩笑:我是北大东门卖豆浆的,我每天的豆浆销量是100碗。您跟我讲有大数据产品怎么高大上,跟我没关系。你可以告诉我通过什么样的数据分析告诉我怎么卖豆浆,我这个豆浆销量每天从100碗变成150碗了,多出了50碗。这是可见的收入上的价值,咱俩分,给您20碗,你喝10碗倒10碗我不介意。但是你给我讲谷歌的故事、讲亚马逊的故事、讲淘宝,跟我没有关系,对我没有用处。

 

所以,我说价值是什么?价值一定是关乎我们自己工作运营中最核心的业务诉求,这是我对价值的定义。

 

樊登:这两个概念我听懂了。第一个是能够被电子化记录的是数据,这些数据能够对我们本身的核心业务产生影响的叫作价值。这是您说的数据思维的第一个方面叫作从数据要到价值。第二个方面呢?

 

王汉生:那现在是说,你看,我们现在知道数据和价值了。这条通路怎么建立,它怎么从这儿就变到这儿来了?我跟您分享一个真实的故事,特别好玩。

 

有一次,我参观一个很大的企业集团,然后对方有一个大数据部,集团非常重视,然后对方也特别慷慨,跟我们分享了特别多好玩的故事。他们做了很多漂亮的分析,我不是有朴素的数据价值观嘛,我这人总是捣乱的。

 

我就问了个问题,我说:“咱们做得那么好,这些分析支撑了咱们集团的哪些业务?”

 

您猜猜别人会说啥?他说,“我支持了所有的业务”。这好像不大可能,这太牛了。但我没有任何能力去反驳别人。然后他们旁边另外一个事业部的老总当场就拍桌子说不对,你们对我们的帮助就不大,我们就没有体会到你们这个大数据部对我们有什么帮助。当场给人打脸,别人就生气了。这边说:“你提需求,你怎么不提需求?”,然后另一边说:“我不会提需求,我不知道你们是干什么的,我提不出需求来。”

 

我每次在我们的高管课上讲这个的时候,常常下面笑成一片。因为这是几乎每天发生在我们企业中的故事, 你为啥做不好——你不提需求——我不会提需求。那我们看到在这个让数据产生价值的过程中,最挑战的一点在哪里?不是技术分析,不是深度学习,不是人工智能,而是我们缺乏这种数据思维的能力,能够把一个业务问题定义成为一个数据可分析问题。

 

从这个位置往下,可能是像学统计学、学计算机这种专业的数据,科学人才就能做了。但是,把业务问题定义成为数据可分析问题,只能是业务中的管理者和负责人才能定义出来,因为别人不懂您的业务。所以这是我们看到的,要让数据产生价值的第二个核心的通路,我把它叫作回归分析。回归分析是我们常常在数理统计学上讲的X和Y的关系。但是,我把它抽象成一种理念,我认为这是特别重要的一点。

 

樊登:那这一步要做到的话需要什么能力,比如说,我要把樊登读书的业务数据化,这需要什么能力?

 

王汉生:这也是个特别好的问题,你看,第一个咱们说数据分析要解决业务问题。那么,樊登读书是个特别优秀的组织,然后中间肯定有大量的业务诉求,那我们不能一口气全干完。那么,先说一个诉求是啥?比方说,我要增加我的粉丝量,这时我提到了一件事情,叫作我的业务的核心诉求是粉丝量,那我们把它叫作Y,这就是我的核心的目标了。

 

那么,接下来我们会研究是什么样的因素可能影响到这个Y,可能说季节因素很重要,可能春节的时候大家开心了,那时可能是一个高峰期或者是低峰期,这叫季节因素。每周一、二、三、四、五这也是时间上的季节因素。更重要的是,我相信我们会有市场手段,比方说我在这里有没有分会,我有没有找了某一个行业的代言人等,我会觉得很多因素会影响它,我把它叫作X。

 

什么叫作数据可分析问题,如果我们能把Y和X七七八八说个清楚,这就是数据可分析问题。从这个位置再往下,我们刚才那位大数据事业部的老总,对他来说就很容易了,它就变成一个纯技术问题了。

 

樊登:这怎么说清楚?就是我会去观察我的数据,说春节期间是上升了,我就要分析说为什么上升了?

 

王汉生:不用,您是企业中的创始人,分析肯定不能您来干。你得指方向说,未来12个月,我们这业务最关心的问题是什么?比方说,我们举一个例子,根据您的经验,咱们的文案很重要,那就是文案是个重要的X。

 

您就指好方向说,这个问题我想研究一下文案是怎么样影响到粉丝的增量的。从这个位置开始,剩下的如果您能交给一个专业的数据分析团队,他都明白为什么。

 

文案在我这儿就是文本,我会根据您的文案把它关键词做相应的细分,抽象出各种各样的指标出来,然后我会建立这些指标和这个粉丝增量之间的关系,比方说,我们文案中可能会出现一些重要的关键词。比方说,某些作者的名字,我们发现出现之后它就会猛增,或者文案中出现了有些不该出现的词,显得我们跟别人相比太low,就会降低。

 

建立这种关系后,我会给你反馈一个建议,哪些关键词,哪些主题是该说的,哪些是不该说的。从这个位置开始您就不用操心了,它就是个技术团队擅长干的事情了。但是没有您把前面的Y和X大方向说清楚,你让我来做,我可能瞄准一个错误的方向干。

 

樊登:也就是说数据思维的一个重要体现是在于决策者自己要认识到你所做的事背后和哪些数据相关,指出了一个大方向。

 

王汉生:以前我老举一个例子特别好玩,我们曾经跟一个车企合作。它特别想了解一下自己现在的客户价值是什么。它想得出一个打分来。这些都是买豪华车的用户,你说什么是价值,我哪懂,对不对?

 

那我们就跟别人去请教说,樊老师你觉得啥是价值?樊老师说,很简单,我们利润保密不能告诉你,就是给我创造的收入多就叫价值高,这不很简单么?我们把这些用户他买过几辆车,然后在4S店里面做过多少次维修保养,一加和,这就是价值。

 

对方说:“不对,我们过去的经验表明,同样是一万块钱,买车的价值就不是很大,买保险价值就很大。”

 

我觉得好奇怪,为啥它咋就能不一样,都是一万块钱。

 

对方又说:“我们的经验是我们车是豪华车,里面增加一万块钱,对我判断他未来的行为没有特别大的帮助。但是如果他一万块钱买了保险,以我们过去的经验,有很大的可能性,他未来的维修保养将发生在我的4S店内。”

 

这个过程中,我不知道樊老师听明白没有,他说的是收入,他说的是未来的收入,那我们在这个过程中,跟他不停地互相打磨,把他的业务诉求中那个Y给提炼出来了。这样我们才达到一个正确的目标往前去冲,这是我们在沟通中反反复复要做的一件事情。

 

樊登:这样下去的话,那你们后来帮他们做了什么?

 

王汉生:那我们就在这个确定的Y的情况下,这个问题就变成我们要预测一下。站在今天这个时间点上,我们现在什么样的客户,他未来可能给我带来的收入更高,那么那个Y是确定的。

 

那么,我们就会问:不同车型有没有影响?这是一个X。不同驾驶员有没有影响?不同驾驶员你又可以分性别、年龄、驾龄,你找到很多X变量。他的维修保养行为有没有影响?我们就用当前能看到的数据,把这个人的所有指标拿出来,建立他和他未来的价值之间的相关性,拿出一个打分的方案。最后,这个打分方案会告诉您,您买车多花1万块钱,我给您加多少分,来一次维修保养花1千块钱,我加多少分,你来一次就喝杯咖啡,啥事都不干,我也要给你加多少分,就形成一个打分体系。

 

樊登:那这个对他们业务的帮助体现在哪儿?

 

王汉生:它会体现在这么几个方面:

 

第一个,作为一个集团公司,它特别需要首先能有个基本的工具,判断我的客户的价值高和低,我的有些预算会这么花。有的预算是说,我希望回馈我高价值客户,你得告诉我哪些是高价值?有些预算是说,我希望把低价值客户能够培养成为高价值客户,那我需要用在谁身上?最后评价它的效果。

 

樊登:这样的话,它就能够通过这些所谓X变量的这些数据,分析出每一个不同的客户的价值量。

 

王汉生:对,这个价值量的定义是,按照它的业务诉求定义出来的。我们换一个企业,很可能它说:这不是我的诉求,我的价值是另外一个定义。

 

樊登:所以,过去有一个广告业的大佬就讲过一句名言,他说,“我每天早上起来都很生气,因为我知道,我又浪费了一半的广告费。但是最生气的是,我不知道是哪一半”,这句话特别有道理。

 

但是如果能够用这样的数据进行精准的定位和分析以后,你就能够把这个广告给到,或者把这个促销活动、这个优惠政策给到那个最合适的人身上。

 

王汉生:这块稍微扯得有点远了。我觉得,对于促销政策,这个手段采取与否,很多在我们自己手上,我觉得建立这样的关系是相对乐观一些的。广告太复杂。广告这坑非常深,有机会我们可以再单聊。

 

樊登:广告也是您关注的点。因为现在投放广告跟过去也不一样,过去上卫视播了谁看都行,现在都可以一对一地投放,这也是从数据的角度可以帮到的地方。

 

王汉生:是的。我有时候打一个比方,就像是我们做数据分析之前,首先像我这个专业的人,我们很诚实地说,我们是不懂业务的。比方说,有一天,我想为樊登读书做点事情,我是不懂樊登读书的运营的,我必须要跟您学习业务。但是咱俩讲的不是一个语言,我讲的是数据分析、统计学的语言,您讲的是樊登读书的语言。

 

那有点像有一天一个客户,樊老师跑到店里来说,小二来盘好吃的。我咋知道啥叫好吃的。来盘沙拉——咋没肉。想吃肉的话,京酱肉丝太瘦了,整个东坡肘子太肥了。你到底要吃啥?他说,“我要吃那半肥半瘦的,再来盘回锅肉”,这次整对了。我们是在不停地互相沟通学习中,把对方的业务诉求变成一个可被测量和观测的Y。

 

樊登:所以,所谓的数据思维,就是见到了搞数据的人,张口就能点出回锅肉的那种人。

 

王汉生:对,这就是特别厉害的人。如果我们的领导者能够具备这种思维方式的时候,能快速地点出回锅肉来,那么,你可以释放一大批的能量。这批能量来自于哪里?来自做数据分析的专业团队,他们在那个位置上可以有好多简单、复杂的工具去做。但是,如果说我们不具备这种数据思维规划的能力,那么就是你讲英文,他讲日语,两个人在讲不同的东西。

 

樊登:就是很有可能一个把数据运用到极致的公司,能够比客户本人还了解客户。

 

王汉生:非常有可能的。

 

樊登:就是客户自己并不知道自己有这个需求,但是广告一推过来就想要了。我们讲了两个方面了,然后第三个方面是什么?

 

王汉生:第三个方面很客观地说,我们自己也在非常痛苦的摸索过程中。当我们有了数据分析、有了模型之后,我怎么把它产品化?我指的产品不是说要做一个物理上看得见的东西,也不见得是软件。我觉得,如果是一个流程,任何东西在商业环境中,被实施而产生价值的都叫产品。

 

有时候,跟我们的学生开玩笑说:“以后听讲数据分析的人讲课,我教你一个最捣蛋的提问题的方法。就是他讲得很好,最后你问他so what——你做完分析后你能干什么,怎么实施?基本上10个里面,有9.9个会被问惨。”

 

我们给大家看几个例子。第一个是什么?这是我们自己团队的讲的时候,我就问这种问题。我们曾经做车联网的数据,给公交汽车做。

 

公交汽车它的油耗很大,那么我们很好奇油耗发生在什么地方。很快这张热力图就会告诉我们,大量的油耗发生在公交站的进出,这个你改变不了。

 

那第二个事是,同样是公交站的进出,有的油耗相对小,有的就高,为什么?后来又发现,这跟我们的起步是否匀速滑行的距离有关系,这些也都是一些常识被印证了,然后一般我们的分析就到此结束了。

 

那么,可以问一个so what,又怎么样。你怎么把这个知识变成一个东西能够帮助公交集团,能改善它的服务?我们总不能跟司机说,樊师傅,你起步要慢慢起。

 

他说,“我本来就是慢慢起的,我开得好着呢,你自己觉得不舒服是你的问题”,不好弄。所以,后来我自己也没办法,跟一个朋友讲——他经常管这样的团队。

 

他说:“这很简单,每一个月我们就考核油耗,油耗差的那几个就罚,他自然就会来找原因。这个时候你再跟他讲慢慢起步,他就会愿意听。”

 

我觉得,这个如果实施了,那就变成一个把数据分析的结果真的在实施过程中,变成可操作的东西了,这是个特别好的事情,

 

 

樊登:就是还要结合管理的智慧,结合管理的手段,然后把它慢慢地变成一个可操作的东西。

 

王汉生:没错,这个时候有一个案例对我启发特别大。这个案例也是一个老掉牙的案例,很多的大数据上都会讲farecast(价格预测)。它讲的是什么故事呢?有一个计算机的教授,他做了一个算法,能够预测机票价格的涨和跌。那对于我来说,如果你告诉我机票看涨,我应该赶紧买票;如果看跌,我就该等一等。他通过大量的随机模拟发现,这个算法能够为普通人能够节省大概20%以上的预算,而且是非常开心的事。但是,问题是这是个平均数,那意味着有人就节省了,有人就赔了;有人这次节省了,下次可能就赔了。

 

在用户的体验过程中,很遗憾的事情是这样的,你给大家创造价值他就很开心,但是也很快可能会把你忘掉。给大家创造不愉快的体验的时候,大家会形成强烈的情绪反映在对你不利的媒体和各个角落里。这时怎么办?

 

我们有两种解决的办法,一种是我们看到很多的学者,很多的企业努力做的就是我提高预测精度,这是一个深坑,我个人是非常不看好的。但是,在这个领域里面,有不同的学者不同的看法,有些乐观的学者会认为,终于有一天我数据量非常大,计算能力超级强,以至于你的喜笑颜开我全可预测,这是一种看法。那你就照这个方向努力。可能有点信仰问题,我个人根本不相信这个。我相信诸行无常。我觉得,有预测的东西就一定有反预测的东西出现,所以,我们说这个事情,在给定X给定Y的情况下,给定时间和场景的情况下,能预测多准是有上界的。这个上界是天说了算的,不会通过任何的技术上的改变而有任何的改变,但不代表我就没有意义。

 

因为如果你胡蒙乱猜在这儿,我改善到这儿,改善的这个margin(范围)不大,但这是很可能可以通过技术手段改变的,那怎么办?

 

farecast(价格预测)给我们的最大的启发,是通过一个产品上的商业模式上的改变,让这个东西体现它怎么改变的。他说,“反正我预测不了特别准,那我们给你做一个保险产品,咱们对赌,你给我9块9毛9买一个保险,我再给你出一主意。你赚了自个儿留着,赔了我给你,我赔偿差价”。他就把这个margin(范围)从一个平均水平变成了一个每个人都可以体验到的东西。

 

所以,我自己的一个信念是什么?在数据产品商业化的这个过程中,我认为,我们要核心思考的事不是精度无限制地提高。我经常讲一个特别负能量的俗语,我说,预测不准是常态,预测准确是变态,一定是错了。我自己的职业生涯中从不失手,看到预测过准的东西,十有八九是错了。我们要思考的是,我们在预测不准,但是有改进的前提下,怎么样通过产品和商业模式上的创新,让更多的人能够体会到它的美好,这个事是努力的方向。

 

樊登:类似的案例我听过是,有一个人在路边喝咖啡,然后他就看到下雨了。下雨了以后就好多人在抱怨说,完了,今天这个生意又糟糕了。他说,这有意思。他就去研究下雨以后,到底对多少人的生意有影响。然后,竟然通过数据的分析和精算出了一款下雨险,让这些商家、个人买。你买了我这下雨险,如果下了雨赔给你,但如果没下雨我就赚钱了。这就是从一个数据慢慢地变成一个产品的过程。

 

王汉生:而且它最巧妙的地方是,它即使是预测下雨,我相信它再准也准不过中央电视台,它的资源有限。但是,它可以准到一定的程度,实现一个平均水平上的盈利,然后通过一个保险产品把这个东西实现掉。

 

樊登:它接受了不准确,把它量化成了一个数字,然后用一个产品来抵消它。

 

王汉生:没错,您说得特别对。所以,在数据这个模型的产品化的过程中,一定要注意一个问题,我们要认可和接受它的不准确。如果我们的产品设计是假设它超级准,那这一定是不可能的。

 

樊登:那现在我们老讲大数据,说大数据跟过去的统计最根本的区别就在于统计是抽样。我抽了100个样、抽了50个样。大数据不抽样,所有的数据都在这儿。所以,那不是准确度就应该是非常高了?

 

王汉生:樊老师,我得为我们学科说几句话,这是大家的一个误会。统计学关心的核心问题是对数据的分析、建模以及采集的整个流程。它没有在任何一个角度说要定义统计学关心的问题只是抽样,这是第一个问题。不是这样的。所以,大数据在我们看来,是统计学研究的一个自然而然的一个目标,而且事实上统计学对它贡献非常大。

 

第二个问题,至少在我目前的职业生涯中,从没有看到过一个场景说,大数据可以代替抽样的贡献。最典型的,特朗普竞选总统的时候,所有的大数据都认为希拉里会赢。但是他赢了,为什么?因为我们来自于——比方说,Facebook的意见可能不能代表一大批当年退伍老兵的意见。所以,任何情况下,我们看到腾讯的数据,那只是腾讯用户的数据,阿里的数据永远是阿里用户的数据。它能不能代表一个更广泛的群众,是不清楚的。

 

第三个问题,我一直认为越是大数据抽样越重要,第一个要抹平不必要的误差。第二个节省计算量。我们现在有一个误会,认为计算机很厉害了。计算量就不是问题了,其实不是的。我们看一下我们的CPU它改进的速度,每年它是线性增长一点点的。但是,我们的存储增长得非常快,那意味着我们变量的个数也是差不多是同样甚至更快的速度在增加。

 

增加的过程中,我们极少数有模型和算法,它的复杂度是线性的,也就是说我增加一倍,那么计算量要增加四倍,然后我数据增加十倍,我的计算复杂度要增加一百倍甚至更高。所以,越是到这个数据量大的时候,这种smart (智慧)的computation(计算)会越来越重要,而且大量的巧妙的计算是依赖于抽样的智慧的。

 

樊登:数据太大了以后,的确会造成特别大的资源浪费和包括环保问题。我听他们讲是哪个公司,就每年的电费就是好几千万美金,电费就这么多。所以,像您说的,如果用抽样的方法,能够有效地去提高它的效率的话,那这门学科也是会一直这样存在下去的。

 

还有一种,就是您也批评过这种大数据的误区,说大数据强调的是相关关系;然后我们过去做统计,我们是想找到因果关系。有的专家就讲以后相关关系最重要了,因果关系不重要了。这个您怎么看?

 

王汉生:这个可能樊老师刚才说的也不是非常准确。统计学关心的是数据分析问题,其中包括因果关系,也包括大量的相关关系,它都关心。而且事实上,能够建立因果关系的机会特别少。例如,我们经常能看到是在临床实验中。所以,事实上统计学研究的大量问题是相关关系,但是这不代表因果关系就不重要了。

 

事实上,我认为因果关系永远都是最重要的。比方说,大数据表明公鸡一叫,太阳就升起来了。把鸡杀光,太阳就不起来了吗?那这就是相关关系而已。这时候我们看到一个现象是什么?如果我的这个数据应用的场景,主要是为了做预测,我想预测什么时候太阳该起来了,这行。我看到鸡一叫太阳就起来了,这是预测。

 

那如果说,我们在实际应用中,我是想有动作,比方说,我想改变明天太阳升起的时间,你会发现这时候相关关系就怂了,杀鸡不管用。

 

我们再回到咱们樊登读书来,比方说,我们明年的一个重要的任务,要增加多少粉丝量,我们需要的是什么?我们需要的是动作。我到底应该做什么才会产生这样的增量?所以,这时是要因果关系。

 

但是因果关系极其奢侈,我们在非常少的条件能看到。所以,大量的数据分析,事实上我们是通过相关关系在尽量地把我们的注意力聚焦到一个很小的范围内。然后剩下的真的是用点主观的判断,觉得也就差不多了。

 

所以,这里面有点绕脑袋,一方面统计学研究了大量问题是相关关系,但是我们从不认为相关关系就能把因果关系给替代掉了。

 

樊登:那就像我说,这篇文案写得很好,今天的销量上升。这两个当中为什么不能够建立因果关系?因为文案写得好,所以它上升,有两种可能。一种是因为文案写得好,所以今天销量好;第二种,因为今天正好赶巧了,比方说,礼拜一,是一个特别好的销售的日子,所以它销量也好。

 

我们在分析过程中的思路是这样的,我们首先建立的相关关系,怀疑是因为这样的优秀的文案产生的结果。这是一个怀疑。那么,接下来怎么验证?接下来,我用同样的套路再写类似的文案,在不同的场景下都去测试,如果大量地被验证了,我会觉得确实由于是文案的原因。

 

樊登:这就是您说的,特别难以追求到的因果关系。

 

王汉生:非常艰难,这个问题不能想太深,想太深是哲学问题。

 

樊登:找到这些因果关系以后,就形成了一个企业的方法论,工具和动作,这就是数据思维的一个基本的架构。您在这本书里边有很大一章节在写回归分析。回归分析,我们上数学课的时候学过这个词,现在忘得差不多了,你给大家用通俗的语言讲讲什么叫回归分析?

 

王汉生:首先还是这个问题,每个人有不同的定义,那我说我的定义是什么。在我看来只要有Y和X的都叫回归分析。那有Y和X之后,我们一般在大学学习中,第一门线性回归分析课,会讲一个线性模型,那么现在的计算机技术更好以后,我们会有大量的非线性方法。其中包括非线性模型、非参数模型、机器学习、深度学习算法。在我脑袋里统统都算回归分析,这是一个技术的层面。这些我还不是最感兴趣的,我最感兴趣的还是刚才说的在道的层面去做回归分析,我把它认为是一种思想方法。它能够帮助我们把一个业务问题迅速地定义成一个数据可分析问题,从那个位置开始往后都是纯技术的。

 

樊登:我听您讲完这意思,就是我们反正也是听不懂,所以不需要我们懂。

 

王汉生:我觉得不需要。我是觉得我们是从数据到价值这个通路,它们有一节一节的。我们就前一节,可能是首先要理解业务和数据这种关系,把业务问题变成数据可分析问题,这一步是不可或缺的。

 

第二部分,就是比方说机器学习,各种各样的回归模型,还有深度学习的算法。它是从这里解决到下一节,这两节我觉得都很重要,哪一节都是不可或缺的。但是在市场上,我们看到对这节关注特别多,对这节关注特别少,而这节存在的问题体量非常大,这部分相对要少。

 

樊登:所以您写《数据思维》这书的目的就是为了提醒大家说,其实建立前期的这个思维是很重要的,后边那部分是专业人士干的。

 

王汉生:所以,这本书事实上就是两种人都可以尝试去看。一个是我想理解它整个的思维方式,那么不涉及到数据分析的计算,另外一部分人像我们自己,还有我们的学生研究生的团队。那么,后面技术这一部分,是每个案例后面是配着数据和代码的,所以他们也需要学后面。所以,我自己的看法里面,这两部分都很重要。

 

樊登:所以,看这本书的人,就是找能看懂的部分看就行了。看不懂的部分,交给北大的研究生们看就行。最后,给大家普及一下大数据的基本常识,因为很多人都老听大数据这个词,都觉得很有意思很神秘。比如说,谷歌一大堆数据放在那儿,说只要大家搜这个词多了,那感冒就来了。这种大数据跟老百姓有什么关系?

 

王汉生:这是一个特别好的问题,你说,我们天天都在谈大数据,里面充满了那么多好玩的故事,跟我们老百姓真正相关的特别少。所以,如果我们把老百姓也看作一个自然成长的个体,我们希望将来为自己、为社会创造价值的话,我觉得需要的是最朴素的一些数据价值观和它的这种方法论,那么这个价值观正好是《数据思维》里面想去强调的价值观。

 

我们对数据的理解,首先我们要理解分析的目的是什么,我们要先问这个问题。这个问题都不清楚可能就变成一个学校里的作业了,然后有了目的之后我们再问:我的业务分析的核心诉求中,Y是什么,X是什么,能不能梳理出来?那个变量带来的改变目标又是什么?那么,Y,我们把它叫作因变量,它是业务最核心的诉求。X是它相关的解释性的变量,我能不能梳理出来?如果能够梳理出来,然后我在这上面可以尝试一些最简单的分析。它能够带给我们一些什么样的价值?我们可以尝试慢慢地去做。

 

时间长了,你会发现生活中处处都是回归分析。我经常有时候跟我们同学开玩笑。我给大家看一个我的自己的银行电子账单。那是我在美国访问的时候——那时候访问了大概五六个月,有一个电子账单,上面的广告请我去万达看电影,去吃汉堡包。我经常开玩笑说:“我特别喜欢看电影,相当喜欢万达影院,但是太远了。我当时是在美国。”

 

我说,这里面就一个很标准的这个模型中,可能是个失败的回归分析。这个广告是电子版的,个性化广告推送过程中,它缺失了一个重要的X变量。就是我最近一次刷卡到service provider(服务商)位置之间的距离。如果有这种数据思维,回归分析的思想的话,你一开始加进去,可能发生这种场景的机会就会被避免。

 

樊登:也是为了提高整个社会的精度,让我们减少一些浪费和无谓的损失。那我是大致听懂了,就是数据思维有这么三个方面。我们需要首先找到可以量化的数据,然后找到我们需要去改变的因变量,然后看看它们俩之间X 和 Y是怎么发生关系的,接下来,我们后半段交给技术人员去帮我们做处理。

 

王汉生:后半段它可以建立一个模型,但最后我们要把它产品化 ,让它成为一个流程或者是一个算法也好,还是一个可体验的A P P也好,这个时候还是需要比较大的智慧的。

 

樊登:那这个现在讲明白了。那么,对于比如说我们会员里边好多正在创业的企业家,中小企业者刚刚创业,他们应该做些什么事,往这个方向前进?

 

王汉生:我觉得我们按照数据思维的基本的框架。如果我们正在创业,我们首先问第一个问题:我这个创业的方向,数据是不是能帮上你很大的忙,对你重不重要?

 

事实上,我们不能排除很多场景数据也许在可见的方面,帮不了太大的忙,那我们必须得承认,这种现象是存在的。也许我觉得就probably(可能)不用太操心了。那如果认为在我未来数据将成为自己的创业项目最核心的资产的话,还是涉及到我要对我自己的业务梳理得很清楚,把我的业务中的Y和X一定要梳理得非常清楚。在这个过程中我们要尽量地保证Y和X的非常高质量的供给,不至于被一家垄断。最好是自己能生产,长时间一积累才好。

 

这个听起来很抽象,我们看一个具体的例子还是车联网。车联网的数据关于这个司机而言,它能够非常了解这辆车的驾驶情况,但是它如果想成为一个优质的保险产品,它需要建立一个模型。什么模型?从车联网的数据能够预测你未来是否出险,出险是它的Y。这两个数据放在一起的时候,才可能变成一个完整的技术问题是后面的专家去做,如果这两个缺任何一个都是不可能的。

 

但是很遗憾的是,车联网数据是由车联网驾驶行为数据,一般而言,它没有出险的数据。出险数据是在保险公司那里。而我们的保险公司一般是非常强势的。

 

如果说,我们在这个方向上创业,作为老大的脑袋里要时时刻刻记住要拿到这个保险公司的Y,这个是战略问题,这不是个简单问题。所以,你在这个层面上有思考就好。

 

非常有意思的发现是,同样的这个问题从小汽车变成大卡车的时候故事全变了,为什么?大卡车都是物流企业,物流企业它自己知道哪辆车出没出险,所以同样的数据,不仅保险公司有,物流企业也有,而物流企业正好是你的合作伙伴,它有很好的配合的意愿把这数据给你,所以同样是一个数据创业的项目。

 

你会发现在某一个细分行业里,可能你有一部分的数据资源的获得是非常有挑战的,不是不可能,一定是极具挑战的,而另外一个方向上,可能是很容易获得的。那么,如果我们创业在这个过程中,要尽早地思考这个问题,不要走到那儿跟前才发现我们要拿的这个Y或者X,是动了人家的核心利益,那是不可能给你的,那个时候就太晚了。

 

樊登:像我们樊登读书会其实跑着特别多的数据,但是好像没有好好利用过。我们没有认真地去分析每一个用户的使用习惯,像我们这里边可采集的数据点有哪些?

 

王汉生:樊老师,我自己有一个看法,首先我们对数据的商业价值可能在大量的媒体上被放大了,我们还是要承认一个现实,我认为在大多数场景下,我们是看不到数据能产生特别了不起的效果,首先这是个非常谦卑的起点。

 

在这个基础上再说我们数据到底能产生什么价值。一般我的习惯是说,倒着我们的业务线去问,那我们今年的预算主要花在哪些方向上,肯定都是希望有产出的。比方说,我们是有多少的预算是花在了广告,或者某些销售投入上。那这个时候我的数据的采集点,就要围着广告和营销的手段这些点去采集。比方说,我在哪些地方组织了什么活动,它的参与的人是多少,地理位置是多少,它的人群是什么样的。在这样的这个过程中,把数据的采集点采集下来,所以,它的所有的采集点是围绕着我的业务线来执行的。

 

樊登:我觉得您这个态度特别好,就是作为一个统计学、研究数据的教授并没有把数据神话,并没有说大数据特别了不起,大家要紧张起来、要小心。你就坦然地承认有的数据它也挣不了钱。所以,给我们普及了数据思维的最基本的框架,我再给大家梳理一遍,看我说得对不对?

 

首先,是要知道所有能够被电子记录的东西才被称作是数据,然后通过它能够形成具体的动作产品化才能够创造价值。所谓的数据思维,就是了解从数据到价值之间的这个过程。然后把我们整个业务当中的因变量,就是你希望改变的那个Y找到,对它所影响的X都有哪些。把这些数据采集出来之后,我们交给专业人士去做回归分析,找到它们的相关关系。回归分析之后,就能够得出哪些东西的影响更大,哪些东西影响更小,之后形成一个具体的动作,就叫产品化的过程,从而创造价值。所以,真的得培养很多这方面的人才。

 

王汉生:因为写这本书的时候,也有一个背景。我经常被问到一个问题,说汉生老师,我们公司经常会碰到两个选择,有的朋友是说我们应该在公司里面做一个大数据部,一个专业的职能部门。有的朋友是说,“也许我们应该让数据分析师进入各个职能部门,到底是哪一种方式好”?我想了很久,有一天我明白了,我说不出哪种方式好,但我知道我们一个优秀的团队,尤其是数据成为重要资产的企业,数据思维应该是从上到下全部都得有。

 

因为如果说我们的销售,讲不清楚我们的数据产品之于别人的商业价值,无论是收入也好、支出也好、风险也好,那我怎么去售卖?在售卖过程中,我们的销售常常做的一个事情,就是过度承诺。过度承诺之后,因为自己不懂,回来之后,后面的人实现不了,两边就开始扯皮打架。

 

我们的产品经理有了数据思维会知道我怎么样让我的数据价值能够在一个图表和dashboard(商业智能仪表盘)上表达出来。我们的企业的老大要知道,就像您刚才问我那个问题,我们要让樊登读书做到更好,我的数据上战略性的动作是什么?别告诉我什么数据都要采集,那是有成本的,你应该告诉我说哪些环节上的数据可能之于我现在的核心业务,是最有价值的,我就采那些就行了。哪些是不足的,我要通过什么样的BD(商务拓展)的手段,形成战略性的合作能够获得的。所以,从上到下都需要这样的东西。当然,技术人员就更需要知道后面所有的技术方法,包括我们的程序代码可能都是需要的。

 

樊登:所以,这让我们知道数据思维不仅仅是创始人一个人的事,是公司从上到下所有人都应该具备的一种基础的素养。也许将来有一天,它会成为高中的一门课,让所有的这些中学生都能够有数据思维,能够知道用统计学的方法来更确切地了解这个世界。

 

王汉生:是的,也许不一定是一种课,课也是一种形式。另外一种形式就是润物细无声,可能是在各个的课程里面,大家都涉及到这些东西。

 

樊登:非常有可能,您的工作特别有意义,也感谢您给我们传递这么好的知识。感谢大家收看今天的作者光临,我们下周再见,谢谢。

来自樊登读书

 

发表评论

error: Content is protected !!