数据分析的魅力和坑

Warning: Invalid argument supplied for foreach() in /data/cxweb/www/gupowang.com/public/article/view.html on line 71

7年前

3970 1 0

【作者 | PPmoney】

【编辑 | 蒸糕】

前言

说实话，数据分析是人人都会的，只是没有把它提升到是一个分析的过程，在每个人的脑子里都有不同的思考的方式。所以今天讲“数据分析的魅力和坑”可能只是在各位原有的一些思维层面上，有一些不太注意的地方会变成坑，然后导致一些不太好的结果。今天主要把我遇到的坑和大家分享，以后在遇到同样的情况下，也可以避开那些坑的情况。我们先思考一个简单的逻辑题，让我们的思维更快速一点。

珠宝店被盗，警察问了4名嫌疑人，甲说“不是我做的”，乙说“是丁做的”，丙说“丁没有偷”，丁说“肯定是乙偷的，”4个人里一个人说一句话，谁偷的？

“甲偷的”。为什么是甲偷的？因为这里面有两个人说话是矛盾的，一个是“丁偷的，”一个是“丁没有偷”，两个里面肯定有一个是真的，因为只有一个人说真话，其他两个都是假话，所以甲说“不是我做的，”那就是他做的，就是这样。因为四个人里只有一个人说了真话，有两个人说了相反的一句话，那么其中有一个人肯定是真，有一个人肯定是假的。我不问这两个人谁说的真，谁说的假，另外两个人说的肯定是假，所以是甲做的。这就是逻辑上的关于矛盾的点，一定要关注。其实数据分析也是这样，当你看数的时候，首先看到的有矛盾的数。应该是甲大乙就大，但是现在甲大，乙小了，这两个之间出现了矛盾，就要去关注它。

下面，我们接着来说数据分析到底能做些什么。

第一、数据分析来源于生活，每个人在生活中都在解决数据分析的问题。

第二、数据在很多地方呈现的时候都会误导你，误导你的时候是基于什么？你自己如果有一定的准备你就会知道。

第三、职场发展的需要。

第一章：数据分析的作用——解决生活问题

大家先思考两个问题（如图一）。这两个问题相当经典，也是在数字思考中会出现的问题。只是说遇到的事不一样，但是思维方式是一样的。关于这两个问题，当时我们老师在学校里上课的时候给了我们五分钟的时间思考，当时最快完全答对只有学财务的同学。

（图一）

第一道题目，27元是三个人出的，服务员是他进的（账），所以这是两个东西。进（账）的还有谁？老板。所以出的是27元三个人，进账的是老板的25以及服务员2块，所以没有那个1块钱。

第二道题目，出的是他的50块，为什么只有50块？因为这50块是为了完成这一单交易，所以他所有的出就是这个50块。但是他有入的，就是这一笔生意所赚的利润，这个利润是4块，所以就是46，因为他打了八折。

当时我们很受启发的原因在于，可能我们把很多东西都想得复杂。但是分析的过程应该是把复杂的东西简单化，尽可能地用一到两个概念来解决它。所以我们说通过这些生活中的故事或者说发生这些大家经常讨论的东西，我们会得到三个点：

第一，聚焦在矛盾的地方上。如果两个数值，比如说注册到充值、充值到首投是一个流程性的过程，常态来说应该是漏斗流失这样的过程，如果中间出现了反向的，比如注册量少，充值量大，它就是出现了矛盾，那么就要去关注引起这个矛盾的原因。

第二，避免偷换概念。刚才说的那个一块钱去哪了？那个一块钱根本不存在，你去哪找那一块钱？其实概念已经被偷换了。

第三，要把复杂的过程想得简单一点。财务的同学当时就是考虑两个维度，一个是出，一个是入，所以他很快就能得出结果。而我们就会在过程中一而再再而三地反复地算，然后得不出正确的答案。

这就是我举的例子想要跟大家分享的点了。数据分析除了要思考，你可能还要得出结论，如何得出结论？刚才讲的是比较零散的点，我们现在用一个我们生活中实际发生的案例来跟大家过一下一般是怎么样的思维过程来形成完整的报告或者结论。

这道题目就叫“大姨妈与小表弟”。什么意思？过年的时候我回家，我大姨妈跑过来跟我妈聊天说我小表弟快要中考了，然后这次期末考得不太好。大概是这样的情况，她也很担心，说不知道要是考不起好的中学该怎么办。因为我在房间里，我也没听太清楚，但是我出来的时候就接了一个工作，就是我妈给我的。我妈说“快安慰安慰你大姨妈，帮帮你小表弟”。

对于我们来说，就等于是接了一个任务目标了，这个任务目标就是这两句话。这其实是两件事情，在场的同学会从哪些角度去考虑？当然你可以问问题，因为你大姨妈就坐那儿，你可以问她。她的目的也很清晰，她担心的是小表弟能不能考上好高中。接着就是你妈说让你安慰一下她、帮一下你的表弟。大家遇到那种情况，一般会问些什么或者说会从哪些角度来考虑这件事情？在这里，我给大家说一下我的思考方式。

首先，从趋势上进行分析。刚才也有同学谈到，包括环境、行业、竞争对手，就是说小表弟本身的学校排名是什么样的情况。如果他本身是在重点初中里的排名已经很高，你安慰大姨妈肯定首先就是说“这基本上上好一点的高中的问题不大，只是说我们要去哪一个”。好与更好，而不是说好与能不能上，这是两个概念。

另外，班级最近的氛围怎么样？是不是因为环境造成了小表弟这次考试可能没考好？另外就是小表弟近期的情况，是不是身体原因或者怎么样。

这些其实都是外围的情况，看完外围的情况就会多维分解一下小表弟自己的考试。比如说他的分数怎么样、有没有偏科、试卷结构怎么样、怎么样制订目标。比如说他有一科很强，其他的很弱，很弱是因为什么？比如说如果是语文很差，语文是哪一块差？

你这些可以辅助来判断。从安慰大姨妈到帮小表弟的过程应该是更深度地聚焦在到底该怎么样帮的点上，所以要更加往下细分。比如说语文卷面是阅读不好，阅读该怎么办？那就得往下分。

至于用户细分的考虑这一块其实只是一种运用，可能不是特别恰当，但是只是说有这种思维，你会去分析一下。比如说你刚才已经分析出假如小表弟是语文不太好，那么他们班上语文学习好的这些同学是有哪些特征或者他们是怎么样去学语文的。比如说大家都背诗词或者都在看一些报刊，甚至是不是有老师开小课？这些情况你有没有了解清楚或者说家长知不知道？这些都需要去了解。

另外，除了本来就学得好的，还有那种排名上升特别快的同学，这些同学是用了什么方法在这么短的时间内有提升？这个方法是不是小表弟也可以学？这个也可以观察。再下面，关于漏斗流失以及如何分析，按道理来说应该是一个路径，这里不应该这样讲。但是实际上可以把思路变化一下，而不是这样的竖向的固定流失，而有可能是横向的结构问题。我们就可以分析他试卷的以往错误率，是因为这次没考好考砸的，还是你本来这一科就一直不好？这也是需要去了解的。另外就是你错误的板块，到底是因为什么原因？是这次的原因还是历史的原因？这是需要提前了解的。

最后，要快速尝试一下。比如说有些同学排名上升很快的学习方法适不适用？你总要去试一下。

不仅仅是这些维度，还可能有更多的维度。当然因为数据分析是一种思维，思维是没办法拘禁的。无论你经过多少的思考，最后会有一个结论。这个结论一般会是什么样的结构？你已经问了大姨妈这么多问题，最后怎么样整体来回答她？

我们的目标一个是安慰，一个是帮小表弟。我们最终得出的是这样的结论。

首先安慰大姨妈。“大姨妈，你不要着急。从学校和班级的排名来看，小表弟怎么样”，因为首先要对这次小表弟的排名情况或者说考试情况作一个整体的判断，看看这个程度到底去到什么程度，是真的惨不忍睹还是还有得救？你总得给大家一个心理准备，是真的考不起要去花钱找关系，还是说补一补花点钱也能够让他自己努力得了，或者说其实也不要太在意，这次就只是一次小失误。你首先要对大的这次的情况作一个判断。老师对他怎么样是定性？他本身是个什么样的状况？接着就说这次没考好主要是因为什么，这是刚才我们说的哪一个东西影响到他。也就是说我们这次考试除了判断他的事态和程度，还要找到他这次情况的现状，并且分析是因为什么原因导致的。然后“小表弟在这个考点上一直怎么样，从以前的考试情况来看怎么样”，其实是对历史作一个总结。是一直就不怎么样还是说以前的考试还可以，这次不怎么样，要对历史作一个总结。接着就说“他班上的谁在这块学得挺好的，主要是因为怎么样，”那你就要看一下竞品在这一块上到底是怎么做的、有没有借鉴意义？最后就说“我们可以怎么样，下一次考试的目标就是怎么样”，你要对整体作一个建议，以及对目标进行管理。你也不能让大姨妈的期望值太高，要管理期望，不能直接说“高中没问题，考个一中二中什么的”，那也不行，也得让你小表弟喘口气。

整体的回答就会是这样的逻辑结构。你从接到一个标题或者你要分析的东西一直到它最后出结果，整个流程的辅助维度可能就是这些，其实还会有更多的维度来辅助。其实数据分析在生活中是很常见的，大家也都经常使用它。

第二章：数据分析的作用——降低被误概率

除了刚才那些问题可能时不时会发生，但是更多出现的是一些容易被误导的数据。我没有说被骗是因为它也不能叫做骗，只是它误导了你，而你选择了相信。我们经常在一些报刊杂志上看到很多数据就开始传播，我也希望这次听完这些之后，如果不是特别确定的还是不要传播，容易引起恐慌。

如图二，我们来看这些报刊杂志上是怎么样描述这些数据的。首先是“情感专刊的专家通过读者的反馈研究发现，有80%的家庭表示后悔要小孩”。“人们一般认为平均23度感觉舒适”。“当今交通危险日益增长，据不完全统计，现在因为飞机事故丧生的人数是20年前的15倍”。“北京2012年离婚率是39%，有点不敢结婚。居全国之首，预计到2017年将超过50%。”“甲同学期末五科总分450分，乙同学期末五科总分460分，乙同学比甲同学优秀”。接下来这个是最常见的，“2015年，全国32个主要城市平均薪酬为6070元”。最后是参军海报上写的，“美国海军的死亡率为千分之九，而同期的纽约死亡率为千分之十六。所以参军更安全，鼓励大家参军”。这些都是摘自一些报刊杂志上或者说平时经常会出现的一些东西。至于为什么感觉不是骗了你，而是你被它误导？我们讲完这一章之后来回答，大家也可以想一下，大部分可能已经知道在哪有有不对了。

（图二）

我们已经发现了很多生活中出现的“骗”或者说被误导的东西，我们为什么还要统计。哈佛的统计学院的创始人莫斯特勒说过“要用统计很容易，但是不用统计骗人就更容易了”。

什么叫做数据分析？数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。里面包含两个关键信息：第一，有用信息。第二，形成结论。

第一，有用信息。对于数据来说什么是有用信息？主要是三个方面的东西：1、数值。2、比率。3、图形。它还会有很多种，但是我们经常接触到的东西比较多的会是这三种类型。

1、数值

大家平时接触得非常多，算术平均数、众数、中位数，平均数大家知道了，众数就是一个数组里出现得最多次数的那个数，中位数就是它的位置处于那一组数据的中间位置的数字。这三个数里面，只有众数是真数，它是不会改变数本身的任何特性的。中位数是半假数，因为当数组出现偶数的时候，它是需要计算的。只要是你需要第二次计算的，就会出现人为操作上的或者是任何形式上的失误，所以中位数叫半假数。而算术平均数实际上就是一个假数，因为它需要你进行二次计算，而且在计算的过程中会经常出现不可意料的坑。

看图三，三月份投资人数10个，投资总金额1万，平均客单价1000。到了四月份，投资人数涨了，投资金额翻一番，平均客单价是10倍。如果你是做数据分析的，一看到这个数第一时间估计就兴奋得崩溃了，真的要这样往上报吗？

（图三）

它上面写的是平均客单价，当提到“平均”这两个字的时候，需要去看一下数本身的情况，也就是说里面有没有异常值。如果说你追回去，最后发现四月份虽然来了20个投资人，投资金额这么大，结果其中一个投资人自己就投了15万。你再一算，平均客单才2500。结果你把这个报上去，老板跟你说“10倍的增长不错，下个月做平均客单12000吧”，你就把自己坑上了，结果实际才2500，也许整个部门都被你坑上了。

如果真的出现了这样的数要往回追溯，我们说有坑就要埋，怎么样来埋这个坑？首先你要看整个数组里有没有异常值，有异常值是不能用平均值的，必须把异常值剔除掉再来看。

其次，按道理来说数组里应该是看方差，但是实际工作中我不建议引入更多的数据概念。因为能够得出结论并不是说你用的工具越复杂、越高端越好，而是越能快速、精准地定位到问题并得出结论越好。所以我会建议直接用最大、最小值以及中位数就能看出是否异常，这样比算方差或者再去理解的标准差的概念更方便，所以我会建议直接用大家都理解的东西去得出结论。

2、比率

大家用百分比的更多，可能比看绝对值看得更多。大家都会说“环比是什么情况，同比是什么情况”。我们先对同比和环比作一个概念上的区分。同比是指相同时间点进行比较，比如说2015年3月和2016年3月。环比就是时间点的比较，比如说2015年3月和2015年4月是一个前后沿的关系。并不是说比例就是我这个月的比上个月的，这就是值，没什么坑好出现。但是不然，还是有的。我们再来挖一个坑。

看图四，这是模拟的投资金额数。这是2015年2月1日到7日，以及2016年2月1日到7日的投资金额分布情况。老板看了这个数，他就看着你，你就看着图。如果是这样的情况，既然有坑，我们就应该把坑埋了。特殊日期节点是不能单纯从绝对日期上进行比对的，最好是以特殊日期本身作为对比的基准。比如说“春节前一周的投资金额的比对”，在这个时候尤其要区分周六和周日的情况，在你看波动性的时候有没有周期性波动。周六、周日属于周期性波动，而这种是属于特殊日期的节点性波动，所以这两个在看图和做图的时候都要很小心，一不小心就把自己坑了。

（图四）

3、图

这些大家都非常清楚，平时也用得比较多，包括柱形、饼图、折线和条形图。这些图形有很多是以组合图的形式出现，这里只需要区分一点就是柱形图和条形图用得比较混，可能条形图主要是区分类别，而柱形图更偏向于区分时段。所以条形图有一个很大的特征在于它的任何轴之间是可以变换位置的，而柱形图一般不太可以。图形其实很容易误导，因为人在第一时间看的时候是很容易受图形影响的，我们就来看看图的坑在哪？如图五，如果单纯从图上看大家可以得出什么结论？

（图五）

先看上半部分，其实只是因为它的数标轴不一样，所以在看图的时候，尤其是两个月的图形进行比对的时候，先看的是大情况，基准线很重要。一个是0起点，一个是400起点，那么400起点的波动看上去肯定会更大。

再看下半部分，看起来感觉增长都是一样的，但是这个会看得比较清楚一点。其实这两个表达的是同一个意思，因为一个是增量，一个是基础量，这个是两周期之间的差值，但是看上去一个增长明显，一个增长缓慢。这并不是坑，而是说你该如何从图形上表述你的观点以及该用什么样的图形来表达这个事情是怎么样一个情况和趋势。

刚才已经说了有用的信息是数，三种数——真数，半假数和假数，我现在问一下还记得假数是哪个数吗？平均数，平均数必须要考虑什么？考虑异常值。

接下来我们会形成结论，对刚才的信息进行判断之后，我们要形成结论用什么样的方法？会说到四种方法：1、对比。2、拆分。3、增维和减维。4、假设。

在这里，只会讲一下对比和拆分，为什么？因为增维和减维是在你实际需要的过程中主要为了辅助你判断使用的，而假设是你需要根据你得出的结果或者说你得不出结果的时候去进行一次假设，这个相对而言是比较抽象的，而对比和拆分就是我们平时使用得最多的两种方法。

1、对比

对比的定义不需要过多解释，因为在座的同学应该对于对比都比较清楚，平时也经常使用，但是我在这里强调需要关注的四个点：

（1）对比的对象要一致。什么意思？就是两个值之间进行比对的时候，它基本对象是一致的。这个可以回忆一下刚才我们看的报刊杂志里有些会误导你的其实就是因为它的比对对象不一致造成的。

（2）时间属性要一致。比如说有两家企业，一家企业跟你说“我的离职率是12%。”你大概心里有数，然后问到下一家企业的时候，他说“你不要去那个，那个12%不行，我这边很稳定，我才4%。”然后你说“不错，那就去他那吧”。结果回头一问，一个是年度的，一个是月度的，这坑就大了。所以你在时间属性上一定要问清楚是否一致，当然刚才那个数只是打个比方，月度和年度不可能差那么小。

（3）定义和计算方式一致。这就真的要非常注意，我在以前遇到过，当时是做一个报告，要定位的人群是青年人。世界卫生组织定义青年人的时间是从14岁到44岁。国家统计局定义青年人为15岁到34岁。所以再一次强调，定义很重要。你说的青年人跟我说的青年人压根就不是同一波人，所以在这块上，定义非常重要。

（4）数据源要一致。这与刚才的定义是一样的，你从国家统计局拿数，我从世界卫生组织拿数，也许我们俩的数永远都对不上。所以你的数也是对的数，我的数也是对的数，我们俩的数就是对不上的数。所以这就是数据源的问题，一定要很清晰。

2、拆分

拆分是用来快速定位为有问题的字段的，比如说成交额出现了异常波动，你就要把成交额这个字段进行拆分，拆成成交用户×客单价。成交用户又被拆分成访问数以及转化率。A有问题了，B有没有问题？B和C哪个有问题？B下面的D和E哪个有问题？拆分是为了最快地找到出现异常问题的那个数，也可以用排除法从下到上排。就是说哪一个出现了问题就可以快速地解决它，拆分是最大程度地快速定位到需要解决的那一个模块上，它是一个联动的过程，每一个数值的变化后面可能是有原因的，这个原因是什么就能快速地找到。所以这是平时就要建立的一个逻辑问题，这边也是单独拿出来跟大家讲，拆分这个东西真的非常重要，这个功课平时就要做，出现的时候才能够找到是哪块出现问题，而不是一到出现问题的时候再去找。

这就是我们先前看到的那些报刊杂志里的问题，我们再来回溯一下到底这些数值误导了我们什么。

1、有80%的家庭表示后悔要小孩。这就是刚才我说的你的统计对象必须要一致，为什么不一致？你得出的这个结论是情感专刊的专家通过读者的反馈，比如说平时喜欢看一些情感专家的情感多少都有点问题，那么他有80%的家庭表示后悔要小孩似乎也能接受了，因为一般是谁有问题谁吐槽。

2、这还是一个平均值的问题，更确切的表述应该是“体感”吧，23度感觉会舒适，而不是平均，因为你脚踩火盆头顶冰同样也是平均23度，但是那样会非常不舒服。所以“平均”这个词的使用是要很小心的。

3、现在飞机丧生的人数是20年前的15倍，貌似很吓人，但是它对比的是绝对值。从时间属性上来说，20年前才多少人坐飞机？才有几辆飞机对吧？其实这就是要考虑时间的问题，如果是这样的表述，应该是百分比，是说当年的坐飞机人数和丧生的人数和与现在坐飞机的人数和丧生的人数的比，而不是用绝对值去直接比。

4、关于离婚率的问题。北京2010年的离婚率是39%，预计到2012年要超过50%。现在超了吗？我也没关注。反正这个数当时辟谣了几个月，最后得出的是统计方法上的问题。按结婚的跟离婚的比率就是39%。可能更科学的算法就是离婚的占总人口的，因为他是算离婚率，所以离婚率应该是按人口数来算的。

5、甲同学期末五科的总分是450分，乙同学期末五科的总分是460分，得出乙同学比甲同学优秀。这其实是定义问题，就是优秀怎么判断的问题。优秀是指分数这句话可能问题不大，但是比如说中间有一个是特长生，他在他特长的那一块，你也可以说他优秀。这就是关于优秀的定义不一样。

6、平均薪酬不用说，出来的时候大家每年都吐槽，都是被马云爸爸坑了，都是“被平均”的那个。

7、关于海军死亡率的问题就是刚刚提到的关于统计对象的问题，海军的死亡率虽然是千分之九，但是死的都是身体健康青壮年。而同期纽约死亡率虽然为千分之十六，它有可能是因为交通事故、病、老等各种原因。本身的统计对象都不一样，所以你要得出“参军更安全”的结论本身就是误导，所以大家都不会相信。

第三章：数据分析的作用——职场发展需要

当然，也不是说数据分析那么神乎其神，而是如果有这样的数据分析的思维方式，会使工作更加便捷，就像得出结论或者说反馈一些信息的时候不至于误导别人或者说被别人误导。相对于职场发展的需要，前面两块几乎都是一个基础，因为不能说数据分析是一个工具，而只能说是一种能力，这种能力需要经常去培养。我讲到职场发展的需要是在中间单独拎出一块来说，平时大家也遇到比较多的就是关于怎样提数据需求。因为很多同学不会直接接触到数据库，可能会提很多需求给提数据的那个人，中间会产生很多沟通成本，可能得出的结论也不是自己需要的。其实提数据的需求就是从Word转成Excel的过程。

接下来我们说几个点，不说完全能覆盖，但是这几个点平时忽视得比较多，需要关注。就是Word的这句话如何拆分、如何定义、目的是什么、限制条件是什么，很多同学会问“目的难道不是应该排在数据分析得第一位吗？没有目的怎么提数”但是有时候你想分析一个东西的时候，你是模糊的，你是不太知道你到底是为了干嘛，但是我就想知道，很多人会有这样的想法。你在拆分和定义这句话的时候，你的目的会越来越清晰，所以我才把你最核心的目的放在第三块，那么到了第三块的时候，对于为什么要提这个数，你已经非常清晰了。

举个简单的例子，这是一个初步的想法，他就说“我想知道近期有短标投资行为的用户的复投行为”。可能就是很简单，就是说我想知道这个东西。然后我们对它进行拆分，它的核心字段是定语后面的主语，他就是想看复投行为。它的定语是什么样的复投行为？是近期的、买过短期的、有过投资行为的用户的复投行为。那么就是把这样一个Word的文字表达变成了字段的形式，这是第一步拆分。

然后我们要定义它。什么叫做复投？

（1）复投是指单笔到期之后再投还是说这个用户第二次再投资了？这是要区分的。

（2）“复投”、“行为”是核心，行为是指质还是量？我要的是复投的金额占比还是复投的次数？你到底是要分析什么？这个投资的行为到底是什么行为？

然后再是近期，近期是一个月、三个月还是半年？如果说你是单笔到期复投之后，你的近期就要和它的投资标的相关。如果近一个月，你要说单笔到期再复投根本就不会有数。所以这需要考虑清楚。

然后就是短标。短标是15天还是30天的？你是怎么界定它的？这个标包不包括新手标？

然后就是投资行为。因为你上面说的是近期有短标投资行为，是首次投资短标行为还是只要近期有过投资的行为？

最后就是用户。用户好像也很容易界定，它是首投用户还是复投用户？当然复投用户在这里应该是不存在，但是你还是要对用户本身进行界定，因为它要对象清晰。

只有你自己把这些都理清楚了之后，你就知道你的目的是什么、你会得出什么结论，当你把你的这句话拆成这样的核心内容以及定义完之后，你就会知道你这个数提出来会得到什么结论，那么你就知道你的目的是什么。像很多时候提数之前我会问“你要什么数你想清楚了没有？”其实这就是想清楚的过程。

至于限制条件就是有些条件需要特别清晰，比如说短标包不包括新手标，这是作为限制条件。如果你要的复投行为只是说他有没有过，那么限制条件只要判断他是否有复投行为，而不需要提到他复投了多少次、多少钱。

所以在提数据需求的时候，我当时有几个建议：不是非常必要的字段越少越好。因为一个人能分析的字段是有限的，不可能一个人覆盖到七、八个或者九、十个词，这样两两关联会很难判断，因为中间的因素太多了，最好就是两到三个词，能聚焦到核心内容。

其实这些就是实际工作中可能会涉及到的一些内容，今天总共作了三个方面的分享：

第一、数据分析在生活中的一些情况。