# 数据和统计资料

## 1.1 为什么学习统计学

哪来这么多问题，学就完事了！

你真要问的话，我只能说，为了 ~~**修身**，**齐家**，**治国**，**平天下**~~。（误）

可以**挣钱**。

## 1.2 数据

In [1]:
import pandas as pd
data = pd.read_csv('Data/Mall_Customers.csv')
data.head(5)

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


这是一个从<a href="https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python" >Kaggle</a>上下载的关于商场顾客的简单数据集。可以看到，在这个数据集中共有五列，分别代表了顾客ID，性别，年龄，年收入以及消费评分。在这里，每一行就代表了一个顾客的信息，例如，第一行
<table>
   <tr>
      <td>1</td>
      <td>Male</td>
      <td>19</td>
      <td>15</td>
      <td>39</td>
   </tr>
</table>是一个ID为1，性别为男性，年龄19岁，年收入15 k$，消费评分为39的记录。这样的数据集中的某一个数据就被称为个体，也叫记录，点，样本，观测等。每列都代表了这些记录的某一个属性，例如，第一个记录的性别属性为男性，年龄属性为19岁。

接下来我们仔细观察一下这些数据。在这里我们会发现不同的属性的值有一些差别，例如，在这里客户ID是个唯一的整数值，性别属性只有男性和女性两种取值，年龄是很多的整数值，年收入尽管在这里是一些简单的以千美元作为单位的整数值，但是我们知道，实际中的收入可能是精确到角的数值，最后的评分是1-100之间的整数。在我们之后的处理中，不同的属性类型有不同的处理方式，因此我们有必要区分一下这些属性。

我们将属性分为以下四类：
* **标称**：仅仅用来区分不同的事务，例如这里的顾客ID，邮政编码，学号等，这样的属性只有相等和不相等的运算。
* **序数**：能够提供足够的信息的比较顺序，例如评价某事物用“一般”、“好”、“非常好”，这样的属性可以做大小比较的运算。
* **区间**：定量化的比较，例如温度，这样的属性可以用来做加减运算。
* **比率**：差值和比率也有意义，例如收入数据，可以做乘除运算。

## 1.3 数据来源

数据的来源是多种多样的，小到你今天的花钱情况，大到国家统计年鉴，都会产生海量的数据。在这个教程中所使用的公共数据，如果能直接从网站下载，都会以链接的方式呈现出来，读者可以自行点击下载。
    
在这里提供部分数据源链接以供参考。

* [**Kaggle**](https://www.kaggle.com/)是一个数据科学网站，在这里会提供数据竞赛，也有很多供用户学习下载的数据集。
* [**UCI机器学习库**](http://archive.ics.uci.edu/ml/index.php)提供了很多经典的数据集，如[鸢尾花数据集](http://archive.ics.uci.edu/ml/datasets/Iris)，[红酒品质数据集](http://archive.ics.uci.edu/ml/datasets/Wine)，[心脏病数据集](http://archive.ics.uci.edu/ml/datasets/Heart+Disease)等。
* [**世界银行公开数据**](https://data.worldbank.org/)涵盖世界各地的金融、服务指标等数据。
* [**Gapminder**](https://www.gapminder.org/data/)

多下载数据，多分析，实践会让你的学习倍儿有成就感，实践一时爽，一直实践一直爽。

## 1.4 描述统计

如果数据只是躺在表格里，无论它包含着多么神奇的规律，即使它蕴含着找到对象的秘密，你也会对此视而不见，所以我们要探索数据，用表格、图形或者数值汇总的统计方法处理数据，这就是描述统计。

举个例子，我们尝试描述刚刚的商场顾客信息。

In [2]:
counts_sex = data['Gender'].value_counts()  ###各个性别的人数
display(counts_sex)
print(
    '女性人数比男性人数多出%d人，占男性人数的%.2f' %
    (counts_sex['Female'] - counts_sex['Male'],
     (counts_sex['Female'] - counts_sex['Male']) / counts_sex['Male'] * 100),
    '%')

Female    112
Male       88
Name: Gender, dtype: int64

女性人数比男性人数多出24人，占男性人数的27.27 %


可以看到，在这个商场顾客信息中，女性顾客要比男性顾客多24人，比男性多出27.2%。

接下来我们再用图的形式，描述一下各个消费评分的顾客数目，以查看消费评分的分布。

In [3]:
count_score = data['Spending Score (1-100)'].value_counts().sort_index()
from pyecharts import options as opts
from pyecharts.charts import Bar

c = (Bar().add_xaxis(list(count_score.index)).add_yaxis(
    '各个消费评分的顾客人数', list(count_score)).set_global_opts(
        title_opts=opts.TitleOpts(title="顾客消费评分分布"),
        datazoom_opts=[opts.DataZoomOpts(type_='inside'),
                       opts.DataZoomOpts()]))
c.render_notebook()

## 1.5 统计推断

现实中，因为种种原因，如时间，成本等因素，我们往往不能获得总体的数据，只能通过样本，也就是总体的一个子集，的统计值来对整体进行推断。

例如，我们上述统计描述“样本中女性人数多于男性”，来进行统计推断，该商场的顾客总体女性人数多于男性。

## 1.6 逻辑分析方法

有了数据，我们需要利用我们拿到的数据以做出更好的决策，这一科学过程就被称为逻辑分析方法。

* **描述性分析** 描述过去发生的事情。例如，你高考考了多少分，各个科目的得分率分别是多少，每一科在全校学生中是第几名等等一系列扎心的数据。
* **预测性分析** 对过去数据建模以预测未来或者评估一个变量对另一个变量的影响。对于预测未来，例如，放假之后的前十天，你的体重每天涨了0.2千克，那么按照这种趋势，未来的十天，你的体重将再增加2千克；对于评价变量的影响，例如，上学之后，你经常溜出去吃夜宵，经常喝奶茶，偶尔吃薯片，时不时来个甜筒，评估其中的任何一个变量对于你体重增加的影响，也是一种预测性分析。
* **规范性分析** 在约束条件下产生一个最佳最佳行动计划。例如，你双十一剁手了， 只剩了四百块了度过剩下的19天了，你需要在这个约束条件下拿出一个活下去的花钱策略。

## 1.7 大数据和数据挖掘

数据是无时无刻不在产生的，尤其是进入到信息时代之后，海量信息在各种各样的场景中产生，网页浏览数据，社交动态数据，出行数据，DNA密码子数据，更多、更复杂的数据集就被称为大数据。大数据因其数量巨大，种类多样而不能以传统的方式进行分析，故发展出各种工具，如Hadoop，Spark等进行分析。

数据挖掘是一种从数据中自动挖掘出有用信息的技术。例如，运用关联分析技术，挖掘出超市部分商品的购买联系，即某些商品往往会关联购买，买了泡面之后不来一根火腿怎么对得起生活呢，挖掘出这种联系之后就可以进行捆绑销售。

## 1.8 计算机和统计分析

不学计算机难道用手算？

统计分析的软件和语言：

[SPSS](https://www.ibm.com/analytics/spss-statistics-software),

[SAS](https://www.sas.com/zh_cn/home.html),

[Excel](https://www.microsoftstore.com.cn/c/office),

[Python](https://www.python.org/),

[R语言](https://www.r-project.org/),

[Tableau](https://www.tableau.com/)


## 1.9 统计实践中的道德准则

* **真实**  统计千万条，真实第一条。无论数据分析的结果是什么，结果满意与否，是否符合预期，一定如实处理。

* **漂亮** 统计不是枯燥无味的，最能体现统计的丰富多彩的部分就是可视化部分，可视化就是统计分析的脸面，人脸是天生的，但可视化是可以尽善尽美的。