# 数据分析基础知识

要掌握数据分析，还是需要了解一些基本知识，包括一些统计与概率的基本知识。本节将介绍数据类型的基本概念，以及一些基本的统计概念。俗话说，一图胜千言，使用图表可以更好的说明数据和统计知识。实际上，数据可视化是数据分析的重要步骤。在 Python 中，可以使用 Matplotlib 等库来绘图，会在后续章节专门介绍 Matplotlib 等库的使用说明，但在前面章节也不得不用。故在前面章节先了解基本绘图即可，等专门学过Matplotlib 等库后，再回头看一下。

在 Python 数据分析的每个 notebook 文件中，通常都会导入如下常用模块：

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 数据的类型（data types）

数据分析的基础是数据，要成为一名优秀的数据分析工作人员，首先需要熟悉自己的数据。在百度百科定义中，数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。

数据千千万万，可以根据数据的类型与意义分为：
- 数值数据（Numerical data）
- 分类数据（Categorical data ）
- 有序数据（Ordinal data）
- 文本数据（text data）

### 数值数据

数值数据是最常见的数据类型。顾名思义，数值数据代表了包含可以测量，可以计数的数据。例如，一所学校学生的身高体重，一个单位人员工资，中国A股的股票价格等等。

根据数值数据的离散或连续性，可以分为：
- 离散数据（discrete data）；
- 连续数据（continuous data）。

离散数据是指其数值只能用自然数或整数单位计算的数据。例如学校里各班级人数，电商中各商品的销售件数等。

连续数据的数值是连续不断的，相邻两个数值可取无限个数值。例如动物的奔跑速度，一根绳子的长度等。

### 类别数据

类别数据是指反映事物类别的数据，是没有固有数字含义的数据。例如人类的性别，班级学生的编号，商品的颜色等。

类别数据是离散数据，但是类别数据的数值并没有特别的含义，只是对不同事物进行分类的方式。例如对学生进行编号，并不意味着编号1的学生要比其它编号的学生优秀。

对于分类只有两个取值的类别数据，称为二元分类数据，例如雇佣状态，婚否等。

### 有序数据

有序数据，是数字和类别数据的混合物。例如班级中学生成绩的排名，电影票房排名等。

### 文本数据

文本数据包括字符串类型，例如电子邮件、网页，对话等，或者多媒体信息（图片、声音、视频）。文本数据属于非结构化数据，同样有分析价值，但要提起文本数据中的信息，需要进行特殊的预处理。

## 描述性统计概念

- 平均数
- 中位数
- 众数
- 标准差
- 方差

### 平均数

平均数是统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。平均数是指在一组数据中所有数据之和再除以数据的个数。

$$
\bar{x} = \frac{x_0 + x_1 + \cdots + x_{n-1}}{N}
$$

例如统计调查不同年代家庭的子女数目，例如70后,80后,90后家庭的小孩数目：

In [None]:
children = [2, 2, 2, 1, 2, 0, 1, 1, 0]

In [None]:
# 子女数平均值
sum(children) / len(children)

In [None]:
def mean(xs):
    """求平均值"""
    return sum(xs) / len(xs)

In [None]:
mean(children)

### 中位数

中位数（Median），代表一个样本中的一个数值，其可将数值集合划分为相等的上下两部分。

首先要对一组数据进行排序，并以中间结果为准。按照顺序排列进行来了得到数据为,$x_0, x_1, \cdots, x_{n-1}$，如果N为奇数时，中位数是$x_{(N-1)/2}$ ；当N为偶数时，中位数是$\frac{x_{N/2-1} + x_{N/2}}{2}$ 。

In [None]:
sorted(children)

即中位数为1。

In [None]:
def median(xs):
    """求中位数"""
    xs = sorted(xs)
    N = len(xs)
    if N % 2 == 0:
        return (xs[N // 2 - 1] + xs[N // 2]) / 2
    else:
        return  xs[(N-1) // 2]

In [None]:
median(children)

### 异常值

通常情况下，中位数和平均值非常接近。但如果有一些异常值，例如有一个超生游击队家庭有100个孩子（文王百子），那么平均数就失真了。

In [None]:
tchildren = [2, 2, 2, 1, 2, 0, 1, 1, 0, 100]
print(mean(tchildren), median(tchildren))

可以看出由于有异常值，平均值完全失真，但是中位数受到异常值的影响要小得多。

### 众数

众数（mode）是一组数据中出现次数最多的数值。例如家庭子女数目统计结果中，2个子女出现的频次最多，所以众数是2。

In [None]:
import collections
def mode(xs):
    freqs = collections.Counter()
    for x in xs:
        freqs[x] += 1

    return freqs.most_common(1)[0]

In [None]:
element, number = mode(children)
element, number

### 方差

方差（variance）衡量随机变量或一组数据时离散程度的度量，是每个样本值与全体样本值的平均数之差的平方值的平均数。

$$
\sigma^2 = \frac{\sum{(\chi-\mu)^2}}{N}
$$

In [None]:
def variance(xs):
    """求方差"""
    avg = mean(xs)
    xvars = [(x - avg)**2 for x in xs]
    return sum(xvars) / len(xvars)

In [None]:
# 计算方差
variance(children)

可知家庭子女数目调查结果数据的方差，大约为0.617。

### 标准差

标准差（Standard Deviation） ，能反映一个数据集的离散程度。标准差$\sigma$是方差的算术平方根。

In [None]:
import math

def stdvar(xs):
    """求标准差"""
    return math.sqrt(variance(xs))

In [None]:
# 计算方差
stdvar(children)

可知家庭子女数目调查结果数据的标准差，大约为0.789

### 总体方差与样本方差

在实际工作，我们通常是从一个总体数据中进行抽样，得到一个样本数据。因此在计算方差时，存在总体方差与样本方差的区别。对于一个样本，其方差为：
$$
S^2 = \frac{\sum{(\chi-\mu)^2}}{N-1}
$$

因此，我们可以重新定义方差与标准差函数：

In [None]:
def variance(xs, ddof=0):
    """求方差"""
    avg = mean(xs)
    xvars = [(x - avg)**2 for x in xs]
    return sum(xvars) / (len(xvars) - ddof)

In [None]:
import math

def stdvar(xs, ddof=0):
    """求标准差"""
    return math.sqrt(variance(xs, ddof))

### 使用Numpy与Scipy包

实际上，在Numpy与Scipy包中，已经提供这些计算数据集的统计值函数：
- 平均数，`numpy.mean()`
- 中位数，`numpy.median()`
- 众数，`scipy.stats.mode()`
- 方差，`numpy.var()`
- 标准差，`numpy.std()`

下面调用这些函数再来计算以便家庭子女数目数据中的统计值：

In [None]:
from scipy import stats
print(np.mean(children), np.median(children))
print(stats.mode(children))
print('总体方差：', np.var(children), np.std(children))
print('样本方差：', np.var(children, ddof=1), np.std(children, ddof=1))

### 你被平均了吗

每次看到官方发布平均工资或收入的时候，总会有一种被平均的感觉。为什么会有这样的感觉呢？我们来仿真一个人们收入的样本数据。这里使用`numpy.random` 包中 `normal` 函数来创建一个年收入样本数据来。

In [None]:
incomes = np.random.normal(50000, 25000, 10000)

在`np.random.normal`函数中，传入了三个参数，分别表示数据期望值集中在50000左右，标准差为25000，总共创建10000个数据点。

然后计算出年收入的平均值、中值与标准差：

In [None]:
print(np.mean(incomes), np.median(incomes), np.std(incomes))

看起来平均值与中值还比较一致。然而现实是“冰冰”们的存在。这里，在年收入数据集中增加一个年收入值，900000000。大家没看错是9个亿。

In [None]:
incomes = np.append(incomes, [900000000])

然后再来计算年收入的平均值、中值与标准差：

In [None]:
print(np.mean(incomes), np.median(incomes), np.std(incomes))

没错，平均年收入到了14万，我们就这被平均了。不过中位数变化不大。也就是说，异常值对中位数改变并不大。如果怀疑数据中可能存在异常值的话，应该使用中位数。为什么在收入统计中用平均值而不用中位数，理由您懂得。

从上还可以看到，标准差$\sigma$大约是900万。如果年收入大于3倍$\sigma$，也就是年收入达到2700万，那么恭喜，您绝对是一个“异常”优秀的人。

从根本上来说，年收入与很多因素有关，肯定不是一个正态分布的随机数，平均数与中位数差异大也是正常的，但不要欺负我们不懂数据分析。

### 使用直方图来绘制年收入

直方图(Histogram)是一种统计报告图，由一系列高度不等的纵向条纹表示数据分布的情况。使用`Matplotlib`库可以轻松画出一个数据集的直方图来。大家不用担心，在后续章节会专门介绍Matplotlib。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

incomes = np.random.normal(50000, 25000, 10000)
plt.hist(incomes, 51)
plt.show()

如果把数据加入一个异常值来，再重新绘制直方图。

In [None]:
incomes = np.append(incomes, [900000000])
plt.hist(incomes, 50)
plt.show()

结果变得有些奇怪。这是因为由于有些异常大的数据，使得在大多数条状中没有数据。大部分数据都落在一个小的条状中。

## 概率密度函数和概率质量函数



### 正态分布


In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt

x = np.arange(-3, 3, 0.001)
incomes = np.random.normal(50000, 25000, 10000)
plt.hist(incomes, 51)
plt.show()
plt.plot(x, norm.pdf(x))


## 百分位数与矩



### 百分位数

统计学术语，如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为：一组n个观测值按数值大小排列。如，处于p%位置的值称第p百分位数。

#### 四分位数（Quartiles）

四分位数（Quartile），是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据。

四分位数有三个，分别表示如下：
- Q1，称为下四分位数，等于该样本中所有数值由小到大排列后第25%的数字。
- Q2，就是中位数，等于该样本中所有数值由小到大排列后第50%的数字。
- Q3，称为上四分位数，等于该样本中所有数值由小到大排列后第75%的数字。

Q3与Q1的差距又称四分位距（InterQuartile Range,IQR）。

### 矩（moment）

在数学和统计学中，矩（moment）是对变量分布和形态特点的一组度量。n阶矩被定义为一变量的n次方与其概率密度函数（Probability Distribution Function, PDF）之积的积分。

变量的
- 一阶矩就是平均值（mean）
- 二阶矩就是方差（variance）
- 三阶矩就是偏度（skewness）
- 四阶矩就是峰度（kurtosis）

## 协方差与相关

使用协方差和相关性来测量两个不同属性之间是否存在相关的方法

<img src="../images/age_salary.png" width="70%" >

- 协方差公式
$$\mathrm{COV}(X, Y) = \frac{\sum_{i=1}^n(X_i-\hat{X})(Y_i-\hat{Y})}{n-1}$$

- 相关系数公式
$$ r_{XY} = \frac{\mathrm{COV}(X,Y)}{\sigma_x\sigma_y}$$

> 相关系数为-1代表完全负相关，0表示无相关，1表示完全正相关。

In [None]:
import numpy as np

def de_mean(x):
    xmean = mean(x)
    return [xi - xmean for xi in x]

def covariance(x, y):
    n = len(x)
    return np.dot(de_mean(x), de_mean(y)) / (n-1)

def correlation(x, y):
    stddevx = stdvar(x)
    stddevy = stdvar(y)
    return covariance(x,y) / stddevx / stddevy  #In real life you'd check for divide by zero here

In [None]:
ages = np.random.normal(35.0, 10.0, 1000)
saleries = np.random.normal(50000, 10000, 1000)
capitals = ages * saleries
print('协方差: {}; 相关系数：{}'.format(covariance(ages, saleries), correlation(ages, saleries)))
print('协方差: {}; 相关系数：{}'.format(covariance(ages, capitals), correlation(ages, capitals)))

Numpy 则使用如下函数：
- `numpy.cov()`: 计算协方差的函数
- `numpy.corrcoef()`函数计算相关性