# 常见统计分析
一般在数据分析的过程中，拿到数据不会去直接去建模，而是先做描述性分析来对数据有一个大致的把握，很多后续的建模方向也是通过描述性分析来进一步决定的。那么除了在Excel/R中可以去做描述性分析。

python进行描述性分析的定量主要包括:
- 均值
- 中位数
- 方差
- 标准差
- 偏度
- 百分位数
- 相关性

## 涉及到的python库
**statistics**是用于描述性统计信息的内置Python库。如果您的数据集不是太大，或者您不能依赖于导入其他库，则可以使用它。

**numpy**是用于数字计算的第三方库，已针对使用一维和多维数组进行了优化。它的主要类型是称为的数组类型ndarray。该库包含许多用于统计分析的方法。

**scipy**是基于NumPy的用于科学计算的第三方库。与NumPy相比，它提供了其他功能，包括scipy.stats统计分析。

**pandas**是基于NumPy的用于数值计算的第三方库。它擅长处理带有Series对象的带标签的一维（1D）数据和带有对象的二维（2D）数据DataFrame。

**Matplotlib**是用于数据可视化的第三方库。通常会与NumPy，SciPy和Pandas结合使用

#### 导入所需的包

In [4]:
import math
import statistics
import numpy as np
import scipy.stats
import pandas as pd

#### 创建数据

In [5]:
x = [8.0,1,2.5,4,28.0]
x_with_nan = [8.0,1,2.5,math.nan,4,28.0]

In [6]:
x

[8.0, 1, 2.5, 4, 28.0]

In [7]:
x_with_nan

[8.0, 1, 2.5, nan, 4, 28.0]

x和x_with_nan都是list。不同之处在于x_with_nan包含一个nan值。也就是空值(缺失值)，这样的数据在分析中十分常见。那么在python里，创建一个nan值可以有以下方法
```python
float('nan')
math.nan
np.nan
```
这三种方法创建的空值都是等价的

使用numpy和pandas来创建两个一维numpy arrays和pandas series

In [8]:
y,y_with_nan = np.array(x),np.array(x_with_nan)
z,z_with_nan = pd.Series(x),pd.Series(x_with_nan)

In [9]:
y

array([ 8. ,  1. ,  2.5,  4. , 28. ])

In [10]:
y_with_nan

array([ 8. ,  1. ,  2.5,  nan,  4. , 28. ])

In [11]:
z

0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64

In [12]:
z_with_nan

0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64

## 均值
R里面直接mean()就可以，而在python，不导入包，怎么计算?

In [13]:
mean_ = sum(x)/len(x)
print(mean_)

8.7


也可以用python的内置统计功能

In [14]:
statistics.mean(x)

8.7

但是如果数据中包含nan，那么将返回nan。

In [15]:
mean_ = statistics.mean(x_with_nan)
print(mean_)

nan


使用numpy：

In [16]:
mean_ = np.mean(y)
mean_

8.7

在上面的示例中，mean()是一个函数，但是您也可以使用相应的方法:

In [17]:
mean_ = y.mean()
mean_

8.7

如果包含nan，numpy也会返回nan，那么要是想忽略nan，可以使用np.nanmean()

In [18]:
print(np.mean(y_with_nan))
print(np.nanmean(y_with_nan))

nan
8.7


pandas也有对应方法,但是，默认情况下，.mean()在Pandas中忽略nan值：

In [23]:
z.mean()

8.7

In [22]:
z_with_nan.mean()

8.7

## 中位数
比较平均值和中位数，这是检测数据中异常值和不对称性的一种方法。平均值还是中位数对您更有用，取决于特定问题的背景。而不使用包的计算方法：

In [24]:
n = len(x)
if n % 2:
    median_ = sorted(x)[round(0.5*(n-1))]
else:
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index-1] + x_ord[index])
median_

4

使用模块方法

In [25]:
median_ = np.median(y)
median_

4.0

In [26]:
np.nanmedian(y_with_nan)

4.0

## 方差
方差的意义也不过多说明，在Excel中直接用stdev函数。用python不导入包怎么计算方差？

In [None]:
## 课间作业


当然更简单的方法是直接使用函数,不过有nan还是会返回nan。

In [28]:
var_ = statistics.variance(x)
var_

123.2

In [30]:
statistics.variance(x_with_nan)

nan

使用numpy里面就更简单了，可以使用np.var()或者.var()

In [31]:
var_ = np.var(y,ddof=1)
var_

123.19999999999999

In [32]:
var_ = y.var(ddof=1)
var_

123.19999999999999

这里ddof就是自由度要设置为1才是无偏的。也就是分母用n-1替换n。如果有nan怎么办？返回nan，但是可以用np.nanvar()跳过nan，不过ddof依旧要设置为1。

In [33]:
np.var(y_with_nan,ddof=1)

nan

In [34]:
y_with_nan.var(ddof=1)

nan

In [35]:
np.nanvar(y_with_nan, ddof=1)

123.19999999999999

In [None]:
# answer
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_
123.19999999999999

## 标准差
有了方差，标准差就很好计算了

In [36]:
#直接计算
std_ = var_ ** 0.5
std_

11.099549540409285

In [37]:
#使用内置包
std_ = statistics.stdev(x)
std_

11.099549540409287

numpy中也很好计算

In [38]:
np.std(y, ddof=1)

11.099549540409285

In [39]:
y.std(ddof=1)

11.099549540409285

In [40]:
np.std(y_with_nan, ddof=1)

nan

In [41]:
y_with_nan.std(ddof=1)

nan

In [42]:
np.nanstd(y_with_nan, ddof=1) #跳过nan，ddof还是要是1哦

11.099549540409285

## 相关性
相关行的统计学意义也不在过多说明，但是要注意，**相关性只是能从数据上判断是否有关系，不能够说明因果关系！！！**

度量相关性主要使用协方差和相关性系数：

那么我们先重新创建数据：

In [43]:
x = list(range(-10, 11))
y = [0, 2, 2, 2, 2, 3, 3, 6, 7, 4, 7, 6, 6, 9, 4, 5, 5, 10, 11, 12, 14]
x_, y_ = np.array(x), np.array(y)
x__, y__ = pd.Series(x_), pd.Series(y_)

计算协方差

In [44]:
n = len(x)
mean_x, mean_y = sum(x) / n, sum(y) / n
cov_xy = (sum((x[k] - mean_x) * (y[k] - mean_y) for k in range(n))/ (n - 1))
cov_xy

19.95

numpy和pandas都有可以返回协方差矩阵函数cov()

In [45]:
# numpy
cov_matrix = np.cov(x_, y_)
cov_matrix

array([[38.5       , 19.95      ],
       [19.95      , 13.91428571]])

In [46]:
# pandas
cov_xy = x__.cov(y__)
cov_xy

19.95

In [47]:
cov_xy = y__.cov(x__)
cov_xy

19.95

计算相关系数

我们这里说的均是pearson相关系数。Pearson相关系数（Pearson CorrelationCoefficient）是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。计算公式为𝑟=𝑠ˣʸ/（𝑠ˣ𝑠ʸ）在python里面直接计算需要先计算均值和标准差。

In [49]:
var_x = sum((item - mean_x)**2 for item in x) / (n - 1)
var_y = sum((item - mean_y)**2 for item in y) / (n - 1)
std_x, std_y = var_x ** 0.5, var_y ** 0.5
r = cov_xy / (std_x * std_y)
r

0.861950005631606

也可以用scipy.stats计算：

In [50]:
r, p = scipy.stats.pearsonr(x_, y_)
print(r)
print(p)

0.861950005631606
5.122760847201171e-07


类似协方差，我们也能计算相关系数矩阵

In [51]:
corr_matrix = np.corrcoef(x_, y_)
corr_matrix

array([[1.        , 0.86195001],
       [0.86195001, 1.        ]])