# Python统计与数据分析实战(250705)

## 1. 流程
2. 点估计
  - 极大似然法
  - 区间估计
  
3. 假设检验
  - 基本原理
  - 参数检验
  
4. 回归分析
  - 一元线性
- 多元线性
- 逐步回归与模型选择
- 回归诊断
- 广义线性回归
1. 方差分析
2. 判别与聚类分析
3. 主成分、因子与典型相关分析
  - 时间序列分析
  - 统计模拟

8. 非参数统计
  - 经验分布和分布探索
  - 单样本非参数统计推断
  - 两独立样本位置与尺度判断
  - 多组数据位置推断

## 2. 参考资料
- 线性回归分析导论
- 数理统计学导论
- 线性代数及其应用
- 统计学习导论 基于R导论
- 非参数统计

## 3. 课程基础
- 3.1 数学基础
  - 高等数学和微积分
  - 线性代数(向量计算、矩阵计算、矩阵特征值分解与奇异值分解、……)
  - 概率论与数理统计基础(……)
- 3.2 Python
  - 基本语法
  - Numpy, Scipy
  - Pandas
  - Matplotlib
  - StatsModels
  - Sklearn
  - 《Python核心编程》



# 配置windows下的python环境用于学习python数据科学
```shell
conda create -n cs python=3.11 -y
conda activate cs
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip config set install.trusted-host pypi.tuna.tsinghua.edu.cn
pip install numpy
pip install scipy
pip install pandas
pip install statsmodels
```

# 第一章 数据描述性分析

### 1.1.1 位置与分散程度的度量
  - 均值 mean
  - 中位数 median
  - 百分位数 percentile
  - 方差 variance
  - 标准差 standard deviation
  - 标准误 standard error: 样本平均数之间的变异

In [7]:
import numpy as np 
import scipy.stats as st
import pandas as pd
# import statsmodels.api as sm 
import statsmodels as sm
import matplotlib.pyplot as plt 
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号

weight = np.array([75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7,
                     63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0])

In [27]:
# 计算均值
w_mean = np.mean(weight)
print(w_mean)
w_mean1 = weight.mean()
# 限定范围内的数值求均值
limitedMean = st.tmean(weight, (60, 70))
print(limitedMean)
sorted_weight = sorted(weight, reverse = False)
# 计算中位数
# 对称分布比如t分布和正态分布，均值和中位数很接近，偏态分布的两者相差比较大，比如F分布
median_weight = np.median(weight); print(median_weight)
# 分位数
quantiles = np.quantile(weight, [0.1, 0.2, 0.4, 0.6, 0.8, 1])
print('学生体重的分位数：', quantiles)
'''
方差、标准差、极差与标准误
'''
# 注意方差与方差的无偏估计的差别
v = np.var(weight) #有偏估计或样本方差
v_unb = st.tvar(weight) #无偏估计
print('有偏估计的方差：', v)
print('无偏估计的方差：', v_unb)

# 注意标准方差与标准方差的无偏估计的差别
s = np.std(weight) #有偏估计或样本标准差
s_unb = st.tstd(weight) #无偏估计
print('有偏估计的标准差：', s)
print('无偏估计的标准差：', s_unb)

cv = s_unb / w_mean*100 # 变异系数，无量纲，用百分数表示
print('变异系数: ', np.round(cv,2), '%')

#极差与标准误
R_weight = np.max(weight) - np.min(weight)
print('极差：%0.2f'%R_weight)
sm_weight = st.tstd(weight)/np.sqrt(len(weight)) #标准误：数据标准差（无偏）/数据量**0.5
print('标准误：%0.2f'%sm_weight)

62.36
64.8
63.5
学生体重的分位数： [52.76 56.98 62.2  64.   67.32 75.  ]
有偏估计的方差： 52.70773333333334
无偏估计的方差： 56.47257142857143
有偏估计的标准差： 7.2600091827306485
无偏估计的标准差： 7.514823446267479
变异系数:  12.05 %
极差：27.60
标准误：1.94


In [29]:
np.mean(weight)
np.median(weight)
np.var(weight)

np.float64(52.70773333333334)

In [46]:
'''
多维数组或矩阵求上述各个统计量
从学校抽样30个学生的身高体重胸围和坐高等抽样数据
'''

#身高
x1 = np.array([148, 139, 160, 149, 159, 142, 153, 150, 151, 139,
               140, 161, 158, 140, 137, 152, 149, 145, 160, 156,
               151, 147, 157, 147, 157, 151, 144, 141, 139, 148])

#体重
x2 = np.array([41, 34, 49, 36, 45, 31, 43, 43, 42, 31,
               29, 47, 49, 33, 31, 35, 47, 35, 47, 44,
               42, 38, 39, 30, 48, 36, 36, 30, 32, 38])
#胸围
x3 = np.array([72, 71, 77, 67, 80, 66, 76, 77, 77, 68,
               64, 78, 78, 67, 66, 73, 82, 70, 74, 78,
               73, 73, 68, 65, 80, 74, 68, 67, 68, 70])

#坐高
x4 = np.array([78, 76, 86, 79, 86, 76, 83, 79, 80, 74,
               74, 84, 83, 77, 73, 79, 79, 77, 87, 85,
               82, 78, 80, 75, 88, 80, 76, 76, 73, 78])

'''
数据分析等领域一般将数据存储为列向量
Numpy, Scipy, Pandas, StatsModels, SKLearn, Tensforflow, Pytorch等基本上都是处理列向量
例外是当Numpy求随机变量之间的协方差矩阵时, 则是按照行向量来进行计算
'''
#合并为矩阵
stu_data = np.matrix([x1, x2, x3, x4]).T
print('学生数据矩阵：\n', stu_data[0:5, 0:4]) # [行的范围， 列的范围]
#计算均值
stu_mean = np.round(np.mean(stu_data, axis=0), 1).ravel() # axis=0表示按列求均值
stu_mean[0];stu_mean[1];stu_mean[2];stu_mean[3]
print('\n学生的平均身高、平均体重、平均胸围和平均坐高: \n %.1f, %.1f, %.1f, %.1f,'
      %(stu_mean[0], stu_mean[1], stu_mean[2], stu_mean[3]))

学生数据矩阵：
 [[148  41  72  78]
 [139  34  71  76]
 [160  49  77  86]
 [149  36  67  79]
 [159  45  80  86]]

学生的平均身高、平均体重、平均胸围和平均坐高: 
 149.0, 38.7, 72.2, 79.4,


### 1.1.2 关系度量
- 方差-协方差矩阵
- 相关系数矩阵 Pearson

In [48]:
#协方差矩阵：covariance
cov_stu = np.cov(stu_data.T)
#相关系数矩阵： correlation coefficient
rou_stu = np.corrcoef(stu_data.T)
print('\n学生数据的协方差矩阵：\n', np.round(cov_stu, 2))
print('\n学生数据的相关系数矩阵：\n', np.round(rou_stu, 2))


学生数据的协方差矩阵：
 [[53.52 40.79 27.59 28.76]
 [40.79 41.73 29.83 24.36]
 [27.59 29.83 26.53 17.22]
 [28.76 24.36 17.22 18.24]]

学生数据的相关系数矩阵：
 [[1.   0.86 0.73 0.92]
 [0.86 1.   0.9  0.88]
 [0.73 0.9  1.   0.78]
 [0.92 0.88 0.78 1.  ]]


### 1.1.3 分布性状的度量
- 统计量：偏度和丰度
  - 偏态（左偏态，右偏态）
  - 峰态（……）
  - 偏度公式
  - 峰度公式

In [56]:
#偏度计算公式
n = len(weight)
u3 = np.sum((weight-w_mean)**3) / n
#使用总体标准差的无偏估计，计算的偏度是修正后偏度
skew1 = ((n**2)*u3)/((n-1)*(n-2)*(s_unb**3))

#使用pandas计算修正后偏度
pd_weight = pd.Series(weight)
skew_pandas = pd_weight.skew()
print('修正后偏度：', skew1)
print('pandas计算的修正后偏度: ', skew_pandas)

#手工计算无修正偏度，使用样本标准差
skew2 = np.sum((weight-w_mean)**3) / ((s**3) * n)
print('无修正偏度：', skew2)
#使用scipy计算偏度
skew_scipy = st.skew(weight, bias=True) # bias=True表示不修正，即无修正偏度
print('scipy计算的无修正偏度: ', skew_scipy)
skew_scipy_bias = st.skew(weight, bias=False) # bias=False表示修正偏度
print('scipy计算的修正偏度: ', skew_scipy_bias)

修正后偏度： -0.42995608521222894
pandas计算的修正后偏度:  -0.429956085212229
无修正偏度： -0.38570725236501335
scipy计算的无修正偏度:  -0.38570725236501346
scipy计算的修正偏度:  -0.429956085212229


In [59]:
'''
峰度计算公式：
- 峰度是描述分布形态的统计量，表示分布的尖锐程度
- 峰度的计算公式为：
'''

#峰度计算
kurt_pandas = pd_weight.kurt()
print('pandas计算的峰度: ', kurt_pandas)
kurt_scipy = st.kurtosis(weight, bias=False) # bias=False表示修正峰度
print('scipy计算的修正峰度: ', kurt_scipy)
kurt_scipy_bias = st.kurtosis(weight,bias=True) # bias=True表示无修正峰度
print('scipy计算的无修正峰度: ', kurt_scipy_bias)

pandas计算的峰度:  0.09653947135209195
scipy计算的修正峰度:  0.09653947135209329
scipy计算的无修正峰度:  -0.3077671538797926


### 1.1.4 数据特征的总结