# 统计学分析

In [19]:
import pandas as pd
import numpy as np

In [20]:
ratings = pd.read_json('ratings.json')
ratings

Unnamed: 0,John Carson,Michelle Peterson,William Reynolds,Jillian Hobart,Melissa Jones,Alex Roberts,Michael Henry
Inception,2.5,3.0,2.5,,3,3.0,
Pulp Fiction,3.5,3.5,3.0,3.5,4,4.0,4.5
Anger Management,3.0,1.5,,3.0,2,,
Fracture,3.5,5.0,3.5,4.0,3,5.0,4.0
Serendipity,2.5,3.5,,2.5,2,3.5,1.0
Jerry Maguire,3.0,3.0,4.0,4.5,3,3.0,


## 算数平均值

In [21]:
# 几种调用算数平均值的方法
# 计算每一列的平均值
mean = ratings.mean()
mean


John Carson          3.000000
Michelle Peterson    3.250000
William Reynolds     3.250000
Jillian Hobart       3.500000
Melissa Jones        2.833333
Alex Roberts         3.700000
Michael Henry        3.166667
dtype: float64

In [22]:
# axis=1为计算行平均值
mean = ratings.mean(axis=1)
mean

Inception           2.800000
Pulp Fiction        3.714286
Anger Management    2.375000
Fracture            4.000000
Serendipity         2.500000
Jerry Maguire       3.416667
dtype: float64

In [23]:
# 计算特定列的平均值
mean = np.mean(ratings.loc['Inception'])
mean

2.8

## 加权平均值
加权平均值是一种统计学概念，用于衡量数据集中各数值的平均情况，但每个数值在计算过程中并非等同对待，而是依据其对应的权重进行调整。权重反映了每个数值的重要性或代表性程度。

公式上，如果我们有一组数值 $ x_1, x_2, \ldots, x_n $ 和对应的权重 $ w_1, w_2, \ldots, w_n $，其中权重满足 $ w_i \geq 0 $ 并且 $ \sum_{i=1}^{n} w_i \neq 0 $，那么这组数据的加权平均值 $ W $ 可以用以下公式计算：

$$ 
W = \frac{\sum_{i=1}^{n} w_i \cdot x_i}{\sum_{i=1}^{n} w_i} 
$$


In [24]:
s = ratings.loc['Pulp Fiction']
w = [2, 4, 8, 1, 1, 1, 1]
ave = np.average(s, weights=w)
ave

3.388888888888889

## 最值

In [25]:
# 最小值
ratings.min()

John Carson          2.5
Michelle Peterson    1.5
William Reynolds     2.5
Jillian Hobart       2.5
Melissa Jones        2.0
Alex Roberts         3.0
Michael Henry        1.0
dtype: float64

In [26]:
# 按照列比较返回极值的索引
ratings.idxmax()
ratings.idxmin()

John Carson                 Inception
Michelle Peterson    Anger Management
William Reynolds            Inception
Jillian Hobart            Serendipity
Melissa Jones        Anger Management
Alex Roberts                Inception
Michael Henry             Serendipity
dtype: object

## 中位数

In [27]:
ratings.median(axis=1)

Inception           3.0
Pulp Fiction        3.5
Anger Management    2.5
Fracture            4.0
Serendipity         2.5
Jerry Maguire       3.0
dtype: float64

## 众数

In [28]:
s = pd.Series(['bmw', 'bmw', 'bz', 'bz', 'audi', 'bmw'])
# 输出每个离散值的频数
s.value_counts()

bmw     3
bz      2
audi    1
Name: count, dtype: int64

In [29]:
 # 数组这组离散数据的众数
s.mode()  

0    bmw
dtype: object

## 四分位数
四分位数是统计学中衡量数据分布的一个重要概念，它是将一组数据从小到大排列后，将其等分为四等份的三个切点。

1. **第一四分位数（Q1）**：也称为下四分位数，它是一组数据中所有数值中最小的25%数值的上限，即数据集中间位置的数值，使得至少有25%的数据点不大于这个值。

2. **第二四分位数（Q2）**：也就是中位数（Median），将数据集一分为二，一半的数据点小于或等于它，另一半的数据点大于或等于它。

3. **第三四分位数（Q3）**：也称为上四分位数，它是一组数据中所有数值中最小的75%数值的上限，即数据集中至少有75%的数据点不大于这个值。

四分位数常用于描述数据的集中趋势和分布特征，特别是在处理偏斜分布或者存在异常值的数据时，中位数和四分位数比平均数更能反映数据的典型水平。此外，四分位距（IQR，即Q3-Q1）可以用来度量数据的离散程度。

In [30]:
ratings.quantile([.0, .25, .5, .75, 1.])

Unnamed: 0,John Carson,Michelle Peterson,William Reynolds,Jillian Hobart,Melissa Jones,Alex Roberts,Michael Henry
0.0,2.5,1.5,2.5,2.5,2.0,3.0,1.0
0.25,2.625,3.0,2.875,3.0,2.25,3.0,2.5
0.5,3.0,3.25,3.25,3.5,3.0,3.5,4.0
0.75,3.375,3.5,3.625,4.0,3.0,4.0,4.25
1.0,3.5,5.0,4.0,4.5,4.0,5.0,4.5


## 标准差
标准差（Standard Deviation）是统计学中衡量数据分布离散程度的一个重要指标。它表示的是一个数据集中的各个观测值与均值（平均数）之间差异的平均程度，通常用来反映数据点在均值周围波动的程度。

具体来说，标准差是每个数据点与均值之差的平方的平均数（即方差）的算术平方根。数学公式如下：

- 对于样本标准差 $ s $ 的计算：
$$ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$
其中 $ x_i $ 表示样本中的第 $ i $ 个观测值，$ \bar{x} $ 是样本均值，$ n $ 是样本容量，分母使用 $ n-1 $ 是为了得到无偏估计（Bessel's correction）。

- 对于总体标准差 $ \sigma $ 的计算（如果我们知道整个总体的数据时）：
$$ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2} $$
其中 $ X_i $ 是总体中的第 $ i $ 个观测值，$ \mu $ 是总体均值，$ N $ 是总体大小，这里的分母直接用 $ N $ 而不是 $ N-1 $。

标准差越大，说明数据点分布得越分散；标准差越小，则意味着数据点更集中地分布在均值附近。在金融、自然科学、社会科学等多个领域，标准差常用于风险评估、置信区间的计算以及描述随机变量的不确定性等场合。

In [31]:
# 总体标准差
np.std(ratings['John Carson'])

0.408248290463863

In [32]:
# 样本标准差，为了修正样本方差过小的问题，numpy可以指定减多少
np.std(ratings['John Carson'], ddof=3)

0.5773502691896257

## 协方差
协方差（Covariance）是统计学中衡量两个随机变量之间线性相关程度的指标。它反映的是当一个随机变量的值增大（减小）时，另一个随机变量的值倾向于增大（减小）的程度。

数学公式上，对于两个随机变量 $ X $ 和 $ Y $，其协方差定义为：

$$ Cov(X, Y) = E[(X - E[X])(Y - E[Y])] $$

其中：
- $ E[X] $ 表示随机变量 $ X $ 的期望值（平均值），
- $ E[Y] $ 表示随机变量 $ Y $ 的期望值，
- $ E[(X - E[X])(Y - E[Y])] $ 是这两个随机变量与各自期望值之差的乘积的期望值。

协方差的取值范围没有限制，正数表示两者呈正相关（即一个变大时，另一个也倾向于变大），负数表示负相关（一个变大时，另一个倾向于变小），而协方差为0则表示两者在统计上相互独立或不相关。

此外，协方差的绝对值大小并不直接反映相关性的强度，为了得到标准化、易于比较的相关度量，通常会计算相关系数（Correlation Coefficient），它是通过将协方差除以两个变量的标准差的乘积进行无量纲化处理得到的结果。

In [33]:
print(ratings)
a = ratings['John Carson']
b = ratings['Michelle Peterson']
np.cov(a, b)


                  John Carson  Michelle Peterson  William Reynolds  \
Inception                 2.5                3.0               2.5   
Pulp Fiction              3.5                3.5               3.0   
Anger Management          3.0                1.5               NaN   
Fracture                  3.5                5.0               3.5   
Serendipity               2.5                3.5               NaN   
Jerry Maguire             3.0                3.0               4.0   

                  Jillian Hobart  Melissa Jones  Alex Roberts  Michael Henry  
Inception                    NaN              3           3.0            NaN  
Pulp Fiction                 3.5              4           4.0            4.5  
Anger Management             3.0              2           NaN            NaN  
Fracture                     4.0              3           5.0            4.0  
Serendipity                  2.5              2           3.5            1.0  
Jerry Maguire                4.5   

array([[0.2  , 0.2  ],
       [0.2  , 1.275]])

In [35]:
ratings.cov()

Unnamed: 0,John Carson,Michelle Peterson,William Reynolds,Jillian Hobart,Melissa Jones,Alex Roberts,Michael Henry
John Carson,0.2,0.2,0.125,0.1875,0.2,0.3125,1.083333
Michelle Peterson,0.2,1.275,0.125,0.3125,0.35,0.6625,0.625
William Reynolds,0.125,0.125,0.416667,0.25,-0.083333,0.083333,-0.125
Jillian Hobart,0.1875,0.3125,0.25,0.625,0.375,0.020833,1.291667
Melissa Jones,0.2,0.35,-0.083333,0.375,0.566667,0.125,1.75
Alex Roberts,0.3125,0.6625,0.083333,0.020833,0.125,0.7,0.958333
Michael Henry,1.083333,0.625,-0.125,1.291667,1.75,0.958333,3.583333


## 相关系数
相关系数（Correlation Coefficient）是统计学中衡量两个变量之间线性关联强度和方向的指标。最常见的是皮尔逊相关系数（Pearson correlation coefficient），通常表示为 $ r $ 或 $ \rho $，它的值介于-1与+1之间：

- 当 $ r = 1 $ 时，表示两个变量之间有完美的正线性相关关系，即一个变量增加时，另一个变量以确定的比例增加。
- 当 $ r = -1 $ 时，表示两个变量之间有完美的负线性相关关系，即一个变量增加时，另一个变量以确定的比例减少。
- 当 $ r = 0 $ 时，表示两个变量之间没有线性相关关系。

皮尔逊相关系数计算公式如下：

$$ r_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} $$

其中：
- $ x_i $ 和 $ y_i $ 是数据集中对应的两个变量的观测值；
- $ \bar{x} $ 和 $ \bar{y} $ 分别是变量 $ X $ 和 $ Y $ 的样本均值；
- $ n $ 是观测值的数量。

即相关数据为两组数据的协方差除以两组数据各自标准差的乘积

In [34]:
np.corrcoef(a, b)

array([[1.        , 0.39605902],
       [0.39605902, 1.        ]])

In [36]:
ratings.corr()

Unnamed: 0,John Carson,Michelle Peterson,William Reynolds,Jillian Hobart,Melissa Jones,Alex Roberts,Michael Henry
John Carson,1.0,0.396059,0.40452,0.566947,0.594089,0.747018,0.991241
Michelle Peterson,0.396059,1.0,0.204598,0.31497,0.411765,0.963796,0.381246
William Reynolds,0.40452,0.204598,1.0,1.0,-0.258199,0.13484,-1.0
Jillian Hobart,0.566947,0.31497,1.0,1.0,0.566947,0.028571,0.893405
Melissa Jones,0.594089,0.411765,-0.258199,0.566947,1.0,0.211289,0.924473
Alex Roberts,0.747018,0.963796,0.13484,0.028571,0.211289,1.0,0.662849
Michael Henry,0.991241,0.381246,-1.0,0.893405,0.924473,0.662849,1.0
