## **演示0301：基本统计量**

### **案例1：百分位数**

>**实现百分位数计算**  
* 一组$n$个元素的数组升序排列后，处于$x\%$位置的值称为第$x$百分位数
* 计算方法：
 * 数字升序排列
 * 计算下标索引：$i=(n-1)*x\%$  考虑到下标索引从0开始，因此用$n-1$来计算
 * 如果$i$是整数，则直接返回$i$对应的元素值
 * 如果$i$不是整数，则将$i$向上向下分别取整得到两个相邻的下标索引$floor\_i$和$ceil\_i$，然后根据$i$与这两个索引之间的距离进行插值计算，返回相应结果

In [1]:
''' 自定义数组的百分位数计算 '''

import numpy as np

arr = np.arange(1, 11, 1)    # [1,2,3,4,5,6,7,8,9,10]

def my_percentile(array, percentage):
    sorted_array = sorted(array)
    p_index = percentage / 100 * (len(sorted_array) - 1)
    floor_p_index = np.floor(p_index)
    ceil_p_index = np.ceil(p_index)
    
    if floor_p_index == ceil_p_index: # p_index是整数
        return sorted_array[int(p_index)]
    else:
        v0 = sorted_array[int(floor_p_index)] * (ceil_p_index - p_index)
        v1 = sorted_array[int(ceil_p_index)] * (p_index - floor_p_index)
        return v0 + v1

print(my_percentile(arr, 25))
print(my_percentile(arr, 50))
print(my_percentile(arr, 75))

3.25
5.5
7.75


>**中位数和四分位数计算**  
* 中位数实际上是$50\%$分位数，可以通过*np.median*来计算
* 统计中经常用到的是$25\%$、$50\%$、$75\%$分位数，分别称为第1、第2和第3四分位数，记为：$Q1,Q2,Q3$
* $Q1$和$Q3$之间距离的一半，称为**四分位差**，记为$Q$。$Q$越小，说明中间部分的数据越集中；反之则越分散
* *np.percentile*可直接用于计算百分位数。

In [2]:
''' 调用库函数计算四分位数 '''

arr = np.arange(1, 11, 1)    # [1,2,3,4,5,6,7,8,9,10]
print(np.median(arr))
print(np.percentile(arr, 25))    # 25%百分位数
print(np.percentile(arr, 75))    # 75%百分位数

5.5
3.25
7.75


### **案例2：偏差相关的计算**

>**数组偏差的概念及计算**  
* 偏差(*deviation*)：数组中每个元素与数组平均值的差，其结果仍然是数组
* 计算公式：$ dev(x)=x^{(i)}-\bar{x}, i=1,2,\cdots,n $ 
 * $x^{(i)}$表示第$i$个元素
 * $\bar{x}$表示数组的算数平均值

In [3]:
''' 计算数组的偏差 '''

arr = np.arange(1, 11, 1)

def my_deviation(array):
    avg = np.mean(array)
    return [el - avg for el in array]

print(my_deviation(arr))

[-4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5]


>**方差的概念及计算**  
* 方差(*variance*)：每个元素的偏差平方和，再除以有效元素个数
* 计算式：$ var(x) = \dfrac{\sum_{i=1}^{n} (x^{(i)} - \bar{x} )^2}{n} $ 其中，$n$为有效元素个数
 * 无偏估计方差(*unbiased estimator*)：有效元素个数为【数组长度-1】
 * 有偏估计方差(*biased estimator*)：有效元素个数为【数组长度】
* 用于计算方差的函数：*np.var(arr)*
 * *ddof=1*，计算无偏方差
 * *ddof=0*，计算有偏方差(默认)
* 方差的意义
 * 方差指示了一个数组中各个元素的离散程度
 * 方差越大，离散程度越大；方差越小，说明各个数据都比较集中在均值附近

In [4]:
''' 自定义有偏和无偏方差计算函数 '''

def my_unbiased_variance(array):
    deviations = my_deviation(array)
    return sum([el**2 for el in deviations]) / (len(array) - 1)

def my_biased_variance(array):
    deviations = my_deviation(array)
    return sum([el**2 for el in deviations]) /  len(array)

print(my_unbiased_variance(arr))   
print(np.var(arr, ddof=1))      # ddof=1表示计算无偏方差
print(my_biased_variance(arr))     
print(np.var(arr, ddof=0))      # ddof=0表示计算有偏方差

9.166666666666666
9.166666666666666
8.25
8.25


>**标准差的概念及计算**  
* 标准差(*standard variance*)：又叫**均方差**，也就是方差的平方根
* 分为有偏估计和无偏估计标准差
* 计算式：$ std(x)=\sqrt{var(x)} $
* 用于计算标准差的函数：*np.std(arr)*

In [5]:
''' 调用库函数计算标准差 '''

print(np.std(arr, ddof=1))     # 无偏标准差
print(np.std(arr, ddof=0))     # 有偏标准差

3.0276503540974917
2.8722813232690143


>**协方差的概念及计算**  
* 协方差(*covariance*)：对于长度相同的两个数组，先求出各自的偏差，然后求出两组偏差的内积和，最后除以有效元素总数
* 计算式：$ cov(x, y)=\dfrac{\sum_i^n(\bar{x} - x^{(i)})(\bar{y} - y^{(i)})}{n} $
 * $\bar{y}$：数组$y$的平均值
 * $\bar{x}$：数组$x$的平均值
 * $x^{(i)}$：数组$x$中第$i$个元素
 * $y^{(i)}$：数组$y$中第$i$个元素
* 协方差的意义
 * 两个数组(或向量)的协方差越大，说明二者之间的相互线性影响越明显
* 用于计算协方差的函数：*np.cov(A)*
 * $A$代表一个$(M,N)$的矩阵或二维数组
 * 返回协方差矩阵$C$，其中 $C[i,j]$表示一维数组$A[i]$与$A[j]$的协方差

In [6]:
''' 根据定义来结算数组之间的协方差 '''

def my_unbiased_covariance(arrayX, arrayY):
    deX = my_deviation(arrayX)
    deY = my_deviation(arrayY)
    return sum([el1 * el2 for el1, el2 in zip(deX, deY)]) / (len(arrayX) - 1)

arr1 = [1,2,3,4,5]
arr2 = [2,4,6,8,10]
print(my_unbiased_covariance(arr1, arr2))
print(my_unbiased_covariance(arr2, arr1))
print(my_unbiased_covariance(arr1, arr1))
print(my_unbiased_covariance(arr2, arr2))
print(np.cov([arr1, arr2], ddof=1))    # 查看协方差矩阵

5.0
5.0
2.5
10.0
[[ 2.5  5. ]
 [ 5.  10. ]]


>**使用矩阵运算来计算协方差矩阵**  
* 假设有$(M,N)$维度的矩阵$A$，每一行代表一个数组，现在需要计算各行数组之间的协方差
* 可以采用下列步骤：
 * $A$的每一行元素减去该行平均值
 * 计算$AA^{T}$，这相当于分别计算了每一行与包括自己在内的其它行的内积和
 * 将上述计算结果矩阵中的每个元素除以数组有效元素个数(也就是每行的元素个数)

In [7]:
''' 使用矩阵运算计算数组之间协方差 '''
arr1 = [1,2,3,4,5]
arr2 = [2,4,6,8,10]
A = np.array([arr1, arr2])
# 计算每行的平均值，但是仍然保持(2,5)的维度不变（每行中的5个元素都是该行的平均值)
mean_matrix = np.mean(A, axis=1, keepdims=True)  # axis=1，表示分别计算每行的平均值;keepdims=True，表示保持(M,N)数组维度不变
# A中每个元素都减去所在行的平均值
dev_matrix = A - mean_matrix
cov_matrix = dev_matrix.dot(dev_matrix.T)/A.shape[1]
print(cov_matrix)
print(np.cov(A, ddof=0))

[[2. 4.]
 [4. 8.]]
[[2. 4.]
 [4. 8.]]


>**相关性计算**  
* 相关性(*correlation*)：对于两个数组(元素个数相同)，计算出协方差以及两个标准差，然后用协方差除以标准差乘积
* 计算式：$cor(x, y)=\dfrac{cov(x,y)}{std(x) * std(y)} $
* 相关性的意义
 * 相关性用于衡量两个数组的关联度
 * 1表示最强的正关联；-1表示最强的负关联；0表示完全没有关联
* 用于计算相关性的函数：*np.corrcoef(A)*
 * $A$代表一个$(M,N)$的矩阵或二维数组
 * 返回相关性矩阵$C$，其中$C[i,j]$表示$A[i]$与$B[j]$行的相关性

In [8]:
''' 计算数组之间相关性的例子 '''

def my_unbiased_correlation(arrayX, arrayY):
    deX = np.std(arrayX, ddof=1)
    deY = np.std(arrayY, ddof=1)
    if(deX > 0 and deY > 0):
        return my_unbiased_covariance(arrayX, arrayY) / (deX * deY)
    else:
        return 0

arr1 = [1,2,3,4,5]
arr2 = [2,4,6,8,10]
arr3 = [-2,-4,-6,-8,-10]
arr4 = [6, -100, 3, 20, -90]
print(my_unbiased_correlation(arr1, arr2))      # 1.0，表示最强正相关
print(my_unbiased_correlation(arr1, arr3))      # -1.0，表示最强负相关
print(my_unbiased_correlation(arr1, arr4))      # -0.19，表示相关性很小
A = np.array([arr1, arr2, arr3, arr4])      # 构造4行元素的矩阵
print(np.corrcoef(A)) 

0.9999999999999998
-0.9999999999999998
-0.196977338422431
[[ 1.          1.         -1.         -0.19697734]
 [ 1.          1.         -1.         -0.19697734]
 [-1.         -1.          1.          0.19697734]
 [-0.19697734 -0.19697734  0.19697734  1.        ]]


### **协方差、相关性、独立性之间的关系**
对于两个数组$a$和$b$：  
* 如果$cov(a, b)=0$，则必有$cor(a, b)=0$，即$a$和$b$没有线性关系
* 反过来，如果$a$和$b$完全没有线性关系，则它们的协方差和相关性也为0
* 协方差或相关性为0，并不意味着$a$和$b$完全独立，因为它们可能有非线性关联，例如：$a$基于函数$sin(x)$，$b$基于函数$cos(x)$ 
* 如果$a$和$b$是独立的，那么意味着它们既无线性关系，也无非线性关系；所以协方差和相关性都为0