## 1.3 多维数据的数字特征及相关分析

### 1.3.1 二维数据的数字特征及相关系数

$(X,Y)^T$ 是二维总体，样本$(x_i,y_i)^T,i=1,2...,n$ <br/>
观测矩阵 
$X=\begin{bmatrix} x_1 & x_2 & ... & x_n \\ 
                    y_1 & y_2 & ... & y_n 
   \end{bmatrix}$ <br/>
#### (1)二维观测数据均值向量$(\bar{x},\bar{y})^T$ 
$\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_i$  &emsp;  
$\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_i$  <br/>
#### (3)X,Y观测数据的方差、协方差 
$S_{xx}=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^2$  &emsp;
$S_{yy}=\frac{1}{n-1} \sum_{i=1}^{n} (y_i-\bar{y})^2$  &emsp;
$S_{xy}=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})$  <br/>

在概率论和统计学中用于衡量**两个变量的总体误差**。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值

#### (4)X,Y观测数据的协方差矩阵 
$S=\begin{bmatrix} S_{xx} & S_{xy}  \\ 
                    S_{xy} & S_{yy} 
   \end{bmatrix} \geq 0$ <br/> 
   S为非对称负定矩阵，满足$S_{xy}=S_{yx}$; $S_{xy}^2 \leq S_{xx}S_{yy}$ (Schwarz不等式) <br/>
   pearson相关系数反映两随变量线性相关强度
#### (5) 皮尔逊相关系数和皮尔逊矩阵
**Pearson相关系数** $r_{xy}=\frac{S_{xy}}{\sqrt{S_{xx}} \sqrt{S_{xy}}}  (|r_{xy}\geq0|)$ <br/>

皮尔逊相关系数（Pearson Correlation）是衡量向量相似度的一种方式。输出范围为-1到+1，其中0代表无相关性，负值代表负相关，正值代表正相关。皮尔逊相关系数在欧几里德距离上做出了优化，对向量的值做了中心化处理，即对两个向量中的所有维度都减去元素的平均值，中心化后所有维度的平均值基本为0；然后对中心化结果求余弦距离，但余弦距离的计算要求每个向量中所有的值都必须非空，若两个向量v1=(3,2,4)、v2=(-1,2,null)，则无法进行余弦距离计算的。皮尔逊相关系数把向量中所有null维度赋值为0，再对结果进行余弦计算。 <br/>
两个向量X、Y，计算出的皮尔逊相关系数含义做如下理解： <br/>

当相关系数为0时，X和Y两向量不相关 <br/>
当X的值增大（减小），Y值减小（增大），X和Y两向量负相关，相关系数在-1.0到0.0之间。 <br/>
当X的值增大（减小），Y值增大（减小），X和Y两向量正相关，相关系数在0.0到+1.0之间。 <br/>
通常通过以下取值范围判断向量的相关程度： <br/>

0.8-1.0 极度相关 <br/>
0.6-0.8 强相关 <br/>
0.4-0.6 中等程度相关 <br/>
0.2-0.4 弱相关 <br/>
0.0-0.2 极弱相关或无相关 <br/>

结论：皮尔逊相关系数既是欧几里德距离的升级，即它提供了对于变量取值范围不同的处理步骤，不同变量量纲上的差别在计算过程中去掉了；又是余弦相似度在维度值缺失情况下的一种改进。 <br/>

**Pearson相关矩阵** $R=\begin{pmatrix} 1 & r_{xy}\\ 
                              r_{yx} & 1 
                   \end{pmatrix}$ <br/>
#### 二维总体数学特征
分布函数 <br/>
数学期望 <br/>
方差、协方差 <br/>
相关系数 <br/>
#### 二维数字特征的性质
$E(X+Y)=EX+EY, E(aX)=aEX$  <br/>
$Var(X\pm Y)=Var(X)+Var(Y)\pm 2Cov(X,Y)$　当Ｘ与Ｙ相互独立时，$Cov(X,Y)=0$ <br/>
$Cov(X,Y)=Cov(Y,X)$ <br/>
$Cov(aX,bY)=abCov(X,Y)$ <br/>
$Cov(X,Y)=E(XY)-E(X)\cdot E(Y)$ <br/>

In [18]:
import numpy as np
import codecs
from scipy.stats import skew
from scipy.stats import kurtosis

#f = codecs.open('D:\\CODE\\lesson\\data_analysis_method\\1.descriptive_analysis\\1.1Digital characteristics of one-dimensional data\\t3.txt', mode='r', encoding='utf-8')
f = codecs.open('t3.txt', mode='r', encoding='utf-8')
# 打开txt文件，以‘utf-8’编码读取

line = f.readline()   # 以行的形式进行读取文件

list1 = []

while line:
   a = line.split()
   b = a[1:2]   # 这是选取需要读取的位数
   list1.append(b)  # 将其添加在列表之中
   line = f.readline()

f.close()

print(list1)

i=0
while i<len(list1):
    list1[i]=eval(list1[i][0])
    i=i+1
    
#print(list1)
arr=np.sort(list1)
#print(arr)
#求均值
arr_mean = np.mean(arr)
 #求方差
arr_var = np.var(arr)
#求标准差
arr_std = np.std(arr,ddof=1)
#求变异系数
arr_by=arr_std/arr_mean*100
#求极差
R=np.max(arr)-np.min(arr)
#求四分位极差R1
R1=np.percentile(arr,75)-np.percentile(arr,25)
#求四分位标准差sigma
sigma=R1/1.349
#求上截断点S1
S1=np.percentile(arr,75)+1.5*R1
#求下截断点S2
S2=np.percentile(arr,25)-1.5*R1
 #求偏度
arr_skew=skew(arr)
#求峰度
arr_kurtosis=kurtosis(arr)
print("平均值为：%f" % arr_mean)
print("方差s^2为：%f" % arr_var)
print("标准差s为:%f" % arr_std)
print("变异系数CV为:%f" % arr_by)
print("极差R为：%f" % R)
print("四分位极差R1为：%f" % R1)
print("四分位标准差sigma为：%f" % sigma)
print("上截断点S1为：%f" % S1)
print("下截断点S2为：%f" % S2)
print("偏度为：%f" %  arr_skew)
print("峰度为：%f" %  arr_kurtosis)


[['679.0'], ['824.0'], ['859.0'], ['910.0'], ['1028.0'], ['1068.0'], ['1307.0'], ['1439.0'], ['1457.0'], ['1220.0'], ['1149.3'], ['1233.3'], ['1454.0'], ['1716.1'], ['1868.0'], ['1773.9'], ['1723.1'], ['1937.9'], ['2252.7'], ['2426.4'], ['2518.1'], ['2720.9'], ['2789.9'], ['2997.3'], ['2943.7'], ['3201.9'], ['3624.1'], ['4038.2'], ['4517.8'], ['4862.4'], ['5294.7'], ['5934.5'], ['7171.0'], ['8664.4'], ['10202.2'], ['11962.5'], ['14928.3'], ['16909.2'], ['18547.9'], ['21617.8'], ['26638.1'], ['34634.4'], ['46759.4'], ['58478.1'], ['67884.6'], ['74462.6'], ['78345.2'], ['81910.9'], ['89403.6'], ['95933.3']]
平均值为：16764.454000
方差s^2为：711679654.959284
标准差s为:26948.167462
变异系数CV为:160.745870
极差R为：95254.300000
四分位极差R1为：14892.200000
四分位标准差sigma为：11039.436620
上截断点S1为：38752.275000
下截断点S2为：-20816.525000
偏度为：1.812346
峰度为：1.851613


In [51]:
#把txt文件转为csv文件
import csv

with open('1-9-3.csv','w') as f:
    f_csv=csv.writer(f)
    for line in open('example1_9.txt', 'r'):
        new_line = line.strip().split()
        f_csv.writerow(new_line)
print('o')

o


In [60]:
#例1.9
import pandas as pd
import numpy as np

dates = pd.read_csv(r"1-9-3.csv",encoding='gbk')
dates.head()
print(dates.head())
date = dates[[x1,x2]]
print(date.mean()) #行均值
print(date.cov()) #协方差矩阵
print(date.corr()) #皮尔逊相关系数
print(date.corr('spearman')) #spearamn相关系数

    68   63    70   6   65    9   10   12   20   30   33   27   21   5   14  \
0  971  892  1125  82  931  112  162  321  315  375  462  352  305  84  229   

   27.1   17   53   62  65.1  
0   332  185  703  872   740  


KeyError: "['8'] not in index"

NameError: name 'head' is not defined

In [42]:
#例1.9(2)求Pearson系数
import numpy as np
import matplotlib.pyplot as pl
x_simple = np.array([68,63,70,6,65,9,10,12,20,30,33,27,21,5,14,27,17,53,62,65])
y_simple = np.array([971,892,1125,82,931,112,162,321,315,375,462,352,305,84,229,332,185,703,872,740])
my_rho = np.corrcoef(x_simple, y_simple)#相关矩阵
print(my_rho)

[[1.         0.97970908]
 [0.97970908 1.        ]]


### 1.3.2 多维数据的数字特征及相关矩阵

### 1.3.3 总体的数字特征、相关矩阵及多维数据正态分布