### 相关关系与回归

变量和变量之间的相互影响因素特别的多，造成了变量之间关系的不确定性。<br/>
变量之间存在的不确定关系，被称为**相关关系**

### 怎么算相关系数？
皮尔逊相关系数 = <br\>
x和y的协方差 / (x的标准差 * y的标准差)

怎么理解这个？
高中数学：将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数。
大学数学：可以看做是两组数据的向量夹角的余弦。（因为协方差算的就是两向量间余弦）

举例：
假设五个国家的国民生产总值分别是1，2，3，5，8（单位十亿美元），又假设这五个国家的贫困比例是11%，12%，13%，15%，18%。这五个国家被选作抽样样本，服从正态分布。

问五个国家GDP和贫困比例是否相关？是否有相关关系

In [26]:
### 纯手工算法
import numpy as np
from math import *

list_GDP = [1,2,3,5,8]
list_Poverty = [0.11,0.12,0.13,0.15,0.18]

def Means(array):
    mean = np.mean(array) 
    means = np.repeat([mean],5) # 复制平均数5词压到array中
    return means
    
def Covariance(array1,array2):
    array1_sub = array1 - Means(array1)
    array2_sub = array2 - Means(array2)
    result = np.dot(array1_sub,array2_sub) # 向量间点乘
    return result

def SD(array):
    array_sub = array - Means(array)
    array_sub_square = list(map(lambda x:pow(x,2),array_sub)) # array内求平方
    array_sub_sqrt = sqrt(sum(array_sub_square))
    return array_sub_sqrt

cov_num = Covariance(list_GDP,list_Poverty) / (SD(list_GDP) * SD(list_Poverty))
print("皮尔逊相关系数为:" + str(cov_num)) # 因此这两组变量的皮尔逊相关系数为1

皮尔逊相关系数为:1.0


使用numpy的库的话，皮尔逊相关系数的语法为 np.corrcoef(a)，a是一个含两个或两个以上向量的矩阵

In [30]:
import numpy as np
from scipy.stats import pearsonr

np.corrcoef([list_GDP,list_Poverty]) ## 使用np
pearsonr(list_GDP,list_Poverty) ## 或者使用pearsonr

(1.0, 0.0)

### 线性关系的检测
对于一个具体的r取值，根据经验可以将相关程度分为如下几种情况。<br/>
abs(r) > 0.8，可是为高度相关。<br/>
0.5 =< abs(r) < 0.8，可视为中度相关。<br/>
0.3 =< abs(r) < 0.5，可视为低度相关。<br/>
abs(r) < 0.3，可视为不相关

所以上述例子相关系数为1，高度相关

### 线性关系的显著性检验

使用费舍尔的t分布来检验