In [112]:
import numpy as np
import math

# 协方差公式

这里的$E$表示的是期望，$E$在这里可以看成求和。

$$
\operatorname{Cov}(X, Y)=E\left[\left(X-\mu_{x}\right)\left(Y-\mu_{y}\right)\right]
$$

In [113]:
def cov(X,Y):
  x_avg = X.mean(axis=0,dtype=np.float64)
  y_avg = Y.mean(axis=0,dtype=np.float64)
  return ((X-x_avg)*(Y-y_avg)).sum()

In [114]:
X = np.array(
    [[1,2,3],
     [4,5,6],
     [7,8,9]]
).reshape((3,3))

Y = np.array(
    [[7,8,9],
     [4,5,6],
     [1,2,3]]
).reshape((3,3))

cov(X,Y)

-54.0

# 皮尔逊公式
$$
\operatorname{pearson}(u, v)=\frac{x和y的协方差}{(x的标准差 * y的标准差)}
$$

具体可以表示成下面这种形式：

$$ 
\operatorname{pearson}(u, v)=\frac{\sum_{k \in I_{v} \cap I_{v}}\left(r_{u k}-\mu_{u}\right)\left(r_{v k}-\mu_{v}\right)}{\sqrt{\sum_{k \in I_{u} \cap I_{v}}\left(r_{u k}-\mu_{u}\right)^{2}} \cdot \sqrt{\sum_{k \in I_{u} \cap I_{v}}\left(r_{u k}-\mu_{u}\right)^{2}}} 
$$


也可以表示成为下面的形式：

$$
P_{x, y}=\frac{\operatorname{cov}(x, y)}{\sigma_{x} \sigma_{y}}=\frac{E\left[\left(x-x_{i}\right)\left(y-y_{i}\right)\right]}{\sigma_{x} \sigma_{y}}
$$

这里的$\sigma_{x}$和$\sigma_{y}$分别表示$x$和$y$的标准差，但是比较奇怪的是网上查询出来的标准差应该是下面的形式，需要除于总数，而这上面并没有。

$$
\sigma=\sqrt{\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}}
$$

所以综上所述，这里的$\sigma_{x}$其实是下面的公式：
$$
\sigma=\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}
$$


In [119]:
def pearson(X,Y):
  x_avg = X.mean(axis=0,dtype=np.float64)
  y_avg = Y.mean(axis=0,dtype=np.float64)
  # print(math.sqrt(((X-x_avg)*(X-x_avg)).mean()))
  # print(math.sqrt(((Y-y_avg)*(Y-y_avg)).mean()))
  # print(cov(X,Y))
  # print(((X-x_avg)**2).sum())
  # print(((Y-y_avg)**2).sum())

  # print(math.sqrt(((X-x_avg)**2).sum()))
  # print("%s/%s"%(cov(X,Y),(math.sqrt(((X-x_avg)**2).sum()))*(math.sqrt(((Y-y_avg)**2).sum()))))
  # print(float(cov(X,Y))/54.0)
  # print(type((math.sqrt(((X-x_avg)**2).sum()))*(math.sqrt(((Y-y_avg)**2).sum()))))
  # print(cov(X,Y)/(math.sqrt(((X-x_avg)**2).sum()))*(math.sqrt(((Y-y_avg)**2).sum())))
  return float(cov(X,Y))/float((math.sqrt(((X-x_avg)**2).sum()))*(math.sqrt(((Y-y_avg)**2).sum())))

In [116]:
print(pearson(X,Y))

-54.0
-1.0


In [120]:
# test data
# -0.2738612787525831
x= np.array([3,1,2,2,1,3]).reshape(6,1)
y= np.array([1,2,3,2,1,1]).reshape(6,1)
pearson(x,y)

-0.27386127875258304