## 均值 方差

平均值的意思:
$$
X_{mean} = (X_1 + X_2 + ... + X_n)/ n
$$



In [1]:
import numpy as np

In [2]:
X=np.array([1,2,3,4,5,6])
print(np.mean(X))

3.5


方差: 衡量一个变量的整体偏离程度
$$
D(X)=var(X) = \frac{\sum(X-X_{mean})}{n-1}
$$

标准差
$$
std(X)=\sqrt[2]{D(X)}
$$




In [3]:
np.std(X)

1.707825127659933

In [4]:
np.var(X)

2.9166666666666665

## 协方差
衡量两个变量之间的关系, 值在[-1, 1]之间。。如果它的值是正的，这表明两个特征之间同时增加或减小;如果它的值是负的，这表明两个特征之间有一个增加而另一个减小。如果它的值为0，则表明两个特征之间是独立的。
X,Y 两个变量的协方差:
$$
cov(X,Y) = \frac{\sum_{i=1}^{n}(X_i - X_{mean})(Y_i - Y_{mean})}{n-1}
$$
不同变量组成的矩阵就是协方差矩阵:
$$
C = 
  \begin{matrix}
   cov(1, 1) & cov(1, 2) & cov(1, n) \\
   cov(2, 1) & cov(2, 2) & cov(2, n) \\
   cov(n, 1) & cov(n, 2) & cov(n, n)
  \end{matrix} \tag{1}
$$


## np计算协方差矩阵

In [5]:
A = np.array([[1,2], [3,4]])

In [6]:
A.shape

(2, 2)

In [7]:
np.cov(A)

array([[0.5, 0.5],
       [0.5, 0.5]])

# 计算协方差矩阵的特征值和特征向量

In [8]:
cov_mat = np.cov(A)

In [9]:
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)

In [10]:
eigen_vals

array([1.00000000e+00, 1.11022302e-16])

In [11]:
eigen_vecs

array([[ 0.70710678, -0.70710678],
       [ 0.70710678,  0.70710678]])

# 使用协方差矩阵计算的主成分

为了让方差最大那么有:找到一个投影方向w, 使$X_i$ 在w上投影的方差最大 (最大化各个样本跟投影轴的距离)
$$
D(X)=\frac{1}{n}\sum_{i=0}^{n}(X_i^\mathrm Tw)^{\mathrm T}(X_i^\mathrm Tw)
$$
$$
\frac{1}{n}\sum_{i=0}^{n}w^\mathrm TX_iX_i^\mathrm Tw
$$
$$
=w^\mathrm T\left(\frac{1}{n}\sum_{i=0}^{n}X_iX_i^\mathrm T\right)w
$$

而这个就是X 数据集的协方差矩阵


In [12]:
np.random.seed = 666
X = np.empty((100,2))
X[:, 0] = np.random.uniform(0., 100., size=100)
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0,10.,size=100)

In [13]:
## 使用协方差矩阵的特征值计算的PCA
def demean(X):
    return X - np.mean(X, axis=0)
meanval=np.mean(X, axis=0) #计算原始数据中每一列的均值，axis=0按列取均值
newData=X-meanval #去均值化，每个feature的均值为0
covMat=np.cov(newData,rowvar=0) #计算协方差矩阵，rowvar=0表示数据的每一列代表一个feature
featValue, featVec=np.linalg.eig(covMat) #计算协方差矩阵的特征值和特征向量
#最新版已经不需要排序了 
#index=np.argsort(featValue) #将特征值按从大到小排序，index保留的是对应原featValue中的下标
#n_index=index[-1:-3:-1] #取最大的两维特征值在原featValue中的下标
#n_index = index[:-2]
#print("index1", n_index, "index2", index[-1:-3:-1])
n_featVec = featVec[:2]
#n_featVec=featVec[:, n_index] #取最大的两维特征值对应的特征向量组成变换矩阵
lowData=np.dot(newData,n_featVec) #lowData=newData*n_featVec
highData=np.dot(lowData,n_featVec.T)+meanval
print(highData.shape)
print(n_featVec)

(100, 2)
[[ 0.80495399 -0.59333723]
 [ 0.59333723  0.80495399]]


In [15]:

#调用sklearn库实现PCA
from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X) #X_arr是原始数据集，一行表示一个样本，一列表示一个feature
pca.n_components = 2 #降为两维
X_reduced = pca.fit_transform(X) #X_reduced是降维后的数据集
pca.components_

array([[ 0.80495399,  0.59333723],
       [-0.59333723,  0.80495399]])