# 學習目標: 了解PCA基本原理，並知道如何使用PCA做降維。

In [None]:
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.decomposition import PCA

## 建立&畫出練習用的data

In [None]:
# 建立toy data
x1 = np.linspace(-5,5,200)
noise = np.random.normal(0,1.,len(x1))
x2 = x1 + noise

# 畫出toy data
plt.figure(figsize=(6,6))
plt.scatter(x1,x2)
plt.xlabel("$x_1$")
plt.ylabel("$x_2$")
plt.show()

寫一個函數來算data的variance:

In [None]:
variance = lambda x:np.sum( (x-x.mean() )**2 ) / ( len(x) - 1 )

看$\sigma^2_{x_1}$:

In [None]:
variance(x1)

看$\sigma^2_{x_2}$:

In [None]:
variance(x2)

看$\sigma^2_{tot} = \sigma^2_{x_1}+\sigma^2_{x_2}$:

In [None]:
tot_var = variance(x1) + variance(x2)
print(tot_var)

In [None]:
data = np.vstack((x1,x2)).T  # 資料組成一個Tensor
print(data.shape)

## 使用PCA來降維度

In [None]:
pca = PCA(n_components=1)    # 模型將會把資料投影至一個方向
pca = pca.fit(data)          # 喂資料給模型。模型會根據資料特性，來尋找出恰當的方向向量

In [None]:
unit_vec = pca.components_   # 找到了方向向量
print(unit_vec)

In [None]:
reduced_data = np.dot(data, unit_vec.T )  # 將資料投影到找出來的"方向向量"上
# 現在，reduced_data即為降為後的資料

In [None]:
# reduced_data = pca.transform(data)[0]   # 事實上，也可以直接用transform這個方法來得出降維後的資料

In [None]:
variance(reduced_data)                    # 對降維後的資料計算variance

我們發現，降維後的資料($x'_1$)，其variance和降維前資料的總variance是差不多的。

亦即: $\sigma^2_{x'_1}) \approx \sigma^2_{x_1}+\sigma^2_{x_2}$.

In [None]:
pca.explained_variance_         # 降維後，所有維度的總variance

In [None]:
pca.explained_variance_ratio_   # 降維後，所有維度的總variance，佔降維度前的總variance有多少成分。

```pca.explained_variance_ratio_```亦可用以下方式計算而得:

In [None]:
# variance(reduced_data) / (variance(x1)+ variance(x2))

---

In [None]:
# 建立toy data
x1 = np.linspace(-5,5,200)
noise = np.random.normal(0,0.1,len(x1))
x2 =  noise

# 畫出toy data
plt.scatter(x1,x2)
plt.xlabel("$x_1$")
plt.ylabel("$x_2$")
plt.ylim(-1,1)
plt.show()

練習：將以上資料做降維。

In [None]:
# pca = PCA(n_components=1)
# ...
# ...