# 主成分分析（Principal Component Analysis）

### 2組の数値８個のデータを作って、第一主成分をもとめる

Calculate 1st Principal Component using a test dataset

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

data0=[[-5,2],[-2,1],[2,0],[4,-2],[5,-1],[-3,2],[3,-3],[5,2]]
data0=np.array(data0)
plt.scatter(data0[:,0],data0[:,1])
plt.show()

df=pd.DataFrame(data0)
df

In [None]:
import numpy as np
# np.random.normal()は、平均loc、標準偏差scaleの正規分布に従う乱数を返す。
x=np.random.normal(1,2,(2,10))
y=np.random.normal(-2,2,(2,10))
plt.scatter(x[0],x[1])
plt.scatter(y[0],y[1])
plt.show()
z=np.hstack((x,y))
plt.scatter(z[0],z[1])
data=z

分散共分散行列をもとめて、固有値、固有ベクトルを計算する。

Firstly, we calculate variance covariance matrix and then its eigenvalues and eigenvectors.

In [None]:
mat_cov=np.cov(data)
# 分散共分散行列を表示
#print("分散共分散行列 variance-covariance matrix \n{}".format(mat_cov))
#print("\n")
wei, vec = np.linalg.eig(mat_cov)

# 固有値を表示
#print("固有値 eigenvalue {}\n".format(m_eig[0]))

# 固有ベクトルを表示
#print("固有ベクトル eigenvector \n{}".format(m_eig[1]))

plt.scatter(data[0],data[1])
plt.plot(x,x/0.9458*-0.3246)
plt.plot(x1,x1/0.3246*0.9558)
# plt.xlim(-10,10)
# plt.ylim(-10,10)
plt.axis('equal')

plt.show()

それぞれのデータの第一主成分に対するスコアを内積で計算する

inner products of each data by with 1st PC  eigenvector gives 1st PC 'Score'. 

In [None]:
data

In [None]:
pd.DataFrame(data.T)

In [None]:
# 固有値14の軸上でのスコアは？
np.dot(data,m_eig[0])
print("第一主成分のスコア　Scores of 1st PC \n{}".format(np.dot(data,m_eig[1][:,0])))

###  celluloseの面間隔のデータを読み込んで同じ操作をやってみる。データは４次元

Next we extend above process to see Cellulose d-spacings data. Now data has 4 variables.

In [None]:
# load data from excel file エクセルファイルからデータを読む
import pandas as pd

df = pd.read_excel('wada_MG1995_xraydata.xlsx', index_col=0)
df.head(10)

In [None]:
# 分散共分散行列　（variance-covariance matrix）
import numpy as np
df.cov()

In [None]:
# 固有値と固有ベクトル　eigenvalue and eigen vectors
res=df.cov()
# 
a_eig = np.linalg.eig(res)
# 固有値を表示　eigenvalue
print("固有値 eigenvalues {}\n".format(a_eig[0]))
# 固有ベクトルを表示 eigenvector
print("固有ベクトル eigenvectors \n{}".format(a_eig[1]))

In [None]:
# 第一主成分から成分まで計算　score of 1st to 3rd principal components
pc1=np.dot(df.iloc[:,2:],a_eig[1][:,0])
pc2=np.dot(df.iloc[:,2:],a_eig[1][:,1])
pc3=np.dot(df.iloc[:,2:],a_eig[1][:,2])
df['pc1']=pc1
df['pc2']=pc2
df['pc3']=pc3

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.pairplot(df,hue='mark',vars=['pc1', 'pc2'])
plt.show()

## すべて scikit-learn でやってみる

### 2組の数値８個のデータを作って、２次元の平面にプロットする。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

data=[[-5,2],[-2,1],[2,0],[4,-2],[5,-1],[-3,2],[3,-3],[5,2]]
data=np.array(data)
df=pd.DataFrame(data)
plt.scatter(data[:,0],data[:,1])
plt.show()
df

In [None]:
# 行列の標準化
# 標準化してない
from sklearn.decomposition import PCA   #主成分分析器
from sklearn.preprocessing import StandardScaler


#主成分分析の実行
pca = PCA()
pca.fit(df)
# データを主成分空間に写像
pca_cor = pca.transform(df)

# 固有ベクトルのマトリックス表示
eig_vec = pd.DataFrame(pca.components_.T, index = df.columns, \
                          columns = ["PC{}".format(x + 1) for x in range(len(df.columns))])
display(eig_vec)

# 固有値
eig = pd.DataFrame(pca.explained_variance_, index=["PC{}".format(x + 1) for x in range(len(df.columns))], columns=['固有値']).T
display(eig)

# Rによるソースコードだと、固有値（分散）ではなく標準偏差を求めている。
# 主成分の標準偏差
dv = np.sqrt(eig)
dv = dv.rename(index = {'固有値':'主成分の標準偏差'})
display(dv)

# 寄与率
ev = pd.DataFrame(pca.explained_variance_ratio_, index=["PC{}".format(x + 1) for x in range(len(df.columns))], columns=['寄与率']).T
display(ev)

# 累積寄与率
t_ev = pd.DataFrame(pca.explained_variance_ratio_.cumsum(), index=["PC{}".format(x + 1) for x in range(len(df.columns))], columns=['累積寄与率']).T
display(t_ev)

# 主成分得点
print('主成分得点')
cor = pd.DataFrame(pca_cor, columns=["PC{}".format(x + 1) for x in range(len(df.columns))])
display(cor)


###  celluloseの面間隔のデータを読み込んで同じ操作をやってみる。データは４次元

In [None]:
# load data from excel file エクセルファイルからデータを読む
import pandas as pd

df = pd.read_excel('wada_MG1995_xraydata.xlsx', index_col=0)
df.head(10)

In [None]:
#主成分分析の実行
pca = PCA()
pca.fit(df.iloc[:,2:])
# データを主成分空間に写像
pca_cor = pca.transform(df.iloc[:,2:])

#eigen values　（固有値）
eig = pd.DataFrame(pca.explained_variance_, index=["PC{}".format(x + 1) \
                                                   for x in range(len(df.iloc[:,2:].columns))], columns=['固有値']).T
display(eig)

# eigenvectors　（固有ベクトル）
eig_vec = pd.DataFrame(pca.components_.T, index = df.iloc[:,2:].columns, \
                          columns = ["PC{}".format(x + 1) for x in range(len(df.iloc[:,2:].columns))])
display(eig_vec)

# proportion of the variance　(寄与率）
pv = pd.DataFrame(pca.explained_variance_ratio_, index=["PC{}".format(x + 1)\
                                                        for x in range(len(df.iloc[:,2:].columns))], columns=['寄与率']).T
display(pv)

# score plots
cor = pd.DataFrame(pca_cor, columns=["PC{}".format(x + 1) for x in range(len(df.iloc[:,2:].T))])
#display(cor)

cor['mark']=df['mark'].values
import seaborn as sns
sns.pairplot(cor, hue='mark')  # 1,2 components only

plt.show()

