<img src='slides/29.png'>

In [None]:
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

iris = sns.load_dataset('iris')

# species 列を削除
X = iris.drop(['species'], axis=1)

# 標準化
# - 主成分分析では分散（平均値からのばらつき）を用いるため
#   標準化により平均値を 0 に揃える
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X)

# 標準化した DataFrame
X_std = pd.DataFrame(sc.transform(X), index=X.index, columns=X.columns)

### 全ての主成分の説明率

- 主成分はもとの説明変数と同数
- 各主成分が元のデータを説明する割合（説明率）

In [None]:
from sklearn.decomposition import PCA

# 主成分分析 PCA の初期化
# - n_components=None: 主成分はもとの説明変数と同数
pca = PCA(n_components=None)

# 学習結果を DataFrame
X_transformed = pd.DataFrame(pca.fit_transform(X_std))

# 結果
# - explained_variance_ratio_: 各主成分が元のデータを説明する割合
print('各次元の説明率: {}'.format(pca.explained_variance_ratio_))
print('累積説明率: {:.3f}'.format(sum(pca.explained_variance_ratio_)))

### それぞれの主成分の分布

In [None]:
X_transformed['species'] = iris['species']

for n in range(1, 5):
    # 先頭から説明率を取り出す
    ratio = pca.explained_variance_ratio_[0:n]
    # 主成分と species を取り出した DataFrame
    i = list(range(n))
    i.append('species')
    df = X_transformed.loc[:, i]

    print('n_components =', n)
    print('各次元の説明率: {}'.format(ratio))
    print('累積説明率: {:.3f}'.format(sum(ratio)))
    # 主成分の散布図
    df['species'] = iris['species']
    sns.pairplot(df, hue='species')
    plt.show()