In [1]:
import numpy as np  # 数値計算のためのパッケージ
import pandas as pd  # データの加工用のパッケージ
from sklearn import datasets  # サンプルデータセットをインポートするためのモジュール

wine = datasets.load_wine()  # ワインデータの読込

dat = pd.DataFrame(data=wine.data, columns=wine.feature_names)  # ワインデータを表形式に変換
dat['target'] = wine.target  # ターゲットを表に追加

# 特徴量とターゲットの設定
X = dat.drop('target', axis=1).values  # 特徴量の設定
y = dat['target']  # ターゲットの設定

# (1)特徴量Xの標準化をおこなったものをX_stdに格納してください
X_std = (X - np.mean(X, axis=0)) / np.std(X, axis=0)

# PCAを関数で定義
def pca(X, k):
    # (2) 共分散行列を作成し、cov_matに格納してください
    cov_mat = np.cov(X_std.T)
    # (3) 共分散行列の固有値と固有ベクトルを算出し、
    #     eigen_vals, eigen_vecsにそれぞれ格納してください
    eigen_vals, eigen_vecs = np.linalg.eigh(cov_mat)
    # (4) 固有値の大きい方からk個までに対応する固有ベクトルを用いて、
    #     射影行列Wを作成してください
    W = np.vstack((eigen_vecs[:, -1:-(k+1):-1]))
    # (5)射影行列Wを用いて元のデータセットの次元削減を行ったものをX_pcaに格納
    X_pca = X.dot(W)
    
    # 返り値を指定
    return X_pca


# 定義した関数を用いて、X_stdを3次元データに変換
print('次元削減後の特徴量')
print(pca(X_std, 3)[0:5])  # 次元削減後の特徴量を5組確認

次元削減後の特徴量
[[-3.31675081  1.44346263  0.16573904]
 [-2.20946492 -0.33339289  2.02645737]
 [-2.51674015  1.0311513  -0.98281867]
 [-3.75706561  2.75637191  0.17619184]
 [-1.00890849  0.86983082 -2.02668822]]
