In [1]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

def pca_analysis(dataframe, threshold):
    # 主成分分析を実行
    pca = PCA()
    pca.fit(dataframe)
    
    # 寄与度の累積を計算
    cumulative_variance_ratio = np.cumsum(pca.explained_variance_ratio_)
    
    # 寄与度が閾値以上となる主成分の数を特定
    n_components_above_threshold = np.argmax(cumulative_variance_ratio >= threshold) + 1
    
    # 閾値以上の主成分の固有ベクトルを取得
    eigenvectors_above_threshold = pca.components_[:n_components_above_threshold]
    
    # 結果を表示
    print(f"Threshold: {threshold}")
    print(f"Number of components above threshold: {n_components_above_threshold}")
    print("Eigen vectors:")
    for i, vec in enumerate(eigenvectors_above_threshold):
        print(f"Component {i+1}: {vec}")
    
    # 既存の指標を出力
    print("Explained variance ratio (cumulative):")
    print(cumulative_variance_ratio)
    
    return n_components_above_threshold, eigenvectors_above_threshold

# テスト用のデータフレーム
data = {
    'feature1': [1, 2, 3, 4, 5],
    'feature2': [5, 4, 3, 2, 1],
    'feature3': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 関数の呼び出し
threshold = 0.9
pca_analysis(df, threshold)


Threshold: 0.9
Number of components above threshold: 1
Eigen vectors:
Component 1: [-0.57735027  0.57735027 -0.57735027]
Explained variance ratio (cumulative):
[1. 1. 1.]


(1, array([[-0.57735027,  0.57735027, -0.57735027]]))

In [2]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

def pca_analysis(dataframe, threshold):
    # 主成分分析を実行
    pca = PCA()
    pca.fit(dataframe)
    
    # 寄与度の累積を計算
    cumulative_variance_ratio = np.cumsum(pca.explained_variance_ratio_)
    
    # 寄与度が閾値以上となる主成分の数を特定
    n_components_above_threshold = np.argmax(cumulative_variance_ratio >= threshold) + 1
    
    # 閾値以上の主成分の固有ベクトルを取得
    eigenvectors_above_threshold = pca.components_[:n_components_above_threshold]
    
    # 主成分の負荷量を取得
    loadings = pca.components_.T * np.sqrt(pca.explained_variance_)
    
    # 各変数の重要度を表示
    print("Variable importance (loadings):")
    for i, var in enumerate(dataframe.columns):
        print(f"{var}: {loadings[i]}")
    
    # 結果を表示
    print(f"Threshold: {threshold}")
    print(f"Number of components above threshold: {n_components_above_threshold}")
    print("Eigen vectors:")
    for i, vec in enumerate(eigenvectors_above_threshold):
        print(f"Component {i+1}: {vec}")
    
    # 既存の指標を出力
    print("Explained variance ratio (cumulative):")
    print(cumulative_variance_ratio)
    
    return n_components_above_threshold, eigenvectors_above_threshold

# テスト用のデータフレーム
data = {
    'feature1': [1, 2, 3, 4, 5],
    'feature2': [5, 4, 3, 2, 1],
    'feature3': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 関数の呼び出し
threshold = 0.9
pca_analysis(df, threshold)


Variable importance (loadings):
feature1: [-1.58113883e+00  1.95447689e-16  0.00000000e+00]
feature2: [1.58113883e+00 9.77238443e-17 2.61736306e-32]
feature3: [-1.58113883e+00 -9.77238443e-17  2.61736306e-32]
Threshold: 0.9
Number of components above threshold: 1
Eigen vectors:
Component 1: [-0.57735027  0.57735027 -0.57735027]
Explained variance ratio (cumulative):
[1. 1. 1.]


(1, array([[-0.57735027,  0.57735027, -0.57735027]]))

主成分分析（PCA）によって得られた結果から、各元の変数が主成分にどの程度重要かを判断するためには、主成分負荷量を見る必要があります。主成分負荷量は、各変数が主成分に対してどの程度関連しているかを示す指標です。値が大きいほど、その変数が主成分を説明するのに重要であると言えます。

以下の主成分負荷量を見ると、feature1とfeature3は負の値を持ち、feature2は正の値を持っています。これは、feature1とfeature3が負の相関、feature2が正の相関を持っていることを示しています。つまり、主成分1に対してはfeature1とfeature3が、主成分2に対してはfeature2が重要であると解釈できます。

feature1: [-1.58113883e+00 1.95447689e-16 0.00000000e+00]
feature2: [1.58113883e+00 9.77238443e-17 2.61736306e-32]
feature3: [-1.58113883e+00 -9.77238443e-17 2.61736306e-32]
したがって、この結果からは、feature1とfeature3が主成分1において重要であり、feature2が主成分2において重要であるということが判断できます。