In [1]:
# --------------------
# 라이브러리 및 데이터 준비
# --------------------
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 4차원 예시 데이터 (4개의 특성)
data = np.array([
    [10, 8, 3, 1],
    [12, 9, 5, 2],
    [9, 7, 4, 1],
    [11, 10, 6, 3],
    [13, 11, 5, 2]
])
df = pd.DataFrame(data, columns=['Feature1', 'Feature2', 'Feature3', 'Feature4'])

print("--- 원본 4차원 데이터 ---")
print(df)

# --------------------
# 1단계: 데이터 표준화 (Standardization)
# --------------------
# PCA는 스케일에 민감하므로, 각 특성의 평균을 0, 표준편차를 1로 맞춤
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

df_scaled = pd.DataFrame(scaled_data, columns=df.columns)
print("\n--- 1단계: 표준화된 데이터 ---")
print(df_scaled)

# --------------------
# 2단계: PCA 적용 및 주성분 변환
# --------------------
# n_components=2: 4차원 데이터를 2개의 주성분을 갖는 2차원으로 축소
pca = PCA(n_components=2)

# 표준화된 데이터에 PCA 모델 학습 및 변환 적용
principal_components = pca.fit_transform(scaled_data)

# 결과를 DataFrame으로 변환하여 확인
df_pca = pd.DataFrame(data=principal_components, 
                      columns=['Principal Component 1', 'Principal Component 2'])

print("\n--- 2단계: 2차원으로 축소된 데이터 ---")
print(df_pca)

# --------------------
# 3단계: 주성분 설명력 (분산) 확인
# --------------------
# 각 주성분이 원본 데이터의 분산을 얼마나 설명하는지 확인
explained_variance_ratio = pca.explained_variance_ratio_

print("\n--- 3단계: 주성분의 설명력 확인 ---")
print(f"주성분별 설명된 분산 비율: {explained_variance_ratio}")

# 누적 설명 분산 비율
cumulative_variance = np.sum(explained_variance_ratio)
print(f"누적 설명된 분산 (2개 주성분): {cumulative_variance:.4f} ({cumulative_variance*100:.2f}%)")

# (해석: 누적 비율이 높을수록 (예: 90% 이상) 정보 손실 없이 차원 축소가 잘 된 것으로 판단)

--- 원본 4차원 데이터 ---
   Feature1  Feature2  Feature3  Feature4
0        10         8         3         1
1        12         9         5         2
2         9         7         4         1
3        11        10         6         3
4        13        11         5         2

--- 1단계: 표준화된 데이터 ---
   Feature1  Feature2  Feature3  Feature4
0 -0.707107 -0.707107 -1.568929 -1.069045
1  0.707107  0.000000  0.392232  0.267261
2 -1.414214 -1.414214 -0.588348 -1.069045
3  0.000000  0.707107  1.372813  1.603567
4  1.414214  1.414214  0.392232  0.267261

--- 2단계: 2차원으로 축소된 데이터 ---
   Principal Component 1  Principal Component 2
0              -2.027584               0.577493
1               0.662939               0.130514
2              -2.238170              -0.623630
3               1.871883              -1.173100
4               1.730932               1.088723

--- 3단계: 주성분의 설명력 확인 ---
주성분별 설명된 분산 비율: [0.80300323 0.16504644]
누적 설명된 분산 (2개 주성분): 0.9680 (96.80%)
