# 1. PCA를 이용해서 diabates 적용해보기

In [2]:
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 1. 데이터 로드
# Diabetes 데이터셋을 불러옵니다.
diabetes_data = load_diabetes()
diabetes_df = pd.DataFrame(diabetes_data.data, columns=diabetes_data.feature_names)

# 2. 데이터 표준화
# PCA를 적용하기 전에 데이터를 표준화합니다 (평균 0, 분산 1로 변환).
scaler = StandardScaler()
scaled_data = scaler.fit_transform(diabetes_df)

# 3. PCA 모델 생성
# 2개의 주성분으로 데이터를 변환하는 PCA 모델을 만듭니다.
pca = PCA(n_components=3)
pca_result = pca.fit_transform(scaled_data)

# 4. 결과 저장 및 출력
# 주성분으로 변환된 결과를 데이터프레임으로 저장합니다.
pca_df = pd.DataFrame(pca_result, columns=['PC1', 'PC2','PC3'])

# PCA 결과 출력
print("PCA 결과:")
print(pca_df.head())

# 5. 주성분 설명력
# 각 주성분이 설명하는 분산의 비율을 확인합니다.
explained_variance = pca.explained_variance_ratio_
print("\n각 주성분이 설명하는 분산 비율:", explained_variance)


PCA 결과:
        PC1       PC2       PC3
0  0.587199 -1.946832  0.589205
1 -2.831625  1.372082  0.027930
2  0.272129 -1.634901  0.739244
3  0.049281  0.382278 -2.013032
4 -0.756421  0.811960 -0.057238

각 주성분이 설명하는 분산 비율: [0.40242108 0.14923197 0.12059663]
