In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

# 데이터 불러오기
cancer = load_breast_cancer()

# scaler
scaler = MinMaxScaler()
scaler.fit(cancer.data)  # 비지도학습 -> 라벨 없음
X_scaled = scaler.transform(cancer.data)

# PCA 모델 생성
pca = PCA(n_components=2)  # 주성분을 2개를 유지
pca.fit(X_scaled)  # 학습

X_pca = pca.transform(X_scaled)
print("원본 데이터의 형태:", X_scaled.shape)
print("축소된 데이터의 형태:", X_pca.shape)

In [None]:
# 주성분의 시각화
import matplotlib.pyplot as plt

plt.scatter(X_pca[:, 0],  # 첫 번째 성분
            X_pca[:, 1],  # 두 번째 성분
            c=cancer.target)  # 색상 구분 기준
plt.xlabel("First Component")
plt.ylabel("Second Component")
plt.show()

In [None]:
# component 목록 확인
print(pca.components_)  # 각각의 2개의 component와 다른 변수(30)들 사이의 관계
print(len(pca.components_[0]))

In [None]:
# 2개의 주 component와 다른 feature들과의 관계
plt.matshow(pca.components_,
            cmap="viridis")
# PCA의 문제점 : 2개의 주성분이 각각 무슨 역할을 하는 지 알기 어렵다.
# 해당 컴포넌트와 다른 컴포넌트 사이의 관계를 시각화 그림을 보고 쉽게 알 수 없다.
plt.yticks([0, 1], ["first component", "second component"])
plt.colorbar()
plt.xticks(range(len(cancer.feature_names)),
          cancer.feature_names, rotation=60)
plt.xlabel("Features")
plt.ylabel("Principal Components")
plt.show()

# PCA 알고리즘은 변수의 갯수를 줄여서 연산량을 줄이는 효과가 있다.