# 10차시 주성분 분석(PCA)

## 01 주성분 분석(PCA) 개요

### 주성분 분석(PCA) 특징

- 특정 데이터의 주성분(Principal Component)를 찾는 방법
- 대표적인 차원 축소 기법
- 입력 변수 개수와 각 주성분의 설명 비를 고려하여 주성분 개수 결정

### 주성분(Principal Component)

- 입력 변수를 기반으로 최대의 분산을 가지는 새로운 변수
- 각 주성분은 직교하기 때문에 상관계수가 0에 가까움

## 02 주요 함수 및 메서드 소개

### sklearn - PCA()

- 주성분 분석을 시행하기 위한 sklearn의 함수
- n_component 인자에 산출할 주성분 개수 입력
- PCA() 함수로 생성한 객체의 fit_transform() 메서드로 주성분 연산
- PCA() 함수로 생성한 객체의 explained_variance로 각 주성분의 분산 파악 가능

### pandas - cumsum()

- 숫자 원소가 있는 시리즈 객체의 누적합을 계산하기 위한 pandas의 메서드
- 주성분의 분산 또는 분산비를 활용하여 누적 분산 또는 누적 분산비 께산 용이

In [1]:
import pandas as pd
from sklearn.decomposition import PCA

In [2]:
df = pd.read_csv("실습파일/iris.csv")

In [3]:
pca = PCA(n_components = 3)
df_pca = pca.fit_transform(df.iloc[:, :4])
df_pca = pd.DataFrame(df_pca, columns = ["comp_1", "comp_2","comp_3"])
df_pca.head()

Unnamed: 0,comp_1,comp_2,comp_3
0,-2.684126,0.319397,-0.027915
1,-2.714142,-0.177001,-0.210464
2,-2.888991,-0.144949,0.0179
3,-2.745343,-0.318299,0.031559
4,-2.728717,0.326755,0.090079


In [4]:
pca.explained_variance_

array([4.22824171, 0.24267075, 0.0782095 ])

In [5]:
pca.explained_variance_ratio_

array([0.92461872, 0.05306648, 0.01710261])

In [6]:
pd.Series(pca.explained_variance_ratio_).cumsum()

0    0.924619
1    0.977685
2    0.994788
dtype: float64

In [8]:
pca.singular_values_

array([25.09996044,  6.01314738,  3.41368064])

In [11]:
df_pca.corr().round(2)

Unnamed: 0,comp_1,comp_2,comp_3
comp_1,1.0,-0.0,0.0
comp_2,-0.0,1.0,0.0
comp_3,0.0,0.0,1.0
