## PCA 분석 (Prinicipal Component Analysisi)

- **PC: 주성분, 입력 변수를 기반으로 최대의 분산을 가지는 새로운 변수**
 - 각 주성분은 직교하기 때문에 상관계수가 0에 가까움<br>
<br>
- PCA 특징: 특정 데이터의 주성분(Principal Component)를 찾는 방법
 - 대표적인 `차원축소`기법
 - **입력 변수 개수와 각 주성분의 설명 비를 고려하여 주성분 개수 결정**<br>
<br> 
- sklearn의 `PCA()`
 - 주성분 분석을 시행하기 위한 sklearn 함수
 - n_component: 인자에 산출할 주성분 개수 입력 (총 입력 변수의 수를 넘을 수 없음)
 - PCA 함수로 생성한 객체의 fit_transform() 메서드로 주성분 연산
  - 객체의 explained_variance 로 각 주성분의 분산 파악 가능<br>
<br>  
- pandas의 `cumsum`: 숫자 원소가 있는 시리즈 객체의 누적합을 계산하기 위한 메소드
 - 주성분의 분산 또는 분산비를 활용하여 누적 분산 또는 누적 분산비 계산 용이
 

In [1]:
import pandas as pd
from sklearn.decomposition import PCA

df = pd.read_csv("C:/Users/Data/iris.csv")

In [2]:
df.head(5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
pca = PCA(n_components =3)

In [6]:
df_pca = pca.fit_transform(df.iloc[:, :4])
df_pca = pd.DataFrame(df_pca,
                     columns = ["comp_1", "comp_2", "comp3"])

In [7]:
df_pca.head(2)

Unnamed: 0,comp_1,comp_2,comp3
0,-2.684126,0.319397,-0.027915
1,-2.714142,-0.177001,-0.210464


In [8]:
pca.explained_variance_

array([4.22824171, 0.24267075, 0.0782095 ])

In [9]:
pca.explained_variance_ratio_

array([0.92461872, 0.05306648, 0.01710261])

In [10]:
pd.Series(pca.explained_variance_ratio_).cumsum() # 분산누적 구하기

0    0.924619
1    0.977685
2    0.994788
dtype: float64

In [11]:
pca.singular_values_ # 각 주성분의 고유값

array([25.09996044,  6.01314738,  3.41368064])

In [13]:
df_pca.corr().round(3)

Unnamed: 0,comp_1,comp_2,comp3
comp_1,1.0,0.0,-0.0
comp_2,0.0,1.0,0.0
comp3,-0.0,0.0,1.0


In [15]:
df = pd.read_csv("C:/Data/diamonds.csv")

In [16]:
df.head(3)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31


In [17]:
# Q1. x,y,z 변수와 해당 변수를 기반으로 3개의 주성분을 생성했을 때, 기존변수의 상관계수와
# 주성분의 상관계수의 최대값은 각각 얼마인가? => 답: 0.975, 0

In [27]:
df_sub = df.iloc[:, 7:]

In [29]:
df_sub.corr().round(3)

Unnamed: 0,x,y,z
x,1.0,0.975,0.971
y,0.975,1.0,0.952
z,0.971,0.952,1.0


In [30]:
pca = PCA()

In [31]:
df_pca = pca.fit_transform(df_sub)

In [32]:
df_pca = pd.DataFrame(df_pca, columns = ["comp1", "comp2", "comp3"])

In [34]:
pca.explained_variance_ratio_

array([0.98060426, 0.01306954, 0.0063262 ])

In [37]:
pca_model = PCA(n_components = 5)
df_pca = pca_model.fit_transform(df.loc[:, ["x", "y", "z", "table", "depth"]])
df_pca[:3, ]

array([[-2.95461177e+00, -2.13217146e+00, -5.50856527e-01,
         2.72852521e-02,  7.43506486e-03],
       [ 2.99969796e+00, -3.97184947e+00, -2.56373421e-01,
        -2.09739675e-02,  2.56358010e-02],
       [ 7.52838769e+00, -5.26046934e+00, -1.77740776e+00,
         2.87590851e-04,  9.58541459e-02]])

In [38]:
ser = pd.Series(pca_model.explained_variance_ratio_).cumsum()

In [39]:
ser

0    0.541054
1    0.821735
2    0.994760
3    0.998496
4    1.000000
dtype: float64