## Key words
### 주성분 분석, PCA, 분산비, 누적 분산비, cumsum

### 주성분 분석(PCA) 특징
- 변수 간의 상관관계가 있는 다차원의 데이터를 효율적으로 저차원의 데이터로 요약하는 방법 중 하나
- 특정 데이터의 주성분(Principal Component)를 찾는 방법
- 대표적인 `차원 축소 기법`
- 원래 변수를 새로만든 변수가 얼마나 잘 커버하는지 `분산`으로 알아봄
- 입력 변수 개수와 각 주성분의 설명 비를 고려하여 주성분 개수 결정

### 주성분(Principal Component)
- 입력 변수를 기반으로 최대의 분산을 가지는 새로운 변수
- 각 주성분은 직교하기 때문에 상관계수가 0에 가까움

### sklearn - PCA()
- 주성분 분석을 시행하기 위한 sklearn의 함수
- `n_component` 인자에 산출할 주성분 개수 입력, 원래 변수 개수보다 같거나 작아야함
- PCA() 함수로 생성한 객체의 `fit_transform()` 메서드로 주성분 연산
- PCA() 함수로 생성한 객체의 `explained_variance`로 각 주성분의 분산 파악 가능

### pandas - cumsum()
- 숫자 원소가 있는 시리즈 객체의 `누적합을 계산`하기 위한 pandas의 메서드
- 주성분의 분산 또는 분산비를 활용하여 누적 분산 또는 누적 분산비 계산 용이

In [1]:
import pandas as pd
from sklearn.decomposition import PCA

In [2]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
pca = PCA(n_components=3)

In [6]:
df_pca = pca.fit_transform(df.iloc[:, :4]) # 학습을 시킴
df_pca = pd.DataFrame(df_pca,
                      columns = ["comp_1", "comp_2", "comp_3"])
df_pca.head(2)

Unnamed: 0,comp_1,comp_2,comp_3
0,-2.684126,0.319397,-0.027915
1,-2.714142,-0.177001,-0.210464


In [7]:
pca.explained_variance_ # 분산

array([4.22824171, 0.24267075, 0.0782095 ])

In [8]:
pca.explained_variance_ratio_ # 분산비

array([0.92461872, 0.05306648, 0.01710261])

In [9]:
pd.Series(pca.explained_variance_ratio_).cumsum() # 누적분산

0    0.924619
1    0.977685
2    0.994788
dtype: float64

In [10]:
pca.singular_values_ # 고유값

array([25.09996044,  6.01314738,  3.41368064])

In [11]:
df_pca.corr().round(2) # 직교하기때문에 전부 0

Unnamed: 0,comp_1,comp_2,comp_3
comp_1,1.0,-0.0,0.0
comp_2,-0.0,1.0,0.0
comp_3,0.0,0.0,1.0


### 1. x, y,  z변수와 해당 변수를 기반으로 3개의 주성분을 생성했을 때 기존 변수의 상관계수와 주성분의 상관계수의 최대값은 각각 얼마인가?
- diamonds.csv
- Seed 123

In [12]:
df = pd.read_csv("diamonds.csv")
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31


In [14]:
pca_model = PCA(n_components=3)
df_pca = pca_model.fit_transform(df.loc[:, ["x", "y", "z"]])
df_pca

array([[-2.73463603,  0.04371529,  0.00525922],
       [-2.9125241 ,  0.03212409, -0.07103942],
       [-2.65918945,  0.13644346, -0.12968262],
       ...,
       [-0.07298345, -0.02336435,  0.05114883],
       [ 0.60167725,  0.00301238, -0.05003021],
       [ 0.19247864,  0.00328137,  0.03632036]])

In [15]:
df_pca = pd.DataFrame(df_pca, columns = ["comp_1", "comp_2", "comp_3"])
df_pca.head(2)

Unnamed: 0,comp_1,comp_2,comp_3
0,-2.734636,0.043715,0.005259
1,-2.912524,0.032124,-0.071039


In [16]:
df.loc[:, ["x", "y", "z"]].corr().round(3)

Unnamed: 0,x,y,z
x,1.0,0.975,0.971
y,0.975,1.0,0.952
z,0.971,0.952,1.0


In [17]:
df_pca.corr().round(3)

Unnamed: 0,comp_1,comp_2,comp_3
comp_1,1.0,0.0,0.0
comp_2,0.0,1.0,0.0
comp_3,0.0,0.0,1.0


### 2. x, y, z, table, depth 변수를 사용하여 주성분 분석을 실시하였을 때 누적 분산이 99%가 최초로 넘는 주성분은 몇번째 주성분 인가?
- diamonds.csv
- Seed 123

In [18]:
df = pd.read_csv("diamonds.csv")
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31


In [27]:
pca = PCA(n_components=5)
df_pca = pca.fit_transform(df.loc[:, ["table", "depth", "x", "y", "z"]])
df_pca = pd.DataFrame(df_pca, columns=["ta", "de", "x", "y", "z"])
df_pca.head(2)

Unnamed: 0,ta,de,x,y,z
0,-2.954612,-2.132171,-0.550857,0.027285,0.007435
1,2.999698,-3.971849,-0.256373,-0.020974,0.025636


In [32]:
pca.explained_variance_ratio_.cumsum()

array([0.54105407, 0.82173531, 0.99476027, 0.99849625, 1.        ])

In [30]:
df_pca.corr().round(2)

Unnamed: 0,ta,de,x,y,z
ta,1.0,-0.0,0.0,0.0,0.0
de,-0.0,1.0,0.0,0.0,-0.0
x,0.0,0.0,1.0,0.0,0.0
y,0.0,0.0,0.0,1.0,0.0
z,0.0,-0.0,0.0,0.0,1.0


### 3. 가격을 예측하기 위해 기존 변수와 주성분 변수의 성능을 비교하고자 한다. 독립변수를 carat과 x를 둔 회귀모델 1번과 carat과 주성분 변수 한개를 사용한 회귀모델 2번 중 성능이 더 좋은 모델의 RMSE는?
- diamonds.csv
- 학습8:평가2
- 주성분은 x,y,z변수로 생성한 첫 번째 주성분을 사용
- Seed 123

In [33]:
df = pd.read_csv("diamonds.csv")
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31


In [35]:
pca_model = PCA(n_components=1)
df_pca = pca_model.fit_transform(df.loc[:, ["x", "y", "z"]])
df_pca[:3, ]

array([[-2.73463603],
       [-2.9125241 ],
       [-2.65918945]])

In [36]:
df["comp_1"] = df_pca
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z,comp_1
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,-2.734636
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,-2.912524


In [37]:
from sklearn.model_selection import train_test_split

In [38]:
train, test = train_test_split(df, train_size=0.8, random_state=123)
train.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z,comp_1
13361,0.24,Very Good,F,VS2,62.9,58.0,419,3.94,4.01,2.5,-2.693607
18592,1.02,Very Good,F,VS1,62.4,58.0,7587,6.42,6.47,4.02,1.115685


In [39]:
from statsmodels.formula.api import ols
from sklearn.metrics import mean_squared_error

In [43]:
model_1 = ols(formula = "price ~ carat + x", data = train).fit()
pred_1 = model_1.predict(test)
rmse_1 = mean_squared_error(y_true = test["price"],
                          y_pred = pred_1) ** 0.5
round(rmse_1, 3)

1526.486

In [44]:
model_2 = ols(formula = "price ~ carat + comp_1", data = train).fit()
pred_2 = model_2.predict(test)
rmse_2 = mean_squared_error(y_true = test["price"],
                          y_pred = pred_2) ** 0.5
round(rmse_2, 3)

1528.955