### PCA 구현

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {"x1":[10,20],
       "x2":[2,3]
       }

In [3]:
df = pd.DataFrame(data)
df

Unnamed: 0,x1,x2
0,10,2
1,20,3


In [4]:
# cov = 공분산
np.cov(df)

array([[ 32. ,  68. ],
       [ 68. , 144.5]])

In [5]:
df.mean()

x1    15.0
x2     2.5
dtype: float64

In [6]:
df = df - df.mean()
df

Unnamed: 0,x1,x2
0,-5.0,-0.5
1,5.0,0.5


In [7]:
# df.T를 하면 줄과 칸이 바뀐다
df.T

Unnamed: 0,0,1
x1,-5.0,5.0
x2,-0.5,0.5


In [8]:
# 곱
df.T.dot(df)

Unnamed: 0,x1,x2
x1,50.0,5.0
x2,5.0,0.5


In [9]:
np.cov(df.T)

array([[50. ,  5. ],
       [ 5. ,  0.5]])

In [10]:
np.cov(df)

array([[ 10.125, -10.125],
       [-10.125,  10.125]])

In [11]:
df.mean()

x1    0.0
x2    0.0
dtype: float64

PCA구현 - 예제

In [12]:
data = {
    "calory":[1.2, 2.8, 5, 3, 4.5, 2.], # 하루 섭취 칼로리(단위 1000)
    "break":[0, 3, 5, 2, 7, 5], # 1주일에 아침을 먹은 횟수
    "lunch":[4, 5, 7, 6, 7, 3], # 1주일에 점심을 먹은 횟수
    "dinner":[5, 6, 7, 6, 7, 6], # 1주일에 저녁을 먹은 횟수
    "weight":[65, 75, 100, 71, 97, 60] # 몸무게 (종속 변수)
}

In [13]:
# data를 이용해서 DataFrame 생성
df = pd.DataFrame(data)
df

Unnamed: 0,calory,break,lunch,dinner,weight
0,1.2,0,4,5,65
1,2.8,3,5,6,75
2,5.0,5,7,7,100
3,3.0,2,6,6,71
4,4.5,7,7,7,97
5,2.0,5,3,6,60


In [14]:
# 독립변수만 X에 대입 / 종속변수는 y에 대입
y = df["weight"]
y

0     65
1     75
2    100
3     71
4     97
5     60
Name: weight, dtype: int64

In [15]:
# axis = 1 칸을 지칭
df = df.drop(["weight"], axis = 1)
df

Unnamed: 0,calory,break,lunch,dinner
0,1.2,0,4,5
1,2.8,3,5,6
2,5.0,5,7,7
3,3.0,2,6,6
4,4.5,7,7,7
5,2.0,5,3,6


In [16]:
# X의 컬럼명을 써주기 귀찮아서 df에서 weight를 drop하고 X에 넣어주었다
X = df
X

Unnamed: 0,calory,break,lunch,dinner
0,1.2,0,4,5
1,2.8,3,5,6
2,5.0,5,7,7
3,3.0,2,6,6
4,4.5,7,7,7
5,2.0,5,3,6


In [17]:
# p.13
from sklearn.linear_model import LinearRegression
# 자동으로 평균을 0으로 맞추어준다
from sklearn.preprocessing import StandardScaler

In [18]:
X.mean()

calory    3.083333
break     3.666667
lunch     5.333333
dinner    6.166667
dtype: float64

In [19]:
# X의 각 컬럼에 저장된 데이터를 컬럼의 평균을 뺴서 데이터의 평균을 0으로 맞춤
X_cen = X - X.mean()
X_cen

Unnamed: 0,calory,break,lunch,dinner
0,-1.883333,-3.666667,-1.333333,-1.166667
1,-0.283333,-0.666667,-0.333333,-0.166667
2,1.916667,1.333333,1.666667,0.833333
3,-0.083333,-1.666667,0.666667,-0.166667
4,1.416667,3.333333,1.666667,0.833333
5,-1.083333,1.333333,-2.333333,-0.166667


In [20]:
X_cen.mean()

calory   -1.480297e-16
break     1.480297e-16
lunch     2.960595e-16
dinner   -2.960595e-16
dtype: float64

In [21]:
# 각 데이터들 사이의 거리 구하기 / 각 컬럼의 공분산을 계산
X_cov = np.cov(X_cen.T)
X_cov

array([[2.09766667, 2.61333333, 2.12666667, 1.04333333],
       [2.61333333, 6.26666667, 1.73333333, 1.66666667],
       [2.12666667, 1.73333333, 2.66666667, 0.93333333],
       [1.04333333, 1.66666667, 0.93333333, 0.56666667]])

![image.png](attachment:image.png)
1. 우측 상단 과정
    eigenvalue
2. 우측 중앙 과정
    eigenvector

In [22]:
# 데이터들이 모두 들어가는 사선 고유벡터라고 함
# X_cov를 이용해서 고유벡터를 계산
# eigenvalue에 고유벡터의 길이
# eigenvector에 고유벡터가 저장됨
eigenvalue, eigenvector = np.linalg.eig(X_cov)
print('eigenvalue :', eigenvalue)
print('eigenvector :\n', eigenvector)

eigenvalue : [9.14780875e+00 2.36702072e+00 8.08883672e-02 1.94882794e-03]
eigenvector :
 [[ 0.43937091  0.34911627 -0.7283658  -0.39313393]
 [ 0.77295605 -0.58010996  0.23904478 -0.09417519]
 [ 0.3862551   0.73448569  0.55523568  0.05523686]
 [ 0.24555883  0.04605465 -0.32257433  0.91297625]]


In [23]:
# 전체 고유벡터 값의 합 계산
sum(eigenvalue)

11.597666666666672

In [24]:
eigenvalue[0]

9.147808752147371

In [26]:
# (eigenvalue(0))의 비율: 첫번째 고유벡터의 길이 / 전체 고유벡터 값의 합 계산
eigenvalue[0] / sum(eigenvalue)
# 고유벡터의 합이 0.77 이상이면 해당 데이터들로 선형회귀 가능

0.7887628619676975

In [29]:
# eigenvector의 행과 열의 방향을 반대로(역행렬)
eigenvector.T[0]

array([0.43937091, 0.77295605, 0.3862551 , 0.24555883])

In [31]:
projected_X = X_cov.dot(eigenvector.T[0])
projected_X

array([4.0192811 , 7.07085414, 3.53338781, 2.24632517])

In [None]:
from sklearn.linear_model import LinearRegression
# linear_model 모듈이 포함하고 있는 Linearregression() 함수를 