# Feature Extraction - PCA

##### PCA 알고리즘 - 출처 : 단단한 머신러닝 챕터 10
**입력** 
- 샘플 세트 D = {x_1, x_2, .... , x_m}. 저차원 공간 차원수 d'

**과정** 
1. 모든 샘플에 대해 정규화 진행 :$x_i <= x_i - \frac{1}{m}\sum_{i=1}^m x_i$ 
2. 샘플의 공분산 행렬 $XX^T$
3. 공분산 행렬 XX^T에 대하여 고윳값 분해 진행 
4. 최대 크기의 d'개 고윳값에 대응하는 특징 벡터 $w_1, w_2, ...w_{d^'}$를 취한다. 

**출력**
투영 행렬 $W^* =(w_1, w_2, ..., w_{d^'})$


In [1]:
# 데이터 사용 및 라이브러리 설치 

import numpy as np
import pandas as pd 

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression 

boston = load_boston()
X = boston.data 
y = boston.target


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

##### PCA 알고리즘 - 출처 : 단단한 머신러닝 챕터 10
**입력** 
- 샘플 세트 D = {x_1, x_2, .... , x_m}. 저차원 공간 차원수 d'
> X : 데이터 세트  
> y : 타겟 데이터 
> n : 데이터의 개수 


**과정** 
1. 모든 샘플에 대해 정규화 진행 :$x_i <= x_i - \frac{1}{m}\sum_{i=1}^m x_i$ 
2. 샘플의 공분산 행렬  𝑋𝑋𝑇

**구현해야하는 것**
- 정규화 :  각 x_i 데이터 속성별로 mean(x_i) 값을 빼주기 
- 각 속성별 평균 구하기 

**필요로 하는 것**
- X 

**함수의 형태**
- def normarization(self, metrix) :



In [11]:
class PCA() : 
    def __init__(self, X, y) : 
        self.X = X
        self.y = y 
        self.n = np.shape(X)[0] 
        self.m = np.shape(X)[1]
    
    def normarization(self) : 
        mean_X = np.mean(self.X, axis=0)
        return np.array(self.X)-mean_X
    
    def cov(self,metrix): 
        return np.dot(np.array(metrix), np.array(metrix).T)
        

In [13]:
test = PCA(X,y)
b = test.normarization()
test.cov(b)

array([[14503.76455208, 20308.64596141, 20244.43077585, ...,
        16770.08014827, 16630.42883351, 16787.18949709],
       [20308.64596141, 29589.22879273, 29259.77835075, ...,
        24555.45910654, 24396.23543466, 24442.5882804 ],
       [20244.43077585, 29259.77835075, 29290.42860477, ...,
        24028.93768389, 23909.58406304, 24085.45771401],
       ...,
       [16770.08014827, 24555.45910654, 24028.93768389, ...,
        20684.36674041, 20500.91386046, 20438.76557271],
       [16630.42883351, 24396.23543466, 23909.58406304, ...,
        20500.91386046, 20333.04360684, 20274.78053538],
       [16787.18949709, 24442.5882804 , 24085.45771401, ...,
        20438.76557271, 20274.78053538, 20303.23100549]])

#### 3. 공분산 행렬 XX^T에 대하여 고윳값 분해 진행
#### 4. 최대 크기의 d'개 고윳값에 대응하는 특징 벡터  w_1, w_2, ...w_{d^'} 를 취한다.

**과정** 
1. 고윳값 분해를 통해 고윳값과 고유벡터를 구할 것 
2. 구한 고윳값의 크기에 따라 내림차순으로 정렬할 것 
3. 고윳값이 0인 경우는 제외하며, 입력값으로 입력한 고윳값 개수에 따라 추출하기
4. 선택한 고윳값에 따라 분산이 얼마나 설명되는지 계산하기 

**구현해야하는 것**
- 고윳값 분해 
- 정렬할 것 
- 현재 분산 설명력 : 현 고윳값 / 전체 고윳값의 합

**필요로 하는 것**
- num : 적용할 고윳값의 개수 
- metrix : 고윳값 분해를 할 metrix 


**함수의 형태**
- def eigen(self, metrix): => 내림차순으로 정렬된 고윳값 list, 고윳값과 매칭되는 고유벡터 list

- def select_eigen(self, num, metrix) : => num 개수에 맞춰 고유 벡터 list 및 현재 분산 설명력 제시 

In [45]:
# 최종본 

class PCA() : 
    def __init__(self, X, y) : 
        self.X = X
        self.y = y 
        self.n = np.shape(X)[0] 
        self.m = np.shape(X)[1]
    
    def normarization(self) : 
        mean_X = np.mean(self.X, axis=0)
        return np.array(self.X)-mean_X
    
    def cov(self,metrix): 
        return np.dot(np.array(metrix), np.array(metrix).T)
        
    def eigen(self, metrix):
        eigenvalue, eigenvector = np.linalg.eig(metrix)
        eigenvector_lst = []
        index = np.argsort(eigenvalue)[::-1]
        for i, num in enumerate(index) : 
            eigenvector_lst.append(eigenvector[i, :])
        return np.take(eigenvalue, index), np.array(eigenvector_lst)
    
    def select_eigen(self, num) : 
        if num > self.m : 
            return print("Please lower num under", self.m)
            
        norm_metrix = self.normarization()
        cov_metrix = self.cov(norm_metrix)
        eigenvalue, eigenvector = self.eigen(cov_metrix)
        return eigenvector[:num, :], sum(eigenvalue[:num])/sum(eigenvalue)


In [44]:
test = PCA(X,y)
test.select_eigen(4)

(array([[-0.03033689+0.00000000e+00j,  0.00312955+0.00000000e+00j,
         -0.00493525+0.00000000e+00j, ...,  0.0135038 -1.13825511e-03j,
          0.00402596+0.00000000e+00j,  0.0132382 +0.00000000e+00j],
        [-0.04276124+0.00000000e+00j, -0.00569404+0.00000000e+00j,
         -0.04788244+0.00000000e+00j, ...,  0.00091694-2.33933641e-04j,
         -0.00175396+0.00000000e+00j,  0.00285143+0.00000000e+00j],
        [-0.04286798+0.00000000e+00j, -0.00792541+0.00000000e+00j,
         -0.02606093+0.00000000e+00j, ...,  0.00103375+1.10043789e-04j,
         -0.00366841+0.00000000e+00j,  0.00217882+0.00000000e+00j],
        [-0.04816443+0.00000000e+00j, -0.01030178+0.00000000e+00j,
         -0.0101642 +0.00000000e+00j, ..., -0.00469963+6.03702606e-05j,
          0.00127076+0.00000000e+00j, -0.00335763+0.00000000e+00j]]),
 (0.9971807427797741+0j))

In [36]:
a = np.array([[1,2,3],[2,6,3],[7,1,3]])


array([3, 2, 1])