# Feature extraction - LLE 

LLE 수도 코드 출처 : 단단한 머신러닝 챕터 10 

**입력**
- 샘플 세트 D = ${x_1, x_2, ..., x_m}$ 
- 최근접 이웃 파라미터 k 
- 저차원 공간 차원수 d' 

**과정**
1. for i = 1,2, ... m do 
- $x_i$의 최근접 이웃 k를 설정 
- 최근접 이웃들로부터 $w_{ij}$ 계산, 그 외 객체에 대해선 $w_ij$ 의 값을 0으로 부여 
- end for 

2. W metrix 값으로부터 M metrix 구하기 
3. M에 대해서 고윳값 분해를 진행 
4. return M의 최소 d'개 고윳값에 대응하는 특성 벡터 탐색 

**출력**
- 샘플 세트 D의 저차원 공간에서의 투영 Z = {$z_1, z_2, ..., z_m$} 

In [4]:
# 데이터 사용 및 라이브러리 설치 

import numpy as np
import pandas as pd
import random
import heapq

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression 
from collections import defaultdict

boston = load_boston()
X = boston.data 
y = boston.target
model = LinearRegression()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

### __init__ 설정 및 1번 과정 

**입력**
- 샘플 세트 D = ${x_1, x_2, ..., x_m}$ 
- 최근접 이웃 파라미터 k 
- 저차원 공간 차원수 d' 

**과정**
1. for i = 1,2, ... m do 
- $x_i$의 최근접 이웃 k를 설정 
- 최근접 이웃들로부터 $w_{ij}$ 계산, 그 외 객체에 대해선 $w_ij$ 의 값을 0으로 부여 
- end for 

**구현해야하는 것** 
- 유클리드 거리 기반으로 최근접 이웃 k개 선발 
- $x_i$를 복구하는 계수 $w_ij$ 계산, 그외 값들에는 0을 부여 
- $w_{ij} = \frac {\sum_{k \in Q_i} C^{-1}_jk}{\sum_{l,s \in Q_i} C^{-1}_{ls}} $ 

**필요한 것**
- X : 입력 데이터 
- k : 근접 이웃 개수 

**함수의 형태**
- def __init__(self, X,k,d) 

- def cal_w(self) : => $W$ metrix 


In [2]:
# inv_dist_metrix = np.reciprocal(dist_metrix) 에서 0으로 나누는 오류가 발생하지만, 실행은 된다 :)

class LLE() : 
    def __init__(self,X,k,d) : 
        self.X = X
        self.n = np.shape(X)[0]
        self.m = np.shape(X)[1]
        
        self.k = k 
        self.d = d 
        
    def cal_w(self) : 
        dist_metrix = []
        k_neighbor = []
        for i in range(self.n) : 
            dist_vector = [np.linalg.norm(np.array(self.X[i]) - np.array(self.X[j])) for j in range(self.n)]
            dist_metrix.append(np.square(dist_vector)) #dist matrix **2 필요
            
            index = np.argsort(dist_vector)
            neighbor = [] 
            for idx, num in enumerate(index) : 
                if num <= self.k :  neighbor.append(idx)
            
            k_neighbor.append(neighbor)
    
        dist_metrix = np.array(dist_metrix)
        inv_dist_metrix = np.reciprocal(dist_metrix) 
        # 점검 필요. C^{-1}의 값이 필요한 건 맞으나, 이것이 역행렬을 의미하는 것인지 역수를 의미하는 것인지 구분 필요. 
        # 역행렬로 넣을 시 w의 값이 1을 넘어서며 음수도 나옴. 역수가 맞는듯 
        
        for i in range(self.n) : 
            inv_dist_metrix[i,i] = 0 

        w = np.zeros(shape = (self.n, self.n))
        for i in range(self.n) : 
            for j in range(self.n) : 
                up, down = 0,0
                for index in k_neighbor[i] : 
                    if j in k_neighbor[i] : up += inv_dist_metrix[j, index] 
                    down += np.sum(inv_dist_metrix[index, k_neighbor[i]])
                w[i,j] = up / down 
        
        return w
                
        
            
        

In [72]:
test = LLE(X, 2, 4)
test.cal_w()


  inv_dist_metrix = np.reciprocal(dist_metrix)


array([[0.1025635 , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.44780782, 0.        , 0.37299421, ..., 0.        , 0.        ,
        0.        ],
       [0.2282903 , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [5]:
a= [[1,2,3,4], [6,5,4,3], [7,8,3,1], [2,6,4,3]]
test = LLE(a, 2, 2)
print(test.cal_w()[0])
sum(test.cal_w()[0])

[0.34419923 0.         0.22119862 0.43460215]


  inv_dist_metrix = np.reciprocal(dist_metrix)


1.0

### 2. W metrix 값으로부터 M metrix 구하기 
### 3. M에 대해서 고윳값 분해를 진행 
### 4. return M의 최소 d'개 고윳값에 대응하는 특성 벡터 탐색

**구현해야하는 것** 
- M : $(I-W)^T(I-W).$ 

- 고윳값 분해 
- 최소 차원 d' 만큼의 특성 벡터 탐색 


**필요한 것**
- w metrix 
- d' 

**함수의 형태**
- def m(self) : m metrix  

- def eigen(self) : => d 개의 고윳값과 d개의 고유벡터 반환

- def lle_goal(self) : => d개의  특성 벡터 반환 

In [73]:
# inv_dist_metrix = np.reciprocal(dist_metrix) 에서 0으로 나누는 오류가 발생하지만, 실행은 된다 :)

class LLE() : 
    def __init__(self,X,k,d) : 
        self.X = X
        self.n = np.shape(X)[0]
        self.m = np.shape(X)[1]
        
        self.k = k 
        self.d = d 
        
    def cal_w(self) : 
        dist_metrix = []
        k_neighbor = []
        for i in range(self.n) : 
            dist_vector = [np.linalg.norm(np.array(self.X[i]) - np.array(self.X[j])) for j in range(self.n)]
            dist_metrix.append(np.square(dist_vector))
            
            index = np.argsort(dist_vector)
            neighbor = [] 
            for idx, num in enumerate(index) : 
                if num <= self.k :  neighbor.append(idx)
            
            k_neighbor.append(neighbor)
    
        dist_metrix = np.array(dist_metrix)
        inv_dist_metrix = np.reciprocal(dist_metrix)
        for i in range(self.n) : 
            inv_dist_metrix[i,i] = 0 

        w = np.zeros(shape = (self.n, self.n))
        for i in range(self.n) : 
            for j in range(self.n) : 
                up, down = 0,0
                for index in k_neighbor[i] : 
                    if j in k_neighbor[i] : up += inv_dist_metrix[j, index] 
                    down += np.sum(inv_dist_metrix[index, k_neighbor[i]])
                w[i,j] = up / down 
        
        return w
                
        
    def m(self, metrix) : 
        I = np.identity(n)
        return np.dot((I-metrix).T, (I-metrix)) 
    
    def eigen(self,metrix) : 
        rank = np.linalg.matrix_rank(metrix)
        if self.d < rank : print("please increase d over ",rank )
    
        eigenvalue, eigenvector = np.linalg.eig(metrix)
        index = np.argsort(eigenvalue)[::-1]
        eigenvalue = eigenvalue[index]
        eigenvector = eigenvector[index, :] 
        return eigenvalue[:self.d], eigenvector[:self.d, : ]
    
    def lle_goal(self) : 
        metrix = self.cal_w()
        eigenvalue, eigenvector = self.eigen(metrix)
        eigen_digonal = np.sqrt(np.diag(eigenvalue))
        return np.dot(eigen_digonal, eigenvector) 
        
        
        

In [74]:
test = LLE(X, 2, 4)
test.lle_goal()


  inv_dist_metrix = np.reciprocal(dist_metrix)


please increase d over  301


array([[ 0.00000000e+00+0.00000000e+00j,  0.00000000e+00+0.00000000e+00j,
         0.00000000e+00+0.00000000e+00j, ...,
         3.07816807e-62+1.21333151e-61j,  3.07816807e-62-1.21333151e-61j,
        -1.21076328e-62+0.00000000e+00j],
       [ 0.00000000e+00+0.00000000e+00j,  0.00000000e+00+0.00000000e+00j,
         0.00000000e+00+0.00000000e+00j, ...,
        -4.17741062e-62-5.59438477e-62j, -4.17741062e-62+5.59438477e-62j,
        -7.01029385e-63+0.00000000e+00j],
       [ 0.00000000e+00+0.00000000e+00j,  0.00000000e+00+0.00000000e+00j,
         0.00000000e+00+0.00000000e+00j, ...,
         2.23772383e-76-3.44723560e-75j,  2.23772383e-76+3.44723560e-75j,
         5.87114601e-76+0.00000000e+00j],
       [ 0.00000000e+00+0.00000000e+00j,  0.00000000e+00+0.00000000e+00j,
         0.00000000e+00+0.00000000e+00j, ...,
         7.16968429e-61+4.39068936e-61j,  7.16968429e-61-4.39068936e-61j,
         1.25014694e-61+0.00000000e+00j]])