## 4장-2절. Linera Disciriminat Analysis(LDA)
- PCA와 유사하게 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법
- 중요한 차이점은 LDA는 **지도학습의 분류**에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다.
- PCA는 입력 데이터의 변동성의 가장 큰 축을 찾았지만. LDA는 입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾는다.

In [11]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np

In [2]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

## 01. 데이터 준비 및 전처리

In [3]:
iris = load_iris()
iris_scaled = StandardScaler().fit_transform(iris.data)

## 02. LDA 모델 만들기

In [4]:
lda = LinearDiscriminantAnalysis(n_components=2)
lda.fit(iris_scaled, iris.target)
iris_lda = lda.transform(iris_scaled)
print(iris_lda.shape)

(150, 2)


In [15]:
lda_columns = ['lda_component_1','lda_component_2']
irisDF_lda = pd.DataFrame(iris_lda, columns=lda_columns)
irisDF_lda['target'] = iris.target
irisDF_lda.head()

Unnamed: 0,lda_component_1,lda_component_2,target
0,8.0618,0.300421,0
1,7.128688,-0.78666,0
2,7.489828,-0.265384,0
3,6.813201,-0.670631,0
4,8.132309,0.514463,0


In [17]:
# 전체 변동성에서 개별 LDA 컴포넌트별로 차지하는 변동성 비율
print(lda.explained_variance_ratio_)
## LDA는 첫번째 컴포넌트가 전체변동성의 대부분을 차지하는 것 확인 가능하다.

[0.9912126 0.0087874]


## 03. 모델 fitting 후 평가

In [9]:
from sklearn.model_selection import train_test_split

X = irisDF_lda.iloc[:,0:2]
y = irisDF_lda.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
X_train.shape, X_test.shape, y_train.shape, y_test.shape 

((105, 2), (45, 2), (105,), (45,))

In [12]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

clf_lda = LogisticRegression(solver='sag', multi_class='multinomial').fit(X_train,y_train)

In [13]:
confusion_matrix(y_test,clf_lda.predict(X_test))

array([[15,  0,  0],
       [ 0, 13,  2],
       [ 0,  0, 15]], dtype=int64)

### 해석
- 역시나 분류기 때문에 PCA보다 좋은 모델을 가지는 것 확인 가능