# PCA와 LDA 비교
- PCA(주성분 분석) -> 주로 데이터 시각화가 목적 – 변화량을 보고 압축
- LDA : 성능향상을 위한 데이터 전처리가 목적 - 결과 데이터 기반 – 결과 데이터를 보고 압축 – 중첩되는 데이터가 있으면 LDA를 사용하면 효과를 볼 수 있음 -> 지도학습의 분류에서 적용 가능

In [2]:
# 경고 메세지가 안나오게..
import warnings
warnings.filterwarnings('ignore')

# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# KFold
from sklearn.model_selection import KFold           # 랜덤하게 섞어서 자를 수도 있고, 순서대로 자를 수도 있음
from sklearn.model_selection import StratifiedKFold # 결과 데이터의 비율이 최대한 균등하게 들어갈 수 있도록!

# 교차검증 함수
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

# 데이터 전처리
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 평가함수
from sklearn.metrics import accuracy_score

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor

# 군집
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 저장
import pickle

# 그래프 설정
plt.rcParams['font.family']='Malgun Gothic'
# 맥용 plt.rcParams['font.family']='AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# LDA
- PCA : 변동량이 가장 많은 컬럼을 기준으로 축을 찾아 투영하기 때문에 결과 데이터가 섞여 있는 형태로 압축될 수 있다
- LDA : 결과 데이터들이 가장 잘 구분될 수 있는 축을 찾아 투영하기 때문에 PCA 보다 더 잘 학습될 가능성이 있다

### 여러 가지를 시도해 봐야함 - 무조건 LDA를 하라는 것이 아니라 
- 스케일링하고 LDA를 하고 .. 등등

# 데이터를 읽어온다

In [3]:
iris_df = pd.read_csv('../data/iris.csv', header=None)
iris_df.columns = ['a1', 'a2', 'a3', 'a4', 'target']
iris_df.head()

Unnamed: 0,a1,a2,a3,a4,target
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


# 입력과 결과를 나눈다

In [4]:
x = iris_df.drop('target', axis=1)
y = iris_df['target']

display(x)
display(y)

Unnamed: 0,a1,a2,a3,a4
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: target, Length: 150, dtype: object

# 문자열을 숫자로 변환한다

In [5]:
encoder1 = LabelEncoder()
encoder1.fit(y)
y = encoder1.transform(y)
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

# PCA

In [6]:
pca = PCA(n_components=2)
pca.fit(x)
pca_x = pca.transform(x)
pca_x

array([[-2.68420713,  0.32660731],
       [-2.71539062, -0.16955685],
       [-2.88981954, -0.13734561],
       [-2.7464372 , -0.31112432],
       [-2.72859298,  0.33392456],
       [-2.27989736,  0.74778271],
       [-2.82089068, -0.08210451],
       [-2.62648199,  0.17040535],
       [-2.88795857, -0.57079803],
       [-2.67384469, -0.1066917 ],
       [-2.50652679,  0.65193501],
       [-2.61314272,  0.02152063],
       [-2.78743398, -0.22774019],
       [-3.22520045, -0.50327991],
       [-2.64354322,  1.1861949 ],
       [-2.38386932,  1.34475434],
       [-2.6225262 ,  0.81808967],
       [-2.64832273,  0.31913667],
       [-2.19907796,  0.87924409],
       [-2.58734619,  0.52047364],
       [-2.3105317 ,  0.39786782],
       [-2.54323491,  0.44003175],
       [-3.21585769,  0.14161557],
       [-2.30312854,  0.10552268],
       [-2.35617109, -0.03120959],
       [-2.50791723, -0.13905634],
       [-2.469056  ,  0.13788731],
       [-2.56239095,  0.37468456],
       [-2.63982127,

# LDA: PCA와는 다르게 결과 데이터인 y도 함께 넣어줌

In [7]:
lda = LinearDiscriminantAnalysis(n_components=2)
lda.fit(x, y)
lda_x = lda.transform(x)
lda_x

array([[-8.0849532 ,  0.32845422],
       [-7.1471629 , -0.75547326],
       [-7.51137789, -0.23807832],
       [-6.83767561, -0.64288476],
       [-8.15781367,  0.54063935],
       [-7.72363087,  1.48232345],
       [-7.23514662,  0.3771537 ],
       [-7.62974497,  0.01667246],
       [-6.58274132, -0.98737424],
       [-7.36884116, -0.91362729],
       [-8.42181434,  0.67622968],
       [-7.24739721, -0.08292417],
       [-7.35062105, -1.0393597 ],
       [-7.59646896, -0.77671553],
       [-9.86936588,  1.61486093],
       [-9.18033614,  2.75558626],
       [-8.59760709,  1.85442217],
       [-7.7995682 ,  0.60905468],
       [-8.1000091 ,  0.99610981],
       [-8.04543611,  1.16244332],
       [-7.52046427, -0.156233  ],
       [-7.60526378,  1.22757267],
       [-8.70408249,  0.89959416],
       [-6.26374139,  0.46023935],
       [-6.59191505, -0.36199821],
       [-6.79210164, -0.93823664],
       [-6.84048091,  0.4848487 ],
       [-7.948386  ,  0.23871551],
       [-8.01209273,

# 학습 모델을 생성한다

In [12]:
model1 = XGBClassifier(silent=True, verbosity=0)
model2 = XGBClassifier(silent=True, verbosity=0)
model3 = XGBClassifier(silent=True, verbosity=0)

In [15]:
# kfold = StratifiedKFold(n_splits=10)

# 랜덤하게 섞어서 해보자
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

r1 = cross_val_score(model1, x, y, scoring='accuracy', cv=kfold)
r2 = cross_val_score(model2, pca_x, y, scoring='accuracy', cv=kfold)
r3 = cross_val_score(model3, lda_x, y, scoring='accuracy', cv=kfold)

In [16]:
print(r1.mean()) # 원본
print(r2.mean()) # PCA # 노이즈가 제거되어서 성능이 향상됨 - 데이터의 패턴을 보면 LDA랑 비슷하게 선을 그어서 투영시킴
print(r3.mean()) # LDA

0.9333333333333333
0.9666666666666668
0.9733333333333334


# 전체 데이터를 학습시킨다

In [17]:
model1.fit(x, y)
model2.fit(pca_x, y)
model3.fit(lda_x, y)

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
              importance_type='gain', interaction_constraints='',
              learning_rate=0.300000012, max_delta_step=0, max_depth=6,
              min_child_weight=1, missing=nan, monotone_constraints='()',
              n_estimators=100, n_jobs=12, num_parallel_tree=1,
              objective='multi:softprob', random_state=0, reg_alpha=0,
              reg_lambda=1, scale_pos_weight=None, silent=True, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=0)

# 학습한 데이터로 예측 결과를 추출한다

In [20]:
pred1 = model1.predict(x)
pred2 = model2.predict(pca_x)
pred3 = model3.predict(lda_x)

In [22]:
r1 = accuracy_score(y, pred1)
r2 = accuracy_score(y, pred2)
r3 = accuracy_score(y, pred3)

print(r1)
print(r2)
print(r3)

1.0
1.0
1.0
