In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.display import Image

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important;}</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

# LDA

- Linear Discriminant Analysis
- 선형 판별 분석(Linear Discriminant Analysis, LDA)
- PCA가 데이터의 전체적인 분포를 참고하여 새로운 basis를 설정하고, 그 축에 맞게 데이터를 새롭게 projection 하는 것이 목표라면, LDA는 지도적인 방법으로 basis를 찾아서 그 축을 분리에 이용한 뒤, 최적의 분리를 완성한 뒤 projection을 하는 것이 목표이다.



<img src='https://nirpyresearch.com/wp-content/uploads/2018/11/PCAvsLDA-1024x467.png' width='500'>


- sklearn의 LDA


```
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2)

lda.fit(X, y)

data_lda = lda.transform(X)
```

### 붓꽃 데이터 셋에 LDA 적용하기 

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

columns = ['sepal_length','sepal_width','petal_length','petal_width']
iris_df = pd.DataFrame(iris.data , columns=columns)
iris_df['target']=iris.target
iris_df.sample(3)

In [None]:
from sklearn.preprocessing import StandardScaler

iris_scaled = StandardScaler().fit_transform(iris.data)

In [None]:
iris_scaled.shape

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2)

lda.fit(iris_scaled, iris.target)
iris_lda = lda.transform(iris_scaled)
iris_lda.shape

In [None]:
iris_df['target'] = iris.target

iris_df['lda_x'] = iris_lda[:,0]
iris_df['lda_y'] = iris_lda[:,1]
iris_df.sample(3)

In [None]:
sns.scatterplot(x='lda_x', y='lda_y', data=iris_df, hue='target', style='target', palette='crest')

## digit 데이타셋 활용

In [None]:
from sklearn.datasets import load_digits

digits = load_digits()
digits.keys()

In [None]:
digits_df = pd.DataFrame(digits.data, columns=digits.feature_names)
digits_df['target'] = digits.target
digits_df.head(2)

In [None]:
digits_scaled = StandardScaler().fit_transform(digits.data)
digits_scaled.shape

In [None]:
digits_df['target'].value_counts()

In [None]:
fig, axes = plt.subplots(2, 5)
# axes[0,0].imshow(digits.images[9])
num = 0
for i in range(2):
    for j in range(5):
        axes[i,j].imshow(digits.images[num])
        num += 1

In [None]:
lda = LinearDiscriminantAnalysis(n_components=2)

lda.fit(digits_scaled, digits.target)
digits_lda = lda.transform(digits_scaled)
digits_lda.shape

In [None]:
digits_df['lda_x'] = digits_lda[:,0]
digits_df['lda_y'] = digits_lda[:,1]
digits_df.sample(3)

In [None]:
sns.scatterplot(x='lda_x', y='lda_y', data=digits_df, hue='target', palette='PuBuGn_r', style='target')
plt.legend(loc=[0.9,0.1])

## 올리베티 얼굴 사진 데이터

- AT&T와 캠프리지 대학 전산 연구실에서 공동으로 제작한 얼굴 사진 데이터 베이스의 간략화된 버전. 
- fetch_olivetti_faces() 명령으로 로드하며 다음과 같이 구성되어 있다. 
- 64x64=4096 해상도의 흑백 이미지이고 40명의 사진 400장으로 구성되어 있다.

- 타겟 데이터 : 40명의 개인을 나타내는 식별 번호
- 특징 데이터 : 각 개인의 얼굴 이미지

In [None]:
from sklearn.datasets import fetch_olivetti_faces
olivetti = fetch_olivetti_faces()
# print(olivetti.DESCR)
olivetti.keys()

In [None]:
olivetti.target

In [None]:
fig, axes = plt.subplots(5, 8)
num = 0
for i in range(5):
    for j in range(8):
        axes[i,j].imshow(olivetti.images[num], cmap=plt.cm.gray)
        num += 1
plt.tight_layout()
plt.show()

In [None]:
np.random.seed(111)
N = 2
M = 5
fig = plt.figure(figsize=(8, 5))
plt.subplots_adjust(top=1, bottom=0, hspace=0, wspace=0.05)
klist = np.random.choice(range(len(olivetti.data)), N * M)

for i in range(N):
    for j in range(M):
        k = klist[i*M+j]
        ax = fig.add_subplot(N, M, i*M+j+1)
        ax.imshow(olivetti.images[k], cmap=plt.cm.bone)
        ax.grid(False)
        ax.xaxis.set_ticks([])
        ax.yaxis.set_ticks([])
        plt.title(olivetti.target[k])
plt.tight_layout()
plt.show()

In [None]:
olivetti.data.shape

In [None]:
olivetti_df = pd.DataFrame(olivetti.data)
olivetti_df['target'] = olivetti.target
olivetti_df.head(2)

In [None]:
olivetti_scaled = StandardScaler().fit_transform(olivetti.data)
olivetti_scaled.shape

In [None]:
lda = LinearDiscriminantAnalysis(n_components=2)


lda.fit(olivetti_scaled, olivetti.target)
olivetti_lda = lda.transform(olivetti_scaled)
olivetti_lda.shape

In [None]:
olivetti_lda_df = pd.DataFrame(olivetti_lda, columns=['lda_x', 'lda_y'])

In [None]:
olivetti_lda_df['target'] = olivetti.target

In [None]:
olivetti_lda_df['target'].unique()

In [None]:
sns.scatterplot(x='lda_x', y='lda_y', data=olivetti_lda_df, hue='target', palette='PuBuGn_r')
plt.legend(loc=[0.9,0.1])