In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.display import Image

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important;}</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 10]

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

# 차원축소 

- dimension reduction
- 차원(dimension)이란? 데이터를 구성하고 있는 속성의 갯수 
- 차원 축소란? 높은 차원의 데이터를 낮은 차원으로 줄여 특징을 살펴보는 기법
- 데이터의 차원이 커지면 커질수록 계산 복잡도와 정확도가 떨어진다. 다차원 데이터를 설명할 수 있는 핵심 축을 찾는다면, 작은 차원으로 모든 데이터를 설명할 수 있다.
- 차원 축소에서는 데이터의 분산이 가장 크게 나타나는 방향을 찾는 것이 가장 중요하며 첫 방향을 1번째 주성분(1st PC. (principal component)라고 한다. 

- PCA(principal component) : 
- https://www.freecodecamp.org/news/the-curse-of-dimensionality-how-we-can-save-big-data-from-itself-d9fa0f872335/




<img src="img/dimension1.jpg" width='600'>


# 차원의 저주 현상

- Curse of Dimensionality
- 차원이 높아지면 데이터의 밀집도가 증가하여 모든 것이 작아지고 부족하게 되는 현상.
- 데이터의 차원이 커질 수록 필요한 데이터의 수가 그만큼 증가하게 되고, 이에 따라 모델의 성능이 저하되는 현상. 또한 동시에 데이터 간의 거리가 벌어져 밀도가 희소해지는데(sparse), 이런 경우 거리에 기반한 알고리즘 성능이 매우 떨어진다


- 데이터의 밀집도 (Data Density)
    - 차원이 다르면 Data의 밀집도가 달라진다.
    - N개의 Data를 서로 다른 차원에서 다룰때 데이터의 밀집도가 달라지는 모습을 표현하고 있다.
    - 1차원에서 데이터의 밀집도는 N/5로 하나의 큐브는 N/5 샘플을 가진다.
    - 2차원에서 데이터의 밀집도는 N/25로 하나의 큐브는 N/25 샘플을 가진다.
    - 3차원에서 데이터의 밀집도는 N/125로 하나의 큐브는 N/125 샘플을 가진다.
    - 차원이 높아지면 데이터의 밀집도는 작아지는 것을 볼 수 있다.
    
    <img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FeqhE2m%2FbtqB3phXvI5%2F9JTu6FPahVbeOkv0HlKWpK%2Fimg.png'>
    


# PCA

- Principal Component
- 기존 raw 데이터에 존재하는 Feature 들로 새로운 Feature 를 생성하여 Feature 를 줄여나가는 방식
- 데이터의 분산(Variance)을 최대한 보존하면서 서로 직교하는 축을 찾아 고차원의 공간의 표본을 저 차원으로 변환하는 차원 축소 기법
- 기존의 축이 아닌 새로운 축을 찾는다 

<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbHso5m%2FbtqNCdErDdE%2FuvG1g8UkuJetTDXPlVCFK0%2Fimg.png' width='300'>

```
from sklearn.decomposition import PCA

# pca 객체 정의. n_components 는 차원의 수 
pca = PCA(n_components=2)

# 2차원 PCA값으로 각 데이터 차원축소
pca_transformed = pca.fit_transform(Xdata)

# 별도 변수로 저장 
pca_x = pca_transformed[:,0]
pca_y = pca_transformed[:,1]

```

## 붓꽃 데이타셋에 PCA 차원 축소 적용 


In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

columns = ['sepal_length','sepal_width','petal_length','petal_width']
iris_df = pd.DataFrame(iris.data , columns=columns)
iris_df['target']=iris.target
iris_df.sample(3)

In [None]:
sepal_length

In [None]:
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris_df, hue='target')

In [None]:
sns.scatterplot(x='petal_length', y='petal_width', data=iris_df, hue='target')

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris.data)
iris_scaled = scaler.fit_transform(iris.data)

In [None]:
iris_scaled.shape

In [None]:
iris_scaled[:3]

** PCA 변환 수행 **

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)

pca_transformed = pca.fit_transform(iris.data)

iris_df['pca_x'] = pca_transformed[:,0]
iris_df['pca_y'] = pca_transformed[:,1]
iris_df.sample(3)

In [None]:
sns.scatterplot(x='pca_x', y='pca_y', data=iris_df, hue='target', style='target')

### 원본 데이터와 PCA 변환된 데이터 기반에서 예측 성능 비교 **

In [None]:
from sklearn.neighbors import KNeighborsClassifier

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, 
                                                    test_size=0.2, random_state=11,
                                                    stratify=iris.target)

model_kn = KNeighborsClassifier()
model_kn.fit(X_train, y_train)
model_kn.score(X_test, y_test)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(pca_transformed, iris.target, 
                                                    test_size=0.2, random_state=11,
                                                    stratify=iris.target)

model_kn = KNeighborsClassifier()
model_kn.fit(X_train, y_train)
model_kn.score(X_test, y_test)

# 퀴즈 : 
펭귄 데이타를 이용하여 PCA 데이타를 이용할때와 원본 데이타를 이용할 때 분류 모델에 성능의 차이가 있는지 확인하여라.
분류 모델은 임의로 지정한다. 

sns.load_dataset('penguins')

In [None]:
sns.load_dataset('penguins')

# Digit

In [None]:
from sklearn.datasets import load_digits

digits = load_digits()
digits.keys()

In [None]:
digits_df = pd.DataFrame(digits.data, columns=digits.feature_names)
digits_df['target'] = digits.target
digits_df.head(2)

In [None]:
digits_df.shape

In [None]:
digits_df.columns

In [None]:
digits_df['target'].unique()

In [None]:
digits_df['target'].value_counts()

In [None]:
digits.images.shape

In [None]:
digits.images[0]

In [None]:
plt.imshow(digits.images[9])

In [None]:
fig, axes = plt.subplots(2, 5)
# axes[0,0].imshow(digits.images[9])
num = 0
for i in range(2):
    for j in range(5):
        axes[i,j].imshow(digits.images[num])
        num += 1


In [None]:
digits_df.sample(3)

In [None]:
pca_2 = PCA(n_components=2)

pca_transformed2 = pca.fit_transform(digits.data)

digits_df['pca_x'] = pca_transformed2[:,0]
digits_df['pca_y'] = pca_transformed2[:,1]
digits_df.sample(3)

In [None]:
sns.scatterplot(x='pca_x', y='pca_y', data=digits_df, hue='target', palette='PuBuGn_r', style='target')
plt.legend(loc=[0,0.2])

### 10차원

In [None]:
pca = PCA(n_components=10)

pca_transformed = pca.fit_transform(digits.data)
columns_list = ['pca'+str(i) for i in range(10)]
df_pca = pd.DataFrame(pca_transformed, columns=columns_list)
df_pca['target'] = digits.target
df_pca.head(2)

In [None]:
from sklearn.linear_model import LogisticRegression
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, 
                                                    test_size=0.2, random_state=11,
                                                    stratify=digits.target)

model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
model_lr.score(X_test, y_test)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(pca_transformed, digits.target, 
                                                    test_size=0.2, random_state=11,
                                                    stratify=digits.target)

model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
model_lr.score(X_test, y_test)

In [None]:
# conda install opencv

In [None]:
# pip list

In [None]:
import cv2

img_path = 'img/berry.jpg'
# img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
img = cv2.imread(img_path)
img.shape



In [None]:
img_resized = cv2.resize(img, dsize=(12, 12))

In [None]:
plt.imshow(img)

In [None]:
plt.imshow(img_resized)