In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# 경고 메시지 출력 표기 생략
warnings.filterwarnings('ignore')

# unicode 에러
plt.rcParams['axes.unicode_minus'] = False

# 분류 (Classification)

## K Nearest Neighbors (k-최근접 이웃 분류 알고리즘)

가장 중요한 hyperparameter인 **K**값은 근처에 참고(reference)할 **이웃의 숫자**

- k-최근접 이웃 분류 알고리즘
- 가장 고전적이고 직관적인 머신러닝 분류 알고리즘
- 기하학적 거리 분류기
- 가장 **가깝게 위치하는 멤버로 분류**하는 방식

In [None]:
Image(url='https://miro.medium.com/max/405/0*QyWp7J6eSz0tayc0.png', width=500)

## 더미 데이터를 활용한 분류 원리 이해

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import make_classification

In [None]:
fig, axes = plt.subplots(3, 3)
fig.set_size_inches(15, 15)

for i in range(9):
    # 더미 데이터 생성
    X, y = make_classification(n_samples=50, n_features=2, n_informative=2, n_redundant=0, random_state=30)

    blue = X[y==0]
    red = X[y==1]

    # 랜덤한 새로운 점 생성
    newcomer = np.random.randn(1, 2)
    
    # K
    K = 3*(i//3+1)

    axes[i//3, i%3].scatter(red[:,0], red[:, 1], 80, 'r', '^')
    axes[i//3, i%3].scatter(blue[:,0], blue[:, 1], 80, 'b', '^')
    axes[i//3, i%3].scatter(newcomer[:, 0], newcomer[:, 1], 80, 'g', 'o')
    
    # n_neighbors=3
    knn = KNeighborsClassifier(n_neighbors=3*(i//3+1))
    knn.fit(X, y)
    pred = knn.predict(newcomer)
    
    # 표기
    axes[i//3, i%3].annotate('red' if pred==1 else 'blue', xy=newcomer[0], xytext=(newcomer[0]), fontsize=12)

plt.tight_layout()
plt.show()

## mnist (손글씨) 데이터셋을 활용한 분류

mnist (손글씨) 데이터셋을 활용하여 0~9까지 분류하는 분류기를 만듭니다.

`sklearn.datasets` 보다 고해상도 이미지이기 때문에 `tensorflow.keras.datasets`을 활용합니다.

In [None]:
import numpy as np
import urllib.request

url = 'https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz'
urllib.request.urlretrieve(url, 'mnist.npz')
data = np.load('mnist.npz')
x_digit, y_digit = data['x_train'], data['y_train']
x_digit, y_digit = x_digit[:5000], y_digit[:5000]
x_digit = x_digit.reshape(-1, 28*28)
x_digit.shape

### mnist (손글씨) 데이터 시각화

In [None]:
w, h = 2, 5
fig, axes = plt.subplots(w, h)
fig.set_size_inches(12, 6)
for i in range(w*h):
    axes[i//h, i%h].imshow(x_digit[i].reshape(-1, 28), cmap='gray')
    axes[i//h, i%h].set_title(y_digit[i], fontsize=20)
    axes[i//h, i%h].axis('off')
plt.tight_layout()
plt.show()

## 데이터 셋 분할

학습용(train) 데이터셋과 검증 (혹은 테스트)용 데이터 셋을 분할 합니다.

In [None]:
from sklearn.model_selection import train_test_split

SEED = 123

- `random_state`에 SEED(123) 적용
- `test_size`는 0.1 로 설정
- `stratify` 옵션 지정

In [None]:
# 코드를 입력해 주세요


In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>((4500, 784), (500, 784))</pre>

### 모델 정의

`KNeighborsClassifier`를 정의 하고 핵심 hyperparameter 인 `n_neighbors`를 지정합니다.

임의로 5개의 이웃을 보도록 `n_neighbors=5`로 지정하겠습니다.

In [None]:
# 코드를 입력해 주세요


### 학습 (fit)

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>KNeighborsClassifier()</pre>

### 예측 (predict)

In [None]:
# 코드를 입력해 주세요


### 검증 (evaluation)

정확도 (Accuracy) 산출

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0.938</pre>

### 최적의 n_neighbors 찾기

- `k=1` ~ `k=10`까지의 정확도를 출력

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>k: 1, accuracy: 94.40
k: 2, accuracy: 93.20
k: 3, accuracy: 94.20
k: 4, accuracy: 93.80
k: 5, accuracy: 93.80
k: 6, accuracy: 93.40
k: 7, accuracy: 93.80
k: 8, accuracy: 93.60
k: 9, accuracy: 94.00
k: 10, accuracy: 92.80
</pre>

## Iris 붓꽃 데이터셋을 활용한 실습

### 필요한 데이터셋 불러오기 (load_iris)

In [None]:
from sklearn.datasets import load_iris

In [None]:
# 코드를 입력해 주세요


### 데이터프레임 (DataFrame) 만들기

`df` 변수에 데이터 프레임 생성합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sepal length (cm)</th>
      <th>sepal width (cm)</th>
      <th>petal length (cm)</th>
      <th>petal width (cm)</th>
      <th>target</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>5.1</td>
      <td>3.5</td>
      <td>1.4</td>
      <td>0.2</td>
      <td>0</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4.9</td>
      <td>3.0</td>
      <td>1.4</td>
      <td>0.2</td>
      <td>0</td>
    </tr>
    <tr>
      <th>2</th>
      <td>4.7</td>
      <td>3.2</td>
      <td>1.3</td>
      <td>0.2</td>
      <td>0</td>
    </tr>
    <tr>
      <th>3</th>
      <td>4.6</td>
      <td>3.1</td>
      <td>1.5</td>
      <td>0.2</td>
      <td>0</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5.0</td>
      <td>3.6</td>
      <td>1.4</td>
      <td>0.2</td>
      <td>0</td>
    </tr>
  </tbody>
</table>
</div>

## 데이터 셋 분할

학습용(train) 데이터셋과 검증 (혹은 테스트)용 데이터 셋을 분할 합니다.

In [None]:
SEED = 123

- test_size=0.2
- random_state=SEED(123) 로 설정합니다.
- stratify 옵션을 지정합니다.

In [None]:
# 코드를 입력해 주세요


잘 로드가 되었는지 **shape를 확인**하도록 합니다.

`x_train`, `y_train` shape 출력

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>((120, 4), (120,))</pre>

`x_test`, `y_test` shape 확인

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>((30, 4), (30,))</pre>

### 모델 정의

In [None]:
# 코드를 입력해 주세요


### 학습 (fit)

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>KNeighborsClassifier()</pre>

### 예측(predict)

예측한 결과를 `prediction` 변수에 대입합니다.

In [None]:
# 코드를 입력해 주세요


### 검증 (evaluation)

예측한 결과에 대한 **정확도**를 출력합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0.9333333333333333</pre>

### 최적의 k 값 찾기

k=1 ~ 10까지 중 최적의 k 값 찾기

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>k: 1, accuracy: 93.33
k: 2, accuracy: 93.33
k: 3, accuracy: 93.33
k: 4, accuracy: 93.33
k: 5, accuracy: 93.33
k: 6, accuracy: 90.00
k: 7, accuracy: 90.00
k: 8, accuracy: 93.33
k: 9, accuracy: 93.33
k: 10, accuracy: 93.33
</pre>