# 붓꽃 품종 분류

## 패키지 로딩

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 데이터 로딩

In [None]:
X,y = load_iris(return_X_y=True)

## 학습/평가 데이터 분할

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 10, stratify = y)

## 변수간 관계 확인

In [None]:
df = pd.DataFrame(X, columns=load_iris().feature_names)
df['class'] = y
df.head()

In [None]:
sns.pairplot(df, hue = 'class')

## 모델 생성 및 학습

In [None]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)

## 예측 및 평가

In [None]:
y_hat = knn.predict(X_test)
cf_mat = metrics.confusion_matrix(y_test,y_hat)
print(cf_mat)

In [None]:
print(f'정확도 : {metrics.accuracy_score(y_test,y_hat):.3f}')

## 최적의 K찾기

In [None]:
import warnings
warnings.filterwarnings(action='ignore') # action='default'

In [None]:
k = 10
acc_score = np.zeros(k)
for k in range(1, k+1):
    # n_neighbors 파라미터는 k값에서 근접한 값이 몇개인지 
    model = KNeighborsClassifier(n_neighbors=k).fit(X_train,y_train)
    y_hat = model.predict(X_test)
    acc = metrics.accuracy_score(y_test,y_hat)
    acc_score[k-1] = acc

max_index = np.argmax(acc_score)
print(f'최적의 K: {max_index+1}이며 이때의 정확도는 {acc_score[max_index]:.3f}이다.')

# MNIST 손글씨 분류
- MNIST: 손으로 쓴 숫자들로 이루어진 데이터베이스

## 패키지 로딩

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 데이터 로딩

In [None]:
mnist = fetch_openml('mnist_784', version = 1)
mnist.keys()

In [None]:
X,y = load_iris(return_X_y=True)

### 데이터 모양 확인
- 전체 70,000개의 이미지와 784개의 특성값(28X28 크기)
- 각 특성 값은 0~255 사이의 픽셀 강도 값을 갖는다.

In [None]:
X = mnist.data
y = mnist.target
print(X.shape,y.shape)
# print(X)
print(X.iloc[0])

## 숫자 데이터 이미지화

In [None]:
import matplotlib.pyplot as plt
digit_data = X.iloc[3].values.reshape(28,28)
plt.imshow(digit_data, cmap='binary')
plt.show()

In [None]:
# 정답 레이블 확인
y[0]

## 학습/평가 데이터 분리
- MNIST 데이터셋은 이미 학습 데이터(앞졲 60,000개와) 평가 데이터(뒤쪽 10,000)로 나뉘어 있다.

In [None]:
X_train,X_test,y_train,y_test = X[:60000], X[60000:],y[:60000],y[60000:]

## 모델 생성 및 학습

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

## 예측 및 평가

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score

y_hat = knn.predict(X_test)
accuracy = accuracy_score(y_test,y_hat)
print(f'정확도 : {accuracy:.3f}')

In [None]:
pred_proba = knn.predict_proba(X_test)
auc = roc_auc_score(y_test, pred_proba, multi_class='ovr')
print(f'AUC: {auc:.3f}')

In [None]:
test_data = X_test.iloc[0]
print('정답: ',y_test.iloc[0])
print('예측값:',knn.predict(test_data.values.reshape(1,-1)))

## 최적의 K찾기

In [42]:
k = 10
acc_score = np.zeros(k)
for k in range(1, k+1):
    # n_neighbors 파라미터는 k값에서 근접한 값이 몇개인지 
    model = KNeighborsClassifier(n_neighbors=k).fit(X_train,y_train)
    y_hat = model.predict(X_test)
    acc = metrics.accuracy_score(y_test,y_hat)
    acc_score[k-1] = acc

max_index = np.argmax(acc_score)
print(f'최적의 K: {max_index+1}이며 이때의 정확도는 {acc_score[max_index]:.3f}이다.')

최적의 K: 3이며 이때의 정확도는 0.971이다.
