In [2]:
from IPython.display import display
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

In [3]:
# Iris data load, train_test_split
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)
print('X_train shape : {} y_train shape : {}'.format(X_train.shape, y_train.shape))
print('X_test shape : {} y_test shape : {}'.format(X_test.shape, y_test.shape))

X_train shape : (112, 4) y_train shape : (112,)
X_test shape : (38, 4) y_test shape : (38,)


# KNN

In [4]:
# KNN Classifier, k-최근접 이웃 분류기
# 단순히 훈련 데이터를 저장하여 만들어지는 이 모델은, 새로운 데이터 포인터에 대한 예측이 필요하면
# 그 예측이 필요한 새 데이터 포인터에서 가장 가까운 훈련 데이터 포인터를 찾음
# 그 후 찾은 훈련 데이터의 레이블을 새 데이터 포인터의 레이블로 지정한다

In [5]:
# k-NN 에서 k는 가장 가까운 이웃 데이터 하나가 아니라, 여러개(k개)가 될 수 있다. ex_가장 가까운 세 개 혹은 다섯 개의 이웃 데이터..
# 그 후, 이웃들의 클래스 중 빈도가 가장 높은 클래스를 예측값으로 사용함. 지금의 예제는 하나의 이웃만을 사용하겠음 (k=1)

In [6]:
# scikit-learn의 모든 머신러닝 모델은 Estimator라는 파이썬 클래스로 구성되어 있음
# BaseEstimator 클래스를 상속받은 'neigjbors'모듈 아래, KNeighborsClassifier 클래스로 구현되어 있음
# 이 모델에서 가장 중요한 매개변수는 입력받는 이웃의 갯수 (k의 수)이다. 지금은 '1'로 지정

In [7]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

In [8]:
knn

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')

In [9]:
# knn 객체는 훈련 데이터로 모델을 만들고 새로운 데이터 포인트에 대해 예측하는 알고리즘을 캡슐화 한 것
# 추가적으로 알고리즘이 훈련 데이터로부터 추출한 정보를 담고 있음

In [10]:
KNeighborsClassifier
# KNeighborsClassifier 의 경우는 훈련 데이터 자체를 저장하고 있음

sklearn.neighbors._classification.KNeighborsClassifier

In [11]:
# 훈련 데이터셋으로부터 모델을 만들려면 knn객체의 fit 메서드를 사용합니다.
model_knn = knn.fit(X_train, y_train)

In [12]:
# fit 메서드는 knn 객체 자체를 반환하며, knn 객체 자체를 변경시킴,따라서 모델명(변수)을 설정하지 않아도, 해도 좋다.
# 난 코드 가독성 편의상 model_knn로 반환한 knn 객체를 사용하겠다
# knn 객체의 문자열 출력을 통해, 모델 생성에서 사용한 매개변수를 볼 수 있음

# 예측하기

In [13]:
# 이제 knn 모델을 사용해서 정확한 레이블을 모르는 세 데이터에 대해 예측을 만들 수 있습니다
# 만약 새로운 데이터 [5, 2.9, 1, 0.2] 의 야생꽃의 데이터를 받았을 때 품종을 판별 할 수 있을까요?

In [14]:
# 먼저 새로운 값을 NumPy 배열로 만듬
X_new = np.array([[5, 2.9, 1, 0.2]])
print('X_new.shape : ', X_new.shape)

X_new.shape :  (1, 4)


In [15]:
# (1,4)_2차원 배열인 이유.. 1개의 데이터가 4개의 특징을 가지고 있음..
# scikit-learn은 항상 데이터가 2차원 배열일 것으로 예상합니다.

In [16]:
# 예측에는 knn 객체의 predict 메서드를 사용합니다.
prediction = model_knn.predict(X_new)
print('예측:', prediction)
print('예측한 타깃(Label)_이름(꽃 종류):', iris_dataset['target_names'][prediction])

예측: [0]
예측한 타깃(Label)_이름(꽃 종류): ['setosa']


In [17]:
# 위와 같이 0번 레이블의 품종으로 예측하였으나, 이 모델의 결과를 신뢰할 수 있는지는 다른 문제이다.
# 이 샘플의 정확한 품종을 모른다는 사실이 모델을 구축하는데에 있어서 중요한 의미를 가진다.

# 평가하기

In [18]:
# 앞서 만든 trian, test 세트 중에 test 세트를 사용할 떄가 되었음.
# 모델을 학습시킬떄 (제작할 때) test 세트를 사용하지 않았음,또한 test 세트에 있는 각각의 꽃의 품종을 정확히 알고 있음
# 따라서 test 데이터 셋을 통해 '정확도'를 계산해서 모델의 성능을 평가 할 수 있음

In [20]:
y_pred = model_knn.predict(X_test)
