# KNN 분류기

k-NN(k-Nearest Neighbors) 알고리즘은 가장 간단한 머신러닝 알고리즘이다.

KNN에서 K는 가장 가까운 이웃의 수입니다. 이웃의 수는 핵심 결정 요인이다. 분류하고자 하는 데이터에서 가장 가까운 k 개의 이웃점을 찾은 다음 k 개의 이웃에 대한 과반수 투표로 해당 데이터를 분류한다.  가장 유사한 점을 찾기 위해서 "거리"를 사용한다.

* 장점 : KNN은 비선형 분류 경계를 가지는 데이터의 경우 유용 하다.
* 단점 : 고차원 데이터에서  시간과 메모리 측면에서 더 느리고 비용이 많이 든다.
![knn](https://github.com/aonekoda/reference/blob/main/images/KNN.png?raw=true)

### KNN으로 와인데이터 분류

사이킷런에서 제공하는 wine.data에는 이 데이터에는 'class_0', 'class_1'및 'class_2'의 세 가지 유형의 품종 클래스가 있다. KNN 알고리즘으로 클래스를 분류하는 분류 모형을 생성한다.

In [None]:
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
wine = datasets.load_wine()

In [None]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

In [None]:
# 와인데이터 속성
print('와인데이터 속성(13개):', wine.feature_names)
# 와인데이터 클래스(label)
print('와인데이터 클래스(3개):',wine.target_names)
# labels (0:Class_0, 1:Class_1, 2:Class_3)
print('Target Label(0:Class_0, 1:Class_1, 2:Class_3):\n', wine.target)

와인데이터 속성(13개): ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
와인데이터 클래스(3개): ['class_0' 'class_1' 'class_2']
Target Label(0:Class_0, 1:Class_1, 2:Class_3):
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


### 데이터 분할
데이터 세트를 훈련 세트와 테스트 세트로 나눈다.

In [None]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target,
                                                    test_size=0.3, random_state=0)
# 70% training and 30% test

###  K의 갯수(이웃의 수) 정하기
모든 종류의 데이터 세트에 적합한 최적의 이웃 수를 특정할 수 없다. 각 데이터 집합의 특징에 따라 적절한 K의 수를 정하는 것이 중요하다.
* 이웃 수가 적을 경우 : 노이즈가 결과에 더 큰 영향을 미치게 된다. 유연하게 적합하며 편향이 적고 분산이 높아 과적합될 수 있다.
* 이웃 수가 많을 경우 : 대량의 데이터에서 계산 비용이 많이 든다. 이웃 수가 많을수록 결정 경계가 더 매끄러워지며, 분산이 적고 편향이 높아진다(과소적합).

### K=3 인 경우

In [None]:
#Import knearest neighbors Classifier model
from sklearn.neighbors import KNeighborsClassifier

#Create KNN Classifier
knn = KNeighborsClassifier(n_neighbors=3) #모형의 생성

#Train the model using the training sets
knn.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = knn.predict(X_test)

### K=3 인 경우 모형의 정확도

In [None]:
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics
# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.7037037037037037


In [None]:
knn.score(X_test, y_test)

0.7037037037037037

### K = 7인경우

In [None]:
#Import knearest neighbors Classifier model
from sklearn.neighbors import KNeighborsClassifier

#Create KNN Classifier
knn = KNeighborsClassifier(n_neighbors=7)

#Train the model using the training sets
knn.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = knn.predict(X_test)

### K=7인 경우 모형의 정확도

In [None]:
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics
# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.7777777777777778


와인데이터의 경우, K=7로 했을 때 모형의 정확도가 개선되었다.

## 실습


1. 더 나은 결과를 얻으려면 동일한 규모로 데이터의 스케일을 조정하는 것이 좋다. 데이터의 스케일을 표준화/정규화 하여 더나은 정확도를 얻을 수 있도록 실습 하시오.
2. K의 갯수를 줄이거나 늘려보면서 정확도를 확인해 보시오.