### **K-Nearest Neighbor 최근접 이웃 (KNN)**
- 지도 학습의 한 종류
- 거리기반 분류 분석 모델
- 데이터를 **가장 가까운 유사 속성에 따라 분류**하여 라벨링하는 알고리즘
<br>

**장점**
- 단순하고 효율적
- 기저 데이터 분포에 대한 가정을 하지 않는다
- 훈련 단계가 빠르다
- 수치 기반 데이터 분류 작업에서 성능 우수

**단점**
- 모델을 생성하지 않아 특징과 클래스간 관계를 이해하는데 제한적
- 적절한 k선택 필요(default는 5)
- 데이터가 많아지면 분류 단계 느림.
- 더미 코딩 필요

**구현시 표준화/정규화가 필요**
- MinMAx Normalization
- Z-Score Standadization



In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

names=['sepal-length','sepal-width', 'petal-length', 'petal-width', 'Class']

dataset = pd.read_csv(url, names=names)

dataset.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

In [7]:
#preprocessing
X = dataset.iloc[:, :-1].values
y= dataset.iloc[:, 4].values

#split data 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

#Feature Scaling
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#Training and Predictions
classifier =KNeighborsClassifier(n_neighbors=5) # default 값 
classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

#Evaluating the Algorithm 
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[11  0  0]
 [ 0 11  0]
 [ 0  0  8]]
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        11
Iris-versicolor       1.00      1.00      1.00        11
 Iris-virginica       1.00      1.00      1.00         8

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30

