# 09장 k-NN (k-Nearest Neighbor)
---
- Dates : Sep 04, 2024  
- Author : JaeEun Yoo
---

## kNN(k-Nearest Neighbor)이란?
- k-최근접 이웃 알고리즘이라고도 하며,특정 공간 내 입력된 데이터와 가장 가까운 K개의 요소를 찾아 더 많이 일치하는 곳으로 분류하는 알고리즘
- 지도학습 알고리즘(Supervise learning)에 해당하며 분류, 회귀 모두 사용 가능
- 유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정하에 사용


![numpy array 01](./figures/knn_01.png)

- KNN 알고리즘을 간단하게 정의 하자면, **새로운 데이터와 기존 데이터들간 거리를 측정, 가까운 데이터들의 종류가 무엇인지 확인, 새로운 데이터의 종류를 판별**하는 알고리즘
-  **K**는 인접한 데이터의 갯수

![numpy array 01](./figures/knn_02.png)

**K가 1일 때**  
가장 가까운 데이터를 선택
위 그림에서 세모가 새로운 데이터라면 가장 가까운 **별**로 분류

 
**K가 3일 때**  
가장 가까운 데이터를 순서대로 선택
위 그림에서는 세모랑 가장 가까운 3개의 종류를 뽑으면 **동그라미2, 별1**로 분류  
동그라미가 2개로 가장 많기 때문에 세모는 동그라미로 분류됨



![numpy array 01](./figures/knn_03.png)

**K가 1일 때**  
가장 가까운 데이터인 Green으로 분류

![numpy array 01](./figures/knn_04.png)

**K가 5일 때**  
가장 가까운 데이터 중 개수가 많은 Red로 분류

KNN 알고리즘은 K에 따라 결과가 달라지기 때문에 **적합한 K를 정해주는 것이 가장 중요한 요소**  
K를 너무 작게 설정 했을 경우 **과적합**이 우려  
K를 너무 크게 설정했을 경우 **데이터 구조 파악이 어려움**

---
## 실습 : 방울토마토 데이터 분류하기

In [1]:
import random
import numpy as np

In [2]:
g_tomato = [] #방울토마토 1
tomato = [] #토마토 0
for i in range(50):
    #크기가 1~10 사이에 있고, 무게가 50~100 사이에 있으면 방울토마토 (label=1)
    g_tomato.append([random.randint(1,10),random.randint(50,100),1])
    #크기가 7~20 사이에 있고, 무게가 80~120 사이에 있으면 토마토 (label=0)
    tomato.append([random.randint(7,20),random.randint(80,120),0])

In [3]:
g_tomato = np.array(g_tomato)
tomato = np.array(tomato)

In [4]:
g_tomato.shape

(50, 3)

In [5]:
tomato.shape

(50, 3)

In [6]:
tomato[:10]

array([[ 20,  88,   0],
       [  8,  84,   0],
       [ 11, 107,   0],
       [  8,  94,   0],
       [ 10,  96,   0],
       [ 20,  87,   0],
       [ 20,  90,   0],
       [ 17, 113,   0],
       [ 17,  80,   0],
       [ 18, 113,   0]])

In [8]:
g_tomato[:10]

array([[  4,  79,   1],
       [  7, 100,   1],
       [  4,  63,   1],
       [ 10,  68,   1],
       [  9,  99,   1],
       [  5,  70,   1],
       [  7,  75,   1],
       [  4,  51,   1],
       [  6,  81,   1],
       [  1,  96,   1]])

In [9]:
X_train = np.concatenate([g_tomato[:40,:2],tomato[:40,:2]])
X_test = np.concatenate([g_tomato[40:,:2],tomato[40:,:2]])

In [11]:
X_train.shape

(80, 2)

In [12]:
X_test.shape

(20, 2)

In [13]:
y_train = np.concatenate([g_tomato[:40,-1],tomato[:40,-1]])
y_test = np.concatenate([g_tomato[40:,-1],tomato[40:,-1]])

In [14]:
y_train.shape

(80,)

In [15]:
y_test.shape

(20,)

In [16]:
from sklearn.neighbors import KNeighborsClassifier

In [33]:
classifier = KNeighborsClassifier(n_neighbors=10)

In [34]:
classifier

In [35]:
classifier.fit(X_train,y_train)

In [36]:
y_pred = classifier.predict(X_test)

In [37]:
y_pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0])

In [38]:
y_test

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [39]:
from sklearn.metrics import classification_report, accuracy_score

In [40]:
# 모델 성능 평가
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))


Accuracy: 0.9
Classification Report:
               precision    recall  f1-score   support

           0       0.90      0.90      0.90        10
           1       0.90      0.90      0.90        10

    accuracy                           0.90        20
   macro avg       0.90      0.90      0.90        20
weighted avg       0.90      0.90      0.90        20



> refer
- https://firework-ham.tistory.com/27
- https://mol-gga.tistory.com/27
- https://velog.io/@hyesoup/KNN-K-Nearest-Neighbor-%EA%B0%9C%EB%85%90