### kNN (Nearest Neighber)
- 새로운 데이터가 있을 때, 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제
- k는 몇 번째 가까운 데이터까지 볼 것인가를 정하는 수치 

    k-최근접 이웃(k-Nearest Neighbors, kNN)은 데이터의 패턴을 파악하여 예측을 수행하는 간단한 알고리즘입니다. 이 알고리즘은 훈련 데이터를 그대로 저장하고, 새로운 데이터가 주어지면 가장 가까운 이웃들을 찾아 예측을 합니다.

    간단한 예시로 설명해보겠습니다. 가장 가까운 이웃을 3개(k=3)로 설정한 경우를 생각해봅시다. 훈련 데이터에는 고양이와 개의 이미지가 있습니다. 이제 새로운 이미지가 주어졌을 때, 그 이미지와 가장 비슷한 훈련 데이터의 이미지 3개를 찾습니다. 이웃들 중 고양이 이미지가 2개, 개 이미지가 1개 있다면, 이 새로운 이미지를 고양이로 예측합니다.

    kNN은 데이터 사이의 거리를 기반으로 패턴을 파악하므로, 거리 계산을 위해 특성들을 정규화하는 것이 중요합니다. 예를 들어, 특성의 범위가 다르다면 큰 범위를 가진 특성이 거리 계산에 더 큰 영향을 미칠 수 있으므로, 특성들을 동등한 범위로 조정해야 합니다.

    kNN은 모델을 학습하지 않고, 훈련 데이터 자체를 저장하기 때문에 학습 과정이 빠르지만, 예측 단계에서는 모든 훈련 데이터와의 거리를 계산해야 하기 때문에 시간이 오래 걸릴 수 있습니다. 또한, kNN은 데이터의 형태와 특성에 민감하며, 대량의 훈련 데이터를 다루기에는 메모리 요구사항이 크다는 단점도 있습니다.

    kNN은 데이터가 복잡한 패턴을 가지고 있을 때 유용하며, 특히 작은 데이터셋이나 비선형 문제에 적합합니다. 또한, k의 선택에 따라 알고리즘의 성능이 달라지므로, 적절한 k 값을 선택하는 것이 중요합니다.


    <img src = 'https://static.javatpoint.com/tutorial/machine-learning/images/k-nearest-neighbor-algorithm-for-machine-learning2.png' alt = 'https://www.javatpoint.com/k-nearest-neighbor-algorithm-for-machine-learning'>

    ###### _Image by <a href = 'https://www.javatpoint.com/k-nearest-neighbor-algorithm-for-machine-learning'> K-Nearest Neighbor(KNN) Algorithm for Machine Learning</a>_

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, 
                                                    test_size=0.2, random_state=13, 
                                                    stratify=iris.target)

In [6]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train) # 실제로 학습하지는 않음 

In [7]:
from sklearn.metrics import accuracy_score

pred = knn.predict(X_test)
print(accuracy_score(y_test, pred))

0.9666666666666667


In [10]:
'''
실제 클래스 0에 대한 예측 결과: 10개의 샘플이 실제 클래스 0에 속하며, 모두 정확하게 예측되었습니다. (10, 0, 0)
실제 클래스 1에 대한 예측 결과: 9개의 샘플이 실제 클래스 1에 속하며, 1개의 샘플은 잘못 예측되어 실제 클래스 2로 예측되었습니다. (0, 9, 1)
실제 클래스 2에 대한 예측 결과: 10개의 샘플이 실제 클래스 2에 속하며, 모두 정확하게 예측되었습니다. (0, 0, 10)
'''

'\n실제 클래스 0에 대한 예측 결과: 10개의 샘플이 실제 클래스 0에 속하며, 모두 정확하게 예측되었습니다. (10, 0, 0)\n실제 클래스 1에 대한 예측 결과: 9개의 샘플이 실제 클래스 1에 속하며, 1개의 샘플은 잘못 예측되어 실제 클래스 2로 예측되었습니다. (0, 9, 1)\n실제 클래스 2에 대한 예측 결과: 10개의 샘플이 실제 클래스 2에 속하며, 모두 정확하게 예측되었습니다. (0, 0, 10)\n'

In [11]:
from sklearn.metrics import classification_report, confusion_matrix

confusion_matrix(y_test, pred)

array([[10,  0,  0],
       [ 0,  9,  1],
       [ 0,  0, 10]], dtype=int64)

In [12]:
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

    accuracy                           0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

