# 지도 학습
## K-최근접 이웃(K-nearest neighbor, KNN)
  
###### 2023-12-20 KH.LIM @Cheongju
###### 딥러닝 파이토치 교과서 참조

K-최근접 이웃은 데이터를 분류할 때 사용  
직관적이며 사용하기 쉽다. 또한 훈련 데이터를 충분히 확보할 수 있는 환경에서 사용하기 적합

학숩에 사용되지 않은 새로운 데이터를 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스(데이터와 데이터 사이의 거리를 측정한 관측치) 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당  
과거 데이터를 저장해 두고 필요할 때마다 비교를 수행하는 방식  
따라서 K값의 선택에 따라 분류 결과가 달라질 수 있다. (K값은 판단을 위한 인접 데이터의 갯수)  
[외부참조 링크](https://thebook.io/080289/0094/)

붓꽃 분류 문제, 심층 신경망 필요 없음. 사이킷런(scikit-learn)이용

In [6]:
import numpy as np               # 벡터 및 행렬의 연산
import matplotlib.pyplot as plt        # 차트나 플롯 그리기
import pandas as pd             # 데이터 분석 및 조작
from sklearn import metrics      # 모델 성능평가
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']       #데이터셋 열 이름 할당
dataset = pd.read_csv('../ML01_KnearestNeighbor/iris.data', names=names)

#### 데이터셋 분리 및 정규화

In [8]:
X = dataset.iloc[:, :-1].values   # 모든 행 사용, 열은 뒤에서 1개 뺀 값 사용
y = dataset.iloc[:, 4].values      # 모든 행 사용, 열은 5번째 열 y에 저장

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)    #훈련과 테스트셋 분리, 비율 20%

from sklearn.preprocessing import StandardScaler
s = StandardScaler()     # 특성 정규화(스케일링), 평균0 표준1이 되도록

X_train = s.fit_transform(X_train)    #훈련데이타 정규화
X_test = s.fit_transform(X_test)      #테스트 데이타 정규화

#### 모델 생성 및 훈련

In [10]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=50)    # K=50 인 K-최근접 이웃 모델 생성
knn.fit(X_train, y_train)

#### 모델 정확도 측정

In [11]:
from sklearn.metrics import accuracy_score
y_pred = knn.predict(X_test)
print("정확도: {}".format( accuracy_score(y_test, y_pred)))

정확도: 0.8333333333333334


#### 최적의 K값 찾기  
for 문을 이용하여 K값을 1부터 10까지 순환하면서 최적의 K값과 정확도 찾기

In [12]:
k=10
acc_array=np.zeros(k)    # 각 k 값에 따른 정확도를 저장할 배열

for k in np.arange(1,k+1,1):   
    classifier = KNeighborsClassifier(n_neighbors=k).fit(X_train,y_train)         # 현재 k 값을 사용하여 KNN 분류기를 학습합니다.
    y_pred = classifier.predict(X_test)        # 테스트 데이터를 사용하여 예측합니다.
    acc = metrics.accuracy_score(y_test, y_pred)         # 정확도를 계산하고 acc_array에 저장합니다.
    acc_array[k-1]=acc 

# 최대 정확도와 해당하는 최적의 k 값을 찾습니다.
max_acc=np.amax(acc_array)     
acc_list=list(acc_array)
k=acc_list.index(max_acc)
print("정확도 ", max_acc, "으로 최적의 k는", k+1, "입니다.")

정확도  0.9666666666666667 으로 최적의 k는 6 입니다.
