# KNN

- 지도학습의 한 졸유, 정갑이 있는 데이터를 이용하여 분류작업
- 서로 가까운 점들은 유사하다는 가정하에 데이터로부터 거리가 가까운 K개의 다른 데이터의 정답(목표깂)을 참조하여 분류한다.
- 거리기반의 연산으로 숫자로 구성된 속성에 우수한 성능을 보인다.
- 하나의 데이터를 예측할 때마다 전체 데이터와의 거리를 계산하기 때문에 차원(벡터)의 크기가 크면 계산량이 많아지므로 속도가 느려진다.
- 접근방법: K값에 따라서 분류의 정확도가 달라지므로 적절한 K값을 찾는 것이 중요하다.

In [3]:
# iris 데이터셋

import numpy as np
import pandas as pd
import sklearn

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [4]:
df = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/iris.csv")

In [6]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['sepal_length']] = scaler.fit_transform(df[['sepal_length']])
df[['sepal_width']] = scaler.fit_transform(df[['sepal_width']])
df[['petal_length']] = scaler.fit_transform(df[['petal_length']])
df[['petal_width']] = scaler.fit_transform(df[['petal_width']])
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

In [10]:
X= df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y=df['species']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
X_train.shape

(120, 4)

In [11]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

In [12]:
pred = knn.predict(X_test)

In [13]:
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test,pred)
acc

0.9333333333333333

🔹 k의 의미
k는 새로운 데이터를 분류할 때 참고할 이웃의 개수입니다.

예를 들어 k = 3이면, 새로운 데이터 포인트에서 가장 가까운 3개의 데이터를 찾아 그들의 다수결을 통해 어떤 클래스에 속할지 결정합니다.

🔹 k를 어떻게 정할까?
너무 작으면 (예: k=1) 노이즈에 민감하고, 과적합(overfitting)될 수 있어요.

너무 크면 (예: k=100) 멀리 있는 데이터까지 포함되어 일반화는 잘 되지만, 정확도가 떨어질 수 있어요.

일반적으로 k는 홀수로 두고, 교차 검증(cross-validation) 같은 방법으로 최적값을 찾습니다

✅ KNN은 학습이 없다!
KNN은 사실 **모델을 훈련(train)**하지 않습니다.
👉 데이터를 그냥 기억하고 있다가,
👉 새로운 데이터가 들어오면 그때 계산해서 분류합니다.

이걸 "Lazy learning (게으른 학습)"이라고 해요.

📦 정리하자면:
일반적인 머신러닝 모델 (예: SVM, Decision Tree, Neural Network):

데이터를 보고 패턴을 학습함 (모델 파라미터를 조정함)

학습된 모델로 예측

KNN:

그냥 데이터를 저장만 해둠

예측 시점에 거리를 계산해서 가장 가까운 이웃 k개를 찾아 분류

❓그럼 언제 거리를 사용하나?
👉 예측(분류)할 그 순간에만!

새로운 데이터 포인트가 들어옴

기존에 저장된 데이터들과의 거리를 계산

가까운 k개 찾기

다수결로 클래스 결정

