# KNN (K-Nearest Neighbors)
- k-최근접 이웃 알고리즘 : 데이터와 가장 가까운 k개의 이웃을 기준으로 클래스를 결정
- 분류 지도학습 종류중 하나 
- 학습 방식 : 모델을 실제로 훈련하지 않고 단순히 데이터만 저장 


## 장점
- 직관적이여서 이해가 쉬움
- 복잡한 결정 경계도 학습 가능

## 단점 
- 데이터가 많이지면 계산 비용이 증가
- 입력변수의 단위와 스케일에 매우 민감 
- 차원의 저주에 취약 (거리 증가)
- 새로운 데이터가 들어올때 마다 연산 -> 연산량이 많음


![image.png](attachment:image.png)
- 새로운 입력 데이터가 들어왔을 때, 해당 데이터와 가장 가까이 있는 k개의 데이터를 확인해 특성을 파악 (거리 기반 모델)
- K가 3일때>빨간 세모, K가 5일때 > 파란 네모
- Knn의 거리를 유클리드 커리를 사용 

![image-3.png](attachment:image-3.png)

# KNN의 작동 방식
0. Train데이터와 Test 데이터에 대한 스케일링 진행 
* (거리 계산시, 큰 단위가 작은 단위를 압도하는 문제 해결 ) 
* 스케일링 진행 전에 비해 거리 순위가 달라짐
-----------------------------------------------
1. 새로운 데이터와 각각 거리를 계산 
2. 계산한 거리를 정렬한 뒤, 제일 가까운 k개의 이웃 선택
3. k개의 이웃에서 다수결로 높은 클래스를 선택 



In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


In [6]:
# 학습용/테스트용 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3, random_state=42)

NameError: name 'X' is not defined

In [None]:
# 스케일링 
Scaler=StandardScaler()
X_train_scled = Scaler.fit_transform(X_train)
X_test_scaled = Scaler.transform(X_test)

In [None]:
# KNN모델 생성(K=5)
Knn = KNeighborsClassifier(n_neighbors=5)

In [None]:
# 학습(but, 단순히 데이터 저장)
Knn.fit(X_train_scled,y_train)

In [None]:
# 예측 
y_pred = Knn.predict(X_test_scaled)

In [None]:
# 평가 
print("정확도:", accuracy_score(y_test,y_pred))

## 'K'의 의미 
- Hyper Parameter : 학습 전 사람이 직접 조정해야 하는 값
- 직접 시행착오를 통해 최적의 K를 선택 

### K가 작다 (1~3)
- Overfiting 발생 (민감하게 반응)

### K가 크다 (10~50)
- 넒은 범위의 이웃까지 한번에 참고, Underfitting 발생 (둔하게 반응)
