# K-Nearest Neighbors


## 1.환경준비

### (1) Import

In [None]:
#라이브러리들을 불러오자.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

### (2) data loading

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/boston.csv'
data = pd.read_csv(path)

|	변수	|	설명	|
|	----	|	----	|
|	**medv**	|	**타운별 집값(중위수), target**	|
|	crim	|	범죄율	|
|	zn	|	25,000 평방피트를 초과한 거주지역 비율	|
|	indus	|	비소매상업지역 면적 비율, 편의시설(관공서, 주요 시설)	|
|	chas	|	찰스강변 위치(범주 : 강변1, 아니면 0)	|
|	nox	|	일산화질소 농도	|
|	rm	|	주택당 방 수	|
|	age	|	1940년 이전에 건축된 주택의 비율	|
|	dis	|	직업센터의 거리	|
|	rad	|	방사형 고속도로까지의 거리	|
|	tax	|	재산세율	|
|	ptratio	|	학생/교사 비율	|
|	black	|	인구 중 흑인 비율	|
|	lstat	|	인구 중 하위 계층 비율	|


## 2.데이터 이해

### (1) 둘러보기

In [None]:
# 상/하위 몇개 행을 살펴 봅시다.
data.head()

In [None]:
# 각 칼럼의 타입을 살펴 봅시다.
data.info()

## 3.데이터 준비

### (1) 데이터 정리

In [None]:
data.head()

In [None]:
data.drop(['black'], axis = 1, inplace = True)

### (2) 데이터분할1 : x, y 나누기

In [None]:
target = 'medv'
x = data.drop(target, axis=1)
y = data.loc[:, target]

### (3) NA 조치

### (4) 가변수화

### (5) 데이터분할2 : train : validation 나누기

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random_state = 2022)

### (6) Scaling
KNN 알고리즘을 적용하기 위해서는 스케일링을 해야 합니다.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
x_train_s1 = scaler.fit_transform(x_train)
x_val_s1 = scaler.transform(x_val)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler2 = StandardScaler()
x_train_s2 = scaler2.fit_transform(x_train)
x_val_s2 = scaler2.transform(x_val)

In [None]:
x_train = pd.DataFrame(x_train, columns = list(x))
x_train_s2 = pd.DataFrame(x_train_s2, columns = list(x))

In [None]:
x.describe()

In [None]:
x_train.describe()

In [None]:
x_train_s2.describe()

## 4.모델링 : KNN

### (1) import

In [None]:
# 모델링용
from sklearn.neighbors import KNeighborsRegressor    

# 회귀모델 평가용
from sklearn.metrics import * 

### (2) 모델선언

### (3) 모델링(학습)

### (4) 검증 : 예측

### (5) 검증 : 평가

In [None]:
# RMSE


In [None]:
# MAE


In [None]:
# MAPE : 평균 오차율


In [None]:
# 1 - MAPE : 정확도


## 5.Hyper Parameter

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

* n_neighbors : k 의 갯수. k가 달라지면 예측결과도 달라지고, 성능도 달라집니다!
* metric : 거리계산 방식.
    * euclidean : 유클리디안 거리 :  sqrt(a^2 + b^2)
    * manhattan : 맨하탄거리 : a + b

In [None]:
# model1 : n_neighbors = 10, metric = 'euclidean'
model1 = KNeighborsRegressor(n_neighbors = 10, metric = 'euclidean')
model1.fit(x_train_s1, y_train)
pred1 = model1.predict(x_val_s1)

In [None]:
# model2 : n_neighbors = 10, metric = 'manhattan'
model2 = KNeighborsRegressor(n_neighbors = 10, metric = 'manhattan')
model2.fit(x_train_s1, y_train)
pred2 = model2.predict(x_val_s1)

In [None]:
print(f'metric = euclidean : rmse {mean_squared_error(y_val, pred1, squared = False)}')
print(f'metric = manhattan : rmse {mean_squared_error(y_val, pred2, squared = False)}')

In [None]:
print(f'metric = euclidean : mae {mean_absolute_error(y_val, pred1)}')
print(f'metric = manhattan : mae {mean_absolute_error(y_val, pred2)}')

In [None]:
print(f'metric = euclidean : mape {mean_absolute_percentage_error(y_val, pred1)}')
print(f'metric = manhattan : mape {mean_absolute_percentage_error(y_val, pred2)}')

## 6.연습문제
* 다음의 조건을 조정하며 모델을 생성하고 성능을 비교해 봅시다.
* 조건
    * 스케일링 데이터 : 하이퍼파라미터는 default로 두고, 스케일링 데이터만 달리하며 비교해 봅시다.
        * 정규화 : x_train_s1, x_val_s1
        * 표준화 : x_train_s2, x_val_s2
    * k : 
        * k 값을 1에서 50까지 1씩 증가시켜가며 
        * 성능 rmse, mae, mape를 구하고 최적의 k 값을 찾아 봅시다.

### (1) 스케일링 데이터 비교.

In [None]:
# 정규화




In [None]:
# 표준화




### (2) k 값