# Regression : KNN

## 00 환경준비

### 1) Import

In [None]:
#라이브러리들을 불러오자.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split

### 2) Data Loading

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/boston.csv'
data = pd.read_csv(path)
data.head()

|	변수	|	설명	|
|	----	|	----	|
|	medv	|	타운별 집값(중위수)	|
|	crim	|	범죄율	|
|	zn	|	25,000 평방피트를 초과 거주지역 비율	|
|	indus	|	비소매상업지역 면적 비율	|
|	chas	|	찰스강변 위치(범주 : 강변1, 아니면 0)	|
|	nox	|	일산화질소 농도	|
|	rm	|	주택당 방 수	|
|	age	|	1940년 이전에 건축된 주택의 비율	|
|	dis	|	직업센터의 거리	|
|	rad	|	방사형 고속도로까지의 거리	|
|	tax	|	재산세율	|
|	ptratio	|	학생/교사 비율	|
|	black	|	인구 중 흑인 비율	|
|	lstat	|	인구 중 하위 계층 비율	|


## 10.데이터 이해

### 1)둘러보기

## 20.데이터 준비

### 1) 데이터 준비

In [None]:
data.head()

In [None]:
target = 'medv'
x = data.drop(target, axis=1)
y = data.loc[:, target]
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2
                                                  , random_state = 2022)

### 2) 변수정리

### 3) NA 조치

### 4) 가변수화

### 5) Scaling
KNN 알고리즘을 적용하기 위해서는 스케일링을 해야 합니다.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler2 = StandardScaler()
x_train_s2 = scaler2.fit_transform(x_train)
x_val_s2 = scaler2.transform(x_val)

In [None]:
x_train = pd.DataFrame(x_train, columns = list(x))
x_train_s2 = pd.DataFrame(x_train_s2, columns = list(x))

In [None]:
x.describe()

In [None]:
x_train.describe()

In [None]:
x_train_s2.describe()

## 30.모델링

### 1)import

In [None]:
# 모델링용
from sklearn.neighbors import KNeighborsRegressor    

# 회귀모델 평가용
from sklearn.metrics import * 

### 2) 모델선언

In [None]:
model = KNeighborsRegressor(n_neighbors = 3)

### 3) 모델링(학습)

In [None]:
model.fit(x_train, y_train)

### 4) 검증 : 예측

In [None]:
pred = model.predict(x_val)

### 5) 검증 : 평가

In [None]:
# MSE
mean_squared_error( y_val, pred   )

In [None]:
# RMSE
mean_squared_error(y_val, pred, squared=False)

In [None]:
# MAE
mean_absolute_error(y_val, pred )

In [None]:
# MAPE : 평균 오차율
mean_absolute_percentage_error(y_val, pred )

In [None]:
# 1 - MAPE : 정확도
1 - mean_absolute_percentage_error(y_val, pred )

## 40.KNN의 Hyper Parameter

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

* n_neighbors : k 의 갯수. k가 달라지면 예측결과도 달라고, 성능도 달라집니다!
* metric : 거리계산 방식.
    * euclidean : 유클리디안 거리 :  sqrt(a^2 + b^2)
    * manhattan : 맨하탄거리 : a + b
    * minkowski : 위 두가지 거리계산법에 대한 일반화 식

In [None]:
# 하이퍼파라미터를 지정하여 모델을 생성하고 검증해 봅시다.
# n_neighbors, metric

In [None]:
# model1 : n_neighbors = 10, metric = 'euclidean'
model1 = KNeighborsRegressor(n_neighbors = 10, metric = 'euclidean')
model1.fit(x_train, y_train)
pred1 = model1.predict(x_val)

In [None]:
# model1 : n_neighbors = 10, metric = 'manhattan'
model2 = KNeighborsRegressor(n_neighbors = 10, metric = 'manhattan')
model2.fit(x_train, y_train)
pred2 = model2.predict(x_val)

In [None]:
print(f'metric = euclidean : rmse {mean_squared_error(y_val, pred1, squared = False)}')
print(f'metric = manhattan : rmse {mean_squared_error(y_val, pred2, squared = False)}')

In [None]:
print(f'metric = euclidean : mae {mean_absolute_error(y_val, pred1)}')
print(f'metric = manhattan : mae {mean_absolute_error(y_val, pred2)}')

In [None]:
print(f'metric = euclidean : mape {mean_absolute_percentage_error(y_val, pred1)}')
print(f'metric = manhattan : mape {mean_absolute_percentage_error(y_val, pred2)}')