# KNN 기초 (회귀)

- KNN 알고리즘으로 모델링하기
- 스케일링

0. 라이브러리 불러오기 및 데이터 불러오기
1. 데이터 파악하기
2. 데이터 준비하기
3. 모델링
4. 시각화

# 0. 라이브러리 불러오기 및 데이터 불러오기

In [4]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

# 데이터 읽어오기
path = './data/airquilty.csv'
data = pd.read_csv(path)

# 1. 데이터 파악하기

In [5]:
# 상위 몇 개 행 확인
data.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41,190.0,7.4,67,5,1
1,36,118.0,8.0,72,5,2
2,12,149.0,12.6,74,5,3
3,18,313.0,11.5,62,5,4
4,19,,14.3,56,5,5


In [6]:
# 기술통계 확인
data.describe()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
count,153.0,146.0,153.0,153.0,153.0,153.0
mean,42.052288,185.931507,9.957516,77.882353,6.993464,15.803922
std,30.156127,90.058422,3.523001,9.46527,1.416522,8.86452
min,1.0,7.0,1.7,56.0,5.0,1.0
25%,20.0,115.75,7.4,72.0,6.0,8.0
50%,34.0,205.0,9.7,79.0,7.0,16.0
75%,59.0,258.75,11.5,85.0,8.0,23.0
max,168.0,334.0,20.7,97.0,9.0,31.0


In [9]:
# NaN 값 확인
data.isnull().sum()

Ozone      0
Solar.R    7
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [8]:
# 상관관계 확인
data.corr()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
Ozone,1.0,0.280068,-0.605478,0.683372,0.174197,0.004419
Solar.R,0.280068,1.0,-0.056792,0.27584,-0.075301,-0.150275
Wind,-0.605478,-0.056792,1.0,-0.457988,-0.178293,0.027181
Temp,0.683372,0.27584,-0.457988,1.0,0.420947,-0.130593
Month,0.174197,-0.075301,-0.178293,0.420947,1.0,-0.007962
Day,0.004419,-0.150275,0.027181,-0.130593,-0.007962,1.0


# 2. 데이터 준비하기

**1) 결측치 처리**

- 결측치가 있으면 제거하거나 적절한 값으로 채웁니다.
- 시계열 데이터이므로 선형보간법으로 채웁니다.

In [10]:
# 결측치 확인
data.isnull().sum()

Ozone      0
Solar.R    7
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [11]:
# 결측치 채우기
data.interpolate(method='linear', inplace=True)

# 확인
data.isnull().sum()

Ozone      0
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

**2) 변수 제거**

- 분석에 의미가 없다고 판단되는 변수는 제거합니다.
- Month, Day 열을 제거합니다.

In [13]:
#  변수 제거
drop_cols = ['Month', 'Day']
data.drop(drop_cols, axis=1, inplace=True)

# 확인
data.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp
0,41,190.0,7.4,67
1,36,118.0,8.0,72
2,12,149.0,12.6,74
3,18,313.0,11.5,62
4,19,308.333333,14.3,56


**3) x, y 분리**

- target 변수를 명확히 지정합니다.
- target을 제외한 변수를 x 데이터프레임으로 선언합니다.
- y 데이터프레임은 target 변수만을 가집니다.

In [14]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = data.drop(target, axis=1)
y = data.loc[:, target]

**4) 학습용, 평가용 데이터 분리**

- 학습용, 평가용 데이터를 적절한 비율로 분리합니다.
- 반복 실행 시 동일한 결과를 얻기 위해 random_state 옵션을 지정합니다.

In [15]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 데이터 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

**4) 정규화**

- KNN 알고리즘을 사용하기 위해 정규화를 진행합니다.
- 다음 중 한 가지 방법을 사용해 진행합니다.

- 방법1: 공식 사용

$$ \large x_{norm}=\frac{x-x_{min}}{x_{max}-x_{min}}$$


In [21]:
# 최대값, 최솟값 구하기
x_max = x_train.max()
x_min = x_train.min()

# 정규화
x_train = (x_train - x_min) / (x_max - x_min)
x_test = (x_test - x_min) / (x_max - x_min)

# 확인
x_train.head()

Unnamed: 0,Solar.R,Wind,Temp
132,0.770642,0.421053,0.447368
73,0.513761,0.694737,0.657895
18,0.963303,0.515789,0.315789
48,0.091743,0.394737,0.236842
4,0.921509,0.663158,0.0


- 방법 2: 함수 사용

# 3.모델링

- 본격적으로 모델을 선언하고 학습하고 평가하는 과정을 진행합니다.

In [16]:
# 1단계: 불러오기
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, r2_score

In [23]:
# 2단계: 선언하기
model = KNeighborsRegressor()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계 예측하기
y_pred = model.predict(x_test)

print(y_pred[:10]) # 예측값 10개 보기
print(y_test.values[:10]) # 실제값 10개 보기

In [None]:
# 5단계: 평가하기
mean_absolute_error(y_test, y_pred)

# 4. 시각화

In [None]:
# 예측값, 실젯값 시각화
plt.plot(y_test.values, label='Actual')
plt.plot(y_pred, label='Predicted')
plt.legend()
plt.ylabel('Ozone')
plt.show()