# Прогнозирование методом kNN (k Nearest Neighbors)

In [2]:
import numpy as np
import pandas as pd

# Линейная регрессия в scikit-learn
from sklearn.neighbors import KNeighborsRegressor
# метрики подгонки R2, MSE, MAE, MAPE, RMSE
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error, root_mean_squared_error

In [3]:
df = pd.read_csv('sleep75.csv')

## Спецификация и подгонка (обучение) модели

На датасете `sleep75` рассмотрим прогнозирование `sleep` с предикторам `totwrk, age, male`. 

Для подгонки модели зададим матрицы регрессионного дизайна:
* `y`: массив наблюдения зависимой переменной (переменная таргета/target)
* `X`: 2D массив наблюдения объясняющих переменных (предикторы/features)

In [4]:
# матрицы регрессионного дизайна
# наблюдения зависимой переменной sleep (массив y)
y = df['sleep']
# наблюдения предикторов (массив X)
X = df[['totwrk', 'age', 'male']]

In [5]:
# специфицируем метод прогнозирования: kNN с числом ближайших соседей n_neighbors
# выбор весов для ближайших соседей weights: 'uniform' или 'distance'
reg = KNeighborsRegressor(n_neighbors=5, weights='uniform')
# подгоняем/обучаем модель на данных
reg.fit(X, y)

## Прогнозирование по подогнанной модели

Зададим новые данные предикторов для прогноза в виде pandas DataFrame

__Важно__: порядок такой же как в массива X!

In [6]:
X_new = pd.DataFrame({'totwrk': [2500, 3000, 2700], 'age':[32, 41, 51], 'male':[1,0,1]})
X_new

Unnamed: 0,totwrk,age,male
0,2500,32,1
1,3000,41,0
2,2700,51,1


In [7]:
# прогноз
reg.predict(X_new)

array([3070.8, 3245.8, 2728.4])

# Метрики подгонки

Пусть 
* $y_i$ - фактические наблюдения
* $\hat{y}_i$ - прогнозы по подогнанной модели
* $e_i=y_i-\hat{y}_i$ - ошибки прогнозирования

__Базовые метрики__:

$$
\begin{aligned}
	R^2 &= 1-\frac{Var(e)}{Var(y)}=1-\frac{\sum e_i^2}{\sum(y_i-\bar{y})} \\
	MSE &= \frac{1}{n}\sum e_i^2 =\frac{1}{n}\sum (y_i-\hat{y}_i)^2 \\
	MAE &= \frac{1}{n}\sum|e_i| = \frac{1}{n}\sum|y_i-\hat{y}_i| \\
	MAPE &= \frac{1}{n}\sum \frac{|e_i|}{|y_i|}=\frac{1}{n}\sum \frac{|y_i-\hat{y}_i|}{|y_i|}\\
	RMSE &= \sqrt{\frac{1}{n}\sum e_i^2}=\sqrt{\frac{1}{n}\sum (y_i-\hat{y}_i)^2}
\end{aligned}
$$

Вычислим их на обучающей выборке

In [8]:
# R2 их 'встроен' в линейную регрессию
reg.score(X,y)

0.2974057823064773

In [9]:
# прогнозы на обучающей выборке
y_pred = reg.predict(X)

print('R2=', r2_score(y, y_pred))
print('MSE=', mean_squared_error(y, y_pred))
print('MAE=', mean_absolute_error(y, y_pred))
print('MAPE=', mean_absolute_percentage_error(y, y_pred))
print('RMSE=', root_mean_squared_error(y, y_pred))

R2= 0.2974057823064773
MSE= 138568.1352407932
MAE= 287.243342776204
MAPE= 0.09478684911743995
RMSE= 372.2474113285319
