# Предсказание медианной стоимости дома для района Бостона

В этом задании мы выполним минимальный набор действий по загрузке данных и построению на них модели машинного обучения. План шагов:
1. Загрузка данных
1. Подготовка данных
1. Обучение модели
1. Предсказания модели
1. Оценивание качества модели
1. Анализ модели

### 1. Загрузка данных

Для чтения данных воспользуемся модулем pandas. Импортируем модуль (as pd - переименование модуля):

In [1]:
import pandas as pd

Вызываем функцию read_excel из модуля pandas:

In [2]:
data = pd.read_excel("boston_houses.xlsx")

Посмотрим на первые несколько объектов с помощью функции head:

In [3]:
data.head()

Unnamed: 0,crim_rate,zn,business,river,nit_oxiden,rooms,age,dist,highways_index,tax,pup_per_teaс,lower,target
0,0.0,0.18,0.067815,0,0.314815,0.577505,0.641607,0.269203,0.0,0.208015,0.287234,0.08968,24.0
1,0.000236,0.0,0.242302,0,0.17284,0.547998,0.782698,0.348962,0.043478,0.104962,0.553191,0.20447,21.6
2,0.000236,0.0,0.242302,0,0.17284,0.694386,0.599382,0.348962,0.043478,0.104962,0.553191,0.063466,34.7
3,0.000293,0.0,0.06305,0,0.150206,0.658555,0.441813,0.448545,0.086957,0.066794,0.648936,0.033389,33.4
4,0.000705,0.0,0.06305,0,0.150206,0.687105,0.528321,0.448545,0.086957,0.066794,0.648936,0.099338,36.2


Одна строка (объект) - это район Бостона. Столбцы задают характеристики района, такие как уровень криминальности (crim_rate), число учеников на одного учителя (pup_per_teac), среднее число комнат (rooms) и т. д.

Последний столбец - это наша целевая переменная, медианная стоимость дома в районе. Мы решаем задачу регрессии.

Число объектов и число признаков хранятся в переменной shape:

In [4]:
data.shape
# число объеков, число признаков

(506, 13)

### 2. Подготовка данных

В нашей таблице содержатся и признаки, и целевая переменная. Разделим их с помощью специальной команды:

In [5]:
X = data[data.columns[:-1]]
y = data["target"]

Теперь у нас есть прецеденты, хранящиеся в переменной X, и целевые значения, хранящиеся в переменной y.

Следующий важный шаг - разделить выборку на обучающие и тестовые данные. Это позволит нам оценить качество модели. 

Инструменты машинного обучения хранятся в модуле sklearn. Это большой модуль, включающий в себя множество подмодулей и различных функций. Импортируем функцию для разделения выборки:

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3)

Сколько объектов попало в обучение и в тест?

In [8]:
X_tr.shape

(354, 12)

In [9]:
X_te.shape

(152, 12)

### 3. Обучение линейной модели

Мы готовы к тому, чтобы построить модель машинного обучения. Обучим линейную модель на наших данных. Для этого импортируем LinearRegression из модуля sklearn:

In [10]:
from sklearn.linear_model import LinearRegression

Обучение модели в sklearn всегда состоит из двух шагов - создания модели и вызова функции fit:

In [11]:
model = LinearRegression()
model.fit(X_tr, y_tr)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

После обучения "внутри" модели появились найденные веса:

In [12]:
model.coef_

array([-11.0555672 ,   4.43051824,  -0.7334114 ,   4.02833374,
        -7.75409619,  19.61411865,  -0.5938756 , -14.49755653,
         6.07306403,  -6.66305431,  -7.62431397, -17.3750308 ])

### 4. Предсказания линейной модели

Выполним предсказания на двух выборках, обучающей и тестовой, и сохраним их в переменные preds_tr и preds_te. Для этого воспользуемся функцией predict:

In [13]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

Посмотрим на предсказания на первых 10 объектах:

In [14]:
preds_te[:10]

array([17.07099049, 18.82252384, 22.05528665, 17.5204068 , 25.88382093,
       21.06869187, 30.1618176 , 19.41905447, 24.43828186, 39.83201288])

А вот целевые значения из выборки:

In [15]:
y_te[:10].values

array([10.9, 27.9, 23. , 18.4, 22. , 20.2, 23. , 19.2, 25. , 48.8])

### 5. Оценивание качества

Сравнивать предсказания и правильные ответы вручную удобно только на маленькой выборке данных. Для оценивания качества работы модели лучше измерить метрику качества. Для этого в sklearn есть подмодуль metrics. Импортируем функцию mean_absolute_error:

In [16]:
from sklearn.metrics import mean_absolute_error 

Вычисляем ошибку на обучающей выборке:

In [17]:
mean_absolute_error(y_tr, preds_tr)

3.3504286770582317

Вычисляем ошибку на тестовой выборке:

In [18]:
mean_absolute_error(y_te, preds_te)

3.3211470616036842

### 6. Анализ модели

Посмотрим на веса модели. Запишем их в таблицу со столбцами "название признака" и "вес признака" и отсортируем по значениям весов:

In [19]:
weights_data = {"веса":model.coef_,\
                "признаки": data.columns[:-1]}
weights = pd.DataFrame(weights_data)
weights.sort_values("веса")

Unnamed: 0,веса,признаки
11,-17.375031,lower
7,-14.497557,dist
0,-11.055567,crim_rate
4,-7.754096,nit_oxiden
10,-7.624314,pup_per_teaс
9,-6.663054,tax
2,-0.733411,business
6,-0.593876,age
3,4.028334,river
1,4.430518,zn


Логично ли распределились вклады признаков?

### Задания для самостоятельной работы

Перед выполнением заданий обязательно выполните все ячейки выше. Для этого мжно нажать на эту ячейку, далее в меню Cell выбрать Run all above.

При выполнении заданий используйте примеры кода, данные выше.

Мы обучили линейную модель на данных недвижимости Бостона. Теперь давайте рассмотрим еще две модели - метод k ближайших соседей (kNN) и нейронную сеть.

#### Задача 1. Обучение kNN

Обучите метод k ближайших соседей на данных. Метод уже импортирован в следующей ячейке.

In [20]:
from sklearn.neighbors import KNeighborsRegressor

In [24]:
model = KNeighborsRegressor()
model.fit(X_tr, y_tr)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
          metric_params=None, n_jobs=1, n_neighbors=5, p=2,
          weights='uniform')

#### Задача 2. Предсказания kNN

Выполните предсказания с помощью метода k ближайших соседей на обучающей и тестовой выборках.

In [25]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

#### Задача 3. Качество kNN

Выведите значение ошибки метода k ближайших соседей на обучающей и тестовой выборках.

In [26]:
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 2.6583615819209037
Качество на контроле: 3.606447368421053


#### Задача 4. Улучшаем kNN

У метода k ближайших соседей есть важный гиперпараметр - число соседей k. В sklearn он обозначен n_neighbors и задается следующим образом:

In [21]:
model = KNeighborsRegressor(n_neighbors=5)

Попробуйте использовать n_neighbors, равное 1, 3, 10, 100. Для каждого значения повторите шаги предыдущих трех задач: обучите модель, выполните предсказания, выведите ошибку на обучающей и тестовой выборке. Выберите n_neighbors с наименьшей ошибкой на тестовой выборке.

Базовая версия: скопируйте одинаковый код в 4 разные ячейки, в каждой ячейке укажите свое n_neighbors.

Усложенная версия: используйте цикл по четырем значениям n_neighbors.

In [28]:
for k in [1, 3, 10, 100]:
    print("k =", k)
    model = KNeighborsRegressor(n_neighbors=k)
    model.fit(X_tr, y_tr)
    preds_tr = model.predict(X_tr)
    preds_te = model.predict(X_te)
    print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
    print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

k = 1
Качество на обучении: 0.0
Качество на контроле: 3.4065789473684207
k = 3
Качество на обучении: 2.0327683615819208
Качество на контроле: 3.4212719298245613
k = 10
Качество на обучении: 3.2071468926553672
Качество на контроле: 3.7367763157894736
k = 100
Качество на обучении: 4.6666864406779665
Качество на контроле: 5.106861842105263


#### Задача 5. Нейронная сеть

Повторите шаги задач 1-3 (обучение, предсказание, оценивание качества) для нейронной сети MLPRegressor. MLPRegressor импортирован в ячейке ниже: 

In [22]:
from sklearn.neural_network import MLPRegressor

In [30]:
model = MLPRegressor()
model.fit(X_tr, y_tr)
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 6.4688639050008225
Качество на контроле: 6.905490485712733




#### Задача 6. Улучшаем нейронную сеть

Скорее всего, нейронная сеть в предыдущей задаче показала не очень хорошее качество. Дело в том, что обучение нейронных сетей сложнее, чем обучение более простых методов, таких как линейные модели и kNN. Нейронные сети более чувствительны к гиперпараметрам.

Попробуем задавать разные hidden_layer_sizes и max_iter:
* hidden_layer_sizes отвечает за число нейронов в каждом слое и задается в виде списка, например hidden_layer_sizes=[5, 5, 5] задает нейронную сеть с тремя слоями и 5 нейронами на каждом слое;
* max_iter задает число итераций градиентного спуска. Чем больше max_iter, тем большее число раз обновляются веса нейронной сети.

Пример задания hidden_layer_sizes и max_iter:

In [23]:
model = MLPRegressor(hidden_layer_sizes=[5, 5, 5], max_iter=100)

Ваша задача - найти комбинацию с наименьшей ошибкой на тестовой выборке (ошибка хотя бы должна стать такой же, как у kNN, а может быть и меньше). Границы поиска: hidden_layer_sizes - список длины не более чем 4, каждое значение - от 1 до 100; max_iter - число от 100 до 100000. 

In [33]:
model = MLPRegressor(hidden_layer_sizes=[100, 100], max_iter=10000)
model.fit(X_tr, y_tr)
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 2.0920020597029607
Качество на контроле: 2.59425844570508
