# Предсказание медианной стоимости дома для района Бостона

В этом задании мы выполним минимальный набор действий по загрузке данных и построению на них модели машинного обучения. План шагов:
1. Загрузка данных
1. Подготовка данных
1. Обучение модели
1. Предсказания модели
1. Оценивание качества модели
1. Анализ модели

### 1. Загрузка данных

Для чтения данных воспользуемся модулем pandas. Импортируем модуль (as pd - переименование модуля):

In [3]:
import pandas as pd

Вызываем функцию read_excel из модуля pandas:

In [4]:
data = pd.read_excel("boston_houses.xlsx")

Посмотрим на первые несколько объектов с помощью функции head:

In [5]:
data.head()

Unnamed: 0,crim_rate,zn,business,river,nit_oxiden,rooms,age,dist,highways_index,tax,pup_per_teaс,lower,target
0,0.0,0.18,0.067815,0,0.314815,0.577505,0.641607,0.269203,0.0,0.208015,0.287234,0.08968,24.0
1,0.000236,0.0,0.242302,0,0.17284,0.547998,0.782698,0.348962,0.043478,0.104962,0.553191,0.20447,21.6
2,0.000236,0.0,0.242302,0,0.17284,0.694386,0.599382,0.348962,0.043478,0.104962,0.553191,0.063466,34.7
3,0.000293,0.0,0.06305,0,0.150206,0.658555,0.441813,0.448545,0.086957,0.066794,0.648936,0.033389,33.4
4,0.000705,0.0,0.06305,0,0.150206,0.687105,0.528321,0.448545,0.086957,0.066794,0.648936,0.099338,36.2


Одна строка (объект) - это район Бостона. Столбцы задают характеристики района, такие как уровень криминальности (crim_rate), число учеников на одного учителя (pup_per_teac), среднее число комнат (rooms) и т. д.

Последний столбец - это наша целевая переменная, медианная стоимость дома в районе. Мы решаем задачу регрессии.

Число объектов и число признаков хранятся в переменной shape:

In [6]:
data.shape
# число объеков, число признаков

(506, 13)

### 2. Подготовка данных

В нашей таблице содержатся и признаки, и целевая переменная. Разделим их с помощью специальной команды:

In [7]:
X = data[data.columns[:-1]]
y = data["target"]

Теперь у нас есть прецеденты, хранящиеся в переменной X, и целевые значения, хранящиеся в переменной y.

Следующий важный шаг - разделить выборку на обучающие и тестовые данные. Это позволит нам оценить качество модели. 

Инструменты машинного обучения хранятся в модуле sklearn. Это большой модуль, включающий в себя множество подмодулей и различных функций. Импортируем функцию для разделения выборки:

In [8]:
from sklearn.model_selection import train_test_split

In [9]:
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3)

Сколько объектов попало в обучение и в тест?

In [10]:
X_tr.shape

(354, 12)

In [11]:
X_te.shape

(152, 12)

### 3. Обучение линейной модели

Мы готовы к тому, чтобы построить модель машинного обучения. Обучим линейную модель на наших данных. Для этого импортируем LinearRegression из модуля sklearn:

In [12]:
from sklearn.linear_model import LinearRegression

Обучение модели в sklearn всегда состоит из двух шагов - создания модели и вызова функции fit:

In [13]:
model = LinearRegression()
model.fit(X_tr, y_tr)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

После обучения "внутри" модели появились найденные веса:

In [14]:
model.coef_

array([-10.3255137 ,   4.62062775,   0.64191907,   3.8189418 ,
        -9.09277723,  20.03186171,  -0.34243816, -16.98228893,
         7.10356401,  -7.41321836,  -8.56947446, -19.44592767])

### 4. Предсказания линейной модели

Выполним предсказания на двух выборках, обучающей и тестовой, и сохраним их в переменные preds_tr и preds_te. Для этого воспользуемся функцией predict:

In [15]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

Посмотрим на предсказания на первых 10 объектах:

In [16]:
preds_te[:10]

array([20.20918033, 14.11840313, 18.92826121, 25.71586404, 22.86528143,
       22.33487251, 22.98165938, 34.19026607, 31.44286283, 30.77575569])

А вот целевые значения из выборки:

In [17]:
y_te[:10].values

array([16.2, 18.2, 17.1, 23.9, 21.7, 20.6, 19.4, 34.9, 30.8, 28.7])

### 5. Оценивание качества

Сравнивать предсказания и правильные ответы вручную удобно только на маленькой выборке данных. Для оценивания качества работы модели лучше измерить метрику качества. Для этого в sklearn есть подмодуль metrics. Импортируем функцию mean_absolute_error:

In [18]:
from sklearn.metrics import mean_absolute_error 

Вычисляем ошибку на обучающей выборке:

In [19]:
mean_absolute_error(y_tr, preds_tr)

3.392345366718526

Вычисляем ошибку на тестовой выборке:

In [20]:
mean_absolute_error(y_te, preds_te)

3.3396603625605352

### 6. Анализ модели

Посмотрим на веса модели. Запишем их в таблицу со столбцами "название признака" и "вес признака" и отсортируем по значениям весов:

In [21]:
weights_data = {"веса":model.coef_,\
                "признаки": data.columns[:-1]}
weights = pd.DataFrame(weights_data)
weights.sort_values("веса")

Unnamed: 0,веса,признаки
11,-19.445928,lower
7,-16.982289,dist
0,-10.325514,crim_rate
4,-9.092777,nit_oxiden
10,-8.569474,pup_per_teaс
9,-7.413218,tax
6,-0.342438,age
2,0.641919,business
3,3.818942,river
1,4.620628,zn


Логично ли распределились вклады признаков?

### Задания для самостоятельной работы

Перед выполнением заданий обязательно выполните все ячейки выше. Для этого мжно нажать на эту ячейку, далее в меню Cell выбрать Run all above.

При выполнении заданий используйте примеры кода, данные выше, а также [__таблицу с подсказками__](https://github.com/nadiinchi/intro_sklearn/blob/master/Cheatsheet.pdf).

Мы обучили линейную модель на данных недвижимости Бостона. Теперь давайте рассмотрим еще две модели - метод k ближайших соседей (kNN) и нейронную сеть.

#### Задача 1. Обучение kNN

Обучите метод k ближайших соседей на данных. Метод уже импортирован в следующей ячейке.

In [22]:
from sklearn.neighbors import KNeighborsRegressor

In [23]:
model = KNeighborsRegressor()
model.fit(X_tr, y_tr)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
          metric_params=None, n_jobs=1, n_neighbors=5, p=2,
          weights='uniform')

#### Задача 2. Предсказания kNN

Выполните предсказания с помощью метода k ближайших соседей на обучающей и тестовой выборках.

In [24]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

#### Задача 3. Качество kNN

Выведите значение ошибки метода k ближайших соседей на обучающей и тестовой выборках.

In [25]:
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 2.5805084745762707
Качество на контроле: 3.1857894736842107


#### Задача 4. Улучшаем kNN

У метода k ближайших соседей есть важный гиперпараметр - число соседей k. В sklearn он обозначен n_neighbors и задается следующим образом:

In [26]:
model = KNeighborsRegressor(n_neighbors=5)

Попробуйте использовать n_neighbors, равное 1, 3, 10, 100. Для каждого значения повторите шаги предыдущих трех задач: обучите модель, выполните предсказания, выведите ошибку на обучающей и тестовой выборке. Выберите n_neighbors с наименьшей ошибкой на тестовой выборке.

Базовая версия: скопируйте одинаковый код в 4 разные ячейки, в каждой ячейке укажите свое n_neighbors.

Усложенная версия: используйте цикл по четырем значениям n_neighbors.

In [None]:
model = KNeighborsRegressor(n_neighbors=5)
model.

In [27]:
for k in [1, 3, 10, 100]:
    print("k =", k)
    model = KNeighborsRegressor(n_neighbors=k)
    model.fit(X_tr, y_tr)
    preds_tr = model.predict(X_tr)
    preds_te = model.predict(X_te)
    print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
    print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

k = 1
Качество на обучении: 0.0
Качество на контроле: 3.0282894736842105
k = 3
Качество на обучении: 2.1209039548022597
Качество на контроле: 3.194736842105263
k = 10
Качество на обучении: 3.2729943502824854
Качество на контроле: 3.3091447368421054
k = 100
Качество на обучении: 4.978598870056497
Качество на контроле: 5.000164473684211


#### Задача 5. Пробуем нейронную сеть

Повторите шаги задач 1-3 (обучение, предсказание, оценивание качества) для нейронной сети MLPRegressor. MLPRegressor импортирован в ячейке ниже: 

In [28]:
from sklearn.neural_network import MLPRegressor

In [29]:
model = MLPRegressor()
model.fit(X_tr, y_tr)
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 6.676307278194574
Качество на контроле: 6.997263872974625




#### Задача 6. Улучшаем нейронную сеть

Скорее всего, нейронная сеть в предыдущей задаче показала не очень хорошее качество. Дело в том, что обучение нейронных сетей сложнее, чем обучение более простых методов, таких как линейные модели и kNN. Нейронные сети более чувствительны к гиперпараметрам.

Попробуем задавать разные hidden_layer_sizes и max_iter:
* hidden_layer_sizes отвечает за число нейронов в каждом слое и задается в виде списка, например hidden_layer_sizes=[5, 5, 5] задает нейронную сеть с тремя слоями и 5 нейронами на каждом слое;
* max_iter задает число итераций градиентного спуска. Чем больше max_iter, тем большее число раз обновляются веса нейронной сети.

Пример задания hidden_layer_sizes и max_iter:

In [30]:
model = MLPRegressor(hidden_layer_sizes=[5, 5, 5], max_iter=100)

Ваша задача - найти комбинацию с наименьшей ошибкой на тестовой выборке (ошибка хотя бы должна стать такой же, как у kNN, а может быть и меньше). Границы поиска: hidden_layer_sizes - список длины не более чем 4, каждое значение - от 1 до 100; max_iter - число от 100 до 100000. 

In [31]:
model = MLPRegressor(hidden_layer_sizes=[100, 100], max_iter=10000)
model.fit(X_tr, y_tr)
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 2.4200489872323043
Качество на контроле: 2.4333452962780355


#### Задача 7. Пробуем решающее дерево

Нейронная сеть с хорошо подобранными гиперпараметрами показывает довольно хорошее качество! Могут ли другие алгоритмы достичь еще более высокого качества? Попробуем решающие деревья. Обучите решающее дерево, выведите ошибку на контрольной выборке:

In [32]:
from sklearn.tree import DecisionTreeRegressor

In [33]:
model = DecisionTreeRegressor()
model.fit(X_tr, y_tr)
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)
print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

Качество на обучении: 0.0
Качество на контроле: 2.4703947368421053


#### Задача 8. Пробуем ансамбли решающих деревьев

Решающие деревья сами по себе считаются слабым алгоритмом, однако если взять несколько решающих деревьев, то они будут "исправлять" ошибки друг друга, и все вместе достигнут хорошего качества. Такой алгоритм называется случайный лес (Random Forest). 

Обучите несколько случайных лесов с числом деревьев 3, 10, 100, 500 (всего 4 случайных леса). Задавать число деревьев можно так: RandomForestRegressor(n_estimators=3). Используйте цикл.

In [34]:
from sklearn.ensemble import RandomForestRegressor

In [37]:
for num_trees in [3, 10, 100, 500]:
    print(num_trees)
    model = RandomForestRegressor(n_estimators=num_trees)
    model.fit(X_tr, y_tr)
    preds_tr = model.predict(X_tr)
    preds_te = model.predict(X_te)
    print("Качество на обучении:", mean_absolute_error(y_tr, preds_tr))
    print("Качество на контроле:", mean_absolute_error(y_te, preds_te))

3
Качество на обучении: 1.125235404896422
Качество на контроле: 2.4703947368421053
10
Качество на обучении: 1.0967231638418078
Качество на контроле: 2.2436842105263155
100
Качество на обучении: 0.9186045197740114
Качество на контроле: 2.237592105263158
500
Качество на обучении: 0.8908774011299387
Качество на контроле: 2.1988210526315766


#### Задача 9. Предсказание на новых данных

Попробовав разные алгоритмы, мы выбрали какой-то один и выбрали для него гиперпараметры. Обученная модель сохранена в переменную model.

Теперь предположим, что мы собрали новые данные, хранящиеся в файле boston_houses_new_data.xlsx. Мы хотим выполнить предсказания для новых домов, признаки которых записаны в указанном файле.

Загрузите новый файл с помощью функции pd.read_excel (эта функция использовалась в начале задания для загрузки исходных данных). Выполните предсказания для новых данных (нужно передать загруженные данные в функцию предсказаний). Напечатайте предсказания.

Обратите внимание, что в новом файле нет столбца "target" со значениями целевой переменной - мы их не знаем и как раз хотим сделать предсказания. Соответственно, посчитать качество на новых данных мы не сможем.

In [44]:
data_new = pd.read_excel("boston_houses_new_data.xlsx")

In [48]:
prediction = model.predict(data_new)
prediction

array([32.8836, 30.912 , 22.7718, 29.7244, 29.608 , 27.3782, 18.9346,
       25.0214, 25.2076, 22.7888, 27.9768, 18.6566, 41.7784, 18.4966,
       31.0682, 22.3916, 26.4428, 25.1942, 22.6242, 21.9094, 23.4286,
       38.871 , 20.8556, 31.5114, 26.0012, 25.521 , 26.6538, 23.3362,
       32.0568, 18.0322, 29.4008, 19.3526, 25.8948, 29.4768, 26.66  ,
       18.996 , 15.3834, 22.667 , 19.977 , 27.0398, 25.022 , 20.9586,
       29.5236, 16.2464, 17.312 , 21.1946, 23.4096, 19.3988, 16.118 ,
       35.8944, 31.799 , 13.949 , 21.7944, 31.5654, 25.5268, 27.6062,
       19.3444, 20.1022, 22.776 , 25.709 , 21.7556, 20.8606, 23.8304,
       18.3436, 28.3182, 27.6924, 20.9946, 28.32  , 20.7348, 29.4404,
       16.2742, 17.3068, 21.4762, 42.5788, 32.22  , 25.5996, 36.8102,
       18.08  , 24.3688, 25.9826, 17.974 , 18.6714, 29.761 , 17.5608,
       22.9562, 20.563 , 17.1394, 27.2474, 22.8992, 19.4198, 17.5282,
       21.1412, 19.2772, 35.3352, 17.2906, 27.9616, 25.2916, 23.552 ,
       17.4838, 19.0