# Предсказание медианной стоимости дома для района Бостона

В этом задании мы выполним минимальный набор действий по загрузке данных и построению на них модели машинного обучения. План шагов:
1. Загрузка данных
1. Подготовка данных
1. Обучение модели
1. Предсказания модели
1. Оценивание качества модели
1. Анализ модели

### 1. Загрузка данных

Для чтения данных воспользуемся модулем pandas. Импортируем модуль (as pd - переименование модуля):

In [None]:
import pandas as pd

Вызываем функцию read_excel из модуля pandas:

In [None]:
data = pd.read_excel("https://github.com/nadiinchi/intro_sklearn/raw/master/boston_houses.xlsx")

Посмотрим на первые несколько объектов с помощью функции head:

In [None]:
data.head()

Одна строка (объект) - это район Бостона. Столбцы задают характеристики района, такие как уровень криминальности (crim_rate), число учеников на одного учителя (pup_per_teac), среднее число комнат (rooms) и т. д.

Последний столбец - это наша целевая переменная, медианная стоимость дома в районе. Мы решаем задачу регрессии.

Число объектов и число признаков хранятся в переменной shape:

In [None]:
data.shape
# число объеков, число признаков

### 2. Подготовка данных

В нашей таблице содержатся и признаки, и целевая переменная. Разделим их с помощью специальной команды:

In [None]:
X = data[data.columns[:-1]]
y = data["target"]

Теперь у нас есть прецеденты, хранящиеся в переменной X, и целевые значения, хранящиеся в переменной y.

Следующий важный шаг - разделить выборку на обучающие и тестовые данные. Это позволит нам оценить качество модели. 

Инструменты машинного обучения хранятся в модуле sklearn. Это большой модуль, включающий в себя множество подмодулей и различных функций. Импортируем функцию для разделения выборки:

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3)

Сколько объектов попало в обучение и в тест?

In [None]:
X_tr.shape

In [None]:
X_te.shape

### 3. Обучение линейной модели

Мы готовы к тому, чтобы построить модель машинного обучения. Обучим линейную модель на наших данных. Для этого импортируем LinearRegression из модуля sklearn:

In [None]:
from sklearn.linear_model import LinearRegression

Обучение модели в sklearn всегда состоит из двух шагов - создания модели и вызова функции fit:

In [None]:
model = LinearRegression()
model.fit(X_tr, y_tr)

После обучения "внутри" модели появились найденные веса:

In [None]:
model.coef_

### 4. Предсказания линейной модели

Выполним предсказания на двух выборках, обучающей и тестовой, и сохраним их в переменные preds_tr и preds_te. Для этого воспользуемся функцией predict:

In [None]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

Посмотрим на предсказания на первых 10 объектах:

In [None]:
preds_te[:10]

А вот целевые значения из выборки:

In [None]:
y_te[:10].values

### 5. Оценивание качества

Сравнивать предсказания и правильные ответы вручную удобно только на маленькой выборке данных. Для оценивания качества работы модели лучше измерить метрику качества. Для этого в sklearn есть подмодуль metrics. Импортируем функцию mean_absolute_error:

In [None]:
from sklearn.metrics import mean_absolute_error 

Вычисляем ошибку на обучающей выборке:

In [None]:
mean_absolute_error(y_tr, preds_tr)

Вычисляем ошибку на тестовой выборке:

In [None]:
mean_absolute_error(y_te, preds_te)

### 6. Анализ модели

Посмотрим на веса модели. Запишем их в таблицу со столбцами "название признака" и "вес признака" и отсортируем по значениям весов:

In [None]:
weights_data = {"веса":model.coef_,\
                "признаки": data.columns[:-1]}
weights = pd.DataFrame(weights_data)
weights.sort_values("веса")

Логично ли распределились вклады признаков?

### Задания для самостоятельной работы

Перед выполнением заданий обязательно выполните все ячейки выше. Для этого мжно нажать на эту ячейку, далее в меню Cell выбрать Run all above.

При выполнении заданий используйте примеры кода, данные выше, а также [__таблицу с подсказками__](https://github.com/nadiinchi/intro_sklearn/blob/master/Cheatsheet.pdf).

Мы обучили линейную модель на данных недвижимости Бостона. Теперь давайте рассмотрим еще несколько моделей: метод k ближайших соседей, решающие деревья и их ансамбли, нейронные сети.

#### Задача 1. Обучение kNN

Обучите метод k ближайших соседей на данных. Метод уже импортирован в следующей ячейке.

In [None]:
from sklearn.neighbors import KNeighborsRegressor

#### Задача 2. Предсказания kNN

Выполните предсказания с помощью метода k ближайших соседей на обучающей и тестовой выборках.

#### Задача 3. Качество kNN

Выведите значение ошибки метода k ближайших соседей на обучающей и тестовой выборках.

#### Задача 4. Улучшаем kNN

У метода k ближайших соседей есть важный гиперпараметр - число соседей k. В sklearn он обозначен n_neighbors и задается следующим образом:

In [None]:
model = KNeighborsRegressor(n_neighbors=5)

Попробуйте использовать n_neighbors, равное 1, 3, 10, 100. Для каждого значения повторите шаги предыдущих трех задач: обучите модель, выполните предсказания, выведите ошибку на обучающей и тестовой выборке. Выберите n_neighbors с наименьшей ошибкой на тестовой выборке.

#### Задача 5. Пробуем решающее дерево

Давайте попробуем решающие деревья. Обучите решающее дерево, выведите ошибку на тестовой выборке:

In [None]:
from sklearn.tree import DecisionTreeRegressor

#### Задача 6. Пробуем ансамбли решающих деревьев

Решающие деревья сами по себе считаются слабым алгоритмом, однако если взять несколько решающих деревьев, то они будут "исправлять" ошибки друг друга, и все вместе достигнут хорошего качества. Такой алгоритм называется случайный лес (Random Forest). 

Обучите несколько случайных лесов с числом деревьев 3, 10, 100, 500 (всего 4 случайных леса). Задавать число деревьев можно так: RandomForestRegressor(n_estimators=3). Используйте цикл.

In [None]:
from sklearn.ensemble import RandomForestRegressor

#### Задача 7. Нейронная сеть

Повторите шаги задач 1-3 (обучение, предсказание, оценивание качества) для нейронной сети MLPRegressor. MLPRegressor импортирован в ячейке ниже: 

In [None]:
from sklearn.neural_network import MLPRegressor

#### Задача 8. Улучшаем нейронную сеть

Скорее всего, нейронная сеть в предыдущей задаче показала не очень хорошее качество. Дело в том, что обучение нейронных сетей сложнее, чем обучение более простых методов, таких как линейные модели и kNN. Нейронные сети более чувствительны к гиперпараметрам.

Попробуем задавать разные hidden_layer_sizes и max_iter:
* hidden_layer_sizes отвечает за число нейронов в каждом слое и задается в виде списка, например hidden_layer_sizes=[5, 5, 5] задает нейронную сеть с тремя слоями и 5 нейронами на каждом слое;
* max_iter задает число итераций градиентного спуска. Чем больше max_iter, тем большее число раз обновляются веса нейронной сети.

Пример задания hidden_layer_sizes и max_iter:

In [None]:
model = MLPRegressor(hidden_layer_sizes=[5, 5, 5], max_iter=100)

Ваша задача - найти комбинацию с наименьшей ошибкой на тестовой выборке (ошибка хотя бы должна стать такой же, как у kNN, а может быть и меньше). Границы поиска: hidden_layer_sizes - список длины не более чем 4, каждое значение - от 1 до 100; max_iter - число от 100 до 100000. 

В этом задании мы попробовали обучать различные модели машинного обучения на данных регрессии и нашли лучший алгоритм для решения этой задачи.

Оценить семинар:

![](https://github.com/nadiinchi/ml_workshop_nov2020/raw/main/qr_s1.jpeg)