### Предсказание средней (медианной) стоимости домов в районах Бостона

Объект: район города Бостона

Целевая переменная: средняя (медианная) стоимость домов

Тип задачи: регрессия
    
Мы построим линейную модель на этих данных, оценим качество предсказания и проанализируем полученные веса признаков.

__Ваша задача:__ Наводите курсором по очереди на каждую ячейку с кодом и нажимайте кнопку Run слева от ячейки (круглая кнопка со значком ᐈ). В некоторых ячейках нужно вставить код: в этом случае Вы сначала вставляете фрагмент кода, затем нажимаете кнопку Run. __Очень важно__ выполнить __все__ ячейки в порядке сверху вниз.

Меткой __Задание__ помечены фрагменты, где Вам нужно вставить свой код. Меткой __Тест__ помечены фрагменты, про которые Вам нужно выбрать ответ в тесте.

Некоторые ячейки печатают какой-то результат, а некоторые не печатают.

Загружаем данные:

In [None]:
from sklearn.datasets import load_boston

In [None]:
boston_data = load_boston()

In [None]:
X = boston_data["data"]
y = boston_data["target"]

X - таблица объектов и их признаков, y - целевые переменные.

Посмотрим, сколько строк и сколько столбцов в таблице X (сначала выводится число строк, затем число столбцов):

In [None]:
X.shape

Сколько элементов в y:

In [None]:
y.shape

Разделим данные на обучающую и тестовую выборки:

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

__Задание+тест.__ Сколько объектов оказалось в обучающей выборке, а сколько в тестовой? Напишите код в каждую из двух ячеек ниже, нажмите Run для каждой ячейки и ответьте на вопрос теста.

Нормируем данные (чтобы все признаки имели одинаковый масштаб):

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
from sklearn.linear_model import LinearRegression

__Задание.__ Обучите модель линейной регрессии. Для обучения нам понадобятся признаки и значения целевых переменных на _обучающей_ выборке: X_train и y_train. Напишите команду model.fit(X_train, y_train) в последней строчке ячейки ниже:

In [None]:
model = LinearRegression()


Выполним предсказания с помощью обученной модели для объектов тестовой выборки (понадобятся только _признаки_ для тестовой выборки):

In [None]:
predictions_test = model.predict(X_test)

Оценим среднюю ошибку предсказаний (понадобятся предсказания и значения целевых переменных для _тестовой_ выборки):

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
mean_absolute_error(y_test, predictions_test)

__Тест:__ Ответьте в тесте, в каких границах оказалось полученное значение ошибки.

Величина, которую мы предсказываем, измеряется в десятках, так что полученное значение средней ошибки - вполне хороший результат!

Выведем получившиеся веса для всех признаков, отсортировав признаки в порядке возрастания веса:

In [None]:
import pandas

In [None]:
weights = pandas.DataFrame({"веса":model.coef_,\
                        "признаки": boston_data["feature_names"]})
weights.sort_values("веса")

Описание признаков (напоминаем, что один объект - это район города Бостона):

- CRIM: Уровень преступности на душу населения
- ZN: доля земли под жилую застройку, зонированной на участки площадью более 25 000 кв. Футов.
- INDUS: доля акров, не относящихся к розничной торговле
- CHAS: 1, если участок ограничивает реку; 0 в противном случае
- NOX: Концентрация оксидов азота (частей на 10 миллионов)
- RM: Среднее количество комнат в доме
- AGE: доля домов, занимаемых владельцами, построенных до 1940 г.
- DIS: взвешенные расстояния до пяти бостонских центров занятости
- RAD: Индекс доступности радиальных автомобильных дорог 
- TAX: Ставка налога на имущество в размере полной стоимости за 10 000 долларов США.
- PTRATIO Соотношение учеников и учителей
- B: 1000 (Bk - 0,63) ^ 2, где Bk - доля чернокожих
- LSTAT: процент низкообеспеченного населения  в районе
- MEDV: Средняя стоимость частных домов в тысячах долларов

В напечатанной таблице отображается, какой вклад в предсказанную стоимость носит каждая единица каждого признака. Например, для признака RM отображается, какую стоимость добавляет каждая комната в доме. Проанализируйте полученные веса: логично ли определились знаки признаков (увеличивает или уменьшает предсказание каждый признак)?

__Тест:__ Найдите в таблице с весами признак, соответствующий доле низкообеспеченного населения в районе. Если значение этой доли велико, будет ли предсказываться высокая средняя стоимость домов или низкая? Логичен ли такой результат?