# Тема “Обучение с учителем”

---
### Задание 1

Импортируйте библиотеки `pandas` и `numpy`.

Загрузите **"Boston House Prices dataset"** из встроенных наборов данных библиотеки `sklearn`.

Создайте датафреймы **X** и **y** из этих данных.

Разбейте эти датафреймы на тренировочные **(X_train, y_train)** и тестовые **(X_test, y_test)** с помощью функции `train_test_split` так, чтобы размер тестовой выборки составлял **30%** от всех данных, при этом аргумент **random_state** должен быть равен **42**.

Создайте модель линейной регрессии под названием **lr** с помощью класса `LinearRegression` из модуля `sklearn.linear_model`.

Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на тестовых.

Вычислите **R2** полученных предказаний с помощью `r2_score` из модуля `sklearn.metrics`.

#### Загружаем необходимые библиотеки и устанавливаем настройки среды для работы

In [1]:
# Импортируем необходимые библиотеки
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from pylab import rcParams

In [2]:
# Отключаем предупреждения
import warnings

warnings.filterwarnings('ignore')

In [3]:
# Магическая команда Jupyter Notebook нужна для того, чтобы графики отображались прямо в ноутбуке, а не в отдельном окне:
%matplotlib inline

In [4]:
# Магическая команда позволяет рисовать графики в формате `svg`, т.е. scalable vector graphics - масштабируемая векторная
# графика. Это придаёт изображениям большую чёткость.
%config InlineBackend.figure_format = 'svg'

#### Загружаем и смотрим датасет

In [5]:
# Функция load_boston загружает датасет.
from sklearn.datasets import load_boston

# Загружаем его в переменную boston.
boston = load_boston()

In [6]:
# Этот датасет представлен в виде словаря.
# Cмотрим ключи этого словаря:
boston.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

In [7]:
# Данные о недвижимости хранятся в массиве по ключу "data".
data = boston["data"]

data.shape

(506, 13)

In [8]:
# Каждая строка соответствует какому-то объекту (объекту недвижимости), а столбцы - каким-то его характеристикам.
# Названия признаков хранятся в массиве по ключу "feature_names":
feature_names = boston["feature_names"]

feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [9]:
# Описание всего датасета можно получить по ключу "DESCR":
print(boston["DESCR"])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

.. _boston_dataset:

### Набор данных о ценах на жилье в Бостоне
---------------------------

**Характеристики набора данных:**

   :Количество экземпляров: **506** 

   :Количество атрибутов: **13** числовых/категориальных прогнозируемых. Медианное значение (атрибут **14**) обычно является целевым.

   :Информация об атрибутах (по порядку):  
        - **CRIM** - уровень преступности на душу населения по городу.  
        - **ZN** - доля жилой земли, зонированной для участков площадью более 25 000 кв. футов.  
        - **INDUS** - доля акров неторгового бизнеса по городу.  
        - **CHAS** - фиктивная переменная Charles River (= 1, если участок граничит с рекой; 0 в противном случае).  
        - **NOX** - концентрация оксидов азота (частей на 10 миллионов).  
        - **RM** - среднее количество комнат в жилище.  
        - **AGE** - доля занимаемых владельцами квартир, построенных до 1940 года.  
        - **DIS** - взвешенные расстояния до пяти центров занятости Бостона.  
        - **RAD** - индекс доступности к радиальным магистралям.  
        - **TAX** - полная ставка налога на недвижимость на $10,000.  
        - **PTRATIO** - соотношение учеников и учителей по городу.  
        - **B** - 1000(Bk - 0.63)^2, где Bk - доля чернокожего населения в городе.  
        - **LSTAT** - % более низкий статус населения.  
        - **MEDV** - Медианная стоимость домов, занимаемых владельцами, в 1000 долларов США.

   :Отсутствующие значения атрибутов: **Нет**

   :Создатели: Харрисон, Д. и Рубинфельд, Д.Л.

Это копия набора данных по жилью UCI ML.
https://archive.ics.uci.edu/ml/machine-learning-databases/housing/


Этот набор данных был взят из библиотеки StatLib, которая хранится в Университете Карнеги-Меллон.

Данные о ценах на жилье в Бостоне из Harrison, D. and Rubinfeld, D.L. 'Hedonic
цены и спрос на чистый воздух", J. Environ. Economics & Management,
vol.5, 81-102, 1978.   Используется в Belsley, Kuh & Welsch, 'Regression diagnostics
...", Wiley, 1980.   N.B. Различные преобразования используются в таблице на
страницах 244-261 последней.

Данные о ценах на дома в Бостоне использовались во многих работах по машинному обучению, посвященных проблемам регрессии.
проблемы.   
     
... тема:: Ссылки

   - Белсли, Кух и Велш, "Регрессионная диагностика: Определение влияющих данных и источников коллинеарности", Wiley, 1980. 244-261.
   - Quinlan,R. (1993). Комбинирование обучения на основе экземпляров и на основе моделей. Труды десятой международной конференции по машинному обучению, 236-243, Университет Массачусетса, Амхерст. Morgan Kaufmann.

In [10]:
# Массив с целевыми значениями (ценами на недвижимость) можно получить по ключу "target":
target = boston["target"]

target[:10]

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9])

#### Создаём несколько таблиц DataFrame

In [11]:
# Создаём несколько таблиц DataFrame для более удобного хранения данных.
# В таблице X будут храниться признаки.
# В качестве названий для столбцов возьмём массив feature_names:
X = pd.DataFrame(data, columns=feature_names)

X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [12]:
# Посмотрим информацию по таблице "Х"
X.info()
# Пропущенных значений в таблице нет

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
dtypes: float64(13)
memory usage: 51.5 KB


In [13]:
# Создадим таблицу "y", в которую запишем целевые значения:
y = pd.DataFrame(target, columns=["price"])

y.info()
# Пропущенных значений в таблице нет

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   506 non-null    float64
dtypes: float64(1)
memory usage: 4.1 KB


#### Разбиваем получившиеся датафреймы на тренировочные *(X_train, y_train)* и тестовые *(X_test, y_test)*

In [14]:
# Разбиение данных на тренировочную и тестовую выборку выполняем с помощью функции train_test_split
# из модуля sklearn.model_selection.

from sklearn.model_selection import train_test_split

In [15]:
# С помощью параметра test_size указываем, какую часть данных выделяем под тест.
# Если указать число из отрезка  [0, 1], то оно будет интерпретироваться как доля тестовых объектов.
# Если указать число большее или равное 1, то это будет число объектов в тестовой выборке.
# Указание параметра random_state делает результат разбиения повторяемым (одинаковым) при каждом выполнении функции.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, shuffle=True, random_state=42)

#### Построение модели LinearRegression

In [16]:
# Загружаем модель линейной регрессии из библиотеки sklearn
from sklearn.linear_model import LinearRegression

In [17]:
lr = LinearRegression()

Модель линейной регрессии по объекту $x = (x_1, \dots, x_n)$ предсказывает значение целевой переменной, используя линейную функцию 

$$f(x) = w_0 + w_1 \cdot x_1 + \dots + w_n \cdot x_n.$$ 

Задача такой модели - в процессе обучения подобрать эти коэффициенты $w_i$ так, чтобы значение этой функции было как можно более близко к реальному целевому значению $y$ объекта $x$.


#### Обучение модели

In [18]:
# Обучаем модель на тренировочных данных (используя все признаки).
# чтобы обучить модель, используем метод .fit, в который передаём тренировочную выборку:
lr.fit(X_train, y_train)

LinearRegression()

#### Предсказание на тестовых данных

In [19]:
# Делаем предсказание на тестовых данных с помощью метода .predict:
y_pred = lr.predict(X_test)

y_pred.shape

(167, 1)

#### Вычисление R2

In [20]:
# Загружаем из библиотеки sklearn функцию вычисления метрики R2

from sklearn.metrics import r2_score

Коэффициент детерминации ($R^{2}$ — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости $R^{2}$ является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между $y$ и $x$.

Чем ближе $R^2$ к $1$, тем лучше обобщающая способность модели.

Может принимать отрицательное значение при плохой обобщающей способности модели.

In [21]:
r2 = round(r2_score(y_test, y_pred), 3)
print(f"R2 = {r2}\n")

R2 = 0.726



---
### Задание 2

Создайте модель под названием **model** с помощью `RandomForestRegressor` из модуля `sklearn.ensemble`.

Сделайте агрумент **n_estimators** равным **1000**, **max_depth** должен быть равен **12** и **random_state** сделайте равным **42**.

Обучите модель на тренировочных данных аналогично тому, как вы обучали модель `LinearRegression`, но при этом в метод `fit` вместо датафрейма **y_train** поставьте **y_train.values[:, 0]**, чтобы получить из датафрейма одномерный массив `Numpy`,
так как для класса `RandomForestRegressor` в данном методе для аргумента $y$ предпочтительно применение массивов вместо датафрейма.

Сделайте предсказание на тестовых данных и посчитайте $R^2$.

Сравните с результатом из предыдущего задания.
Напишите в комментариях к коду, какая модель в данном случае работает лучше.

#### Построение модели RandomForestRegressor

In [22]:
# Загружаем модель линейной регрессии из библиотеки sklearn

from sklearn.ensemble import RandomForestRegressor

**RandomForest** - это мета-оценщик, который настраивает несколько классифицирующих деревьев решений на различных подвыборках набора данных и использует усреднение для повышения точности прогнозирования и борьбы с перебором. Размер подвыборки контролируется параметром **max_samples**, если **bootstrap=True** (по умолчанию), в противном случае для построения каждого дерева используется весь набор данных.

В **RandomForest** (см. классы `RandomForestClassifier` и `RandomForestRegressor`) каждое дерево в ансамбле строится на основе выборки, взятой с заменой (т.е. бутстреп-выборки) из обучающего множества.

Кроме того, при разбиении каждого узла во время построения дерева наилучшее разбиение находится либо из всех входных признаков, либо из случайного подмножества размером **max_features**.

Цель этих двух источников случайности - уменьшить дисперсию оценщика леса. Действительно, отдельные деревья решений обычно демонстрируют высокую дисперсию и склонны к чрезмерной подгонке. Внесение случайности в лес дает деревья решений с несколько разделенными ошибками предсказания. Если взять среднее значение этих прогнозов, то некоторые ошибки могут нивелироваться. **RandomForest** достигают уменьшения дисперсии путем объединения различных деревьев, иногда ценой небольшого увеличения погрешности. На практике снижение дисперсии часто бывает значительным, что в целом дает лучшую модель.

В отличие от оригинальной публикации, реализация scikit-learn объединяет классификаторы путем усреднения их вероятностных предсказаний, вместо того, чтобы позволить каждому классификатору голосовать за один класс.

Несколько параметров данной модели:

* `n_estimators` - число деревьев в ансамбле
* `max_features` - максимальное число признаков, которое может быть использовано при построении каждого дерева
* `max_depth` - максимальная глубина дерева
* `random_state` - Управляет как случайностью бутстреппинга выборок, используемых при построении деревьев (если ``bootstrap=True``) и выборкой признаков, которые будут учитываться при поиске наилучшего разделения в каждом узле      признаков для рассмотрения при поиске наилучшего разбиения в каждом узле. При задании числа приводит к повторяемости результатов (по умолчанию = None)


In [23]:
# Создаём модель

model = RandomForestRegressor(n_estimators=1000, max_depth=12, random_state=42)

#### Обучение модели

In [24]:
# Обучаем модель на тренировочных данных (используя все признаки).
# чтобы обучить модель, используем метод .fit, в который передаём тренировочную выборку:
model.fit(X_train, y_train.values[:, 0])

RandomForestRegressor(max_depth=12, n_estimators=1000, random_state=42)

#### Предсказание на тестовых данных

In [25]:
# Делаем предсказание на тестовых данных с помощью метода .predict:
y_pred = model.predict(X_test)

y_pred.shape

(167,)

#### Вычисление R2

In [26]:
r2 = round(r2_score(y_test, y_pred), 3)
print(f"R2 = {r2}\n")

R2 = 0.866



---
### Вывод
Применение модели **RandomForestRegressor**, в данном случае, даёт лучший результат (лучшую точность предсказанных даннных), чем применение модели **LinearRegression**.