# Обучение с учителем в Scikit-learn

### Задание 1

Импортируйте библиотеки pandas и numpy.
Загрузите `"Boston House Prices dataset"` из встроенных наборов данных библиотеки `sklearn`. Создайте датафреймы X и Y из этих данных.

Разбейте эти датафреймы на тренировочные `(X_train, y_train)` и тестовые `(X_test, y_test)` с помощью функции `train_test_split` так, чтобы размер тестовой выборки составлял 30% от всех данных, при этом аргумент `random_state` должен быть равен 42.

Создайте модель линейной регрессии под названием lr с помощью класса `LinearRegression` из модуля `sklearn.linear_model`.

Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на тестовых.

Вычислите R2 полученных предказаний с помощью `r2_score` из модуля `sklearn.metrics`.

In [1]:
import pandas as pd
import numpy as np

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
from sklearn.datasets import load_boston

In [4]:
boston = load_boston()
data = boston["data"]

In [5]:
feature_names = boston["feature_names"]

X = pd.DataFrame(data, columns=feature_names)
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [6]:
target = boston["target"]

Y = pd.DataFrame(target, columns=["price"])
Y.head()

Unnamed: 0,price
0,24.0
1,21.6
2,34.7
3,33.4
4,36.2


In [7]:
from sklearn.model_selection import train_test_split

In [8]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.30, random_state=42)

In [9]:
from sklearn.linear_model import LinearRegression

In [10]:
lr = LinearRegression()

In [11]:
lr.fit(X_train, Y_train)

In [12]:
y_pred_lr = lr.predict(X_test)
check_test_lr = pd.DataFrame({
    "Y_test": Y_test["price"], 
    "Y_pred_lr": y_pred_lr.flatten()})

check_test_lr.head()

Unnamed: 0,Y_test,Y_pred_lr
173,23.6,28.64896
274,32.4,36.495014
491,13.6,15.411193
72,22.8,25.403213
452,16.1,18.85528


In [13]:
from sklearn.metrics import mean_squared_error

mean_squared_error_lr = mean_squared_error(check_test_lr["Y_pred_lr"], check_test_lr["Y_test"])
print(mean_squared_error_lr)

21.517444231177176


### Задание 2

Создайте модель под названием model с помощью `RandomForestRegressor` из модуля `sklearn.ensemble`.

Сделайте агрумент `n_estimators` равным 1000, `max_depth` должен быть равен 12 и random_state сделайте равным 42.

Обучите модель на тренировочных данных аналогично тому, как вы обучали модель `LinearRegression`, но при этом в метод `fit` вместо датафрейма `y_train` поставьте `y_train.values[:, 0]`, чтобы получить из датафрейма одномерный массив `Numpy`, так как для класса `RandomForestRegressor` в данном методе для аргумента y предпочтительно применение массивов вместо датафрейма.

Сделайте предсказание на тестовых данных и посчитайте R2. Сравните с результатом из предыдущего задания.

Напишите в комментариях к коду, какая модель в данном случае работает лучше.

In [14]:
from sklearn.ensemble import RandomForestRegressor

In [15]:
clf = RandomForestRegressor(n_estimators=1000, max_depth=12, random_state=42)

In [16]:
clf.fit(X_train, Y_train.values[:, 0])

In [17]:
y_pred_clf = clf.predict(X_test)
check_test_clf = pd.DataFrame({
    "Y_test": Y_test["price"], 
    "Y_pred_clf": y_pred_clf.flatten()})

check_test_clf.head()

Unnamed: 0,Y_test,Y_pred_clf
173,23.6,22.806412
274,32.4,31.131464
491,13.6,16.339125
72,22.8,23.810726
452,16.1,17.139521


In [18]:
mean_squared_error_clf = mean_squared_error(check_test_clf["Y_pred_clf"], check_test_clf["Y_test"])
print(mean_squared_error_clf)

9.334548946165196


In [19]:
print(f"Алгоритм 'случайный лес' - {mean_squared_error_lr}, показывает результаты лучше чем 'линейная регресия' - {mean_squared_error_clf}")

Алгоритм 'случайный лес' - 21.517444231177176, показывает результаты лучше чем 'линейная регресия' - 9.334548946165196


### *Задание 3
Вызовите документацию для класса `RandomForestRegressor`,
найдите информацию об атрибуте `feature_importances_`.

С помощью этого атрибута найдите сумму всех показателей важности,
установите, какие два признака показывают наибольшую важность.


In [20]:
print(clf.feature_importances_)

[0.03167574 0.00154252 0.00713813 0.00123624 0.01426897 0.40268179
 0.01429864 0.06397257 0.00528122 0.01152493 0.01808108 0.01245085
 0.41584732]


In [21]:
feature_importance = pd.DataFrame({'name':X.columns, 
                                   'feature_importance':clf.feature_importances_}, 
                                  columns=['feature_importance', 'name'])
feature_importance

Unnamed: 0,feature_importance,name
0,0.031676,CRIM
1,0.001543,ZN
2,0.007138,INDUS
3,0.001236,CHAS
4,0.014269,NOX
5,0.402682,RM
6,0.014299,AGE
7,0.063973,DIS
8,0.005281,RAD
9,0.011525,TAX


In [22]:
feature_importance.nlargest(2, 'feature_importance')

Unnamed: 0,feature_importance,name
12,0.415847,LSTAT
5,0.402682,RM


Признаки LSTAT и RM более важны