# Обучение с учителем в Scikit-learn
### Задание 1
Импортируйте библиотеки `pandas` и `numpy`.<br>
Загрузите `Boston House Prices dataset` из встроенных наборов данных библиотеки `sklearn`. Создайте датафреймы `X` и `y` из этих данных.<br>
Разбейте эти датафреймы на тренировочные `(X_train, y_train)` и тестовые `(X_test, y_test)` с помощью функции `train_test_split` так, чтобы размер тестовой выборки составлял 30% от всех данных, при этом аргумент `random_state` должен быть равен 42.<br>
Создайте модель линейной регрессии под названием `lr` с помощью класса `LinearRegression` из модуля `sklearn.linear_model`.<br>
Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на тестовых.<br>
Вычислите `R2` полученных предказаний с помощью `r2_score` из модуля `sklearn.metrics`.

In [1]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_boston

In [2]:
boston = load_boston()
data = boston['data']
feature_names = boston['feature_names']
target = boston['target']

In [3]:
X = pd.DataFrame(data, columns=feature_names)
y = pd.DataFrame(target, columns=['price'])

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [5]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

In [6]:
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

In [7]:
check_test = pd.DataFrame({
    'y_test': y_test['price'],
    'y_pred': y_pred.flatten(),
})

check_test.head(5)

Unnamed: 0,y_test,y_pred
173,23.6,28.64896
274,32.4,36.495014
491,13.6,15.411193
72,22.8,25.403213
452,16.1,18.85528


In [8]:
from sklearn.metrics import r2_score
r2_score(check_test['y_test'], check_test['y_pred'])

0.7112260057484925

### Задание 2
Создайте модель под названием model с помощью `RandomForestRegressor` из модуля `sklearn.ensemble`.<br>
Сделайте агрумент `n_estimators` равным 1000, `max_depth` должен быть равен 12 и `random_state` сделайте равным 42.<br>
Обучите модель на тренировочных данных аналогично тому, как вы обучали модель `LinearRegression`, но при этом в метод `fit` вместо датафрейма `y_train` поставьте `y_train.values[:, 0]`, чтобы получить из датафрейма одномерный массив `Numpy`, так как для класса `RandomForestRegressor` в данном методе для аргумента `y` предпочтительно применение массивов вместо датафрейма.<br>
Сделайте предсказание на тестовых данных и посчитайте `R2`. Сравните с результатом из предыдущего задания.<br>
Напишите в комментариях к коду, какая модель в данном случае работает лучше.

### *Задание 3
Вызовите документацию для класса `RandomForestRegressor`, найдите информацию об атрибуте `feature_importances_`.<br>
С помощью этого атрибута найдите сумму всех показателей важности, установите, какие два признака показывают наибольшую важность.

### *Задание 4
В этом задании мы будем работать с датасетом, с которым мы уже знакомы по домашнему заданию по библиотеке `Matplotlib`, это датасет `Credit Card Fraud Detection`. Для этого датасета мы будем решать задачу классификации - будем определять, какие из транзакциции по кредитной карте являются мошенническими. Данный датасет сильно несбалансирован (так как случаи мошенничества относительно редки), так что применение метрики `accuracy` не принесет пользы и не поможет выбрать лучшую модель. Мы будем вычислять `AUC`, то есть площадь под кривой `ROC`.<br>
Импортируйте из соответствующих модулей `RandomForestClassifier`, `GridSearchCV` и `train_test_split`.<br>
Загрузите датасет `creditcard.csv` и создайте датафрейм `df`.<br>
С помощью метода `value_counts` с аргументом `normalize=True` убедитесь в том, что выборка несбалансирована. Используя метод `info`, проверьте, все ли столбцы содержат числовые данные и нет ли в них пропусков. Примените следующую настройку, чтобы можно было просматривать все столбцы датафрейма: `pd.options.display.max_columns = 100`.<br>
Просмотрите первые 10 строк датафрейма `df`.<br>
Создайте датафрейм `X` из датафрейма `df`, исключив столбец `Class`.<br>
Создайте объект `Series` под названием `y` из столбца `Class`.<br>
Разбейте `X` и `y` на тренировочный и тестовый наборы данных при помощи функции `train_test_split`, используя аргументы: <br>`test_size=0.3`,<br>`random_state=100`,<br>`stratify=y`.<br>
У вас должны получиться объекты `X_train`, `X_test`, `y_train` и `y_test`.<br>
Просмотрите информацию о их форме.<br>
Для поиска по сетке параметров задайте такие параметры:<br>
`parameters = [{'n_estimators': [10, 15],<br>
'max_features': np.arange(3, 5),<br>
'max_depth': np.arange(4, 7)}]`<br>
Создайте модель `GridSearchCV` со следующими аргументами:<br>
`estimator=RandomForestClassifier(random_state=100),<br>
param_grid=parameters,<br>
scoring='roc_auc',<br>
cv=3.`<br>
Обучите модель на тренировочном наборе данных (может занять несколько минут).<br>
Просмотрите параметры лучшей модели с помощью атрибута `best_params_`.<br>
Предскажите вероятности классов с помощью полученнной модели и метода `predict_proba`.<br>
Из полученного результата (массив `Numpy`) выберите столбец с индексом 1 (вероятность класса 1) и запишите в массив `y_pred_proba`.<br>
Из модуля `sklearn.metrics` импортируйте метрику `roc_auc_score`.<br>
Вычислите `AUC` на тестовых данных и сравните с результатом,полученным на тренировочных данных, используя в качестве аргументовмассивы `y_test` и `y_pred_proba`.

# *Дополнительные задания:
#### 1. Загрузите датасет Wine из встроенных датасетов sklearn.datasets с помощью функции load_wine в переменную data.

#### 2. Полученный датасет не является датафреймом. Это структура данных, имеющая ключи аналогично словарю. Просмотрите тип данных этой структуры данных и создайте список data_keys, содержащий ее ключи.

#### 3. Просмотрите данные, описание и названия признаков в датасете. Описание нужно вывести в виде привычного, аккуратно оформленного текста, без обозначений переноса строки, но с самими переносами и т.д.

#### 4. Сколько классов содержит целевая переменная датасета? Выведите названия классов.

#### 5. На основе данных датасета (они содержатся в двумерном массиве Numpy) и названий признаков создайте датафрейм под названием X.

#### 6. Выясните размер датафрейма X и установите, имеются ли в нем пропущенные значения.

#### 7. Добавьте в датафрейм поле с классами вин в виде чисел, имеющих тип данных numpy.int64. Название поля - 'target'.

#### 8. Постройте матрицу корреляций для всех полей X. Дайте полученному датафрейму название X_corr.

#### 9. Создайте список high_corr из признаков, корреляция которых с полем target по абсолютному значению превышает 0.5 (причем, само поле target не должно входить в этот список).

#### 10. Удалите из датафрейма X поле с целевой переменной. Для всех признаков, названия которых содержатся в списке high_corr, вычислите квадрат их значений и добавьте в датафрейм X соответствующие поля с суффиксом _2, добавленного к первоначальному названию признака. Итоговый датафрейм должен содержать все поля, которые, были в нем изначально, а также поля с признаками из списка high_corr, возведенными в квадрат. Выведите описание полей датафрейма X с помощью метода describe.