### Задание:
1. Выберите набор данных (датасет) для решения задачи классификации или регресии.
2. В случае необходимости проведите удаление или заполнение пропусков и кодирование категориальных признаков.
3. С использованием метода train_test_split разделите выборку на обучающую и тестовую.
4. Обучите две ансамблевые модели. Оцените качество моделей с помощью одной из подходящих для задачи метрик. Сравните качество полученных моделей.
5. Произведите для каждой модели подбор значений одного гиперпараметра. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.
6. Повторите пункт 4 для найденных оптимальных значений гиперпараметров. Сравните качество полученных моделей с качеством моделей, полученных в пункте 4.

In [20]:
import numpy as np
import pandas as pd
from typing import Dict, Tuple
from scipy import stats
from IPython.display import Image
from sklearn.datasets import load_iris, load_boston
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor, KNeighborsClassifier
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score, balanced_accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.ensemble import ExtraTreesClassifier, ExtraTreesRegressor
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor
from sklearn.ensemble import BaggingClassifier
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, median_absolute_error, r2_score 
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.svm import SVC, NuSVC, LinearSVC, OneClassSVM, SVR, NuSVR, LinearSVR
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline 
sns.set(style="ticks")

### 1 . Выберите набор данных (датасет) для решения задачи классификации или регресии.

In [2]:
# загружаем датасет
data=pd.read_csv('DOW30.csv', sep=",")

In [5]:
# размер набора данных
data.shape

(2448, 14)

In [6]:
# типы колонок
data.dtypes

Date             object
LABEL             int64
Open            float64
High            float64
Low             float64
Close           float64
Volume          float64
InterestRate    float64
ExchangeRate    float64
VIX             float64
Gold            float64
Oil             float64
TEDSpread       float64
EFFR            float64
dtype: object

In [7]:
# проверим есть ли пропущенные значения
data.isnull().sum()

Date            0
LABEL           0
Open            0
High            0
Low             0
Close           0
Volume          0
InterestRate    0
ExchangeRate    0
VIX             0
Gold            0
Oil             0
TEDSpread       0
EFFR            0
dtype: int64

In [8]:
data.head()

Unnamed: 0,Date,LABEL,Open,High,Low,Close,Volume,InterestRate,ExchangeRate,VIX,Gold,Oil,TEDSpread,EFFR
0,2008/4/1,0,12266.63965,12659.82031,12266.46973,12654.36035,295530000.0,1.77,1.5615,22.68,897.0,100.92,1.3,2.38
1,2008/4/2,1,12651.66992,12696.29004,12555.16992,12608.91992,232760000.0,1.72,1.5618,23.43,893.5,104.83,1.31,2.18
2,2008/4/3,0,12605.83008,12675.12012,12527.75,12626.03027,183870000.0,1.7,1.5667,23.21,898.25,103.92,1.35,2.19
3,2008/4/4,1,12626.03027,12688.48047,12528.16016,12609.41992,181260000.0,1.67,1.5735,22.45,905.25,106.09,1.4,2.26
4,2008/4/7,0,12612.58984,12733.66016,12583.28027,12612.42969,198070000.0,1.62,1.5713,22.42,914.7,108.91,1.28,2.24


### 2. В случае необходимости проведите удаление или заполнение пропусков и кодирование категориальных признаков.

In [9]:
le=LabelEncoder()
le.fit(data.Date)
data['Date']=le.transform(data.Date)

In [10]:
# типы колонок
data.dtypes

Date              int32
LABEL             int64
Open            float64
High            float64
Low             float64
Close           float64
Volume          float64
InterestRate    float64
ExchangeRate    float64
VIX             float64
Gold            float64
Oil             float64
TEDSpread       float64
EFFR            float64
dtype: object

### 3. С использованием метода train_test_split разделите выборку на обучающую и тестовую.

In [11]:
# Разделим выборку на обучающую и тестовую
# X_train - обучающая выборка (матрица объект-признак)
# y_train - обучающая выборка (вектор целевого признака)
# X_test - тестовая выборка (матрица объект-признак)
# y_test - тестовая выборка (вектор целевого признака)

X_train, X_test, y_train, y_test = train_test_split(
    data, data['LABEL'], test_size= 0.5, random_state= 1)

In [12]:
# Размер обучающей выборки
X_train.shape, y_train.shape

((1224, 14), (1224,))

In [13]:
# Размер тестовой выборки
X_test.shape, y_test.shape

((1224, 14), (1224,))

### 4. Обучите две ансамблевые модели. Оцените качество моделей с помощью одной из подходящих для задачи метрик. Сравните качество полученных моделей.

In [17]:
# случайный лес (n_estimators - число деревьев)
randomforest = RandomForestClassifier(n_estimators=1, max_depth=1, random_state=0).fit(X_train, y_train)

In [18]:
age_randomforest = randomforest.predict(X_test)

In [19]:
# опять эти метрики
accuracy_score(y_test, age_randomforest), \
precision_score(y_test, age_randomforest),  \
recall_score(y_test, age_randomforest)

(0.5343137254901961, 0.5343137254901961, 1.0)

In [16]:
# градиентный бустинг
gradient_boosting = GradientBoostingClassifier(n_estimators=5, max_depth=1, learning_rate=0.01).fit(X_train, y_train)

In [17]:
age_gradient_boosting = gradient_boosting.predict(X_test)

In [18]:
# опять эти метрики
accuracy_score(y_test, age_gradient_boosting), \
precision_score(y_test, age_gradient_boosting, average='micro'),  \
recall_score(y_test, age_gradient_boosting, average='micro')

(0.23684210526315788, 0.23684210526315788, 0.23684210526315788)

### 5. Произведите для каждой модели подбор значений одного гиперпараметра. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.

In [19]:
# случайный лес (n_estimators - число деревьев)
parameters_random_forest = {'n_estimators':[1, 3, 5, 7, 10], 
                            'max_depth':[1, 3, 5, 7, 10],
                            'random_state':[0, 2, 4, 6, 8, 10]}
best_random_forest = GridSearchCV(RandomForestClassifier(), parameters_random_forest, cv=3, scoring='accuracy')
best_random_forest.fit(X_train, y_train)



GridSearchCV(cv=3, error_score='raise-deprecating',
       estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators='warn', n_jobs=None,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'n_estimators': [1, 3, 5, 7, 10], 'max_depth': [1, 3, 5, 7, 10], 'random_state': [0, 2, 4, 6, 8, 10]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='accuracy', verbose=0)

In [20]:
# Лучшее значение параметров
best_random_forest.best_params_

{'max_depth': 7, 'n_estimators': 7, 'random_state': 8}

In [22]:
# градиентный бустинг
parameters_gradient_boosting = {'n_estimators':[1, 3, 5, 7, 10], 
                            'max_depth':[1, 3, 5, 7, 10],
                            'learning_rate':[0.001, 0.0025, 0.005, 0.0075, 0.01, 0.025]}
best_gradient_boosting = GridSearchCV(GradientBoostingClassifier(), parameters_gradient_boosting, cv=3, scoring='accuracy')
best_gradient_boosting.fit(X_train, y_train)



GridSearchCV(cv=3, error_score='raise-deprecating',
       estimator=GradientBoostingClassifier(criterion='friedman_mse', init=None,
              learning_rate=0.1, loss='deviance', max_depth=3,
              max_features=None, max_leaf_nodes=None,
              min_impurity_decrease=0.0, min_impurity_split=None,
              min_samples_leaf=1, min_sampl...      subsample=1.0, tol=0.0001, validation_fraction=0.1,
              verbose=0, warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'n_estimators': [1, 3, 5, 7, 10], 'max_depth': [1, 3, 5, 7, 10], 'learning_rate': [0.001, 0.0025, 0.005, 0.0075, 0.01, 0.025]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='accuracy', verbose=0)

In [23]:
# Лучшее значение параметров
best_gradient_boosting.best_params_

{'learning_rate': 0.005, 'max_depth': 3, 'n_estimators': 3}

### 6. Повторите пункт 4 для найденных оптимальных значений гиперпараметров. Сравните качество полученных моделей с качеством моделей, полученных в пункте 4.

In [24]:
# случайный лес (n_estimators - число деревьев)
randomforest2 = RandomForestClassifier(n_estimators=7, max_depth=7, random_state=8).fit(X_train, y_train)

In [25]:
age_randomforest2 = randomforest.predict(X_test)

In [26]:
# опять эти метрики
accuracy_score(y_test, age_randomforest2), \
precision_score(y_test, age_randomforest2, average='micro'),  \
recall_score(y_test, age_randomforest2, average='micro')

(0.05263157894736842, 0.05263157894736842, 0.05263157894736842)

In [27]:
# градиентный бустинг
gradient_boosting2 = GradientBoostingClassifier(n_estimators=5, max_depth=3, learning_rate=0.005).fit(X_train, y_train)

In [28]:
age_gradient_boosting2 = gradient_boosting.predict(X_test)

In [29]:
# опять эти метрики
accuracy_score(y_test, age_gradient_boosting2), \
precision_score(y_test, age_gradient_boosting2, average='micro'),  \
recall_score(y_test, age_gradient_boosting2, average='micro')

(0.23684210526315788, 0.23684210526315788, 0.23684210526315788)

#### метрики: accuracy, precision, recall

#### в пункте 4:

случайный лес (n_estimators - число деревьев)
- (0.05263157894736842, 0.05263157894736842, 0.05263157894736842)

градиентный бустинг
- (0.23684210526315788, 0.23684210526315788, 0.23684210526315788)

#### в пункте 6:

случайный лес (n_estimators - число деревьев) 
- {'max_depth': 7, 'n_estimators': 7, 'random_state': 8}
- (0.05263157894736842, 0.05263157894736842, 0.05263157894736842)

градиентный бустинг
- {'learning_rate': 0.005, 'max_depth': 3, 'n_estimators': 3}
- (0.23684210526315788, 0.23684210526315788, 0.23684210526315788)