# 5.1. Параметры

Ваша задача - обучить классификатор на стандартном датасете Ирисов Фишера решать задачу предсказания сорта цветка по описанию 4 его параметров.

Ваша задача - дополнить приведённый ниже код таким образом, чтобы конфигурация обучения была следующей:

1) В тренировочную выборку должно быть включено 60% всех объектов, выбранных из датасета случайным образом (поскольку датасет очень простой для обучения модели, 60% тренировочных объектов более, чем достаточно)

2) Максимальная глубина построенного дерева не должна превышать 3

3) В качестве критерия ветвления используйте критерий Джини

4) Random state и random seed установите равными 42

В качестве ответа к задаче укажите оценку качества классификации на тестовой выборке при помощи accuracy_score. Ответ округлите **вниз** до сотых. Разделитель дробной и целой части в ответе - **точка**.

In [1]:
import pandas as pd
import numpy as np
np.random.seed(42)

# Импортируйте необходимые классы и функции из соответствующих модулей sklearn
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)

X_train, x_test, y_train, y_test = train_test_split(X, y, train_size=0.6, random_state=42)
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)

clf.fit(X_train, y_train)
preds = clf.predict(x_test)

acc = round(accuracy_score(y_test, preds), 2)

print(acc)

0.98


# 5.2. Лучшая комбинация

Ваша задача - обучить стандартный регрессор на основе решающего дерева решать задачу предсказания стоимости бриллианта по набору его признаков, к которым относятся: * Число карат * Цвет * Чистота * Геометрические размеры и т.п.

Датасет можно загрузить по [ссылке](https://drive.google.com/drive/u/0/folders/1CAjs-yQQfHFrAAsX9dy_hXGIyc7wx0CH).

Датасет необходимо предобработать следующим образом:
* Удалить ненужную колонку, дублирующую индекс;
* Преобразовать все данные к числовому типу (если это необходимо);
* Воспользуйтесь One-hot encoder для преобразования категориальных признаков.
* Перемешайте выборку при помощи функции sklearn.utils.shuffle с random_state=42.

Категориальными признаками в нашем случае служат признаки "cut", "color" и "clarity".

Более правильный способ сделать это - воспользоваться классом 'sklearn.preprocessing.LabelEncoder', подробности в [документации](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html). Мы рекомендуем воспользоваться именно LabelEncoder.

Выберите лучшую комбинацию гиперпараметров из предложенных:
* Критерий ветвления: squared_error, глубина дерева: 12
* Критерий ветвления: friedman_mse, глубина дерева: 16
* Критерий ветвления: poisson, глубина дерева: 22
* Критерий ветвления: squared_error, глубина дерева: 45
* Критерий ветвления: friedman_mse, глубина дерева: 95
* Критерий ветвления: poisson, глубина дерева: 33

Лучшим будет тот критерий, который покажет наилучшее среднее качество с точки зрения метрики $R^2$ при кроссвалидации с CV=10. Random state и random seed установите равными 42.

In [6]:
import os
import numpy as np
import pandas as pd

from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import cross_val_score
from sklearn.utils import shuffle

In [2]:
np.random.seed(42)

In [3]:
os.chdir('/Users/goshaletov/Documents/Study/Master/Trimester1/MachineLearning/Homeworks')

In [4]:
df = pd.read_csv('data/Homework 5/TRAIN.csv', index_col=0)

In [5]:
encoder_cut = LabelEncoder()
encoder_color = LabelEncoder()
encoder_clarity = LabelEncoder()

df['cut'] = encoder_cut.fit_transform(df['cut'])
df['color'] = encoder_cut.fit_transform(df['color'])
df['clarity'] = encoder_cut.fit_transform(df['clarity'])

In [9]:
df = shuffle(df, random_state=42)

In [10]:
y = df.price.values
X = df.drop('price', axis=1).values

In [11]:
params_set = [
    {'criterion': 'squared_error', 'max_depth': 12},
    {'criterion': 'friedman_mse', 'max_depth': 16},
    {'criterion': 'poisson', 'max_depth': 22},
    {'criterion': 'squared_error', 'max_depth': 45},
    {'criterion': 'friedman_mse', 'max_depth': 95},
    {'criterion': 'poisson', 'max_depth': 33},
]

In [12]:
for params in params_set:
    reg = DecisionTreeRegressor(random_state=42, **params)
    params['score'] = cross_val_score(reg, X, y, scoring='r2', cv=10).mean()

In [13]:
print(max(params_set, key=lambda x: x['score']))

{'criterion': 'squared_error', 'max_depth': 12, 'score': 0.974376370315037}
