# 5.1. Параметры

Ваша задача - обучить классификатор на стандартном датасете Ирисов Фишера решать задачу предсказания сорта цветка по описанию 4 его параметров.

Ваша задача - дополнить приведённый ниже код таким образом, чтобы конфигурация обучения была следующей:

1) В тренировочную выборку должно быть включено 60% всех объектов, выбранных из датасета случайным образом (поскольку датасет очень простой для обучения модели, 60% тренировочных объектов более, чем достаточно)

2) Максимальная глубина построенного дерева не должна превышать 3

3) В качестве критерия ветвления используйте критерий Джини

4) Random state и random seed установите равными 42

В качестве ответа к задаче укажите оценку качества классификации на тестовой выборке при помощи accuracy_score. Ответ округлите **вниз** до сотых. Разделитель дробной и целой части в ответе - **точка**.

Код для заполнения:

In [34]:
import pandas as pd
import numpy as np

np.random.seed(42)

# Импортируйте необходимые классы и функции из соответствующих модулей sklearn
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from math import floor

from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

X_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
clf = DecisionTreeClassifier(max_depth=3, criterion='gini')

clf.fit(X_train, y_train)
preds = clf.predict(x_test)

acc = accuracy_score(y_test, preds)

acc = floor(acc*100)/100

print(acc)

0.98


## Примечания

1. Для округления можно использовать одну из операций: round(), floor() (подумайте, какая операция здесь подходит лучше). Также можно использовать форматированный вывод и f-строки.

2. Обратите внимание на соотношение тренировочной и тестовой выборки (оно указано в условии задачи).

#  Лучшая комбинация
Ваша задача - обучить стандартный регрессор на основе решающего дерева решать задачу предсказания стоимости бриллианта по набору его признаков, к которым относятся: * Число карат * Цвет * Чистота * Геометрические размеры и т.п.

Датасет можно загрузить по ссылке.

Датасет необходимо предобработать следующим образом:

1. Удалить ненужную колонку, дублирующую индекс;
2. Преобразовать все данные к числовому типу (если это необходимо)*;
3. Воспользуйтесь One-hot encoder для преобразования категориальных признаков. Категориальными признаками в нашем случае служат признаки "cut", "color" и "clarity";
4. Перемешайте выборку при помощи функции sklearn.utils.shuffle с random_state=42.

Выберите лучшую комбинацию гиперпараметров из предложенных:

1. Критерий ветвления: squared_error, глубина дерева: 12
2. Критерий ветвления: friedman_mse, глубина дерева: 16
3. Критерий ветвления: poisson, глубина дерева: 22
4. Критерий ветвления: squared_error, глубина дерева: 45
5. Критерий ветвления: friedman_mse, глубина дерева: 95
6. Критерий ветвления: poisson, глубина дерева: 33

Лучшим будет тот критерий, который покажет наилучшее среднее качество с точки зрения метрики r^2
  при кросс-валидации с cv=10. Random state и random seed установите равными 42.

In [35]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.utils import shuffle
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score

# Загрузка данных
data = pd.read_csv('TRAIN.csv')

# Предобработка данных
data = data.drop(columns=['Unnamed: 0'])

for column in ['cut', 'color', 'clarity']:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])

# Перемешиваем
data = shuffle(data, random_state=42)

# Делим на X, y
y = data['price']
X = data.drop(columns=['price'])
# print(X, y, data, sep='\n')

# Подбираем параметры
regressor = DecisionTreeRegressor()

params = [
    ('squared_error', 12),
    ('friedman_mse', 16),
    ('poisson', 22),
    ('squared_error', 45),
    ('friedman_mse', 95),
    ('poisson', 33),
]

for criterion, max_depth in params:
    regressor = DecisionTreeRegressor(criterion=criterion, max_depth=max_depth, random_state=42)
    score = cross_val_score(regressor, X, y, cv=10, scoring='r2')
    print(f"{criterion}, {max_depth}: {score.mean()}")




squared_error, 12: 0.974376370315037
friedman_mse, 16: 0.9698124638578074
poisson, 22: 0.9649735951477197
squared_error, 45: 0.9657305223646757
friedman_mse, 95: 0.9657260061669289
poisson, 33: 0.9644969400198521


## Примечания
*Общий алгоритм для этого следующий: вы можете выделить множество всех уникальных значений для каждой колонки, а затем воспользоваться функцией .replace() объекта pandas.DataFrame для замены строчных значений на числовые.

Более правильный способ сделать это - воспользоваться классом 'sklearn.preprocessing.LabelEncoder', подробности в документации. Мы рекомендуем воспользоваться именно LabelEncoder.