In [1]:
import pandas as pd
import numpy as np

# decision trees

### Преимущества и недостатки деревьев решений
##### Преимущества:

-    **Интерпретируемость**: Одним из главных преимуществ деревьев решений является их легкость в интерпретации. Конечные пользователи могут легко понять, какие признаки были важны для предсказания.

-    **Гибкость**: Деревья решений могут использоваться как для классификации, так и для регрессии. Их можно адаптировать к различным типам задач.

-    **Отсутствие необходимости нормализации данных**: Деревья решений не требуют нормализации признаков, так как они работают только с разделениями данных.

-    **Устойчивость к выбросам**: Деревья решений менее чувствительны к выбросам, поскольку они концентрируются на разделениях, основанных на выборках, а не на отдельных значениях.

##### Недостатки:

-    **Переобучение**: Без применения ограничений (например, максимальной глубины) деревья могут сильно переобучаться, особенно на малых выборках.

-    **Нестабильность**: Небольшие изменения в данных могут привести к значительным изменениям структуры дерева, что делает модель менее устойчивой.

-    **Меньшая точность по сравнению с ансамблями**: Деревья решений по своей природе менее точны, чем более сложные методы, такие как случайные леса (Random Forests) или градиентный бустинг (Gradient Boosting).


### Переобучение в деревьях решений.
В чем оно проявляется?

-    Глубокие деревья: Дерево может создавать множество уровней, чтобы разделить каждую точку данных, даже если это вызвано шумом или случайными выбросами.
  
-    Чрезмерно детализированные разделения: Дерево может разделять данные до тех пор, пока не достигнет уровня, где каждая конечная группа (лист) будет содержать одно или несколько наблюдений. Это приводит к тому, что дерево подстраивается под мелкие особенности данных.


### 1. Ограничение глубины дерева
<div class='alert alert-box alert-success'>

```Ограничение глубины контролирует, насколько детализированным будет дерево. Меньшая глубина заставляет дерево принимать обобщённые решения и уменьшает вероятность переобучения.```
</div>

```from sklearn.tree import DecisionTreeClassifier```

##### Ограничиваем глубину дерева до 5 уровней
```tree = DecisionTreeClassifier(max_depth=5, random_state=42)```<br>
```tree.fit(X_train, y_train)```

### 2. Минимальное количество объектов в листе (min_samples_leaf)
<div class='alert alert-box alert-success'>

```Если конечный лист содержит слишком мало объектов, это может говорить о чрезмерной подстройке дерева под конкретные объекты. Увеличивая значение min_samples_leaf, мы требуем, чтобы дерево обрабатывало только более значимые группы объектов.```
</div>

```from sklearn.tree import DecisionTreeClassifier```

##### Минимум 10 объектов в каждом листе
```tree = DecisionTreeClassifier(min_samples_leaf=10, random_state=42)```<br>
```tree.fit(X_train, y_train)```

### 3. Минимальное количество объектов для разбиения (min_samples_split)
<div class='alert alert-box alert-success'>

```Когда количество объектов в узле становится слишком малым, дальнейшее разбиение может не принести пользы, а лишь усложнит модель. Ограничение минимального числа объектов для разбиения заставляет дерево принимать более обобщённые решения.```
</div>

```from sklearn.tree import DecisionTreeClassifier```

##### Минимум 20 объектов для разбиения узла
```tree = DecisionTreeClassifier(min_samples_split=20, random_state=42)```<br>
```tree.fit(X_train, y_train)```

### 4. Обрезка дерева (pruning)
<div class='alert alert-box alert-success'>

```Обрезка (pruning) — это процесс удаления узлов дерева, которые не дают значимого улучшения на новых данных. Этот метод применяется после построения дерева, чтобы удалить ненужные ветви, которые могут быть результатом подгонки под обучающую выборку.```
</div>
Существует два вида обрезки:

-    **Предварительная обрезка (Pre-pruning)**: Разбиения ограничиваются до того, как дерево будет построено полностью (задаётся через параметры max_depth, min_samples_leaf и т.д.).
-    **Пост-обрезка (Post-pruning)**: Обрезка выполняется после построения дерева. В sklearn это реализовано через параметр ccp_alpha, который задаёт величину регуляризации. Узлы, которые дают минимальное улучшение, удаляются, упрощая модель. Этот параметр задаёт силу регуляризации — чем выше значение, тем больше узлов будет обрезано.


```from sklearn.tree import DecisionTreeClassifier```<br>
```from sklearn.model_selection import GridSearchCV```

##### Настраиваем параметр ccp_alpha для пост-обрезки
```param_grid = {'ccp_alpha': [0.001, 0.01, 0.1, 0.5]}```<br>
```tree = DecisionTreeClassifier(min_samples_split=20, random_state=42)```<br>
```tree.fit(X_train, y_train)```