<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/ML/2_1_Decision_Trees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Деревья решений в машинном обучении

Деревья решений (Decision Trees) — это один из наиболее популярных и интуитивно понятных алгоритмов машинного обучения. Деревья решений используются как для задач классификации, так и для задач регрессии. В данной лекции мы подробно рассмотрим, как работают деревья решений, математические основы и шаги построения модели, а также приведём пример применения.

## 1. Основы дерева решений

### 1.1. Что такое дерево решений?

Дерево решений — это иерархическая структура, состоящая из узлов. Основные элементы дерева:

- **Корневой узел (root node)**: это первый узел дерева, с которого начинается процесс деления. Он содержит весь набор данных.
- **Внутренние узлы (internal nodes)**: узлы, которые представляют собой точки разделения данных на основании определённого критерия.
- **Листовые узлы (leaf nodes)**: узлы, которые содержат окончательное решение или предсказание модели.

### 1.2. Процесс работы дерева

Основная идея дерева решений заключается в последовательном разделении данных на подмножества на основании выбранных признаков. Процесс продолжается до тех пор, пока не достигнут листовые узлы. На каждом этапе дерево выбирает признак и пороговое значение, которые лучше всего разделяют данные на основе заданного критерия.

## 2. Критерии разделения

Основной задачей при построении дерева решений является выбор признаков и пороговых значений, которые лучше всего разделяют данные. Для этого используются различные математические критерии, такие как:

1. **Для классификации:**
    - Энтропия (Entropy)
    - Критерий Джини (Gini Index)
2. **Для регрессии:**
    - Среднеквадратичная ошибка (Mean Squared Error, MSE)

### 2.1. Энтропия

Энтропия — это мера неопределённости или неупорядоченности в наборе данных. Чем выше энтропия, тем больше смешение классов.

Формула для энтропии:

$$
H(S) = - \sum_{i=1}^{c} p_i \log_2(p_i)
$$

где $p_i$ — доля объектов класса $i$ в выборке $S$, а $c$ — количество классов.

Пример: если у нас есть выборка из 10 объектов, 6 из которых принадлежат классу A, а 4 — классу B, то энтропия будет:

$$
H(S) = - \left( \frac{6}{10} \log_2 \frac{6}{10} + \frac{4}{10} \log_2 \frac{4}{10} \right)
$$

$$
H(S) = - \left( 0.6 \log_2 0.6 + 0.4 \log_2 0.4 \right)
$$

$$
H(S) \approx 0.97095
$$

Чем ближе энтропия к 0, тем «чище» подмножество данных (то есть все объекты принадлежат одному классу).

### 2.2. Критерий Джини

Индекс Джини также используется для оценки чистоты узлов. Чем меньше значение критерия Джини, тем лучше разделение. Формула для индекса Джини:

$$
G(S) = 1 - \sum_{i=1}^{c} p_i^2
$$

где $p_i$ — доля объектов класса $i$ в выборке $S$.

Пример: если в выборке 6 объектов класса A и 4 объекта класса B, то критерий Джини будет:

$$
G(S) = 1 - \left( \left( \frac{6}{10} \right)^2 + \left( \frac{4}{10} \right)^2 \right)
$$

$$
G(S) = 1 - \left( 0.36 + 0.16 \right)
$$

$$
G(S) = 0.48
$$

### 2.3. Среднеквадратичная ошибка (MSE) для регрессии

Для задач регрессии критерий чистоты узлов измеряется с помощью среднеквадратичной ошибки. Формула для MSE:

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y})^2
$$

где $y_i$ — истинное значение целевой переменной, $\hat{y}$ — предсказанное значение, а $n$ — количество объектов.

## 3. Построение дерева решений

### 3.1. Шаги построения дерева

1. **Выбор критерия разделения**: Для каждого узла выбирается наилучший признак и пороговое значение для разделения данных на основании выбранного критерия (энтропия, Джини или MSE).
2. **Разделение данных**: Выборка делится на подмножества на основании выбранного признака и порога.
3. **Рекурсия**: Для каждого подмножества данных создаются новые узлы, процесс продолжается до тех пор, пока не будет достигнуто одно из условий остановки (например, максимальная глубина дерева или минимальное количество объектов в узле).
4. **Присвоение меток**: Листовым узлам присваиваются метки классов (для задач классификации) или значения (для регрессии).

### 3.2. Обрезка дерева (Pruning)

Глубокие деревья могут склонны к переобучению. Чтобы избежать этого, применяют обрезку дерева (pruning), что позволяет контролировать его сложность. Есть два основных метода обрезки:

- **Предварительная обрезка (pre-pruning)**: процесс остановки роста дерева на ранней стадии, например, по достижении определённой глубины дерева.
- **Постобрезка (post-pruning)**: построение полного дерева и затем удаление неинформативных узлов.

## 4. Пример построения дерева решений для задачи классификации

Предположим, у нас есть набор данных с двумя признаками (Feature1 и Feature2) и целевая переменная с двумя классами (A и B). Вот таблица данных:

| Feature1 | Feature2 | Class |
|----------|----------|-------|
| 2.7      | 3.1      | A     |
| 1.5      | 2.3      | B     |
| 3.3      | 3.8      | A     |
| 1.1      | 1.9      | B     |
| 2.9      | 3.3      | A     |

### Шаг 1: Вычисление энтропии исходного набора

Для начального набора данных:

- 3 объекта класса A
- 2 объекта класса B

Энтропия исходного набора данных:

$$
H(S) = - \left( \frac{3}{5} \log_2 \frac{3}{5} + \frac{2}{5} \log_2 \frac{2}{5} \right)
$$

$$
H(S) = - \left( 0.6 \log_2 0.6 + 0.4 \log_2 0.4 \right)
$$

$$
H(S) \approx 0.97095
$$

### Шаг 2: Разделение данных по признаку Feature1

Предположим, мы выбираем пороговое значение $Feature1 = 2.5$. Делим данные на две части:

- Левое подмножество (Feature1 ≤ 2.5): объекты 2 и 4 (оба класса B)
- Правое подмножество (Feature1 > 2.5): объекты 1, 3 и 5 (все класса A)

Энтропия для левого подмножества:

$$
H(Left) = - \left( \frac{0}{2} \log_2 \frac{0}{2} + \frac{2}{2} \log_2 \frac{2}{2} \right) = 0
$$

Энтропия для правого подмножества:

$$
H(Right) = - \left( \frac{3}{3} \log_2 \frac{3}{3} + \frac{0}{3} \log_2 \frac{0}{3} \right) = 0
$$

### Шаг 3: Вычисление прироста информации

Прирост информации (Information Gain) — это разница между энтропией исходного набора и средневзвешенной энтропией подмножеств.

Формула для прироста информации:

$$
IG = H(S) - \left( \frac{|Left|}{|S|} H(Left) + \frac{|Right|}{|S|} H(Right) \right)
$$

Где $|Left|$ и $|Right|$ — размеры левого и правого подмножеств соответственно.

$$
IG = H(S) - \left( \frac{2}{5} \cdot 0 + \frac{3}{5} \cdot 0 \right) = H(S)
$$

Таким образом, в данном примере прирост информации будет равен 0.97095.

## Заключение

Деревья решений — мощный инструмент в арсенале методов машинного обучения, который хорошо интерпретируется и может быть использован в различных задачах. Однако, как и любой другой метод, они имеют свои ограничения, такие как склонность к переобучению. Однако с помощью методов обрезки можно минимизировать этот эффект.




## Классификация

Давайте подробно решим пример построения дерева решений шаг за шагом, используя набор данных, который мы обсуждали ранее. Мы будем использовать два признака (Feature1 и Feature2) и целевую переменную (Class).

### Набор данных

| Feature1 | Feature2 | Class |
|----------|----------|-------|
| 2.7      | 3.1      | A     |
| 1.5      | 2.3      | B     |
| 3.3      | 3.8      | A     |
| 1.1      | 1.9      | B     |
| 2.9      | 3.3      | A     |

### Шаг 1: Вычисление начальной энтропии

Сначала вычислим энтропию исходного набора данных. У нас 5 объектов: 3 объекта класса A и 2 объекта класса B.

**Формула для энтропии:**

$$
H(S) = - \sum_{i=1}^{c} p_i \log_2(p_i)
$$

Где $p_i$ — доля объектов класса $i$.

**Доля классов:**

- $p_A = \frac{3}{5} = 0.6$
- $p_B = \frac{2}{5} = 0.4$

**Подставим значения в формулу:**

$$
H(S) = - \left( 0.6 \log_2(0.6) + 0.4 \log_2(0.4) \right)
$$

Вычислим логарифмы:

$$
\log_2(0.6) \approx -0.7369656
$$
$$
\log_2(0.4) \approx -1.3219281
$$

Теперь подставим их в формулу:

$$
H(S) = - \left( 0.6 \cdot (-0.7369656) + 0.4 \cdot (-1.3219281) \right)
$$

Вычислим:

$$
H(S) = - \left( -0.44217936 - 0.52877124 \right)
$$
$$
H(S) = 0.97095
$$

### Шаг 2: Разделение данных по признакам

Теперь мы будем рассматривать разные варианты разделения данных по признакам Feature1 и Feature2. Начнём с Feature1.

**Пробуем порог 2.5 для Feature1:**

1. **Левое подмножество (Feature1 ≤ 2.5):**
   - (1.5, 2.3) → B
   - (1.1, 1.9) → B
   - Количество: 2B, 0A
2. **Правое подмножество (Feature1 > 2.5):**
   - (2.7, 3.1) → A
   - (3.3, 3.8) → A
   - (2.9, 3.3) → A
   - Количество: 3A, 0B

**Энтропия для левого подмножества:**

У нас 2 объекта класса B:

$$
H(Left) = - \left( \frac{2}{2} \log_2 \frac{2}{2} \right) = 0
$$

**Энтропия для правого подмножества:**

У нас 3 объекта класса A:

$$
H(Right) = - \left( \frac{3}{3} \log_2 \frac{3}{3} \right) = 0
$$

### Шаг 3: Вычисление прироста информации

Теперь мы вычислим прирост информации (Information Gain) для этого разделения.

**Формула для прироста информации:**

$$
IG = H(S) - \left( \frac{|Left|}{|S|} H(Left) + \frac{|Right|}{|S|} H(Right) \right)
$$

Где $|Left| = 2$, $|Right| = 3$, и $|S| = 5$.

**Подставим значения в формулу:**

$$
IG = H(S) - \left( \frac{2}{5} \cdot 0 + \frac{3}{5} \cdot 0 \right)
$$

$$
IG = 0.97095 - 0 = 0.97095
$$

### Шаг 4: Попробуем другой порог для Feature1

Попробуем порог 2.9 для Feature1:

1. **Левое подмножество (Feature1 ≤ 2.9):**
   - (2.7, 3.1) → A
   - (1.5, 2.3) → B
   - (1.1, 1.9) → B
   - Количество: 1A, 2B
2. **Правое подмножество (Feature1 > 2.9):**
   - (3.3, 3.8) → A
   - (2.9, 3.3) → A
   - Количество: 2A, 0B

**Энтропия для левого подмножества:**

У нас 1 объект класса A и 2 объекта класса B:

$$
H(Left) = - \left( \frac{1}{3} \log_2 \frac{1}{3} + \frac{2}{3} \log_2 \frac{2}{3} \right)
$$

Вычисляем логарифмы:

$$
\log_2\left(\frac{1}{3}\right) \approx -1.58496
$$
$$
\log_2\left(\frac{2}{3}\right) \approx -0.58496
$$

Теперь подставим:

$$
H(Left) = - \left( \frac{1}{3} \cdot (-1.58496) + \frac{2}{3} \cdot (-0.58496) \right)
$$
$$
H(Left) = - \left( -0.52832 - 0.38936 \right)
$$
$$
H(Left) \approx 0.91700
$$

**Энтропия для правого подмножества:**

У нас 2 объекта класса A:

$$
H(Right) = - \left( \frac{2}{2} \log_2 \frac{2}{2} \right) = 0
$$

### Шаг 5: Вычисление прироста информации для нового порога

Теперь вычислим прирост информации для порога 2.9.

**Подставим значения:**

$$
IG = H(S) - \left( \frac{3}{5} H(Left) + \frac{2}{5} H(Right) \right)
$$

Где $|Left| = 3$, $|Right| = 2$.

$$
IG = 0.97095 - \left( \frac{3}{5} \cdot 0.91700 + \frac{2}{5} \cdot 0 \right)
$$

Вычислим:

$$
IG = 0.97095 - \left( 0.5502 \right) = 0.42075
$$

### Шаг 6: Выбор наилучшего признака

После рассмотрения нескольких порогов для Feature1 мы видим, что:

- Для порога 2.5 прирост информации $IG \approx 0.97095$
- Для порога 2.9 прирост информации $IG \approx 0.42075$

Наибольшее значение прироста информации наблюдается для порога 2.5. Это означает, что мы будем использовать **Feature1** с порогом **2.5** для первого разбиения нашего дерева.

### Шаг 7: Проверка другого признака (Feature2)

Теперь давайте проверим, как будет работать **Feature2** с порогом 3.0.

1. **Левое подмножество (Feature2 ≤ 3.0):**
   - (2.7, 3.1) → A
   - (1.5, 2.3) → B
   - (3.3, 3.8) → A
   - (1.1, 1.9) → B
   - (2.9, 3.3) → A
   - Количество: 3A, 2B
2. **Правое подмножество (Feature2 > 3.0):**
   - (None)
   - Количество: 0A, 0B

**Энтропия для левого подмножества:**

$$
H(Left) = - \left( \frac{3}{5} \log_2 \frac{3}{5} + \frac{2}{5} \log_2 \frac{2}{5} \right)
$$

Мы уже посчитали, что:

$$
H(Left) \approx 0.97095
$$



**Энтропия для правого подмножества:**

$$
H(Right) = 0
$$

### Шаг 8: Прирост информации для Feature2

Теперь вычислим прирост информации для Feature2:

$$
IG = H(S) - \left( \frac{5}{5} H(Left) + 0 \right)
$$

$$
IG = 0.97095 - (1 \cdot 0.97095) = 0
$$

### Шаг 9: Заключение

Мы видим, что наилучшее разделение происходит при использовании **Feature1** с порогом **2.5**, которое даёт максимальный прирост информации, равный 0.97095.

Дерево решений будет выглядеть следующим образом:

```
             Feature1 <= 2.5
                /          \
              B (Leaf)    A (Leaf)
```

### Итог

Мы шаг за шагом рассмотрели процесс построения дерева решений, вычисляя энтропию, разделяя данные и вычисляя прирост информации. Мы увидели, что использование **Feature1** с порогом **2.5** даёт наилучший результат.


##Регрессия

Рассмотрим пример применения деревьев решений для задачи регрессии. Деревья решений для регрессии работают аналогично деревьям классификации, но вместо того, чтобы предсказывать категориальные значения, они предсказывают непрерывные значения.

### Набор данных

Предположим, у нас есть следующий набор данных, где мы хотим предсказать значение целевой переменной (например, цену дома) на основе двух признаков: `Площадь (кв. м)` и `Количество комнат`.

| Площадь (кв. м) | Количество комнат | Цена (тыс. руб.) |
|------------------|------------------|-------------------|
| 50               | 1                | 1.5               |
| 60               | 2                | 2.0               |
| 70               | 2                | 2.5               |
| 80               | 3                | 3.0               |
| 90               | 3                | 3.5               |

### Шаг 1: Вычисление начального среднего значения

Сначала вычислим среднее значение целевой переменной (цены) для всего набора данных.

$$
\text{Среднее} = \frac{1.5 + 2.0 + 2.5 + 3.0 + 3.5}{5} = \frac{12.5}{5} = 2.5
$$

### Шаг 2: Вычисление начального среднеквадратичного отклонения (MSE)

Теперь рассчитаем среднеквадратичную ошибку (MSE) для всего набора данных. MSE показывает, насколько предсказанные значения отклоняются от реальных.

**Формула для MSE:**

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2
$$

Где $y_i$ — реальные значения, $\bar{y}$ — среднее значение, $n$ — количество объектов.

Подставим наши данные:

$$
\text{MSE} = \frac{1}{5} \left( (1.5 - 2.5)^2 + (2.0 - 2.5)^2 + (2.5 - 2.5)^2 + (3.0 - 2.5)^2 + (3.5 - 2.5)^2 \right)
$$

Вычислим:

$$
= \frac{1}{5} \left( (-1)^2 + (-0.5)^2 + 0^2 + 0.5^2 + 1^2 \right)
$$
$$
= \frac{1}{5} \left( 1 + 0.25 + 0 + 0.25 + 1 \right) = \frac{2.5}{5} = 0.5
$$

### Шаг 3: Разделение данных по признакам

Теперь мы попробуем разделить данные по признаку `Площадь` с разными порогами и посмотрим, как это повлияет на MSE.

**Пробуем порог 70:**

1. **Левое подмножество (Площадь ≤ 70):**
   - 50, 1.5
   - 60, 2.0
   - 70, 2.5
   - Средняя цена:
   $$
   \text{Средняя}_{left} = \frac{1.5 + 2.0 + 2.5}{3} = \frac{6}{3} = 2.0
   $$
2. **Правое подмножество (Площадь > 70):**
   - 80, 3.0
   - 90, 3.5
   - Средняя цена:
   $$
   \text{Средняя}_{right} = \frac{3.0 + 3.5}{2} = \frac{6.5}{2} = 3.25
   $$

### Шаг 4: Вычисление MSE для подмножеств

Теперь вычислим MSE для обоих подмножеств.

**MSE для левого подмножества:**

$$
\text{MSE}_{left} = \frac{1}{3} \left( (1.5 - 2.0)^2 + (2.0 - 2.0)^2 + (2.5 - 2.0)^2 \right)
$$

Вычислим:

$$
= \frac{1}{3} \left( (-0.5)^2 + 0^2 + (0.5)^2 \right) = \frac{1}{3} \left( 0.25 + 0 + 0.25 \right) = \frac{0.5}{3} \approx 0.1667
$$

**MSE для правого подмножества:**

$$
\text{MSE}_{right} = \frac{1}{2} \left( (3.0 - 3.25)^2 + (3.5 - 3.25)^2 \right)
$$

Вычислим:

$$
= \frac{1}{2} \left( (-0.25)^2 + (0.25)^2 \right) = \frac{1}{2} \left( 0.0625 + 0.0625 \right) = \frac{0.125}{2} = 0.0625
$$

### Шаг 5: Общая MSE после разделения

Теперь вычислим общую MSE после разделения:

**Формула для общей MSE:**

$$
\text{MSE}_{total} = \frac{|Left|}{|S|} \cdot \text{MSE}_{left} + \frac{|Right|}{|S|} \cdot \text{MSE}_{right}
$$

Где $|Left| = 3$, $|Right| = 2$, и $|S| = 5$.

$$
\text{MSE}_{total} = \frac{3}{5} \cdot 0.1667 + \frac{2}{5} \cdot 0.0625
$$

Вычислим:

$$
= 0.10002 + 0.025 = 0.12502
$$

### Шаг 6: Прирост снижения ошибки (Gain)

Теперь вычислим прирост снижения ошибки (Reduction in Error) при использовании этого разделения:

$$
\text{Gain} = \text{MSE}_{initial} - \text{MSE}_{total}
$$

Где $\text{MSE}_{initial} = 0.5$.

$$
\text{Gain} = 0.5 - 0.12502 = 0.37498
$$

### Шаг 7: Проверка другого порога

Теперь проверим порог 80 для `Площадь`.

1. **Левое подмножество (Площадь ≤ 80):**
   - 50, 1.5
   - 60, 2.0
   - 70, 2.5
   - 80, 3.0
   - Средняя цена:
   $$
   \text{Средняя}_{left} = \frac{1.5 + 2.0 + 2.5 + 3.0}{4} = \frac{9.0}{4} = 2.25
   $$
2. **Правое подмножество (Площадь > 80):**
   - 90, 3.5
   - Средняя цена:
   $$
   \text{Средняя}_{right} = 3.5
   $$

### Шаг 8: Вычисление MSE для нового порога

Теперь вычислим MSE для нового подмножества.

**MSE для левого подмножества:**

$$
\text{MSE}_{left} = \frac{1}{4} \left( (1.5 - 2.25)^2 + (2.0 - 2.25)^2 + (2.5 - 2.25)^2 + (3.0 - 2.25)^2 \right)
$$

Вычислим:

$$
= \frac{1}{4} \left( (-0.75)^2 + (-0.25)^2 + (0.25)^2 + (0.75)^2 \right)
$$
$$
= \frac{1}{4} \left( 0.5625 + 0.0625 + 0.0625 + 0.5625 \right) = \frac{1.25}{4} = 0.3125
$$

**MSE для правого подмножества:**

$$
\text{MSE}_{right} = 0
$$

### Шаг 9: Общая MSE после нового разделения

Теперь вычислим общую MSE:

$$
\text{MSE}_{total} = \frac{|Left|}{|S|} \cdot \text{MSE}_{left} + \frac{|Right|}{|S|

} \cdot \text{MSE}_{right}
$$

Где $|Left| = 4$, $|Right| = 1$, и $|S| = 5$.

$$
\text{MSE}_{total} = \frac{4}{5} \cdot 0.3125 + \frac{1}{5} \cdot 0
$$

Вычислим:

$$
= 0.25
$$

### Шаг 10: Прирост снижения ошибки для нового порога

Теперь вычислим прирост снижения ошибки для нового порога 80:

$$
\text{Gain} = \text{MSE}_{initial} - \text{MSE}_{total}
$$

$$
\text{Gain} = 0.5 - 0.25 = 0.25
$$

### Шаг 11: Сравнение прироста для различных порогов

Теперь мы сравнили приросты снижения ошибки для двух порогов:

- Для порога 70: $\text{Gain} \approx 0.37498$
- Для порога 80: $\text{Gain} = 0.25$

Наилучший прирост снижения ошибки наблюдается при пороге 70.

### Итоговое дерево решений

На основе этих расчетов, мы можем построить дерево решений:

```
               Площадь <= 70
                  /          \
                2.0         3.25
```

### Заключение

Таким образом, мы шаг за шагом рассмотрели процесс построения дерева решений для задачи регрессии, вычисляя средние значения, MSE и прирост снижения ошибки. В результате наилучшим порогом для разделения данных оказался порог 70, что позволяет предсказать цены домов на основе площади.

In [None]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Создание набора данных
data = {
    'Площадь (кв. м)': [50, 60, 70, 80, 90],
    'Количество комнат': [1, 2, 2, 3, 3],
    'Цена (тыс. руб.)': [1.5, 2.0, 2.5, 3.0, 3.5]
}

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# Определим признаки и целевую переменную
X = df[['Площадь (кв. м)', 'Количество комнат']]
y = df['Цена (тыс. руб.)']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание модели дерева решений для регрессии
model = DecisionTreeRegressor(max_depth=2, random_state=42)

# Обучение модели
model.fit(X_train, y_train)

# Прогнозирование на тестовой выборке
y_pred = model.predict(X_test)

# Вычисление MSE
mse = mean_squared_error(y_test, y_pred)

# Вывод результатов
print("Предсказанные значения:", y_pred)
print("Реальные значения:", y_test.values)
print("Среднеквадратичная ошибка (MSE):", mse)

# Визуализация дерева решений (необязательно)
from sklearn.tree import export_text

# Печать текстового представления дерева
tree_rules = export_text(model, feature_names=list(X.columns))
print("\nПравила дерева решений:\n", tree_rules)


Предсказанные значения: [1.5]
Реальные значения: [2.]
Среднеквадратичная ошибка (MSE): 0.25

Правила дерева решений:
 |--- Площадь (кв. м) <= 60.00
|   |--- value: [1.50]
|--- Площадь (кв. м) >  60.00
|   |--- Количество комнат <= 2.50
|   |   |--- value: [2.50]
|   |--- Количество комнат >  2.50
|   |   |--- value: [3.25]



### Вопросы для самопроверки:

1. Что такое дерево решений в контексте машинного обучения?
2. Какие основные элементы составляют структуру дерева решений?
3. Чем различаются задачи классификации и регрессии при использовании деревьев решений?
4. Какие критерии используются для разделения узлов в дереве решений для классификации?
5. Как рассчитывается энтропия и что она означает?
6. Что такое индекс Джини, и как его использовать в построении дерева решений?
7. Как рассчитывается среднеквадратичная ошибка (MSE) для деревьев решений в задаче регрессии?
8. Что такое прирост информации (Information Gain), и как он помогает в выборе лучшего разделения?
9. В чём заключается процесс рекурсивного построения дерева решений?
10. Какие факторы могут привести к переобучению дерева решений?
11. Что такое обрезка дерева решений (pruning), и какие существуют её виды?
12. Как работает предварительная обрезка (pre-pruning)?
13. Как работает постобрезка (post-pruning)?
14. Какие преимущества и недостатки имеют деревья решений по сравнению с другими методами машинного обучения?
15. В каких случаях деревья решений используются совместно с методами ансамблей, такими как случайные леса или бустинг?

### Задачи для самостоятельной работы:

1. Постройте дерево решений для задачи классификации на основе произвольного набора данных. Пример набора: оценка покупательной способности клиентов по возрасту и доходу.
2. Рассчитайте энтропию набора данных, содержащего три класса (A: 50%, B: 30%, C: 20%). Объясните результат.
3. Примените критерий Джини к набору данных с двумя классами (A: 60%, B: 40%). Вычислите значение индекса Джини и проанализируйте чистоту узлов.
4. Используя метод прироста информации, определите, какой признак выбрать для первого разбиения набора данных: вес (≤ 70 кг или > 70 кг) или рост (≤ 170 см или > 170 см).
5. Используйте дерево решений для задачи регрессии. Пример данных: предсказание цены дома на основе площади и количества комнат. Постройте модель и оцените её точность.
6. Проведите анализ переобучения на глубоком дереве решений и попробуйте применить обрезку дерева для улучшения обобщающей способности модели.
7. Рассчитайте среднеквадратичную ошибку для дерева решений на основе данных о росте и весе, где целевая переменная – индекс массы тела (BMI).
8. Проведите эксперимент с выбором разной глубины дерева решений для задачи классификации. Оцените качество модели с помощью метрик точности и полноты.
9. Постройте дерево решений для задачи классификации, используя критерий Джини, и проведите анализ результатов.
10. Используйте метод постобрезки на полном дереве решений, и сравните его производительность с деревом без обрезки.
11. Реализуйте дерево решений для задачи классификации на основе набора данных с непрерывными признаками. Используйте критерий энтропии.
12. Проанализируйте влияние размера выборки на производительность дерева решений. Измените количество объектов в выборке и оцените качество модели.
13. Используя библиотеку Scikit-learn, постройте дерево решений для задачи классификации. Настройте гиперпараметры модели, такие как глубина дерева и минимальное количество объектов в узле.
14. Постройте дерево решений для задачи регрессии с помощью Scikit-learn. Проведите анализ на переобучение и примените методы обрезки.
15. Реализуйте процесс кросс-валидации для оценки качества модели дерева решений и объясните, как этот метод помогает избежать переобучения.
16. Рассчитайте энтропию для набора данных, состоящего из 4 объектов класса A и 6 объектов класса B. Объясните, как энтропия отражает степень смешения классов.
17. Постройте дерево решений с разбиением по количественному признаку и оцените его качество с использованием метрики F1-score.
18. Проведите эксперимент по разбиению выборки на основе различных пороговых значений признаков. Определите наилучшее разбиение для построения первого узла.
19. Используйте деревья решений для решения задачи классификации с множеством классов (более двух). Оцените производительность модели.
20. Проведите анализ и визуализацию дерева решений на основе реального набора данных. Используйте графическое представление дерева для лучшего понимания его структуры.
21. Используйте алгоритм CART для построения дерева решений и сравните его результаты с другими методами, такими как энтропия и критерий Джини.
22. Проанализируйте влияние аномальных значений в наборе данных на структуру дерева решений. Проведите эксперимент с аномальными данными и оцените результат.
23. Постройте дерево решений для задачи классификации, используя набор данных о пациентах с диабетом. Оцените важность признаков для модели.
24. Реализуйте на практике метод предварительной обрезки дерева решений и объясните, как он помогает уменьшить переобучение.
25. Реализуйте дерево решений для задачи классификации, используя данные о производительности студентов. Оцените качество модели с помощью метрики ROC-AUC.
26. Постройте дерево решений для задачи регрессии, используя набор данных о заработной плате сотрудников на основе их опыта и образования.
27. Примените дерево решений для задачи классификации изображений, преобразовав изображения в числовые признаки, такие как интенсивность пикселей.
28. Проведите исследование зависимости производительности дерева решений от количества признаков в наборе данных. Используйте синтетические данные для эксперимента.
29. Постройте дерево решений для задачи анализа кредитного риска. Используйте критерий Джини для разбиения узлов и проанализируйте результаты.
30. Используйте метод дерева решений для анализа данных о погоде и предсказания вероятности дождя. Визуализируйте полученную модель.