<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%A1%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D1%8B%D0%B9_%D0%BB%D0%B5%D1%81_(Random_Forest).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Случайный лес (Random Forest)

### Введение

Случайный лес (Random Forest) — это метод ансамблевого обучения, который используется как для классификации, так и для регрессии. Он основывается на использовании множества деревьев решений и применяет концепцию "голосования" для принятия финального решения. Основные преимущества случайного леса включают в себя его устойчивость к переобучению, высокую точность и возможность обработки больших объемов данных с множеством признаков.

### 1. Основы деревьев решений

Перед тем как углубляться в случайный лес, важно понять, что такое дерево решений.

#### 1.1. Структура дерева

Дерево решений — это модель, которая принимает решения, представляя их в виде дерева, где каждый узел представляет собой условие по какому-либо признаку, каждая ветвь соответствует результату этого условия, а листья представляют собой конечные классы или значения.

- **Корень** (Root): Начальный узел дерева, откуда начинается процесс принятия решения.
- **Внутренние узлы** (Internal Nodes): Узлы, представляющие собой условия, на основе которых принимается решение.
- **Листовые узлы** (Leaf Nodes): Узлы, представляющие собой конечные классы (в случае классификации) или значения (в случае регрессии).

#### 1.2. Критерии разделения

Для построения дерева решений используются различные критерии, среди которых:

- **Индекс Джини (Gini Index)** для классификации:
  
$$
  Gini(D) = 1 - \sum_{i=1}^{C} p_i^2
$$

  где $C$ — количество классов, а $p_i$ — доля объектов класса $i$ в выборке $D$.

- **Кросс-энтропия (Cross-Entropy)**:

$$
  Entropy(D) = -\sum_{i=1}^{C} p_i \log_2(p_i)
$$

- **Среднеквадратичная ошибка (Mean Squared Error)** для регрессии:

$$
  MSE(D) = \frac{1}{N} \sum_{j=1}^{N} (y_j - \hat{y})^2
$$

  где $y_j$ — истинное значение, $\hat{y}$ — предсказанное значение, а $N$ — количество наблюдений.

### 2. Случайный лес

#### 2.1. Основные идеи

Случайный лес строит множество деревьев решений, каждый из которых обучается на случайной подвыборке данных и случайном подмножестве признаков. Это помогает снизить переобучение и увеличить обобщающую способность модели.

#### 2.2. Процесс построения

1. **Бутстрап-выборка**: Для каждого дерева выборка создается путем случайного выбора объектов из исходного набора данных с возвращением. Это означает, что одни и те же объекты могут входить в выборку несколько раз, а некоторые могут быть исключены.

2. **Случайный выбор признаков**: При каждом разделении узла выбирается случайное подмножество признаков. Это уменьшает корреляцию между деревьями.

3. **Обучение деревьев**: Каждое дерево обучается на своей бутстрап-выборке и с использованием случайного подмножества признаков.

4. **Голосование/усреднение**:
   - Для задач классификации: каждый узел (дерево) голосует за класс, и класс с наибольшим числом голосов выбирается как финальный результат.
   - Для задач регрессии: результаты деревьев усредняются.

### 3. Математические формулы

#### 3.1. Прогнозирование

Если у нас есть $M$ деревьев в случайном лесу, то предсказание для нового объекта $x$ делается следующим образом:

- Для классификации:
  
$$
  \hat{y} = \text{argmax} \left( \sum_{m=1}^{M} I(y_m = k) \right)
$$

  где $I$ — индикаторная функция, равная 1, если $y_m$ — это класс $k$, и 0 в противном случае.

- Для регрессии:

$$
  \hat{y} = \frac{1}{M} \sum_{m=1}^{M} y_m
$$

#### 3.2. Оценка качества модели

Качество модели случайного леса может оцениваться различными метриками:

- **Точность (Accuracy)** для классификации:

$$
  Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

- **Средняя абсолютная ошибка (Mean Absolute Error, MAE)** для регрессии:

$$
  MAE = \frac{1}{N} \sum_{j=1}^{N} |y_j - \hat{y}|
$$

### 4. Преимущества и недостатки

#### 4.1. Преимущества

- Высокая точность и устойчивость к переобучению.
- Возможность работы с пропущенными данными.
- Эффективность при работе с большим количеством признаков.

#### 4.2. Недостатки

- Сложность интерпретации.
- Требует больше вычислительных ресурсов по сравнению с простыми моделями.
- Меньшая скорость предсказания по сравнению с одиночными деревьями решений.

### 5. Применение

Случайный лес находит применение в различных областях:

- Медицинская диагностика
- Финансовый анализ
- Классификация текстов
- Обработка изображений

### 6. Пример

Рассмотрим числовой пример для иллюстрации работы случайного леса.

**Данные:**

Предположим, у нас есть выборка из 10 объектов с двумя признаками $X_1$ и $X_2$ и целевым классом $Y$.

| Объект | $X_1$ | $X_2$ | $Y$ |
|--------|---------|---------|-------|
| 1      | 2       | 3       | 0     |
| 2      | 1       | 2       | 0     |
| 3      | 4       | 5       | 1     |
| 4      | 5       | 4       | 1     |
| 5      | 3       | 3       | 0     |
| 6      | 4       | 2       | 1     |
| 7      | 2       | 1       | 0     |
| 8      | 5       | 3       | 1     |
| 9      | 3       | 2       | 0     |
| 10     | 4       | 4       | 1     |

**Построение случайного леса:**

1. **Бутстрап-выборки**: Создаем 3 бутстрап-выборки:
   - В первой выборке: 1, 3, 4, 5, 6, 9 (некоторые объекты повторяются).
   - Во второй выборке: 2, 3, 4, 7, 8, 10.
   - В третьей выборке: 1, 2, 5, 6, 8, 9.

2. **Случайный выбор признаков**: Для каждого узла выбираем, например, 1 признак из $X_1$ и $X_2$.

3. **Обучение деревьев**: Каждое дерево обучается на своей выборке.

4. **Прогнозирование**: Для нового объекта с $X_1 = 3$ и $X_2 = 4$:
   - Дерево 1 предсказывает класс 1.
   - Дерево 2 предсказывает класс 0.
   - Дерево 3 предсказывает класс 1.

Итоговое предсказание: класс 1, так как два дерева из трех проголосовали за класс 1.

### Заключение

Случайный лес является мощным инструментом в арсенале машинного обучения. Понимание его основ, преимуществ и недостатков, а также принципов работы позволяет эффективно применять его для решения различных задач в области анализа данных.