# Бутстрап и его применение в машинном обучении

>Бутстрап (bootstrap) — это статистический метод, широко используемый для оценки распределений статистик путём многократного повторного выборочного извлечения из исходных данных с возвратом. Иными словами, бутстрап создаёт множество подвыборок из исходных данных, каждая из которых используется для анализа, что помогает улучшить точность предсказаний и снизить влияние выбросов.

<div class = 'alert alert-box alert-success'>
    
```Бутстрап основан на идее выборки с возвратом (resampling with replacement). Это значит, что для каждой подвыборки мы выбираем случайные объекты из исходного набора данных, и выбранный объект может повторяться в одной подвыборке несколько раз. Поскольку выборка производится с возвратом, некоторые объекты исходной выборки могут не попасть в бутстрап-подвыборку.```
    
</div>

#### Применение бутстрапа в машинном обучении

-    Мы создаём несколько бутстрап-подвыборок из исходного набора данных.
-    Для каждой подвыборки строится отдельная модель.
-    Все модели обучаются независимо друг от друга на своих подвыборках, что делает модели разнообразными.
-    Итоговое предсказание получается путём голосования или усреднения предсказаний всех моделей, построенных на бутстрап-подвыборках


# Ансамблевое обучение

**Bagging** и **Boosting** - известные методы ансамблевого обучения, широко используемые для улучшения прогнозов моделей. 
Баггинг (или бэггинг) предполагает построение нескольких моделей с использованием подмножества исходного набора данных, а затем агрегирование их индивидуальных прогнозов для получения окончательного прогноза. Эти методы, как и деревья решений, предполагают введение рандомизации при построении модели, чтобы уменьшить дисперсию модели (overfitting). Методы суммирования хорошо работают со сложными моделями, такими как деревья решений, которые имеют большую глубину. Методы группировки различаются по способу получения подмножеств из исходного набора данных и имеют следующие названия.

### Методы группировки:

### 1. Pasting (создание подвыборок без замены)

>Когда мы берем случайное подмножество объектов из исходного набора данных, без возврата, эта техника называется Pasting. Это означает, что один и тот же объект не может быть включён в подвыборку более одного раза. Образцы берутся случайным образом, но, как только они были взяты, они больше не возвращаются в набор данных для повторного выбора. Pasting полезен, когда мы хотим создать разные подвыборки из данных и избежать дублирования объектов. Эта техника позволяет создать разнообразные подвыборки, не полагаясь на повторяющиеся данные.

### 2. Bootstrapping (создание подвыборок с заменой)

>Когда мы выбираем случайные подвыборки данных с заменой, эта техника называется **Bootstrapping**. Это означает, что после того, как объект был выбран, он снова возвращается в набор данных и может быть выбран повторно. Таким образом, одно и то же наблюдение может появиться в подвыборке несколько раз, а некоторые объекты из исходного набора данных могут не попасть в подвыборку вообще. Если у вас есть набор данных из 100 объектов, вы можете создать бутстрап-подвыборку из 100 объектов, при этом некоторые из них будут дублироваться, а другие могут быть не включены. Bootstrapping помогает снизить влияние выбросов и шума в данных, так как случайные подвыборки часто не будут включать выбросы. Этот метод используется, например, в методе Bagging, который помогает улучшить обобщающую способность модели.

### 3. Random Subspaces (случайные подпространства)

>Когда мы выбираем случайные подмножества признаков для построения моделей, эта техника называется Random Subspaces. В отличие от предыдущих техник, где выбирались объекты, здесь выбираются случайные подмножества признаков (или переменных), которые используются для построения моделей. Это позволяет снизить влияние отдельных признаков и улучшить обобщающую способность модели. Если у вас есть 10 признаков (например, возраст, вес, рост и т.д.), случайные подпространства могут выбрать 5 признаков для создания подмножества, которое будет использоваться для обучения модели. Random Subspaces часто применяются в задачах, где много признаков, и некоторые из них могут быть неинформативными или коррелированными. Эта техника используется в таких алгоритмах, как Random Forest, где случайное подмножество признаков выбирается для каждого разбиения в деревьях.

### 4. Random Patches (случайные подмножества как объектов, так и признаков)

>Когда мы создаём модели, используя случайные подмножества как объектов, так и признаков, эта техника называется Random Patches. Этот метод комбинирует принципы Pasting и Random Subspaces, создавая подмножества данных по двум осям: объекты и признаки. Это позволяет ещё сильнее разнообразить подвыборки, что снижает риск переобучения и делает модели более устойчивыми. Из набора данных с 1000 объектов и 20 признаков, метод Random Patches может выбрать 500 случайных объектов и 10 случайных признаков для построения каждой модели. Random Patches полезен для построения устойчивых моделей, которые не зависят от конкретных объектов или признаков. Он используется в задачах, где нужно работать с большими наборами данных и множеством признаков, что делает этот метод идеальным для применения в ансамблевых моделях.

<center><img height="84" name="image.png" src="https://ucarecdn.com/36d9eb81-261e-497a-a4ea-452c4fb6fbc3/" width="452"></center>
<center><img height="242" name="image.png" src="https://ucarecdn.com/9d7db180-8e2b-4032-b4f0-64c8aef84abb/" width="403"></center>

# Случайные леса
В Random forests мы берем несколько деревьев решений и строим модели на основе набора данных. Берется несколько выборок из набора данных с заменой (**бутстраппинг**) и на их основе строится модель дерева решений. Деревья решений склонны к переобучению при большой глубине. Случайные леса борются с избыточным соответствием обучающему набору, тщательно выбирая количество признаков, которые выбираются для каждого отдельного дерева решений. Также случайный лес борется с влиянием выбросов благодаря бутстрапу, тк бутстрап позволяет минимизировать влияние выбросов, на которых переобучается обычное дерево. Таким образом, случайные леса демонстрируют хорошие прогностические характеристики. Scikit Learn предоставляет реализацию алгоритмов случайных лесов. 

<center><img alt="" height="230" name="image.png" src="https://ucarecdn.com/a5592657-2dac-482d-9b25-73c99913bc58/" width="409"></center>

## Бустинг
**Бустинг** - одна из самых распространенных техник ансамблевых моделей. Это последовательный процесс, в котором каждая следующая модель пытается исправить предсказания предыдущих моделей. Модели бустинга строят несколько слабых моделей, а затем на их основе строят сильную модель. Одна слабая модель может хорошо работать на подмножестве набора данных. Их объединение повышает общую производительность. Градиентный бустинг: Это особый случай бустинга, в котором ошибки минимизируются с помощью алгоритмов оптимизации, таких как градиентный спуск.

Известные алгоритмы бустинга
Это алгоритмы, работа которых основана на семействе ансамблевых моделей Boosting.

    AdaBoost
    Gradient Tree Boosting или Gradient Boosted Decision Trees или Gradient Boosting Machines (GBDT или GBM)
    Градиентный бустинг на основе гистограмм
    XGBoost (Extreme Gradient Boosting)
    LightGBM
    CatBoost
