# 1. Что такое recall

Полнота (recall) — это метрика в машинном обучении. Она показывает, какую долю объектов из всех истинно положительных объектов модель смогла правильно классифицировать как положительные.

Определяется как отношение числа истинно положительных результатов (true positives, TP) к сумме истинно положительных и ложно отрицательных результатов (false negatives, FN)

Особенно важен в ситуациях, где пропуск истинно положительных результатов может иметь серьёзные последствия. Например, в медицинской диагностике важно обнаружить как можно больше реальных случаев заболевания, чтобы назначить соответствующее лечение.

# 2. Что такое precision

Точность (precision) в контексте машинного обучения и статистики — это метрика, которая используется для оценки качества моделей классификации. Она показывает, какая доля объектов, выбранных моделью как положительные, действительно является положительными.

Precision определяется как отношение числа истинно положительных результатов (true positives, TP) к сумме истинно положительных и ложно положительных результатов (false positives, FP).

Точность особенно важна в ситуациях, где стоимость ложного положительного результата высока. Например, если мы разрабатываем систему для детектирования спама в письмах, высокая точность будет означать, что среди писем, отмеченных как спам, действительно большинство являются спамом, минимизируя риск того, что важное письмо будет ошибочно удалено.

# 3. Градиентный бустинг для регрессии
Основная идея градиентного бустинга заключается в последовательном добавлении простых моделей (например, деревьев решений), так чтобы каждая последующая модель корректировала ошибки предыдущих.

# 4. Что такое переобучение модели
Переобучение (overfitting) — это явление в машинном обучении, когда модель слишком точно подстраивается под данные, на которых она обучалась, и теряет способность к обобщению на новых данных. Это одна из основных проблем при создании эффективных моделей машинного обучения.

**Причины переобучения:**
1. Слишком сложная модель: Если модель имеет слишком много параметров по сравнению с количеством обучающих примеров, она может "запомнить" данные вместо того, чтобы "понять" их.
2. Ограниченные или несбалансированные данные: Недостаточное количество данных или их плохое качество могут привести к тому, что модель будет обучаться на шумах или аномалиях, которые не являются характерными для всей генеральной совокупности.
3. Недостаточная регуляризация: Регуляризация помогает предотвратить переобучение путем штрафования моделей за слишком сложные решения.

**Признаки переобучения:**

Высокая точность на обучающем наборе данных, но плохая производительность на валидационных или тестовых данных.
Большие колебания в производительности модели при небольших изменениях в обучающем наборе данных.
**Как бороться с переобучением:**
1. Использование валидационного набора данных: Разделение данных на обучающий, валидационный и тестовый наборы помогает контролировать и корректировать переобучение.
2. Кросс-валидация: Оценка модели на различных подмножествах данных для проверки её устойчивости и способности к обобщению.
3. Регуляризация: Такие методы, как L1 и L2 регуляризация, добавляют штрафы за большие веса в модели.
4. Упрощение модели: Уменьшение числа параметров (например, уменьшение числа слоёв в нейронной сети или числа деревьев в ансамбле).
5. Обрезка деревьев решений (pruning): Удаление частей дерева, которые не обеспечивают значительного улучшения предсказательной способности, для упрощения модели.
6. Увеличение объёма данных: Больше данных может помочь модели лучше улавливать закономерности и тенденции, а не шумы.

# 5. P-value или p-значение
это статистический показатель, используемый для оценки статистической значимости результатов экспериментов и исследований. Нулевая гипотеза обычно предполагает отсутствие эффекта или различий.

Когда исследователи проводят статистический тест, они обычно устанавливают нулевую гипотезу, которая предполагает, что между группами нет различий или что наблюдаемый эффект является случайным. P-значение помогает оценить, насколько данные согласуются с этой гипотезой:

Низкое p-значение (обычно меньше 0.05) предполагает, что наблюдаемые данные маловероятны при условии верности нулевой гипотезы, что может служить основанием для её отклонения.
Высокое p-значение означает, что данные не противоречат нулевой гипотезе, и нет достаточных оснований для её отклонения.

Представим, что вы исследуете эффективность нового лекарства. Ваша нулевая гипотеза может звучать так: "Лекарство не влияет на улучшение состояния пациентов по сравнению с плацебо". Вы проводите испытания и получаете p-значение, например, 0.03. Это означает, что вероятность наблюдать такое или более сильное улучшение состояния пациентов, если на самом деле лекарство не работает (т.е. нулевая гипотеза верна), составляет 3%. Так как это значение меньше стандартного порога в 0.05, вы можете заключить, что результаты статистически значимы и лекарство действительно работает.

P-значение не говорит о величине эффекта; оно только указывает на его статистическую значимость.

P-значение — это способ проверить, можно ли случайностью объяснить наблюдаемые в исследовании результаты, или же они действительно свидетельствуют о чём-то значимом. Если p-значение маленькое, мы начинаем сомневаться в случайности результатов и склоняемся к тому, что исследуемый фактор действительно влияет на ситуацию.

# 6. Как строится дерево
Строительство дерева решений — это процесс разделения данных на подгруппы, который продолжается до тех пор, пока данные в каждой подгруппе не станут относительно однородными или не будет достигнут предопределённый критерий остановки. Деревья решений используются в машинном обучении как для задач классификации, так и для регрессии. Процесс создания дерева решений включает в себя ряд ключевых шагов:

1. Выбор атрибута для разделения данных
На каждом шаге дерева алгоритм выбирает атрибут, который лучше всего разделяет набор данных на подгруппы, соответствующие целевым значениям. Критерий выбора зависит от задачи (классификация или регрессия) и может включать такие метрики, как прирост информации, коэффициент Джини, или снижение дисперсии.

Прирост информации
Используется для задач классификации и рассчитывается как разница между энтропией до разделения и ожидаемой энтропией после разделения по данному атрибуту.

2. Разделение данных
Исходный набор данных разделяется на подгруппы в соответствии с наилучшими разделяющими атрибутами. Этот процесс повторяется рекурсивно для каждой полученной подгруппы.

3. Критерий остановки
Разделение данных продолжается, пока не будет достигнут один из следующих критериев остановки:

Все элементы в узле принадлежат к одному классу.
Не осталось атрибутов, по которым можно разделить данные.
Достигнута максимальная глубина дерева.
Количество элементов в узле меньше заданного порога.