# Логистическая регрессия

## Введение

В мире машинного обучения и статистики логистическая регрессия занимает особое место. Это простой, но мощный инструмент для решения задач классификации, который применяется в самых разных областях, от медицины до маркетинга. В отличие от линейной регрессии, которая предсказывает числовые значения, логистическая регрессия используется для прогнозирования вероятности принадлежности к определенному классу. Это позволяет решать такие задачи, как определение вероятности заболевания у пациента или оценка шансов того, что клиент сделает покупку.



## Основные принципы работы логистической регрессии

Логистическая регрессия основана на концепции линейной модели, где каждая входная переменная имеет свой вес или коэффициент, отражающий её влияние на целевую переменную. Но, в отличие от линейной регрессии, логистическая регрессия использует нелинейное преобразование, которое ограничивает предсказания в диапазоне от 0 до 1. Это преобразование называется логистической или сигмоидной функцией и записывается следующим образом:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

Здесь $ z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n $ — это линейная комбинация входных признаков. Результат линейной комбинации $z$ пропускается через логистическую (сигмоидальную) функцию, чтобы получить вероятность. Таким образом, модель предсказывает вероятность принадлежности к одному из двух классов. Если значение вероятности выше определенного порога, например 0,5, то объект относится к классу 1, в противном случае — к классу 0.

Процесс обучения логистической регрессии включает оценку параметров модели (весов $ \beta $), которые максимизируют вероятность (правдоподобие) наблюдаемых данных. Этот подход называется методом максимального правдоподобия и является одним из центральных концептов статистики.



## Максимизация функции правдоподобия

Чтобы обучить модель, нужно найти такие параметры  $𝛽$, которые максимизируют функцию правдоподобия. Формула функции правдоподобия, несмотря на её математический вид, на самом деле довольно интуитивна. Она показывает, насколько хорошо наша модель с заданными параметрами объясняет наблюдаемые данные.

Представьте, что у нас есть набор данных и модель (например, логистическая регрессия), которая пытается предсказать что-то, например, вероятность того, что человек купит товар (1 — купит, 0 — не купит). Модель использует некоторые параметры, чтобы сделать предсказания.

Функция правдоподобия — это способ измерить, насколько "правдоподобно", что наши наблюдения (фактические покупки или их отсутствие) могли бы произойти при этих параметрах модели.


$$ L(\beta) = \prod_{i=1}^n P(y_i|X_i,\beta) = \prod_{i=1}^n P_{i}^{y_i} (1-P_i)^{1-y_i}$$

* $P_i$  — это вероятность того, что для наблюдения $i$ модель предсказала класс 1 (например, вероятность покупки)
* $y_i$  — истинное значение метки для этого наблюдения ($y_i=1$, если покупка произошла, и $y_i=0$, если покупка не произошла)
* $1−P_i$  — вероятность того, что модель предсказала класс 0 (например, вероятность того, что покупка не состоялась).

$P_i^{y_i}$ — выражение учитывает вероятность правильного предсказания, если для наблюдения $i$ $y_i=1$. $(1-P_i^{1-y_i})$ — аналогичное для $y_i=0$.

* Если модель правильно предсказала, что событие произошло ($y_i=1$), она "награждается" за это вероятностью $P_i$, так как во второй части произведения из-за минуса в степени даст нулевую степень, а любое число в степени ноль дает единицу.
* Если модель правильно предсказала, что событие не произошло ($y_i=0$), она "награждается" за это вероятностью $1-P_i$, а первая часть произведения по той же причине будет равна единице.

Эта формула говорит: "Посчитаем, какова вероятность для каждого примера в данных, что модель правильно предсказала результат (например, покупку или отказ от покупки), а затем умножим все эти вероятности друг на друга". Мы умножаем, потому что нас интересует совокупная вероятность того, что все предсказания модели правильные. Чем больше вероятностей мы умножаем, тем ниже правдоподобие, если хотя бы одно предсказание сильно ошибочно. Это логично: если модель плохо предсказывает хотя бы одно наблюдение, общая уверенность в модели снижается.

Для нахождения наилучших параметров $β$, используется метод максимизации правдоподобия. Мы ищем такие параметры $β$, которые максимизируют вероятность наблюдения данных, т.е. максимизируют функцию правдоподобия.

Так как максимизация произведения может быть сложной, обычно работают с логарифмом функции правдоподобия (логарифмическая функция правдоподобия):

$$ log (L(\beta)) = \sum_{i=1}^N [y_i log(P_i) + (1-y_i)log(1-P_i)]$$

## Геометрическая интерпретация

В двумерном пространстве (при одном признаке $x_1$) логистическая регрессия создает границу между классами. Это граница — это линия (или гиперплоскость в многомерном пространстве), которая разделяет области, где вероятность принадлежности к классу 1 больше порогового значения (обычно обозначается как верхняя часть) и области, где вероятность меньше порога (нижняя часть).

## Интерпретация результатов логистической регрессии

Одним из главных преимуществ логистической регрессии является её интерпретируемость. Каждый коэффициент $ \beta_i $ можно интерпретировать как влияние соответствующего признака на отношение шансов (логарифм шансов) целевой переменной. Отношение шансов — это отношение вероятности наступления события к вероятности его ненаступления:

$$
\text{Odds} = \frac{P(y = 1)}{P(y = 0)}
$$

Логарифм отношения шансов (log-odds) линейно зависит от входных признаков:

$$
\log(\text{Odds}) = \beta_0 + \beta_1 x_1 + ... + \beta_n x_n
$$

Это позволяет напрямую оценивать вклад каждого признака в вероятность события. Например, если $ \beta_1 = 0.5 $, это означает, что при увеличении $ x_1 $ на единицу отношение шансов увеличивается в $ e^{0.5} \approx 1.65 $ раз, что соответствует увеличению вероятности события.



## Пример применения: предсказание оттока клиентов

Представим, что мы хотим предсказать, уйдет ли клиент телекоммуникационной компании. У нас есть данные о клиентах: возраст, длительность контракта, количество обращений в службу поддержки и другие характеристики. Мы можем построить модель логистической регрессии, где зависимой переменной будет отток (0 — клиент остался, 1 — клиент ушел).

После обучения модели мы получим коэффициенты, которые покажут, какие признаки больше всего влияют на вероятность ухода клиента. Например, если коэффициент перед переменной "количество обращений в службу поддержки" окажется большим, это будет означать, что частые обращения в поддержку сильно повышают вероятность оттока. Таким образом, компания может использовать эти данные для улучшения качества обслуживания и удержания клиентов.



## Важность правильной интерпретации коэффициентов

Одной из типичных ошибок при работе с логистической регрессией является неправильная интерпретация коэффициентов модели. Например, если коэффициент $ \beta_i $ отрицателен, это не означает, что переменная $ x_i $ негативно влияет на вероятность события. Это означает, что увеличение значения $ x_i $ снижает логарифм отношения шансов, а не саму вероятность. Логарифм отношения шансов изменяется линейно, в то время как вероятность изменяется нелинейно, поэтому интерпретация должна проводиться с осторожностью.

Кроме того, если коэффициенты очень велики или малы, это может свидетельствовать о проблемах мультиколлинеарности — ситуации, когда признаки сильно коррелированы между собой. В таких случаях модель может быть нестабильной, и результаты будут зависеть от случайных флуктуаций в данных. Для решения этой проблемы часто используют регуляризацию.



## Регуляризация: борьба с переобучением

Регуляризация — это метод, который помогает избежать переобучения модели, добавляя штрафные термины к функции потерь. В логистической регрессии обычно применяют два вида регуляризации:

 **L1-регуляризация (Lasso):** Этот метод добавляет сумму абсолютных значений коэффициентов к функции потерь. Он способствует тому, что некоторые коэффициенты становятся равными нулю, исключая ненужные признаки и делая модель проще и интерпретируемее.

 **L2-регуляризация (Ridge):** В этом случае к функции потерь добавляется сумма квадратов коэффициентов. Это предотвращает чрезмерное увеличение коэффициентов, что уменьшает чувствительность модели к небольшим изменениям в данных и делает её более устойчивой к выбросам.



## Мультиклассовая логистическая регрессия

Хотя логистическая регрессия изначально разработана для бинарных задач, её можно расширить для работы с несколькими классами. Такой подход называется **мультиномиальной логистической регрессией**. Есть два подхода:
* One vs Rest (OvR). ,Для каждого из классов создаётся отдельная бинарная логистическая регрессия, которая предсказывает, принадлежит ли объект к этому классу или ко всем остальным.
* Softmax. Вместо того чтобы строить несколько бинарных моделей, softmax регрессия непосредственно предсказывает вероятности для каждого из классов.

Например, задача классификации видов цветков на основе характеристик лепестков и чашелистиков может быть решена с помощью мультиномиальной логистической регрессии.

Для задач, где классы являются порядковыми (например, оценка уровня удовлетворенности клиента), используется **порядковая логистическая регрессия**, которая учитывает порядок классов и позволяет более точно предсказывать вероятность каждого из них.



## Ограничения логистической регрессии и возможные улучшения

Логистическая регрессия, несмотря на её популярность и универсальность, имеет ряд ограничений:

1. **Линейность:** Модель предполагает, что логарифм отношения шансов линейно зависит от признаков. Это ограничение делает её неприменимой для задач, где зависимости между переменными нелинейны. Для преодоления этого недостатка можно использовать полиномиальные признаки или комбинации признаков, чтобы захватить сложные зависимости.

2. **Чувствительность к выбросам:** Логистическая регрессия может быть сильно подвержена влиянию выбросов, так как они существенно влияют на оценку коэффициентов. Решением может быть использование регуляризации или предварительная обработка данных для выявления и устранения выбросов.

3. **Мультиколлинеарность:** Сильная корреляция между признаками может приводить к нестабильности модели и трудностям в интерпретации коэффициентов. Для решения этой проблемы можно использовать методы отбора признаков или регуляризацию.

Для более сложных задач и случаев, где логистическая регрессия не справляется, можно применять такие методы, как деревья решений, случайные леса, градиентный бустинг или нейронные сети. Эти модели лучше улавливают сложные зависимости в данных и могут давать более точные прогнозы.



## Метрики оценки логистической регрессии: как понять, насколько хороша модель?

После построения модели логистической регрессии необходимо оценить её качество. Для этого используются различные метрики, которые помогают понять, насколько точно модель предсказывает классы и как она справляется с различными аспектами задачи. В отличие от линейной регрессии, где основной метрикой является среднеквадратичная ошибка (MSE), логистическая регрессия требует использования специальных метрик для оценки классификации. Рассмотрим наиболее важные из них и разберем их особенности и области применения.


### 1. **Точность (Accuracy)**

Точность — это одна из наиболее распространённых и интуитивно понятных метрик. Она измеряет долю правильных предсказаний среди всех наблюдений и определяется как:

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

где:
- \( TP \) (True Positives) — количество истинно положительных предсказаний (модель правильно предсказала положительный класс),
- \( TN \) (True Negatives) — количество истинно отрицательных предсказаний (модель правильно предсказала отрицательный класс),
- \( FP \) (False Positives) — количество ложно положительных предсказаний (модель ошибочно предсказала положительный класс),
- \( FN \) (False Negatives) — количество ложно отрицательных предсказаний (модель ошибочно предсказала отрицательный класс).

Точность хороша в случаях, когда классы сбалансированы, то есть количество объектов каждого класса примерно одинаково. Однако при работе с несбалансированными данными (например, когда один класс встречается гораздо чаще другого) эта метрика может быть обманчивой. В таких ситуациях можно получить высокую точность, предсказывая большинство объектов как принадлежащие к более частому классу, игнорируя редкий класс.



### 2. **Полнота (Recall)**

Полнота (или чувствительность) измеряет, какую долю объектов положительного класса модель смогла правильно предсказать. Она определяется как:

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

Полнота важна в тех случаях, когда приоритетом является обнаружение всех объектов положительного класса, даже если при этом увеличивается количество ложных срабатываний. Например, в медицине при диагностике редких заболеваний важно выявить как можно больше больных, даже если это приведет к ложноположительным диагнозам.



### 3. **Точность предсказаний (Precision)**

Точность предсказаний показывает, какую долю из предсказанных моделью положительных объектов действительно составляют истинно положительные. Формула вычисления:

$$
\text{Precision} = \frac{TP}{TP + FP}
$$

Эта метрика полезна в ситуациях, когда важно минимизировать количество ложноположительных предсказаний. Например, при фильтрации спама лучше, чтобы модель не блокировала легитимные сообщения, даже если это приведет к пропуску некоторого количества спама.



### 4. **F1-мерa**

F1-мера объединяет полноту и точность в одно значение, позволяя учесть их баланс. Она вычисляется как гармоническое среднее точности и полноты:

$$
F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$$

F1-мера особенно полезна, когда важно найти компромисс между точностью и полнотой, и подходит для несбалансированных данных. Если F1-мера близка к 1, это означает, что модель хорошо справляется с задачей классификации обоих классов.



### 5. **Кривая ROC и AUC**

ROC-кривая (Receiver Operating Characteristic) показывает, как меняется доля истинно положительных предсказаний (полнота) в зависимости от доли ложноположительных (специфичность), когда изменяется порог вероятности классификации. Каждая точка на ROC-кривой соответствует определённому значению порога.

AUC (Area Under the Curve) — это площадь под ROC-кривой. Значение AUC варьируется от 0 до 1 и характеризует качество модели: чем ближе значение к 1, тем лучше модель различает классы. AUC особенно полезен при сравнении различных моделей, так как он не зависит от порогового значения и учитывает всю кривую целиком.



### 6. **Логарифмическая потеря (Log Loss)**

Логарифмическая потеря оценивает, насколько сильно предсказанные вероятности отклоняются от истинных значений классов. Формула Log Loss:

$$
\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]
$$

где:
- $ N $ — общее количество наблюдений,
- $ y_i $ — истинное значение класса для наблюдения $ i $ (0 или 1),
- $ p_i $ — предсказанная вероятность класса 1 для наблюдения $ i $.

Log Loss штрафует модель за уверенные, но ошибочные предсказания сильнее, чем за неопределенные, что делает её более чувствительной к качеству предсказанных вероятностей.



### 7. **Матрица ошибок (Confusion Matrix)**

Матрица ошибок — это табличное представление результатов классификации. Она показывает, сколько раз модель предсказала каждый из классов, и на основе этой информации можно легко рассчитать все основные метрики.

Матрица ошибок представляет собой таблицу, в которой строки соответствуют истинным классам, а столбцы — предсказанным моделью классам. Каждая ячейка в матрице отображает количество случаев, когда объект с истинным классом $i$ был классифицирован моделью как класс $j$.

Пример матрицы ошибок для бинарной классификации:

|                 | Predicted Positive | Predicted Negative |
|-----------------|--------------------|--------------------|
| **Actual Positive** | True Positive (TP) | False Negative (FN) |
| **Actual Negative** | False Positive (FP) | True Negative (TN)  |

Анализ матрицы ошибок позволяет понять, где именно модель ошибается, и может указать на необходимость корректировки порога или улучшения качества данных.



### Пример использования метрик

Предположим, что у нас есть модель логистической регрессии, предсказывающая, уйдет ли клиент из компании. Для этого используется набор данных, включающий такие признаки, как возраст, продолжительность контракта и количество обращений в службу поддержки. Мы обучили модель и хотим оценить её качество.

1. **Точность:** Если точность модели составляет 85%, это означает, что 85% предсказаний модели совпадают с реальными значениями. Однако, если 90% клиентов остаются и только 10% уходят, модель, предсказывающая, что все остаются, даст высокую точность, не выявляя проблемы оттока.

2. **Полнота:** Если полнота составляет 60%, это означает, что модель правильно предсказывает 60% всех уходящих клиентов. Это может быть приемлемым результатом, если целью компании является идентификация как можно большего количества потенциальных уходящих клиентов.

3. **Точность предсказаний:** Если точность предсказаний составляет 70%, это значит, что из всех клиентов, предсказанных как уходящие, 70% действительно уйдут. Это полезно, когда важно минимизировать количество ложных срабатываний.

4. **F1-мера:** Если F1-мера равна 0.65, это указывает на сбалансированность между полнотой и точностью. Такой результат подходит для несбалансированных данных и задач, где оба аспекта важны.

5. **AUC:** Если AUC равен 0.8, это означает, что модель хорошо различает уходящих и остающихся клиентов, и вероятность правильного предсказания выше, чем при случайном выборе.

Использование всех этих метрик позволяет получить более полное представление о работе модели и помогает принимать обоснованные решения по её улучшению.

# Выводы

Логистическая регрессия остаётся одним из базовых инструментов для задач бинарной и мультиклассовой классификации. Её сильные стороны — простота, интерпретируемость и вычислительная эффективность — делают её отличным выбором для многих практических применений. Однако, важно учитывать её ограничения и использовать регуляризацию и методы предварительной обработки данных для повышения качества модели. В сочетании с другими методами машинного обучения, логистическая регрессия позволяет решать широкий спектр задач и служит отличной основой для понимания более сложных моделей и алгоритмов.