# Глава 16 Логистическая регрессия(МО Крис Элбон)

Несмотря на то, что логистическая регрессия называется регрессией, она фактически является широко используемым методом контролируемой классификации. Логистическая регрессия и ее расширения, такие как полиноминальная логистическая регрессия, позволяют предсказывать вероятность  того, что наблюдение относится к определенному классу. Здесь будет рассмотрена тренировка классификаторов, используя библиотеку scikit-learn.

# Тренировка бинарного классификатора.

Требуется натренировать простую классификационную модель

Натренировать логистическую регрессию в библиотеке scikit-learn  с помощью класса LogisticRegression.

In [1]:
#загрузить библиотеки
from sklearn.linear_model import LogisticRegression
from sklearn import  datasets
from sklearn.preprocessing import StandardScaler

  return f(*args, **kwds)


In [2]:
#загрузить данные только с 2-мя классами
iris = datasets.load_iris()
features = iris.data[:100, :]
target = iris.target[:100]

In [4]:
#стандартизировать признаки
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [7]:
#создать объект логистической регрессии
logistic_regression = LogisticRegression(random_state=0)

In [8]:
#натренировать модель
model = logistic_regression.fit(features_standardized, target)



Несмотря на наличие слова "регрессия" в названии, логистическая регрессия на самом деле является широко используемым бинарным классификатором ( т е вектор целей может принимать только два значения).

В логистической регрессии линейная модель, например (beta_0 + beta_1*x) включается в логистическую (так называемую сигмоидальную) функцию (1/(1+e^(-z)), таким образом, что:

\begin{equation*} P(y_i=1|X) = 1 / ( 1 + e^{-(\beta_0+\beta_1*x)} )\end{equation*}

P(y_i=1|X) - вероятность, что целевое значение i - го наблюдения y_i является классом 1

X - тренировочные данные

beta_0  и beta_1 - параметры, которые необходимо заучить

e - эйлерово число

Эффект логистической функции заключается в ограничении значения результата функции диапазоном между 0 и 1, чтобы его можно было интерпретировать как вероятность.

Если P(y_i=1|X) больше 0.5, то предсказывается класс 1, в противном случае класс 0.

В библиотеке scikit-learn можно заучить логистическую регрессионную модель с помощью класса LogisticRegression. После тренировки модели ее можно использовать для предсказания класса новых наблюдений:

In [9]:
#создать новое наблюдение
new_observation = [[.5, .5, .5, .5]]

In [10]:
#предсказать класс
model.predict(new_observation)

array([1])

В этом примере наше наблюдение было предсказано, как класс 1.  Кроме того, мы можем увидеть вероятность принадлежности наблюдения к каждому классу.

In [11]:
#взглянуть на предсказанные вероятности
model.predict_proba(new_observation)

array([[0.18944274, 0.81055726]])

Наше наблюдение имело 18.8% шанс быть классом 0 и 81.1% шанс быть классом 1.

# Тренировка мультиклассового классификатора.

Дано более двух классов, и требуется натренировать классификационную модель.

Натренировать логистическую регрессию в библиотеке scikit-learn с помощью класса LogisticRegression, используя методы "один против остальных" либо полиноминальные методы.

In [1]:
#загрузить библиотеки
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [3]:
#стандартизировать признаки
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [4]:
#создать объект логистической регрессии по методу"один против остальных"
logistic_regression = LogisticRegression(random_state=0, multi_class='ovr')

In [5]:
#натренировать модель
model = logistic_regression.fit(features_standardized, target)



Сами по себе логистические регрессии являются бинарными классификаторами, они не могут обрабатывать векторы целей с более чем 2- мя классами.

Однако два умных расширителя логистической регрессии делают именно это.

Во-первых в логистической регрессии по методу "один против остальных" (one-vs-rest, OVR) для каждого класса тренируется отдельная модель, предсказывающая, является ли наблюдение этим классом или нет (что делает его задачей бинарной классификации). Такой классификатор исходит из того, что каждая классификационная задача является независимой.

В качестве альтернативы в полиноминальной логистической регрессии (multinomial logistic regression, MLR) логистическая функция, которую мы видели ранее заменяется функцией softmax (многопеременной логистической функцией):

\begin{equation*} P(y_i=k|X) =  \frac{ e^{\beta_k * x_i} }{\sum_{j=1}^K e^{\beta_j * x_i}}\end{equation*}

P(y_i=k|X) - вероятность, что целевое значение i - го наблюдения y_i является классом k

K - общее количество классов

Одним из практических приемуществ MLR является то, что его предсказанные вероятности с использованием метода predict_proba более надежны ( т е лучше откалиброваны).

При использовании класса LogisticRegression можно выбрать один из двух методов по своему усмотрению, при этом OVR, ovr, указывается в аргументе multi_class по умолчанию. Мы можем переключаться на метод MNR, присвоив этому аргументу значение multinomial. 

# Снижение дисперсии с помощью регуляризации.

Требуется уменьшить дисперсию логистической регрессионной модели.

Настроить гиперпараметр силы регуляризации С.

In [6]:
#загрузить библиотеки
from sklearn.linear_model import LogisticRegressionCV
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [7]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [8]:
#стандартизировать признаки
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [9]:
#создать объект логистической регрессии по методу"один против остальных"
logistic_regression = LogisticRegressionCV(penalty='l2', Cs=10,  random_state=0, n_jobs=-1)

In [10]:
#натренировать модель
model = logistic_regression.fit(features_standardized, target)



Регуляризация - это метод штрафования сложных моделей с целью уменьшения их дисперсии.

В частности штрафной член добавляется в функцию потери, которую мы пытаемся минимизировать. Как правило это штрафы L1 и L2.

В штрафе L1:

\begin{equation*} \alpha {\sum_{j=1}^p \hat{|\beta_j|}}\end{equation*}

\begin{equation*}  {\hat{\beta_j}}\end{equation*} 

- параметры j -го из p заучиваемых признаков

\begin{equation*} \alpha \end{equation*}

- гиперпараметр, обозначающий силу регуляризации

В случае со штафом L2:

\begin{equation*} \alpha {\sum_{j=1}^p \hat{\beta_j^2}}\end{equation*}

Более высокие значения альфа увеличивают штраф за более крупные значения параметров( т е более сложные модели). Библиотека scikit-learn следует общему методу использования обозначения С вместо альфа, где С - это обратная величина силы регуляризации:

\begin{equation*} С = \frac{1} {\alpha} \end{equation*}

Для того, чтобы уменьшить дисперсию при использовании логистической регрессии, мы можем рассматривать С как гиперпараметр, который нужно настроить, чтобы найти значение С, создающее наилучшую модель.

В библиотеке scikit-learn можно использовать класс LogisticRegressionCV для эффективной настройки С. Параметр Сs класса LogisticRegressionCV может или принимать диапазон значений C для поиска( если в качестве аргумента указан список вещественных чисел), либо если задано целое число, сгенерирует список из заданного количества потенциальных значений, полученных из логарифмической шкалы между - 10 000 и 10 000.

К сожалению класс LogisticRegressionCV не позволяет производить поиск по различным штрафным членам. Для этого мы должны использовать менее эффективные методы отбора модели (см раздел Отбор моделей).

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html

# Тренировка классификатора на очень крупных данных

Требуется натренировать простую классификационную модель на очень крупном наборе данных.

Натренировать логистическую регрессию в библиотеке scikit-learn с помощью класса
LogisticRegression, используя стохастический среднеградиентный (stochastic average gradient, SAG) решатель.

In [1]:
#загрузить библиотеки
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [3]:
#стандартизировать признаки
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [4]:
#создать объект логистической регрессии 
logistic_regression = LogisticRegression(random_state=0, solver="sag")

In [5]:
model = logistic_regression.fit(features_standardized, target)



Класс LogisticRegression библиотеки scikit-learn предлагает ряд методов для тренировки логистической регрессии, называемых решателями. Подавляющую часть времени scikit-learn будет выбирать для нас наилучший решатель автоматически или предупреждать, что мы не можем что-то сделать с этим решателем. Однако один особый случай мы должны знать.

Стохастический среднеградиентный спуск позволяет тренировать модель намного быстрее, чем другие решетели, в тех случаях, когда данные очень крупные. Вместе с тем он также очень чувствителен к шкалировнаию признаков, поэтому особенно важна стандартизация наших признаков. обучающийся алгоритм можно натроить на использование этого решателя, задав параметр solver='sag'.

# Обработка несбалансированных классов

Требуется натренировать простую классификационную модель.

Натренировать логистическую регрессию в библиотеке scikit-learn с помощью класса LogisticRegression. 

In [6]:
#загрузить библиотеки
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [7]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [8]:
#сделать класс сильно несбалансированным удалив 40 наблюдений
features = features[40:, :]
target = target[40:]

In [9]:
#создать вектор целей, назначив классам значениие 0 или 1
target = np.where((target == 0), 0, 1)

In [10]:
#стандартизировать признаки
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [11]:
#создать объект логистической регрессии 
logistic_regression = LogisticRegression(random_state=0, class_weight="balanced")

In [12]:
model = logistic_regression.fit(features_standardized, target)



Как и многие другие обучающие алгоритмы в библиотеки scikit-learn, логистическая регрессия сопровождается встроенным методом обработки несбансированных классов.
Если мы имеем сильно несбалансированные классы и не решили эту проблему во время предобработки, у нас есть возможность использовать параметр class_weight для взвешивания классов, чтобы определенно получить сбалансирование сочетание каждого класса. В частности аргумент balanced  будет взвешивать классы автоматически: обратно пропорционально их частоте.

\begin{equation*} w_j =  \frac{ n }{ k * n_j} \end{equation*}

w_j вес класса j

n - количество наблюдений

n_j - количество наблюдений класса j

k - общее количество классов