## Семинар 9

# Тема: Логистическая регрессия для данных с множеством признаков

В матричном виде:

$\tilde{X}=\begin{pmatrix}
1 &  x_{1 1} & x_{1 2}& \dots & x_{1 m}\\
   \vdots &  \vdots & \dots &  \vdots\\
1 &  x_{n 1} & x_{n 2}& \dots & x_{n m}
\end{pmatrix}$ - матрица признаков с добавленным столбцом из едениц

$\quad \vec{y}=\begin{pmatrix}
  y_1\\
   \vdots \\
  y_n
\end{pmatrix}$ - целевая переменная состоит из 0 и 1

$\quad \vec{w}=\begin{pmatrix}
w_0\\
w_1\\
\vdots \\
w_m
\end{pmatrix}$ - параметры гиперплоскости

$\sigma(z) = \dfrac{1}{1 + e^{- z}}$ - сигмоидная функция

$\vec{p} = \sigma(\tilde{X}\vec{w})$ - предсказанные значения вероятностей принадлежности единичному классу

Функция ошибки (logLoss): $logLoss(\vec y, \vec p) = -\frac{1}{n}\sum_{i=1}^{n} (y_i \ln (p_i) + (1 - y_i) \ln (1 - p_i))$

Градиент функции ошибки:
$\begin{pmatrix}
  \frac{\partial logLoss}{\partial w_0}\\
  \frac{\partial logLoss}{\partial w_1}\\
   \vdots \\
 \frac{\partial logLoss}{\partial w_m}
\end{pmatrix}=\frac{1}{n}\tilde{X}^T(\sigma(\tilde{X}\vec{w})- \vec{y})$

**Метод градиентного спуска в случае логистической регрессии с m признаками:**

$\vec{w}^{j+1} = \vec{w}^{j} - \alpha \frac{1}{n}\tilde{X}^T(\sigma(\tilde{X}\vec{w}^{j+1})- \vec{y}), \quad j= 1,\dots , k$

Градиентный спуск может быть усовершенствован до стохастического градиентного спуска, при котором данные для оптимизации подгружаются небольшими, случайно выбранными, партиями, что уменьшает требования по памяти.

Алгоритм логистической регрессии позволяет получить не только предсказанную метку класса, но и вероятность принадлежности этому классу. Эти вероятности для модели LogisticRegression в sklearn можно получить с помощью метода .predict_proba.

Импортируем необходимые библиотеки:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

### Обучение модели логистической регрессии на sklearn

Генерируем данные:

In [2]:
X,y = make_classification (n_samples=100,
                          n_features=3,
                          n_informative=2,
                          n_redundant=1,
                          n_classes=2,
                          random_state=42)

In [3]:
X[:5]

array([[ 1.19664076,  1.19520687, -0.80804463],
       [-0.35885569, -0.81522223,  1.65214494],
       [-0.38919817, -0.79145712,  1.50575249],
       [ 1.09180466,  0.46971052,  1.17869556],
       [ 2.30450019,  1.20138599,  1.83991037]])

Создаём модель (объект класса) логистической регрессии:

In [4]:
model = LogisticRegression()

Обучаем модель:

In [5]:
model.fit(X, y)

Выводим найденные коэффициенты логистической регрессии.

Свободный коэффициент:

In [6]:
model.intercept_

array([0.07405267])

Веса:

In [7]:
model.coef_

array([[-0.1380904 , -1.09804133,  3.05648065]])

Делаем предсказание:

In [8]:
y_pred = model.predict(X)
y_pred

array([0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0,
       1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0])

### 1. Сгенерируйте данные для задачи бинарной классификации с 5 признаками и 10000 наблюдениями. Причём целевая переменная должна зависеть от всех 5 признаков. Выведите признаки в виде датафрейма (первые 7 строк), дав названия колонкам. Выведите описательную статистику признаков.
Указание: Для этого воспользуйтесь [make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html), задав параметры: число строк n_samples=10000, число признаков n_features=5, число признаков от которых зависит целевая переменная n_informative=5, число избыточных признаков (т.е. признаков, являющихся линейными комбинациями признаков от которых зависит целевая переменная) n_redundant=0, фиксируем воспроизводимость случайных данных random_state=42.

In [9]:
X, y = make_classification(n_samples=10000, n_features=5, n_informative=5, n_redundant=0, random_state=42)

df = pd.DataFrame(X, columns=["Feature_1", "Feature_2", "Feature_3", "Feature_4", "Feature_5"])
df['Target'] = y

df.head(7)

Unnamed: 0,Feature_1,Feature_2,Feature_3,Feature_4,Feature_5,Target
0,0.413771,-0.679695,0.696445,-1.011996,0.023438,0
1,-2.529262,-1.659529,-0.777398,1.383956,-1.939879,1
2,3.788475,-0.264013,1.060993,2.136322,1.438631,0
3,-4.179447,-1.467648,-1.74361,-2.705746,-2.077344,0
4,3.244131,-1.951404,0.183896,1.595039,-0.267496,0
5,0.867337,-0.538058,0.735722,1.911749,-0.089576,1
6,0.199549,3.947709,1.209587,3.132776,-0.875606,0


In [10]:
df.describe()

Unnamed: 0,Feature_1,Feature_2,Feature_3,Feature_4,Feature_5,Target
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,-0.001747,0.494744,0.482548,0.495967,-0.504918,0.4991
std,1.741897,1.691527,1.659533,1.550654,1.50863,0.500024
min,-7.263252,-6.093968,-5.334871,-5.324103,-6.361942,0.0
25%,-1.167635,-0.68329,-0.605466,-0.53195,-1.577609,0.0
50%,0.106329,0.514894,0.560414,0.573435,-0.511353,0.0
75%,1.223766,1.649242,1.582486,1.549795,0.600683,1.0
max,5.944183,6.81569,6.784181,6.824402,5.445003,1.0


### 2. Целевую переменную выведите в виде серии и определите количество элементов в каждом классе.

In [11]:
target_series = df['Target']
target_series.head()

0    0
1    1
2    0
3    0
4    0
Name: Target, dtype: int32

In [12]:
target_series.value_counts()

Target
0    5009
1    4991
Name: count, dtype: int64

In [13]:
y_series = pd.Series(y)
y_series

0       0
1       1
2       0
3       0
4       0
       ..
9995    0
9996    1
9997    0
9998    0
9999    0
Length: 10000, dtype: int32

In [14]:
y_series.value_counts()

0    5009
1    4991
Name: count, dtype: int64

### 3. Напишите функцию X_, которая принимает матрицу (двумерный numpy-массив) и присоединяет столбец единиц к ней слева. Примените функцию к сгенерированным выше признакам X.
Указание: Можно воспользоваться методом concatenate, либо hstack.

In [15]:
def X_(matrix):
    ones_column = np.ones((matrix.shape[0], 1))
    return np.concatenate((ones_column, matrix), axis=1)

X_with_ones = X_(X)

In [16]:
pd.DataFrame(X_with_ones)

Unnamed: 0,0,1,2,3,4,5
0,1.0,0.413771,-0.679695,0.696445,-1.011996,0.023438
1,1.0,-2.529262,-1.659529,-0.777398,1.383956,-1.939879
2,1.0,3.788475,-0.264013,1.060993,2.136322,1.438631
3,1.0,-4.179447,-1.467648,-1.743610,-2.705746,-2.077344
4,1.0,3.244131,-1.951404,0.183896,1.595039,-0.267496
...,...,...,...,...,...,...
9995,1.0,0.752305,2.086892,2.584542,-0.707115,-0.337462
9996,1.0,-0.916575,-0.679794,-2.024803,-1.204436,0.877358
9997,1.0,-1.228897,2.652763,-0.161137,1.988002,-1.978933
9998,1.0,0.062879,2.169006,-0.090181,3.340848,-1.501572


### 3. Напишите функцию сигмоида $\sigma(z) = \dfrac{1}{1 + e^{- z}}.$ Вычислите её значения на случайном векторе длины 10000.

In [17]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

random_vector = np.random.randn(10000)

sigmoid_values = sigmoid(random_vector)

In [18]:
sigmoid_values

array([0.29171563, 0.60892687, 0.40266628, ..., 0.68013824, 0.54974932,
       0.33899284])

### 4. Пользуясь написанной функцией сигмоиды, напишите функцию, вычисляющую предсказание вероятности того, что значение принадлежит классу единица в случае множества признаков $\vec{p} =\sigma(\tilde{X}\vec{w})$, где $\tilde{X} $ - матрица признаков с присоединённым слева столбцом единиц. Назовите эту функцию predict_proba. Вычислите её значения на сгенерированных признаках X и на случайном векторе $w$ нужной длины.

In [19]:
def predict_proba(w, X):
    return sigmoid(X_(X) @ w)

In [20]:
predict_proba(np.random.randn(X.shape[1]+1), X)

array([8.97095919e-03, 9.99967443e-01, 3.05800906e-06, ...,
       9.98854577e-01, 9.83140007e-01, 1.45751957e-02])

### 5. Напишите функцию, которая вычисляет градиент функции ошибки (logLoss) с множеством признаков в матричном виде.  Примените функцию к сгенерированным выше данным X, y, а в качестве $w$ возьмите массив случайных чисел нужной размерности.

Указание: $\overrightarrow{{grad} (logLoss)}  = \frac{1}{n}\tilde{X}^T(\sigma(\tilde{X}w)- y)$, здесь $\tilde{X}$ - это матрица X c присоединённым к ней столбцом единиц слева, а n - число строк матрицы X. Назовите созданную функцию gradient_F.

In [21]:
def gradient_F(w, X, y):
    X_tilde = X_(X)
    n = X.shape[0]
    return (1/n) * X_tilde.T @ (sigmoid(X_tilde @ w) - y)

In [22]:
gradient_F(np.random.randn(X.shape[1]+1), X, y)

array([ 0.16837549, -0.03040851,  0.7102251 ,  0.33022245,  0.14425226,
       -0.56013353])

### 6. Создайте класс, реализующий модель логистической регрессии для данных имеющих произвольное количество признаков (столбцов). Создайте экземпляр класса, обучите модель и выведите получившиеся коэффициенты гиперплоскости (смещение и веса).
Указание: Необходимо создать класс, реализующий метод градиентного спуска для logLoss функции.
Воспользуйтесь для этого классом GradientDiscent, написанный в предыдущих ноутбуках, добавив туда написанные выше функции X_, sigmoig, predict_proba и gradient_F в качестве методов. В методе fit задайте стартовое значение массивом нулей нужной длины. В функции GD параметры a и b можно заменить на X, y для наглядности.

In [23]:
class GradientDiscent():
    def __init__(self, max_iter):
        self.w = None
        self.max_iter_ = max_iter

    def X_(self, matrix):
        ones_column = np.ones((matrix.shape[0], 1))
        return np.concatenate((ones_column, matrix), axis=1)

    def sigmoid(self, Z):
        return 1 / (1 + np.exp(-Z))


    def predict_proba(self, X):
        return sigmoid(self.X_(X) @ self.w)

    def gradient_F(self, X, y):
        X_tilde = self.X_(X)
        n = X.shape[0]
        return (1/n) * X_tilde.T @ (self.sigmoid(X_tilde @ self.w) - y)

    def GD(self, a, b, w_start, learning_rate=0.2):
        self.w = w_start

        for _ in range(self.max_iter_):
            self.w = self.w - learning_rate *self.gradient_F( a, b)
        assert (-1e+06 < self.w).all() and (self.w < 1e+06).all(), "Расходимость: слишком большой learning_rate, либо неудачно выбрана начальная точка, либо минимум не достигается"
        assert (-1e-04 < self.gradient_F( a, b)).all() and (self.gradient_F( a, b) < 1e-04).all(), "Недостаточно шагов градиентного спуска"

    def fit(self, a, b):
        w_start = np.zeros(X.shape[1]+1)
        self.GD(a, b, w_start)

In [24]:
gd = GradientDiscent(max_iter = 1000)
gd.fit(X, y)
gd.w

array([ 0.44709739, -0.38298848, -0.39588029, -0.47516881,  0.55770682,
        0.6560614 ])

### 7. Напечатайте уравнение pазделяющей гиперплоскости, полученной в результате применения модели логистической регрессии к данным X, y.
Указание: Используйте print. Уравнение гиперплоскости должно иметь вид $w_0 + w_1 x_1+ w_2 x_2 + \dots + w_m x_m = 0$. Выводите коэффициенты гиперплоскости с точностью два знака после запятой. Учтите то, что эти коэффициенты могут быть и отрицательными.

In [25]:
result = f'{gd.w[0]:.2f}'
for i in range(1, len(gd.w)):
    if gd.w[i] > 0:
        result += f' + {gd.w[i]:.2f}*x{i}'
    else:
        result += f' {gd.w[i]:.2f}*x{i}'
print(f'{result} = 0')

0.45 -0.38*x1 -0.40*x2 -0.48*x3 + 0.56*x4 + 0.66*x5 = 0


### 8. Используя построенную модель логистической регрессии, выведите значения вероятностей для объектов из X быть отнесёнными к классу единица. Найдите значения вероятностей для объектов из X быть отнесёнными к классу нуль.
Указание: Для того, чтобы вывести значения вероятностей, используйте метод predict_proba.

P(X=1)

In [26]:
gd.predict_proba(X)

array([0.42012909, 0.87449577, 0.67519883, ..., 0.43894673, 0.61899618,
       0.10531337])

P(X=0)

In [27]:
1-gd.predict_proba(X)

array([0.57987091, 0.12550423, 0.32480117, ..., 0.56105327, 0.38100382,
       0.89468663])

### 9. Добавьте в класс, реализующий модель логистической регрессии, метод predict, осуществляющий предсказание меток классов. Назовите созданный класс Logistic_Regression. Сделайте предсказание на X.
Указание: Предсказания приинадлежности к классу вычисляются  так: если вероятность принадлежать классу единица больше 1/2, т.е. $\sigma(\tilde{X}w) > 1/2$, то присваиваем метку класса - единица, в противном случае метка класса - нуль.

### 10. Определите количество ошибок предсказания на X, сделанных классификатором, т.е. найдите количество неверно предсказанных значений.
Указание: Для этого сравните истинные и предсказанные значения.

In [85]:
class Logistic_Regression():
    def __init__(self, max_iter):
        self.w = None
        self.max_iter_ = max_iter

    def X_(self, matrix):
        ones_column = np.ones((matrix.shape[0], 1))
        return np.concatenate((ones_column, matrix), axis=1)

    def sigmoid(self, Z):
        return 1 / (1 + np.exp(-Z))


    def predict_proba(self, X):
        return sigmoid(self.X_(X) @ self.w)

    def predict(self, X):
        y_pred = self.predict_proba(X) <= 0.5
        return np.where(y_pred==False, 0, y_pred)

    def gradient_F(self, X, y):
        X_tilde = self.X_(X)
        n = X.shape[0]
        return (1/n) * X_tilde.T @ (self.sigmoid(X_tilde @ self.w) - y)

    def GD(self, a, b, w_start, learning_rate=0.2):
        self.w = w_start

        for _ in range(self.max_iter_):
            self.w = self.w - learning_rate *self.gradient_F( a, b)
        assert (-1e+06 < self.w).all() and (self.w < 1e+06).all(), "Расходимость: слишком большой learning_rate, либо неудачно выбрана начальная точка, либо минимум не достигается"
        assert (-1e-04 < self.gradient_F( a, b)).all() and (self.gradient_F( a, b) < 1e-04).all(), "Недостаточно шагов градиентного спуска"

    def fit(self, a, b):
        w_start = np.zeros(X.shape[1]+1)
        self.GD(a, b, w_start)

In [86]:
LR = Logistic_Regression(10000)
LR.fit(X, y)

In [87]:
LR.predict(X)

array([1, 0, 0, ..., 1, 0, 1])

### 11. Создайте новое наблюдение, например, взяв среднее значение по каждому столбцу X. Сделайте предсказание на нём.
Указание: Обртите внимание, что метод predict принимает только двумерные numpy-массивы.

In [88]:
means = np.mean(X, axis = 0).reshape(1,5)
means

array([[-0.00174691,  0.49474413,  0.48254756,  0.4959671 , -0.50491812]])

In [89]:
LR.predict(means)

array([1])

### 12. Реализуйте в классе Logistic_Regression оптимизацию не методом градиентного спуска, а методом стохастического градиентного спуска. Назовите полученный класс Logistic_Regression_SGD. Вычислите коэффициенты гиперплоскости w и убедитесь, что они получились приблизительно теми же.
Указание: indexes = np.random.choice(np.arange(X.shape[0]), size=3000)

In [69]:
class Logistic_Regression_SGD():
    def __init__(self, max_iter):
        self.w = None
        self.max_iter_ = max_iter

    def X_(self, matrix):
        ones_column = np.ones((matrix.shape[0], 1))
        return np.concatenate((ones_column, matrix), axis=1)

    def sigmoid(self, Z):
        return 1 / (1 + np.exp(-Z))


    def predict_proba(self, X):
        return sigmoid(self.X_(X) @ self.w)

    def predict(self, X):
        y_pred = self.predict_proba(X) <= 0.5
        return np.where(y_pred==False, 0, y_pred)

    def gradient_F(self, X, y, indexes):
        X_tilde = self.X_(X[indexes])
        n = X[indexes].shape[0]
        return (1/n) * X_tilde.T @ (self.sigmoid(X_tilde @ self.w) - y[indexes])

    def SGD(self, a, b, w_start, learning_rate=0.2):
        self.w = w_start
        indexes = np.random.choice(np.arange(X.shape[0]), size=3000)
        for _ in range(self.max_iter_):
            self.w = self.w - learning_rate *self.gradient_F( a, b, indexes)
        assert (-1e+06 < self.w).all() and (self.w < 1e+06).all(), "Расходимость: слишком большой learning_rate, либо неудачно выбрана начальная точка, либо минимум не достигается"
        assert (-1e-04 < self.gradient_F( a, b, indexes)).all() and (self.gradient_F( a, b, indexes) < 1e-04).all(), "Недостаточно шагов градиентного спуска"

    def fit(self, a, b):
        w_start = np.zeros(X.shape[1]+1)
        self.SGD(a, b, w_start)

In [70]:
LR_SGD = Logistic_Regression_SGD(1000)
LR_SGD.fit(X, y)

In [71]:
LR_SGD.w

array([ 0.46652629, -0.39180247, -0.38933864, -0.49273229,  0.58775381,
        0.65220832])

In [72]:
LR.w

array([ 0.44709741, -0.38298848, -0.39588029, -0.47516881,  0.55770681,
        0.65606141])

### 13. Сравните время обучения моделей логистической регрессии, реализованных методом градиентного спуска и стохастического градиентного спуска с одинаковым количеством итераций градиентного спуска.
Указание: Возьмите max_iter = 1000.

In [73]:
%%time
LR.fit(X, y)

CPU times: total: 4.34 s
Wall time: 3.35 s


In [74]:
%%time
LR_SGD.fit(X, y)

CPU times: total: 328 ms
Wall time: 324 ms


### 14. Создайте класс модели логистической регрессии из библиотеки sklearn. Обучите модель на сгенерированных данных и выведите коэффициенты гиперплоскости.

 Указание: Воспользуйтесь классом [LogisticRegression](https://scikit-learn.org/1.5/modules/generated/sklearn.linear_model.LogisticRegression.html). Оптимальное коэффициенты гиперплоскости выводятся так: смещение выводится при помощи атрибута intercept_, а оптимальные веса при помощи атрибута coef_.

In [75]:
sk_lr = LogisticRegression(max_iter = 1000)
sk_lr.fit(X, y)

In [76]:
sk_lr.intercept_

array([0.44687439])

In [77]:
sk_lr.coef_

array([[-0.38262394, -0.39572413, -0.47498568,  0.55739162,  0.65560566]])

### 15. Сделайте предсказание на X для модели из sklearn. Определите количество ошибок, сделанных моделью.
Указание: Для того, чтобы сделать предсказание, используйте метод predict.

In [78]:
y_pred = sk_lr.predict(X)

In [79]:
sum(y != y_pred)

2230

### 16. Сделайте предсказание для модели логистической регрессии из sklearn на новом наблюдении, полученном как среднее значение по каждому столбцу. Убедитесь, что предсказанный класс будет тем же, что и у модели логистической регрессии, написанной своими руками.

In [80]:
means = np.mean(X, axis=0).reshape(1, 5)
means

array([[-0.00174691,  0.49474413,  0.48254756,  0.4959671 , -0.50491812]])

In [81]:
sk_lr.predict(means)

array([0])

In [82]:
LR.predict(means)

array([1])

### 17. Для построенной модели логистической регрессии из sklearn выведите значения вероятностей для каждого объекта из X быть отнесённым к тому или иному классу. Выведите значения вероятностей для объектов из X быть отнесёнными к классу единица.
Указание: Для того, чтобы вывести значения вероятностей, используйте метод predict_proba.

In [83]:
sk_lr.predict_proba(X)

array([[0.57980817, 0.42019183],
       [0.12562486, 0.87437514],
       [0.3248051 , 0.6751949 ],
       ...,
       [0.56105598, 0.43894402],
       [0.38106198, 0.61893802],
       [0.89459654, 0.10540346]])

In [63]:
sk_lr.predict_proba(X)[:, 1][:10]

array([0.42019183, 0.87437514, 0.6751949 , 0.64220003, 0.64660548,
       0.72816682, 0.35569768, 0.50815255, 0.41919408, 0.51044708])

In [84]:
sk_lr.predict_proba(means)

array([[0.50800478, 0.49199522]])