<a href="https://colab.research.google.com/github/YKochura/ai-lab/blob/main/lab3/logistic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Логістична регресія** &mdash; статистичний регресійний метод, який застосовують для задач бінарної класифікації, тобто, коли модель має віднести вихідне значення (прогноз) до однієї з двох категорій: `0` або `1`.

Наприклад, ми можемо за допомогою логістичної регресії передбачити результат складання студентом / студенткою екзамену з цього предмету `{здасть (1) / не здасть (0)}`, використовуючи інформацію про те, скільки часу було витрачено студентом / студенткою на проєкт, скільки лекцій відвідано, скільки практичних здано на оцінку > 7 балів, тощо. Або ж ми можемо за допомогою логістичної моделі класифікувати зображення на дві категорії, наприклад, `кіт (1)` або `собака (0)`.


# Модель логістичної регресії

Логістичну регресію можна розглядати як одношарову нейронну мережу, яка складається з одного нелінійного нейрона.

![](https://docs.google.com/uc?export=download&id=1Abx7cOwNEV0CcFHRVo4XqKMfhgBZeUdS)

Метод логістичної регресії заснований на лiнiйнiй регресiї, оскільки використовується однаковий підхід: знаходження лінійної комбінації вхідних ознак (зважена сума) з урахуванням зміщення. Основна віднність між цими методами полягає у тому, що у логістичній регресії до зваженої суми вхідних ознак та зміщення, що фактично є вихідним значенням лінійної регресії, застосовується сигмоїдна функцiя активації, яка перетворює вихiд лiнiйної моделі у вихід логістичної регресії. Іншими словами, вихід (прогноз) логістичної регресії представляє собою дійсне значення, яке лежить у діапазоні вiд 0 до 1 ($\hat y \in [0, 1]$). Це значення можна iнтерпретувати як ймовiрнiсть приналежності вхідних даних до певного класу (0 або 1):

$$p(y = 1 | z) = \hat y = \sigma(z) = g(z) = \frac{1}{1 + \exp{(-z)}} $$

У випадку, коли нейрон є лінійним, тобто, коли відсутня нелінійна функція активації, тоді на виході отримуємо $\hat y = z$, що є просто вихідним значення лінійної регресії.

## Функції активації
Нижче подано деякі загальновживані функції активації (усі нелінійні), які часто використовуються у нейронних мережах.

![](https://docs.google.com/uc?export=download&id=1jNGnPUyKH7SoQton8bWAHhmKHkuLtLr4)

За характером навчальних даних, метод логістичної регресії відносить до контрольованого навчання (навчання з учителем). Тобто, для кожного прикладу з навчального набору даних заздалегідь підготовлена мітка (label), яка показує приналежніть цих прикладів певного класу.

**Дано:**

- Навчальний набір: $\{(\boldsymbol{X}^{(1)}, y^{(1)}), (\boldsymbol{X}^{(2)}, y^{(2)}),..., (\boldsymbol{X}^{(n)}, y^{(n)})\}$

  - де $\boldsymbol{X}^{(i)}$ &mdash;  $i$-й навчальний приклад. Є $m$-вимірним вектором-стовпцем $\boldsymbol{X}^{(i)} = (x^{(i)}_1, x^{(i)}_2, ..., x^{(i)}_m)$
  - $n$ &mdash; загальна кількість навчальних прикладів
  - $y^{(i)}$ &mdash; підготовлена мітка для $i$-го навчального прикладу (бінарна змінна), $y^{(i)} \in \{0,1\}$

Модель логістичної регресії можна інтерпретувати як дуже просту нейронну мережу, яка:

- має вектор-рядок дійсних значень ваг $\boldsymbol{W} = \begin{bmatrix}
w_1 & w_2 & \cdots & w_m
\end{bmatrix}$
- має дійсне значення зміщення $b$
- використовує сигмоїду в якості активаційної функції

# Навчання

Ми можемо навчити модель, використовуючи градієнтний спуск. Фактично, **градієнтний спуск** або будь-який інший алгоритм оптимізації дозволяє знайти глобальний мінімум цільової функції (усередненої функції втрат на всьому навчальному наборі), якщо підбрано оптимальну швидкість навчання та виконано достатню кількість ітерацій навчання.

Навчання моделі логістичної регресії має різні етапи. На початку (крок 0) ініціалізуються параметри моделі. Інші кроки повторюються протягом певної кількості епох (навчальних ітерацій).

**Крок 0:** Ініціалізувати ваги та зсув (наприклад, випадковими значеннями з нормального розподілу)

**Крок 1:** Обчислити лінійну комбінацію вхідних ознак та ваг, включаючи зсув.  Це можна зробити за один крок для всіх навчальних прикладів, використовуючи [векторизацію (vectorization)](https://www.geeksforgeeks.org/vectorization-in-python/) та  [трансляцію (broadcasting)](https://www.geeksforgeeks.org/python-broadcasting-with-numpy-arrays/)

$$z = W \cdot X + b$$

де $\cdot$ скалярний добуток (поелементний добуток), $W$ &mdash;  вектор-рядок ваг з формою $(1, m)$, $X$ &mdash; матриця форми $(m, n)$.

**Крок 2:** Застосувати нелінійну функцію активації (сигмоїду), яка поверне дійсне значення у проміжку між 0 та 1:

$$\hat y  = \frac{1}{1 + \exp(-z)}$$

**Крок 3:** Обчислити усереднену втрату на всьому навчальному наборі даних. Функцію, яка визначає усереднені втрати на всьому навчальному наборі даних, часто називають цільовою функцією або імпіричним ризиком. Основна задача оптимізаційного алгоритму &mdash;  мінімізувати у процесі навчання цільову функцію на стільки, на скільки це можливо, не втрачаючи при цьому здатності моделі узагальнювати на нових даних. Для задач бінарної класифікації використовують бінарну перехресну втрату ентропії:

$$\mathcal{J}(\hat y,y)  = - \frac{1}{n} \sum_{i=1}^n \Big[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \Big]$$

**Крок 4:** Розрахувати градієнти цільвої функції відносно ваг та зсуву:

$$\boxed{\begin{aligned}
\frac{\partial \mathcal{J}(\hat y, y)}{\partial \hat y} &= \frac{1}{n} \big [-\frac{y}{\hat y} + \frac{1- y}{1 - \hat y} \big ] \\[12pt]
\frac{\partial \mathcal{J}(\hat y, y)}{\partial z} &= \frac{\partial \mathcal{J}(\hat y, y)}{\partial \hat y} \frac{\partial \hat y}{\partial z} = \frac{1}{n} (\hat y - y)  \\[12pt]
\frac{\partial \mathcal{J}(\hat y, y)}{\partial W} &= \frac{\partial \mathcal{J}(\hat y, y)}{\partial \hat y} \frac{\partial \hat y}{\partial z} \frac{\partial z}{\partial W} = \frac{1}{n} X^\intercal \cdot (\hat y - y) \\[12pt]
\frac{\partial \mathcal{J}(\hat y, y)}{\partial b} &=  \frac{\partial \mathcal{J}(\hat y, y)}{\partial \hat y} \frac{\partial \hat y}{\partial z} \frac{\partial z}{\partial b} = \frac{1}{n} (\hat y - y)
\end{aligned}}$$

**Крок 5:** Оновити ваги та зсув:

$$\boxed{\begin{aligned}
W &= W - \alpha \frac{\partial \mathcal{L}(\hat y, y)}{\partial W} \\[12pt]
b &= b - \alpha \frac{\partial \mathcal{L}(\hat y, y)}{\partial b}
\end{aligned}}$$

де $\alpha$ &mdash; швидкість навчання (крок навчання).

# Імпортупвання бібліотек

In [56]:
import numpy as np # numerical python library for calculus
from PIL import Image # image processing in python with Pillow
import requests # library for obtaining the requested data from the specific server
from matplotlib import pyplot as plt # library for creating static, animated, and interactive visualizations in Python
from sklearn import datasets
from sklearn.model_selection import train_test_split

np.random.seed(1) # makes the random numbers predictable

# Завантажєння датасету та [breast_cancer](https://scikit-learn.org/0.21/modules/generated/sklearn.datasets.load_breast_cancer.html) та перегляд повного опису набору

In [58]:
df = datasets.load_breast_cancer()
print(df.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

# Ознаки

In [62]:
list(df.feature_names)

['mean radius',
 'mean texture',
 'mean perimeter',
 'mean area',
 'mean smoothness',
 'mean compactness',
 'mean concavity',
 'mean concave points',
 'mean symmetry',
 'mean fractal dimension',
 'radius error',
 'texture error',
 'perimeter error',
 'area error',
 'smoothness error',
 'compactness error',
 'concavity error',
 'concave points error',
 'symmetry error',
 'fractal dimension error',
 'worst radius',
 'worst texture',
 'worst perimeter',
 'worst area',
 'worst smoothness',
 'worst compactness',
 'worst concavity',
 'worst concave points',
 'worst symmetry',
 'worst fractal dimension']

# Мітки

In [60]:
list(df.target_names)

['malignant', 'benign']

In [63]:
classes = {0 : 'malignant', 1 : 'benign'}

### Перегляд міток для кількох прикладів з набору

In [66]:
df.target[[0, 10, 90]]

array([0, 0, 1])

In [67]:
[classes[i] for i in df.target[[0, 10, 90]]]

['malignant', 'malignant', 'benign']

In [68]:
X, y = df.data, df.target

In [69]:
# Split the data into a training and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

print(f'Shape X_train: {X_train.shape}')
print(f'Shape y_train: {y_train.shape}')
print(f'Shape X_test: {X_test.shape}')
print(f'Shape y_test: {y_test.shape}')


Shape X_train: (455, 30)
Shape y_train: (455,)
Shape X_test: (114, 30)
Shape y_test: (114,)


In [70]:
n_samples, n_features = X_train.shape

---
# Завдання

Розглянемо задачу бінарної класифікації зображень: кіт (1) або собака (0). Оскільки на нашому зображенні, яке ми будемо використовувати у якості навчального прикладу для логістичної регресії знаходиться собака, створимо відповідну мітку:

### Крок 0: Ініціалізувати ваги та зсув

In [87]:
# TODO
def parameters_inititalization(m):
  """
  Ця функція ініціалізує вектор-рядок випадкових дійсних значень ваг форми (1, m), отриманих з нормального розподілу та зсув (довільне дійсне значення)

  Параметри:
  m -- кількість вхідних ознак для кожного навчального прикладу

  Повертає:
  W -- вектор-рядок ваг форми (1, m)
  b -- зсув (скаляр)
  """

  # BEGIN_YOUR_CODE
  raise Exception("Not implemented yet")
  # END_YOUR_CODE

In [88]:
W, b = parameters_inititalization(n_features)

In [89]:
W

array([-0.69166075, -0.39675353, -0.6871727 , -0.84520564, -0.67124613,
       -0.0126646 , -1.11731035,  0.2344157 ,  1.65980218,  0.74204416,
       -0.19183555, -0.88762896, -0.74715829,  1.6924546 ,  0.05080775,
       -0.63699565,  0.19091548,  2.10025514,  0.12015895,  0.61720311,
        0.30017032, -0.35224985, -1.1425182 , -0.34934272, -0.20889423,
        0.58662319,  0.83898341,  0.93110208,  0.28558733,  0.88514116])

In [90]:
W.shape

(30,)

In [91]:
b

0.0

## Крок 1 та 2

### Крок 1: Обчислити лінійну комбінацію вхідних ознак та ваг, включаючи зсув

### Крок 2: Застосувати нелінійну функцію активації (сигмоїду) до отриманого значення з крок 1

In [98]:
# TODO
def forwardPropagate(X, W, b):
  """
  Ця функція обчислює лінійну комбінацію вхідних ознак та ваг, включаючи зсув і знаходить активаційне значення сигмоїди

  Параметри:
  X -- вхідний вектор стовпець (у нашому випадку - це чорнобіле зображення собаки) форми (n_samples, n_features)
  W -- вектор-рядок ваг моделі форми (1, n_features)
  b -- зсув моделі (скаляр)

  Повертає:
  z -- загальна зважена сума вхідних ознак, включаючи зсув
  y_hat -- активаційне значення сигмоїди
  """

  # BEGIN_YOUR_CODE
  raise Exception("Not implemented yet")
  # END_YOUR_CODE

In [99]:
z, y_hat = forwardPropagate(X_train, W, b)

  y_hat = 1 / (1 + np.exp(-z))


In [100]:
z

array([-1489.2706883 , -1776.23793373,  -417.29910191,  -714.51295065,
        -700.38701354, -1003.22551612,  -880.03161094, -1799.29389153,
       -1894.31587838,  -696.29273521,  -803.01097395, -2551.94273275,
       -1125.55108622, -1265.12571985, -1956.59999823, -1749.95594395,
        -743.03255714, -1121.22976625,  -734.22706256, -1657.27959155,
        -569.97230356, -1208.58730958, -1431.61110213, -1139.00080309,
        -637.81369434, -1061.11549829, -1087.70682492, -1654.11964578,
        -690.10554874, -1138.74058509, -1036.97622052, -1131.39387456,
        -532.55795812,  -693.02615825,  -667.10005223, -1249.91920729,
        -729.7619246 ,  -605.22469396,  -974.04972691,  -710.93917935,
       -1034.82900795,  -832.50679995,  -979.37481564,  -824.08082091,
        -878.99295349,  -480.17304314,  -912.06692861,  -788.50706563,
        -669.3653252 , -1171.94379298,  -643.95249634,  -777.64070768,
       -1631.64361513, -1770.8038963 , -1273.30755139,  -790.40022035,
      

In [101]:
y_hat

array([0.00000000e+000, 0.00000000e+000, 5.87899020e-182, 0.00000000e+000,
       6.69552785e-305, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 4.01705066e-303, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       2.91188171e-248, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       1.00237924e-277, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       1.95419659e-300, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       5.16437174e-232, 1.05332807e-301, 1.91482213e-290, 0.00000000e+000,
       0.00000000e+000, 1.42644523e-263, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 2.90734791e-209, 0.00000000e+000, 0.00000000e+000,
       1.98761784e-291, 0.00000000e+000, 2.16264001e-280, 0.00000000e+000,
       0.00000000e+000, 0

In [102]:
y_hat.shape

(455,)

### Крок 3: Обчислити усереднену втрату на всьому навчальному наборі даних. Цільова функція

У нашому випадку ми розглядаємо пряме та зворотне поширення для одного навчального прикладу (зображення).

In [None]:
# TODO
def cost(n, y_hat, y_true):
  """
  Ця функція обчислює усереднену втрату для задачі бінарної класифікації на всьому навчальному наборі даних

  Параметри:
  n -- загальна кількість навчальних прикладів (у нашому випадку - це  одне чорнобіле зображення собаки)
  y_hat -- активаційне значення сигмоїди (прогноз логістичної регресії)
  y_true -- істинний клас зображення (очікувана мітка прогнозу)

  Повертає:
  J --  усереднена втрата моделі для задачі бінарної класифікації на всьому навчальному наборі даних
  """

  # BEGIN_YOUR_CODE
  J = (- 1 / n) * np.sum(y_true * np.log(y_hat) + (1 - y_true) * (np.log(1 - y_hat)))
  return J
  raise Exception("Not implemented yet")
  # END_YOUR_CODE

In [97]:
J = cost(n_samples, y_hat, y_train)
J

  J = (- 1 / n) * np.sum(y_true * np.log(y_hat) + (1 - y_true) * (np.log(1 - y_hat)))
  J = (- 1 / n) * np.sum(y_true * np.log(y_hat) + (1 - y_true) * (np.log(1 - y_hat)))


nan

### Крок 4: Розрахувати градієнти цільвої функції відносно ваг та зсуву

In [None]:
# TODO
def backwardPropagate(n, X, y_hat, y_true):
  """
  Ця функція обчислює градієнти цільвої функції відносно ваг та зсуву

  Параметри:
  n -- загальна кількість навчальних прикладів (у нашому випадку - це  одне чорнобіле зображення собаки)
  X -- вхідний вектор стовпець (у нашому випадку - це чорнобіле зображення собаки) форми (n_features, 1)
  y_hat -- активаційне значення сигмоїди (прогноз логістичної регресії)
  y_true -- істинний клас зображення (очікувана мітка прогнозу)

  Повертає:
  dW --  градієнт цільової функції відносно ваг моделі
  db -- градієнт цільової функції відносно зсуву моделі
  """

  # BEGIN_YOUR_CODE
  raise Exception("Not implemented yet")
  # END_YOUR_CODE

In [None]:
dW, db = backwardPropagate(1, X_train, y_hat, y_train)

In [None]:
dW.shape

In [None]:
db

In [None]:
db.shape

### Крок 5: Оновити ваги та зсув

In [None]:
# TODO
def update(alpha, dW, db, W, b):
  """
  Ця функція оновлює навчальні параметри моделі (ваги та зсув ) у напрямку мінімізації цільової функції

  Параметри:
  alpha -- швидкість  навчання (крок навчання)
  dW --  градієнт цільової функції відносно ваг моделі
  db -- градієнт цільової функції відносно зсуву моделі
  W -- вектор-рядок ваг моделі форми (1, n_features)
  b -- зсув моделі (скаляр)

  Повертає:
  W -- оновлений вектор-рядок ваг моделі форми (1, n_features)
  b -- оновлений зсув моделі (скаляр)
  """


  # BEGIN_YOUR_CODE
  raise Exception("Not implemented yet")
  # END_YOUR_CODE

In [None]:
W, b = update(0.0001, dW, db, W, b)

In [None]:
W

In [None]:
b

In [None]:
class LogisticRegression:

  def __init__(self):
      pass
  def train_model(self, X, y, alpha=0.01, n_iters=100):
    """
    Trains a logistic regression model using gradient descent
    """
    # Step 0: Initialize the parameters
    n_features, n_samples = X.shape
    self.W, self.b = parameters_inititalization(n_features)
    costs = []
    for i in range(n_iters):
      # Step 1: Compute a linear combination of the input features and weights
      z, y_hat = forwardPropagate(X_train, self.W, self.b)
      # Step 2: Compute cost over training set
      J = cost(n_samples, y_hat, y_train)
      costs.append(J)
      if i % 20 == 0:
        print(f"Усереднена втрата моделі на ітерації {i}: {J}")
      # Step 3: Compute the gradients
      dW, db = backwardPropagate(n_samples, X_train, y_hat, y_train)
      # Step 4: Update the parameters
      self.W, self.b = update(alpha, dW, db, self.W, self.b)
    return self.W, self.b, costs