<a href="https://colab.research.google.com/github/demyanchuk-nestor/AI_for_Medical_Treatment/blob/master/Week-1/UKR_25_C3W1_L3_Logistic_Regression_Model_Interpretation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!git clone https://github.com/demyanchuk-nestor/AI_for_Medical_Treatment
%cd 'AI_for_Medical_Treatment/Week-1'

## AI for Medicine Course 3 Week 1 lecture notebook
## Інтерпретація моделі логістичної регресії

У вправі Ви розглянете, як інтерпретувати коефіцієнти в моделі логістичної регресії.
 - Логістична регресія вважається **узагальненою лінійною моделлю**.
 - Загалом, одну з цих моделей можна використати для інтерпретації зв’язку між змінними.
 - Логістичну регресію можна інтерпретувати з точки зору **шансів** та **OR** (відношення шансів), про які ви дізнаєтесь тут.

### Імпорт бібліотек

In [None]:
# Import libraries that you will use in this notebook
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression

### Завантажкння даних

In [None]:
# Read in the data
data = pd.read_csv("dummy_data.csv", index_col=0)

# View a few rows of the data
data.head()

Опис усіх полів навчального датасету:

- `sex - стать (бінарний): 1, якщо чоловік, 0, якщо жінка`
- `age - вік (ціле): вік пацієнта на початку дослідження`
- `obstruct - обструкція (бінарна): обструкція товстої кишки пухлиною`
- `outcome - результат (бінарний): 1, якщо пацієнт помер протягом 5 років`
- `TRTMT - лікування (бінарний): якщо пацієнт отримував лікування`

Стовпці «TRTMT» і «результат» містять інформацію для дослідження:
- `TRTMT`: чи є лікування ефективним і наскільки воно ефективне для конкретних пацієнтів, - те, що нам цікаво визначити за допомогою рандомізованого клінічного дослідження.
- `outcome`: Щоб оцінити ефективність лікування, ви матимете 5-річну виживаність. Це зберігається в змінній результату, яка є двійковою змінною з двома можливими значеннями. 1 означає, що пацієнт помер, а 0 означає, що пацієнт не помер протягом 5-річного періоду.

### Логістична регресія

Логістичну регресію добре використовувати для завдань бінарної класифікації, тобто коли на виході потрібно отримати відповідь, до якого з двох класів належить об'єкт. Логістична функція перетворює будь-яке значення в число в межах від 0 до 1. Так і передбачається ймовірність належності до одного чи другого класу. Наприклад, якщо застосування логістичної функції повертає 0,85, то це означає, що вхідні дані генерують позитивний клас, присвоюючи його класу 1. І навпаки – до класу 0, якщо він отримав таке значення, як 0,4 або більш загально <0,5 .
З погляду математики, логістична регресія - це статистичний інструмент, спрямований на моделювання біноміального результату з однією або кількома пояснювальними змінними.
До недоліків логістичної регресії можна віднести залежність від набору даних та низьку стійкість до помилок.
Формула для обчислення логістичної регресії має такий вигляд:

$$\sigma(\theta^T x^{(i)}) = \frac{1}{1 + e^{\left(-\theta^T x^{(i)}\right)}},$$

$x^{(i)}$ відноситься до прикладу 'i' (конкретного пацієнта або, як правило, одного рядка в таблиці даних).

$\theta^T x^{(i)} = \sum_{j} \theta_j x^{(i)}_j$ є лінійною комбінацією ознак $x_1^{(i)}$, $x_2^{(i)}$, $x_2^{(i)}$ тощо, зважених коефіцієнтами $\theta_1$, $\theta_2$, $\theta_3$ тощо.

Отже, для цього прикладу, $\theta^T x^{(i)} = \theta_{TRTMT} x^{(i)}_{TRTMT} + \theta_{AGE}x_{AGE}^{(i)} + \theta_{SEX}x^{(i)}_{SEX}$

Крім того, $\sigma$ є сигмоподібною функцією, визначеною як $\sigma(a) = \frac{1}{1 + e^{(-a)}}$ для деякої змінної $a$.  Результат сигмоїдної функції коливається від 0 до 1, тому це корисно. у представленні ймовірностей (значення яких також коливаються від 0 до 1).

Якщо $x^{(i)}$ є вхідним вектором, а $OUTCOME$ є цільовою змінною, тоді $\sigma(\theta^T x^{(i)})$ моделює ймовірність смерті протягом 5 років.

Наприклад, якщо дані мають три характеристики, $TRTMT$, $AGE$, та $SEX$, тоді ймовірність смерті пацієнта оцінюється за:

$$Prob(OUTCOME=1) = \sigma(\theta^T x^{(i)}) = \frac{1}{1 + e^{\left(-\theta_{TRTMT} x^{(i)}_{TRTMT} - \theta_{AGE}x_{AGE}^{(i)} - \theta_{SEX}x^{(i)}_{SEX}\right)}}$$

### Підбір  моделі регресії

Розділимо дані на цільову змінну та функції та підберемо до них логістичну регресію. Зауважте, що в цьому випадку ви **не розділяєте дані на тренувальні та тестові набори**, оскільки вас цікавить **інтерпретація моделі**, а не її прогнозні можливості.

In [None]:
# Get the labels
y = data.outcome

# Get the features (exclude the label)
X = data.drop('outcome', axis=1)

# Fit the logistic regression on the features and labels
classifier = LogisticRegression(solver='lbfgs').fit(X, y)

### Шанси (Odds)
Дивлячись на базове рівняння, ми не можемо інтерпретувати модель так само, як звичайну лінійну регресію:
- За допомогою лінійної регресії, наприклад $y = 2x$ якщо $x$ iзбільшується на 1 одиницю, то $y$ збільшується на 2 одиниці.
- Як інтерпретувати коефіцієнт моделі логістичної регресії, що містить сигмоїдну функцію?

Введемо поняття **шансів (odds)**, щоб побачити, як це допоможе в інтерпретації логістичної регресії.

Якщо результат є двійковим (подія або відбувається, або не відбувається):
- Нехай $p$ представляє ймовірність події (наприклад, смерті пацієнта).
- Нехай $1-p$ представляє ймовірність того, що подія не відбудеться (пацієнт вижив).
- Шанс (odds) — це ймовірність події, поділена на 1 мінус імовірність події:

$$\mathrm{odds} = \frac{p}{1-p}$$

Повертаючись до логістичної регресії, нагадаємо, що сигмоїдна функція $\sigma$ коливається між 0 і 1, тому це корисна функція для представлення ймовірності.

- Отже, нехай $p$, ймовірність події, оцінюється за допомогою $\sigma(\theta^T x^{(i)})$.

**Шанси**, визначені в термінах ймовірності події $p$ такі:

$$\mathrm{odds} = \frac{p}{1 - p}$$

Підставляємо $p = \sigma(\theta^T x^{(i)})$ щоб отримати:
$$\mathrm{odds} = \frac{\sigma(\theta^T x)}{1 - \sigma(\theta^T x)}$$

Замінимо визначення сигмоіда: $\sigma(\theta^T x^{(i)}) = \frac{1}{1 + e^{(-\theta^T x)}}$ І отримаємо
$$\mathrm{odds} = \frac{\frac{1}{1 + e^{(-\theta^T x)}}}{1 - \frac{1}{1 + e^{(-\theta^T x)}}} $$

Помножимо верх і низ на $1 + e^{(-\theta^T x)}$ і спростимо, щоб отримати:
$$\mathrm{odds} = \frac{1}{\left ( 1 + e^{(-\theta^T x)} \right)  - (1)}$$

Після подальшого спрощення отримаємо:
$$\mathrm{odds} = e^{\left(\theta^T x^{(i)}\right)}$$

Що означає цей вираз?
- Шанси (ймовірність смерті, поділена на ймовірність не смерті) можна оцінити за допомогою ознак та їхніх коефіцієнтів, якщо взяти скалярний добуток коефіцієнтів і ознак, а потім піднести цей скалярний добуток до степеня (перевести e до степеня скалярного добутку).

Оскільки працювати з експоненціальним значенням є некомфортним, можна виконати одне додаткове перетворення, щоб позбутися експоненціальності.

### Logit

Функція, обернена до степеня, є натуральним логарифмом
- $\mathrm{log}(e^{a}) = a$
- $e^{(\mathrm{log}(a))} = a$

Отже, якщо необхідно "видалити" експоненту e, - можна застосувати функцію натурального логарифму (запишемо як $\mathrm{log}$Математично коректний запис це, звичайно, $\mathrm{ln}$, але тут буде застосовано саме $\mathrm{log}$ оскільки в практичній частині буде використовуватися Colab notebook та мова Python, в якій натуральний логарифм позначено саме функцією `log()`.

Зауважте, що логарифм шансів визначається як функція **logit**:
$$\mathrm{logit}(a) = \mathrm{log}\frac{a}{1-a}$$

Застосуємо $\mathrm{log}()$ до коефіцієнтів:

$$\text{logit} = \log(\text{odds}) = \log\left(\frac{p}{1 - p}\right)= \log\left( e^{\left(\theta^T x^{(i)}\right)}\right) = \theta^T x^{(i)}$$

Отже, отримуємо:
- Права частина цього рівняння тепер є зваженою сумою ознак у $x^{(i)}$, зваженою за допомогою коефіцієнтів у $\theta^T$.


### Інтерпретація впливу коефіцієнтів на логіт

Інтерпретацію моделі покращено. Тепер можна інтерпретувати кожен коефіцієнт $\theta_j$ подібно до того, як інтерпретуються коефіцієнти у звичайній лінійній регресії.

Маленький приклад. Припустимо, коефіцієнт для віку становить 0,2, пацієнт А має вік=40, а логіт для пацієнта А дорівнює 3.
$$\text{logit} = \theta_{age} \times x_{age} + \cdots $$

Пацієнт А (зараз)  
$$ 3 = \theta_{age} \times 40 + \cdots $$

Якщо ви збільшуєте вік пацієнта А на 1 рік, то це збільшує логіт на 0,2 (це коефіцієнт для віку).  
Пацієнт (старше на рік):
$$ 3 + 0.2 = 0.2 \times (40 + 1) + \cdots $$



### Діапазон можливих значень логіту
Приємною особливістю логіта (логарифму шансів) є діапазон можливих значень, які він може набувати. $\mathrm{logit}$ -функція може бути будь-яким дійсним числом від $-\infty$ та $+\infty$.

Один із способів побачити це — поглянути на діапазони значень для сигмоіда, шанси, а потім логіту.
- Сигмоїда $\sigma(a)$ коливається від 0 до 1 для змінної $a$. Пам’ятайте, що ми припустили що $p = \sigma(a)$
- Шанси (odds) $\frac{p}{1-p}$ можуть бути такими малими, як 0 (коли $p=0$) і і великими як $+\infty$ (коли $p \rightarrow \infty$). Таким чином, шанси коливаються від 0 до $+\infty$.
- $\mathrm{log}(\mathrm{odds})$ може коливатися від $-\infty$ коли шанси дорівнюють 0), до $+\infty$ (коли шанси наближаються до $+\infty$).  
- Отже, діапазон логарифмічних шансів становить від $-\infty$ до $+\infty$

Щоб перевірити коефіцієнти моделі, ви можете використовувати атрибут `coef_ attribute`.

In [None]:
# Get the coefficients (the thetas, or weights for each feature)
thetas = classifier.coef_
thetas

Це поверне масив numpy, що містить коефіцієнт для кожної змінної функції. Надрукуємо це зручніше:

In [None]:
# Print the name of the feature and the coefficient for each feature
for i in range(len(X.columns)):
    print("Feature {:<9s}: coefficient = {:<10f}".format(X.columns[i], thetas[0, i]))

Коефіцієнт віку `0,046`. Це означає, що коли вікова змінна (`age`) збільшується на одиницю, логіт збільшиться на `0,046`.

### Відношення шансів

Для повного використання інформації, яку надають шанси, існує ще одна дуже корисна концепція: **"Співвідношення шансів" ("Odds Ratio")** (скоротимо як OR).

OR дозволяє порівняти шанси однієї ситуації з іншими (шляхом поділу шансів на шанси інших).

Під час обчислення OR для двійкових змінних воно визначається як шанси, коли змінна дорівнює 1, поділені на шанси, коли змінна дорівнює 0. Наприклад:

$$OR_{TRTMT} = \frac{\text{odds}(TRTMT=1)}{\text{odds}(TRTMT=0)}$$

Навпаки, під час обчислення OR для неперервних змінних воно визначається як співвідношення між шансами змінної плюс одна одиниця та шансами змінної. Наприклад:

$$OR_{age} = \frac{\text{odds}(age+1)}{\text{odds}(age)}$$

В обох випадках після застосування відповідної алгебри до формули ви повинні виявити, що **OR** ля змінної дорівнює $e$ у степені пов’язаного з нею коефіцієнта.

$$OR_{x_j} = e^{\theta_j}$$

Давайте спробуємо це зробити для змінної $AGE$:

$$OR_{age} = \frac{odds(age+1)}{odds(age)} = \frac{e^\left(\theta_{INTERCEPT} + \theta_{SEX}x^{(i)}_{SEX} + \theta_{AGE}(1+x_{AGE}^{(i)}) + \theta_{OBSTRUCT}x_{OBSTRUCT}^{(i)} + \theta_{TRTMT} x^{(i)}_{TRTMT}\right)}{e^\left(\theta_{INTERCEPT} + \theta_{SEX}x^{(i)}_{SEX} + \theta_{AGE}x_{AGE}^{(i)} + \theta_{OBSTRUCT}x_{OBSTRUCT}^{(i)} + \theta_{TRTMT} x^{(i)}_{TRTMT}\right)} = e^{\theta_{AGE}}$$

<br>

Ситуація з бінарними змінними досить схожа. Ви можете побачити похідну двійкову змінну `TRTMT` у оцінюваному завданні нижче.

Отже, розрахуємо співвідношенн шансів (OR) для окремих змінних:

### Обчислення співвідношення шансів

In [None]:
# Compute Odds Ratios for each feature
odds_ratios = np.exp(thetas)
odds_ratios

In [None]:
# Display the coefficient and odds ratio for each feature
for i in range(len(X.columns)):
    print("Feature {:<10s}: coefficient = {:<10f} // OR = {:.2f}".format(X.columns[i], thetas[0, i], odds_ratios[0, i]))

### Інтерпретація співвідношення шансів

- Об’єкти з від’ємним коефіцієнтом мають коефіцієнт шансів, менший за 1
- а функції з невід’ємними коефіцієнтами мають OR більше 1.

Негативний коефіцієнт (надане лікування) вказує на те, що функція `TRTMT` знижує результат (зменшує ризик смерті), але непросто інтерпретувати, наскільки значення коефіцієнта `-0,419` фактично знижує ризик смерті.

Однак тепер, коли ви розрахували коефіцієнт шансів `0,66` для `TRTMT`, ви можете інтерпретувати це значення:
- Якщо пацієнт не отримує лікування, припустімо, що його ймовірність смерті дорівнює 2.
- Якщо пацієнт **отримує** лікування, то шанси пацієнта померти становлять $0.66 \times 2$.
- Іншими словами, ймовірність смерті в разі лікування в 0,66 рази перевищує ймовірність смерті без лікування.

Як можна побачити зі співвідношення шансів, наведені дані вказують на те, що наступні ознаки знижує ризик смерті:
- Отримання лікування
- Відсутність непрохідності товстої кишки
- Молодший вік
- Чоловіча стать.

**Підсумок**. Після виконання цієї роботи Ви повинні отримати чіткіше розуміння як інтерпретувати модель логістичної регресії, а також кращу інтуїцію щодо шансів і співвідношення шансів.
