## Логистическая регрессия

В этом практическом задании три обязательных и одна дополнительная задача. 
<br>
*Обязательные задачи* помогут проверить, что вы действительно усвоили материал. Если у вас всё получилось, можете переходить к следующей теме.
<br>
*Дополнительная задача* для тех, кто хочет потренироваться в подготовке данных для обучения модели. 
<br>
Удачи!

Цели практического задания: 

1.   Научиться пользоваться моделью логистической регрессии.
2.   Потренироваться в обучении модели с фичами разного типа.
3.   Научиться получать вероятности на выходе из логистической регрессии.




Мы будем решать задачу по прогнозированию вероятности инсульта у пациента на основе его входных параметров.

По данным Всемирной организации здравоохранения, инсульт является второй ведущей причиной смерти в мире, на его долю приходится примерно 11% от общего числа смертей. Именно поэтому раннее прогнозирование возникновения инсульта у пациента является актуальной для здравоохранения задачей.


Описание данных: 

*gender*: пол;

*age*: возраст;

*hypertension*: страдает ли пациент гипертонией;

*heart_disease*: есть ли болезни сердца;

*ever_married*: был ли женат/замужем;

*work_type*: тип работы;

*Residence_type*: проживает в городе или селе;

*avg_glucose_level*: средний уровень глюкозы;

*bmi*: индекс массы тела;

*smoking_status*: информация о курении;

*stroke*: целевая переменная — был инсульт или нет.

## Обязательные задачи

In [80]:
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler

In [18]:
df = pd.read_csv('stroke_data.csv')
print(df.shape)
df.head()

(4000, 11)


Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,Male,73,0,0,1,Private,1,143.509078,29.160236,formerly smoked,1
1,Female,49,0,0,1,Private,0,85.23,25.4,Unknown,0
2,Male,58,0,0,1,Private,0,197.174377,34.870606,formerly smoked,1
3,Female,69,0,0,1,Self-employed,1,99.68,17.6,formerly smoked,0
4,Male,60,0,0,1,Private,0,69.2,30.9,never smoked,0


**Задача 0. Первая модель логистической регрессии**

Воспроизведите обучение модели логистической регрессии из видео. Для этого:
- поделите данные из df на треин и тест в отношении 70/30;
- инициализируйте модель логистической регрессии с дефолтными параметрами;
- обучите модель на одной колонке из тренировочных данных: `age`;
- сделайте предсказание для тестовых данных и посчитайте значение метрики точности, а также выведите confusion matrix.

In [3]:
# Ваш код здесь
X = df.drop(['stroke'], axis=1)
y = df.stroke
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [4]:
logreg = LogisticRegression()

train_cols = ['age']
logreg.fit(X_train[train_cols], y_train)

In [5]:
y_pred = logreg.predict(X_test[train_cols])

In [6]:
accuracy_score(y_test, y_pred)

0.7683333333333333

In [7]:
confusion_matrix(y_test, y_pred)

array([[448, 156],
       [122, 474]])

**Задача 1. Логистическая регрессия на количественных и бинарных фичах**

Попробуйте обучить логистическую регрессию, добавив в нее остальные количественные фичи. Для этого проделайте следующее:
- найдите количественные фичи (это фичи, которые могут принимать любые числовые значения, количество их возможных значений НЕ конечно);
- обучите на них модель логистической регрессии, и замерьте качество;
- добавьте все бинарные фичи в обучение (бинарные фичи — те, которые могут принимать только два значения);
- обучите на них модель логистической регрессии и замерьте качество.


*Заметка:* обратите внимание на колонку `gender`. В ней есть одна запись, которая заполнена неверно. Удалите эту запись прежде, чем обучать модели в этом задании.

In [22]:
df.shape

(3999, 11)

In [20]:
df = df[df.gender != '255']

In [77]:
# Ваш код здесь
df.head()

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,Residence_type,avg_glucose_level,bmi,stroke,Govt_job,Never_worked,Private,Self-employed,children,formerly smoked,never smoked,smokes
0,1,73,0,0,1,1,143.509078,29.160236,1,0,0,1,0,0,1,0,0
1,0,49,0,0,1,0,85.23,25.4,0,0,0,1,0,0,0,1,0
2,1,58,0,0,1,0,197.174377,34.870606,1,0,0,1,0,0,1,0,0
3,0,69,0,0,1,1,99.68,17.6,0,0,0,0,1,0,1,0,0
4,1,60,0,0,1,0,69.2,30.9,0,0,0,1,0,0,0,1,0


In [44]:
quant_features = ['age', 'avg_glucose_level', 'bmi']

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3999 entries, 0 to 3999
Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   gender             3999 non-null   int64  
 1   age                3999 non-null   int64  
 2   hypertension       3999 non-null   int64  
 3   heart_disease      3999 non-null   int64  
 4   ever_married       3999 non-null   int64  
 5   work_type          3999 non-null   object 
 6   Residence_type     3999 non-null   int64  
 7   avg_glucose_level  3999 non-null   float64
 8   bmi                3999 non-null   float64
 9   smoking_status     3999 non-null   object 
 10  stroke             3999 non-null   int64  
 11  Govt_job           3999 non-null   int64  
 12  Never_worked       3999 non-null   int64  
 13  Private            3999 non-null   int64  
 14  Self-employed      3999 non-null   int64  
 15  children           3999 non-null   int64  
 16  formerly smoked    3999 non-n

In [37]:
df.smoking_status.value_counts()

smoking_status
never smoked       2211
formerly smoked    1079
smokes              709
Name: count, dtype: int64

In [36]:
df.smoking_status = df.smoking_status.apply(lambda x: 'never smoked' if x == 'Unknown' else x)

In [34]:
df[pd.get_dummies(df['work_type']).columns] = pd.get_dummies(df['work_type']).astype('int64')

In [39]:
df[pd.get_dummies(df['smoking_status']).columns] = pd.get_dummies(df['smoking_status']).astype('int64')

In [24]:
df.gender = df.gender.map({'Male': 1, 'Female': 0})

In [42]:
df.drop(['work_type', 'smoking_status'], axis=1, inplace=True)

In [84]:
def train_and_predict(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    logreg = LogisticRegression(max_iter=1000)
    logreg.fit(X_train, y_train)
    y_pred = logreg.predict(X_test)
    print(f'Score: {accuracy_score(y_test, y_pred)}')
    print(f'Confussion Matrix:\n{confusion_matrix(y_test, y_pred)}')

In [85]:
X = df[quant_features]
y = df.stroke

In [86]:
train_and_predict(X, y)

Score: 0.7766666666666666
Confussion Matrix:
[[439 146]
 [122 493]]


In [87]:
# С бинарными фичами

In [88]:
X = df.drop('stroke', axis=1)
y = df.stroke

In [89]:
train_and_predict(X, y)

Score: 0.8116666666666666
Confussion Matrix:
[[478 107]
 [119 496]]


In [90]:
# Выполним стандартизацию показателей
num_cols = ['age', 'avg_glucose_level', 'bmi']

scaler = StandardScaler()

X[num_cols] = scaler.fit_transform(X[num_cols])

In [91]:
train_and_predict(X, y)

Score: 0.8116666666666666
Confussion Matrix:
[[478 107]
 [119 496]]


**Задача 2. Предсказание вероятностей с помощью логистической регрессии**

Проверьте, что алгоритм логистической регрессии использует порог=0.5 для предсказания классов. Для этого проделайте следующее:

- Возьмите последнюю обученную модель на бинарных и количественных фичах из предыдущего задания и предскажите вероятности для тестовой выборки с помощью метода `predict_proba`.
- Также с помощью этой обученной модели предскажите классы для тестовой выборки и положите в `pred`.
- Сохраните вероятности в отдельную переменную `pred_probs`.
- Напишите функцию `predict_class(pred_probs, trsh)`, которая пробегает по всем элементам в `pred_probs` и на выходе отдаёт список сформированных из вероятностей классов. Функция должна пробегать по всем элементам в `pred_probs`. Если видит значение вероятности в классе 0 больше trsh (в данном случае 0.5) возвращается класс 1, в противном случае — 0.
- Примените функцию `predict_class` к `pred_probs`. Результат сохраните в `pred_class`.
- Убедитесь, что векторы `pred_class` и  `pred` совпали.
- Попробуйте другие значения порога `trsh` для предсказания класса. Какое значение `trsh` даёт увеличение точности на текущей тестовой выборке?


In [96]:
# Ваш код здесь
logreg = LogisticRegression()

In [97]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [98]:
logreg.fit(X_train, y_train)

In [102]:
pred_probs = logreg.predict_proba(X_test)
pred_probs

array([[0.89176178, 0.10823822],
       [0.03941957, 0.96058043],
       [0.99796982, 0.00203018],
       ...,
       [0.1837884 , 0.8162116 ],
       [0.15988439, 0.84011561],
       [0.49726844, 0.50273156]], shape=(1200, 2))

In [104]:
pred = logreg.predict(X_test)
pred

array([0, 1, 0, ..., 1, 1, 1], shape=(1200,))

In [111]:
import numpy as np

In [133]:
def predict_class(pred_probs, trsh=0.5):
    return np.array([0 if p[0] > 0.5 else 1 for p in pred_probs ])
    
pred_class = predict_class(pred_probs, 0)

In [134]:
list(pred_class) == list(pred)

True

## Дополнительные задачи

Добавьте в обучение модели оставшиеся категориальные фичи. Обучите модель логистической регрессии на всех данных, проверьте её качество.

In [None]:
# Ваш код здесь

-

-

-

-

-

In [None]:
# Решение (Задача 0)
x = df.drop(['stroke'], axis=1)
y = df.stroke

train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=42)


logreg = LogisticRegression()
train_cols = ['age']
logreg.fit(train_x[train_cols], train_y)

pred = logreg.predict(test_x[train_cols])
accuracy_score(test_y, pred)

0.7683333333333333

In [None]:
confusion_matrix(test_y, pred)

array([[448, 156],
       [122, 474]])

-

-

-

In [None]:
# Решение (Задача 1)
df.gender.value_counts()

Male      2141
Female    1858
255          1
Name: gender, dtype: int64

In [None]:
df = df[df.gender !='255']
x = df.drop(['stroke'], axis=1)
y = df.stroke

In [None]:
df.gender = df.gender.replace({'Male': 1, 'Female': 0})
df.gender.value_counts()

1    2141
0    1858
Name: gender, dtype: int64

In [None]:
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=42)

num_cols = ['age', 'bmi', 'avg_glucose_level']
logreg.fit(train_x[num_cols], train_y)

pred = logreg.predict(test_x[num_cols])
accuracy_score(test_y, pred)

0.7766666666666666

In [None]:
confusion_matrix(test_y, pred)

array([[439, 146],
       [122, 493]])

In [None]:
binary_cols = ['gender', 'hypertension', 'heart_disease', 'ever_married','Residence_type']
logreg.fit(train_x[num_cols + binary_cols], train_y)

pred = logreg.predict(test_x[num_cols + binary_cols])
accuracy_score(test_y, pred)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


0.8075

In [None]:
confusion_matrix(test_y, pred)

array([[470, 115],
       [116, 499]])

-

-

-

In [None]:
# Решение (Задача 2)
logreg = LogisticRegression()

logreg.fit(train_x[num_cols + binary_cols], train_y)
pred = logreg.predict(test_x[num_cols + binary_cols])
pred_probs = logreg.predict_proba(test_x[num_cols + binary_cols])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
def predict_class(pred_probs, trsh=0.5):
  return [0 if x[0]>trsh else 1 for x in pred_probs]

In [None]:
pred_class = predict_class(pred_probs)

In [None]:
list(pred) == pred_class

True

In [None]:
# тут могут быть разные значения trsh
pred_class = predict_class(pred_probs, 0.6)
accuracy_score(test_y, pred_class)

0.815

Замечание: манипулировать порогом нужно осторожно. Если вы выбрали новое значение порога, например = 0.6, убедитесь, что на тренировочной выборке этот порог также даёт прирост в качестве модели. Иначе вы просто «подгоните» порог для своих текущих тестовых данных.

-

-

-

In [None]:
# Решение (Дополнительная задача)
cat_cols = ['smoking_status', 'work_type']

In [None]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(handle_unknown='ignore')
train_enc = pd.DataFrame(ohe.fit_transform(train_x[cat_cols]).toarray(),)
test_enc = pd.DataFrame(ohe.transform(test_x[cat_cols]).toarray(),)

train_enc.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
3,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [None]:
train_x = train_x.join(train_enc.set_index(train_x.index)).drop(cat_cols, axis=1)
test_x = test_x.join(test_enc.set_index(test_x.index)).drop(cat_cols, axis=1)
train_x.head()

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,Residence_type,avg_glucose_level,bmi,0,1,2,3,4,5,6,7,8
1830,1,61,1,1,0,0,148.24,32.2,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3392,1,74,1,0,1,0,194.779099,30.827056,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
3624,1,80,0,0,1,1,73.479402,24.190924,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
1954,0,73,0,0,1,0,98.34,30.9,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1037,1,80,0,0,1,1,248.408053,29.305082,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [None]:
logreg.fit(train_x, train_y)
pred = logreg.predict(test_x)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
accuracy_score(test_y, pred)

0.8241666666666667

In [None]:
confusion_matrix(test_y, pred)

array([[482, 103],
       [108, 507]])