## Логистическая регрессия

В этом практическом задании три обязательных и одна дополнительная задача. 
<br>
*Обязательные задачи* помогут проверить, что вы действительно усвоили материал. Если у вас всё получилось, можете переходить к следующей теме.
<br>
*Дополнительная задача* для тех, кто хочет потренироваться в подготовке данных для обучения модели. 
<br>
Удачи!

Цели практического задания: 

1.   Научиться пользоваться моделью логистической регрессии.
2.   Потренироваться в обучении модели с фичами разного типа.
3.   Научиться получать вероятности на выходе из логистической регрессии.




Мы будем решать задачу по прогнозированию вероятности инсульта у пациента на основе его входных параметров.

По данным Всемирной организации здравоохранения, инсульт является второй ведущей причиной смерти в мире, на его долю приходится примерно 11% от общего числа смертей. Именно поэтому раннее прогнозирование возникновения инсульта у пациента является актуальной для здравоохранения задачей.


Описание данных: 

*gender*: пол;

*age*: возраст;

*hypertension*: страдает ли пациент гипертонией;

*heart_disease*: есть ли болезни сердца;

*ever_married*: был ли женат/замужем;

*work_type*: тип работы;

*Residence_type*: проживает в городе или селе;

*avg_glucose_level*: средний уровень глюкозы;

*bmi*: индекс массы тела;

*smoking_status*: информация о курении;

*stroke*: целевая переменная — был инсульт или нет.

## Обязательные задачи

In [179]:
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import OneHotEncoder

In [110]:
df = pd.read_csv("E:/Sunkar/interesting/Python/data/stroke_data.csv",sep=',')
print(df.shape)
df.head()

(4000, 11)


Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,Male,73,0,0,1,Private,1,143.509078,29.160236,formerly smoked,1
1,Female,49,0,0,1,Private,0,85.23,25.4,Unknown,0
2,Male,58,0,0,1,Private,0,197.174377,34.870606,formerly smoked,1
3,Female,69,0,0,1,Self-employed,1,99.68,17.6,formerly smoked,0
4,Male,60,0,0,1,Private,0,69.2,30.9,never smoked,0


**Задача 0. Первая модель логистической регрессии**

Воспроизведите обучение модели логистической регрессии из видео. Для этого:
- поделите данные из df на треин и тест в отношении 70/30;
- инициализируйте модель логистической регрессии с дефолтными параметрами;
- обучите модель на одной колонке из тренировочных данных: `age`;
- сделайте предсказание для тестовых данных и посчитайте значение метрики точности, а также выведите confusion matrix.

In [111]:
# Ваш код здесь
x_train,t_test=train_test_split(df,test_size=0.3,random_state=42)
log_reg=LogisticRegression()
log_reg.fit(x_train[['age']],x_train[['stroke']])
pred_value=log_reg.predict(t_test[['age']])
print(accuracy_score(t_test[['stroke']],pred_value))
confusion_matrix(t_test[['stroke']],pred_value)

0.7683333333333333


  y = column_or_1d(y, warn=True)


array([[448, 156],
       [122, 474]], dtype=int64)

**Задача 1. Логистическая регрессия на количественных и бинарных фичах**

Попробуйте обучить логистическую регрессию, добавив в нее остальные количественные фичи. Для этого проделайте следующее:
- найдите количественные фичи (это фичи, которые могут принимать любые числовые значения, количество их возможных значений НЕ конечно);
- обучите на них модель логистической регрессии, и замерьте качество;
- добавьте все бинарные фичи в обучение (бинарные фичи — те, которые могут принимать только два значения);
- обучите на них модель логистической регрессии и замерьте качество.


*Заметка:* обратите внимание на колонку `gender`. В ней есть одна запись, которая заполнена неверно. Удалите эту запись прежде, чем обучать модели в этом задании.

In [112]:
# Ваш код здесь
for i in range(len(df.gender)):
    if df.gender[i]=='255':
        df=df.drop([i])

In [113]:
df[['gender']].value_counts()

gender
Male      2141
Female    1858
Name: count, dtype: int64

In [114]:
df.columns
df.dtypes
df_copy=pd.get_dummies(df,columns=['gender'],prefix=['gender'])
df_copy

Unnamed: 0,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,gender_Female,gender_Male
0,73,0,0,1,Private,1,143.509078,29.160236,formerly smoked,1,False,True
1,49,0,0,1,Private,0,85.230000,25.400000,Unknown,0,True,False
2,58,0,0,1,Private,0,197.174377,34.870606,formerly smoked,1,False,True
3,69,0,0,1,Self-employed,1,99.680000,17.600000,formerly smoked,0,True,False
4,60,0,0,1,Private,0,69.200000,30.900000,never smoked,0,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...
3995,40,0,0,0,Govt_job,1,197.110000,23.900000,never smoked,0,False,True
3996,64,0,0,1,Self-employed,0,114.000886,32.598340,formerly smoked,1,False,True
3997,80,0,1,1,Private,0,67.464694,22.728583,formerly smoked,1,False,True
3998,41,0,0,1,Private,1,80.720000,34.100000,smokes,0,True,False


In [115]:
feat_value=[]
for i in range(len(df_copy.dtypes)):
    if str(df_copy.dtypes.values[i])!='object':
        if str(df_copy.dtypes.index[i])!='stroke':
            feat_value.append(str(df_copy.dtypes.index[i]))
feat_value

['age',
 'hypertension',
 'heart_disease',
 'ever_married',
 'Residence_type',
 'avg_glucose_level',
 'bmi',
 'gender_Female',
 'gender_Male']

In [126]:
x_train,t_test=train_test_split(df_copy,test_size=0.3,random_state=42)
log_reg2=LogisticRegression()
log_reg2.fit(x_train[feat_value],x_train[['stroke']])
pred_value=log_reg2.predict(t_test[feat_value])
print(accuracy_score(t_test[['stroke']],pred_value))
confusion_matrix(t_test[['stroke']],pred_value)

0.8066666666666666


  y = column_or_1d(y, warn=True)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


array([[470, 115],
       [117, 498]], dtype=int64)

**Задача 2. Предсказание вероятностей с помощью логистической регрессии**

Проверьте, что алгоритм логистической регрессии использует порог=0.5 для предсказания классов. Для этого проделайте следующее:

- Возьмите последнюю обученную модель на бинарных и количественных фичах из предыдущего задания и предскажите вероятности для тестовой выборки с помощью метода `predict_proba`.
- Также с помощью этой обученной модели предскажите классы для тестовой выборки и положите в `pred`.
- Сохраните вероятности в отдельную переменную `pred_probs`.
- Напишите функцию `predict_class(pred_probs, trsh)`, которая пробегает по всем элементам в `pred_probs` и на выходе отдаёт список сформированных из вероятностей классов. Функция должна пробегать по всем элементам в `pred_probs`. Если видит значение вероятности в классе 0 больше trsh (в данном случае 0.5) возвращается класс 1, в противном случае — 0.
- Примените функцию `predict_class` к `pred_probs`. Результат сохраните в `pred_class`.
- Убедитесь, что векторы `pred_class` и  `pred` совпали.
- Попробуйте другие значения порога `trsh` для предсказания класса. Какое значение `trsh` даёт увеличение точности на текущей тестовой выборке?


In [163]:
# Ваш код здесь
pred_proba=log_reg2.predict_proba(t_test[feat_value])
pred_proba
def predict_class(pred_probs,trsh=0.6):
    return [0 if x[0]>trsh else 1 for x in pred_probs]
pred_class=predict_class(pred_proba)

accuracy_score(t_test[['stroke']],pred_class)

0.8166666666666667

## Дополнительные задачи

Добавьте в обучение модели оставшиеся категориальные фичи. Обучите модель логистической регрессии на всех данных, проверьте её качество.

In [190]:
# Ваш код здесь
oe_style = OneHotEncoder()
oe_result=oe_style.fit_transform(df_copy[['work_type','smoking_status']])
pd.DataFrame(oe_result.toarray(), columns=oe_style.categories_).head()

ValueError: all arrays must be same length

In [171]:
feat_value=[]
for i in range(len(df_copy2.dtypes)):
    if str(df_copy2.dtypes.values[i])!='object':
        if str(df_copy2.dtypes.index[i])!='stroke':
            feat_value.append(str(df_copy2.dtypes.index[i]))
feat_value

['age',
 'hypertension',
 'heart_disease',
 'ever_married',
 'Residence_type',
 'avg_glucose_level',
 'bmi',
 'gender_Female',
 'gender_Male',
 'work_type_Govt_job',
 'work_type_Never_worked',
 'work_type_Private',
 'work_type_Self-employed',
 'work_type_children',
 'smoking_status_Unknown',
 'smoking_status_formerly smoked',
 'smoking_status_never smoked',
 'smoking_status_smokes']

In [174]:
x_train,t_test=train_test_split(df_copy2,test_size=0.3,random_state=42)
log_reg3=LogisticRegression()
log_reg3.fit(x_train[feat_value],x_train[['stroke']])
pred_value=log_reg3.predict(t_test[feat_value])
print(accuracy_score(t_test[['stroke']],pred_value))
confusion_matrix(t_test[['stroke']],pred_value)

0.82


  y = column_or_1d(y, warn=True)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


array([[479, 106],
       [110, 505]], dtype=int64)

-

-

-

-

-

In [None]:
# Решение (Задача 0)
x = df.drop(['stroke'], axis=1)
y = df.stroke

train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=42)


logreg = LogisticRegression()
train_cols = ['age']
logreg.fit(train_x[train_cols], train_y)

pred = logreg.predict(test_x[train_cols])
accuracy_score(test_y, pred)

0.7683333333333333

In [None]:
confusion_matrix(test_y, pred)

array([[448, 156],
       [122, 474]])

-

-

-

In [None]:
# Решение (Задача 1)
df.gender.value_counts()

Male      2141
Female    1858
255          1
Name: gender, dtype: int64

In [None]:
df = df[df.gender !='255']
x = df.drop(['stroke'], axis=1)
y = df.stroke

In [None]:
df.gender = df.gender.replace({'Male': 1, 'Female': 0})
df.gender.value_counts()

1    2141
0    1858
Name: gender, dtype: int64

In [None]:
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=42)

num_cols = ['age', 'bmi', 'avg_glucose_level']
logreg.fit(train_x[num_cols], train_y)

pred = logreg.predict(test_x[num_cols])
accuracy_score(test_y, pred)

0.7766666666666666

In [None]:
confusion_matrix(test_y, pred)

array([[439, 146],
       [122, 493]])

In [None]:
binary_cols = ['gender', 'hypertension', 'heart_disease', 'ever_married','Residence_type']
logreg.fit(train_x[num_cols + binary_cols], train_y)

pred = logreg.predict(test_x[num_cols + binary_cols])
accuracy_score(test_y, pred)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


0.8075

In [None]:
confusion_matrix(test_y, pred)

array([[470, 115],
       [116, 499]])

-

-

-

In [None]:
# Решение (Задача 2)
logreg = LogisticRegression()

logreg.fit(train_x[num_cols + binary_cols], train_y)
pred = logreg.predict(test_x[num_cols + binary_cols])
pred_probs = logreg.predict_proba(test_x[num_cols + binary_cols])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
def predict_class(pred_probs, trsh=0.5):
  return [0 if x[0]>trsh else 1 for x in pred_probs]

In [None]:
pred_class = predict_class(pred_probs)

In [None]:
list(pred) == pred_class

True

In [None]:
# тут могут быть разные значения trsh
pred_class = predict_class(pred_probs, 0.6)
accuracy_score(test_y, pred_class)

0.815

Замечание: манипулировать порогом нужно осторожно. Если вы выбрали новое значение порога, например = 0.6, убедитесь, что на тренировочной выборке этот порог также даёт прирост в качестве модели. Иначе вы просто «подгоните» порог для своих текущих тестовых данных.

-

-

-

In [None]:
# Решение (Дополнительная задача)
cat_cols = ['smoking_status', 'work_type']

In [None]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(handle_unknown='ignore')
train_enc = pd.DataFrame(ohe.fit_transform(train_x[cat_cols]).toarray(),)
test_enc = pd.DataFrame(ohe.transform(test_x[cat_cols]).toarray(),)

train_enc.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
3,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [None]:
train_x = train_x.join(train_enc.set_index(train_x.index)).drop(cat_cols, axis=1)
test_x = test_x.join(test_enc.set_index(test_x.index)).drop(cat_cols, axis=1)
train_x.head()

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,Residence_type,avg_glucose_level,bmi,0,1,2,3,4,5,6,7,8
1830,1,61,1,1,0,0,148.24,32.2,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3392,1,74,1,0,1,0,194.779099,30.827056,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
3624,1,80,0,0,1,1,73.479402,24.190924,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
1954,0,73,0,0,1,0,98.34,30.9,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1037,1,80,0,0,1,1,248.408053,29.305082,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [None]:
logreg.fit(train_x, train_y)
pred = logreg.predict(test_x)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
accuracy_score(test_y, pred)

0.8241666666666667

In [None]:
confusion_matrix(test_y, pred)

array([[482, 103],
       [108, 507]])