# Логистическая регрессия. Практическая работа

## Цель практической работы

Вы уже делали задание, в котором с помощью метода ближайших соседей оценивали склонность клиента банка откликнуться или не откликнуться на предложение.

В этом практическом задании ваши цели:
*  решить эту же задачу с помощью логистической регрессии;
*  потренироваться в подборе порога; 
*  потренироваться в подборе гиперпараметров модели.

## Что входит в работу

*  Загрузить данные для задачи.
*  Обучить метод ближайших соседей с заданным количеством соседей k, вычислить метрики.
*  Обучить логистическую регрессию с параметрами по умолчанию, вычислить метрики.
*  Подобрать порог модели, вычислить метрики.
*  Подобрать гиперпараметр С (константа регуляризации) модели, вычислить метрики.

## Что оценивается

*  Выполнены все этапы задания: код запускается, отрабатывает без ошибок; подробно и обоснованно написаны текстовые выводы, где это требуется.

## Формат сдачи
Выполните предложенные задания — впишите свой код (или, если требуется, текст) в ячейки после комментариев. 

*Комментарии — это текст, который начинается с символа #. Например: # ваш код здесь.*

Сохраните изменения, используя опцию Save and Checkpoint из вкладки меню File или кнопку Save and Checkpoint на панели инструментов. Итоговый файл в формате .ipynb (файл Jupyter Notebook) загрузите в личный кабинет и отправьте на проверку.

In [129]:
# подключим библиотеки
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings("ignore")

In [130]:
# считаем данные
df = pd.read_csv('8.8 ClientsData.csv')

In [131]:
df.head()

Unnamed: 0,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_DLQ_NUM,TARGET
0,49,1,0,1,2,1,5000.0,1,1,2,0
1,32,1,0,1,3,3,12000.0,1,1,1,0
2,52,1,0,1,4,0,9000.0,2,1,0,0
3,39,1,0,1,1,1,25000.0,1,1,3,0
4,30,1,0,0,0,0,12000.0,2,1,2,0


В этом ноутбуке нам придётся подбирать гиперпараметры модели, а ещё порог. Поэтому, чтобы не переобучиться, разобъём данные на трейн, валидацию и тест.

*  Обучать модели будем на тренировочных данных.
*  Подбирать необходимые величины — по валидации.
*  Оценивать качество — на тесте.

In [132]:
# разделим данные на обучающую и тестовую выборки


X = df.drop('TARGET', axis=1)
y = df['TARGET']

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, train_size=0.7, random_state=42)
Xtrain, Xval, ytrain, yval = train_test_split(Xtrain, ytrain, train_size=0.7, random_state=42)

В задании по методу ближайших соседей было найдено, что оптимальное число соседей k = 9.

Обучите на тренировочных данных KNN с k = 9 и выведите матрицу ошибок, а также значение метрик precision и recall на тестовых данных.

In [133]:
knn_def = KNeighborsClassifier(n_neighbors=9)
knn_def.fit(Xtrain, ytrain)
knn_def_preds_test = knn_def.predict(Xtest)


In [134]:
def show_stats(true, preds):
    print(confusion_matrix(true, preds))
    print('----')
    print(classification_report(true, preds))
    pass

In [135]:
show_stats(ytest, knn_def_preds_test)


[[4002   10]
 [ 551    4]]
----
              precision    recall  f1-score   support

           0       0.88      1.00      0.93      4012
           1       0.29      0.01      0.01       555

    accuracy                           0.88      4567
   macro avg       0.58      0.50      0.47      4567
weighted avg       0.81      0.88      0.82      4567



Какой вывод можно сделать:
- для класса 0 — клиент не откликнулся — мы получили достаточно высокие значения TP в том числе потому, что представителей этого класса больше;
- для класса 1 — клиент откликнулся — мы получили низкие значения TN.

Поэтому значения precision и recall низкие. Модель даёт неудовлетворительные результаты, так как находит мало клиентов, которые откликнутся на предложение.



Обучите логистическую регрессию с параметрами по умолчанию и посмотрите на метрики.

Везде дальше при оценке метрик надо выводить confusion_matrix, precision и recall.

In [136]:
# ваш код здесь
logr_def = LogisticRegression()
logr_def.fit(Xtrain, ytrain)
logr_def_preds_test = logr_def.predict(Xtest)
show_stats(ytest, logr_def_preds_test)


[[4011    1]
 [ 555    0]]
----
              precision    recall  f1-score   support

           0       0.88      1.00      0.94      4012
           1       0.00      0.00      0.00       555

    accuracy                           0.88      4567
   macro avg       0.44      0.50      0.47      4567
weighted avg       0.77      0.88      0.82      4567



Наша цель — найти как можно больше клиентов, которые откликнутся на предложение. А модель таких не находит. 

Мы помним, что метод predict_proba у логистической регрессии предсказывает математические (то есть корректные) вероятности классов. Предскажите вероятности классов с помощью обученной логистической регрессии на тестовых данных и выведите вероятности положительного класса для первых десяти объектов. 

Глядя на полученные вероятности, попробуйте объяснить, почему вы получили именно такую матрицу ошибок и такие значения точности с полноты.

In [137]:
# ваш код здесь
logr_def_probs_test = logr_def.predict_proba(Xtest)
logr_def_probs_test[:10,1:]

array([[0.27613439],
       [0.10138516],
       [0.16529618],
       [0.1672068 ],
       [0.17331688],
       [0.10458224],
       [0.12476572],
       [0.17171685],
       [0.19610211],
       [0.06807623]])

In [138]:
# ваше объяснение здесь
# ремарка - я пишу это по второму кругу, по этому чуть более кратко, тем более, 
# что мои выводы, как выснилось, подтвердились в следующем модуле:)

# 1) главная причина в несбалансированности данных
# 2) едва ли дело в пороге - в среднем порог нужно будет опустить ну ооочень сильно, чтобы он как то влиял на реколл
# т.к. вероятность 'единичек' уж совсем какая то небольшая.
print(logr_def_probs_test[:10,1:].mean())



0.15485825488779661


Давайте уточним цель. Пусть нам нужно найти как можно больше клиентов, которые откликнутся на предложение, то есть максимизировать полноту (recall). 

При этом хочется, чтобы точность модели (precision) не была очень низкой. Заказчик посмотрел на результаты работы KNN и потребовал, чтобы точность была не ниже, чем у KNN: $precision \geq 0.13$.

Давайте будем изменять порог для перевода вероятности в классы так, чтобы:
*   максимизировать значение recall
*   при условии, что $precision \geq 0.13$.

Если мы будем подбирать порог по тестовой выборке, то, по сути, обучимся на ней и, значит, переобучимся. Это плохо. 

Поэтому предскажите вероятности на валидационной выборке и подберите порог по ней (Xval, yval), а затем посмотрите, какое качество для найденного порога вы получите на тестовых данных.

In [139]:
scores = dict()
logr_def_probs_val = logr_def.predict_proba(Xval)# ваш код здесь

max_recall = -1
best_precision = -1
best_thr = -1

for threshold in np.arange(0.04, 1, 0.001):
    
    # для каждого значения порога переведите вероятности в классы
    preds_tuned_thr_val = (logr_def_probs_val[:,1:] > threshold).astype(int)
    
    if precision_score(yval, preds_tuned_thr_val) >= 0.13:
        # посчитайте метрики
        scores[str(threshold)] = {
            'recall': recall_score(yval, preds_tuned_thr_val),
            'precision': precision_score(yval, preds_tuned_thr_val),
            'thr': threshold,
        }

        
for key in scores.keys():
    if scores[key]['recall'] > max_recall:
        max_recall = scores[key]['recall']
        best_precision = scores[key]['precision']
        best_thr = scores[key]['thr']
print(
    'best thr appears to be  ', best_thr,'\n ------'
    )



# напечатайте порог, для которого получается максимальная полнота, при precision >= 0.13

best thr appears to be   0.046000000000000006 
 ------


In [140]:
# по найденному порогу переведите вероятности в классы на тесте и напечатайте метрики

logr_def_probs_test = logr_def.predict_proba(Xtest)       
preds_tuned_thr_test = (logr_def_probs_test[:,1:] >= best_thr).astype(int)#0.046).astype(int)

show_stats(ytest, preds_tuned_thr_test)

[[ 353 3659]
 [  10  545]]
----
              precision    recall  f1-score   support

           0       0.97      0.09      0.16      4012
           1       0.13      0.98      0.23       555

    accuracy                           0.20      4567
   macro avg       0.55      0.53      0.20      4567
weighted avg       0.87      0.20      0.17      4567



Сделайте вывод. Смогли ли мы с помощью подбора порога добиться большего значения recall, чем у KNN? 

In [141]:
show_stats(ytest, knn_def_preds_test)

[[4002   10]
 [ 551    4]]
----
              precision    recall  f1-score   support

           0       0.88      1.00      0.93      4012
           1       0.29      0.01      0.01       555

    accuracy                           0.88      4567
   macro avg       0.58      0.50      0.47      4567
weighted avg       0.81      0.88      0.82      4567



In [142]:
# ваш вывод здесь
# однозначно! все как по правилу, так и по логике - меньше порог -> больше захватываем, как искомых положительных, так 
# и всего остального - FP, как видите - очень высок

А ещё, чтобы улучшить качество предсказания, можно подбирать значение гиперпараметра C у логистической регрессии. Для каждого значения C придётся подбирать свой порог, поэтому:  

1. Обучите для значений C из диапазона [0.05, 0.15, 0.25, ...., 10.05] логистическую регрессию (на тренировочных данных).

2. Для каждой из обученных моделей во внутреннем цикле подберите оптимальный порог (как в предыдущем задании) — на валидационных данных.



В качестве результата выведите значение C и порога для модели, которая даёт наилучшие значения метрик (наибольший recall при ограничении на $precision \geq 0.13$).

Также напечатайте полученные метрики (матрицу ошибок, точность и полноту) для лучшей модели — на тестовых данных.

In [143]:
def sample_df3(df3, total_rows =  200000, neg_percent = 50, pos_percent = 50):
    print( 'sample_df3 start')
    df3_pos = df3[df3['TARGET'] == 1].sample(int(total_rows / 100 * pos_percent))
    df3_neg = df3[df3['TARGET'] == 0].sample(int(total_rows / 100 * neg_percent))
    df3_pos = df3_pos.reset_index()
    df3_neg = df3_neg.reset_index()
    df3_pos = df3_pos.drop('index', axis=1)
    df3_neg = df3_neg.drop('index', axis=1)
    df3 = pd.concat([df3_pos, df3_neg])
    
    print( 'sample_df3 end')
    print('-')      
    #print('-')      
    #print('-') 
    
    return df3

In [148]:
scores = dict()




for current_reg in np.arange(0.05, 1, 0.01): #(0.05, 5.06, 1.0):
    max_recall = -1
    best_precision = -1
    best_thr = -1

    logr_tuned_c = LogisticRegression(C=current_reg)
    logr_tuned_c.fit(Xtrain, ytrain)


    logr_tuned_c_probs_val = logr_tuned_c.predict_proba(Xval)

    scores_interm = dict()

    for threshold in np.arange(0.040, 1, 0.001):#(0.04, 1, 0.001):

        # для каждого значения порога переведите вероятности в классы
        preds_tuned_thr_val = (logr_tuned_c_probs_val[:,1:] > threshold).astype(int)

        if precision_score(yval, preds_tuned_thr_val) >= 0.13:
            # посчитайте метрики
            scores_interm[str(threshold)] = {
                'recall': recall_score(yval, preds_tuned_thr_val),
                'precision': precision_score(yval, preds_tuned_thr_val),
                'thr': threshold,
            }
    #     else:
    #         print('precision score ', precision_score(yval, preds_tuned_thr_val), 'thr is ', threshold)


    for key in scores_interm.keys():
        if scores_interm[key]['recall'] > max_recall:
#             winner_key = key
            max_recall = scores_interm[key]['recall']
            best_precision = scores_interm[key]['precision']
            best_thr = scores_interm[key]['thr']

    scores[str(current_reg)] =     {
                'recall': max_recall,
                'precision': best_precision,
                'thr': best_thr,
                'C': current_reg,
            }
#     scores_interm[winner_key]




In [None]:
regs = []
recalls = []
thresholds = []
precisions = []

for reg in np.arange(0.001, 1, 0.01):

    # обучите логистическую регрессию с C=reg

    max_recall = -1
    thr = -1
    prec = -1

    for threshold in np.arange(0.05, 0.25, 0.001):
        # подберите оптимальный порог как в задании выше

    recalls.append(max_recall)
    thresholds.append(thr)
    precisions.append(prec)
    regs.append(C)

In [152]:
# выведите значения C, precision, recall, threshold для наилучшей по заданным условиям модели
max_recall = -1
for key in scores.keys():
    if scores[key]['recall'] > max_recall:
        winner_key = key
scores[winner_key]
        

{'recall': 0.9575,
 'precision': 0.1300509337860781,
 'thr': 0.046000000000000006,
 'C': 0.9900000000000002}

In [None]:
# стоит отметить, что 'С=' как будто совсем не влияет - я уже по всякому попробовал - 
# должно быть где то ошибка, но я не могу ее найти
# я так думаю в том числе потому что в первый раз я на 90% уверен, что разница все же 
# была - на тысячные процента, но была... или нет.. 

#update! 

# таки была!:) дефолтный рандом_стэйт 123 был "походя" поменян в первый раз на каноничный 42, при котором 
# "С=" дает хотя бы какие то разницы, а за одно и существенно больший recall - "загребает" в TP 95%  единичек против 
# 86% с rand_st 123

In [154]:
# с помощью найденных C и threshold обучите модель на тренировочных данных, сделайте предсказание на тесте и по найденному порогу получите классы
# напечатайте метрики

logr_best_c = LogisticRegression(C=scores[winner_key]['C'])
logr_best_c.fit(Xtrain, ytrain)


logr_best_c_probs_test = logr_best_c.predict_proba(Xtest)



preds_best_c_test = (logr_best_c_probs_test[:,1:] > scores[winner_key]['thr']).astype(int)

show_stats(ytest, preds_best_c_test)





[[ 353 3659]
 [  10  545]]
----
              precision    recall  f1-score   support

           0       0.97      0.09      0.16      4012
           1       0.13      0.98      0.23       555

    accuracy                           0.20      4567
   macro avg       0.55      0.53      0.20      4567
weighted avg       0.87      0.20      0.17      4567



In [155]:
scores

{'0.05': {'recall': 0.96,
  'precision': 0.13016949152542373,
  'thr': 0.046000000000000006,
  'C': 0.05},
 '0.060000000000000005': {'recall': 0.955,
  'precision': 0.1304199385455787,
  'thr': 0.04700000000000001,
  'C': 0.060000000000000005},
 '0.07': {'recall': 0.955,
  'precision': 0.13050905363853776,
  'thr': 0.04700000000000001,
  'C': 0.07},
 '0.08000000000000002': {'recall': 0.955,
  'precision': 0.13055365686944634,
  'thr': 0.04700000000000001,
  'C': 0.08000000000000002},
 '0.09000000000000001': {'recall': 0.955,
  'precision': 0.13050905363853776,
  'thr': 0.04700000000000001,
  'C': 0.09000000000000001},
 '0.1': {'recall': 0.955,
  'precision': 0.1305982905982906,
  'thr': 0.04700000000000001,
  'C': 0.1},
 '0.11000000000000001': {'recall': 0.955,
  'precision': 0.1305982905982906,
  'thr': 0.04700000000000001,
  'C': 0.11000000000000001},
 '0.12000000000000001': {'recall': 0.955,
  'precision': 0.1305982905982906,
  'thr': 0.04700000000000001,
  'C': 0.12000000000000001}

Влияет ли изменение гиперпараметра C на качество модели (и, соответственно, метрики) в этой задаче?

In [None]:
# ваш вывод здесь
# ну, честно говоря, как то не очень:) а вообще, конечно, влияет - но как вы и говорили - сотые-десятые  процента


Ответьте развёрнуто на следующие вопросы:

* Удалось ли при помощи логистической регрессии и подбора порога превзойти качество метода ближайших соседей в этой задаче? 

* Смогли ли мы при помощи этой модели получить высокий recall при ограничениях, поставленных заказчиком?


In [101]:
# ваш вывод здесь
# 1) однозначно - в этой задаче регрессия+манипуляции порогом дают лучшие результаты, нежели "соседи"
# 2) да, смогли - но только при условии манипуляции порогом - что в принципе, наверное, 
# не очень "страшно" и все же немного странно - отчего такой, как мне кажется, фундаментальный 
# "рычаг управления" поведением модели не вынесен в дефолтные параметры модели и им приходтся 
# пользоваться через костыли predict_proba+еще_два_шага