# Урок 3. Классификация на практике

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.    

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.    

Создайте модель линейной регрессии, которая бы оценивала лояльность пользователей к отклику.    

Пояснения к признакам набора данных:    

• AGREEMENT_RK — уникальный идентификатор объекта в выборке;    
• TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);    
• AGE — возраст клиента;    
• SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);    
• SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);    
• GENDER — пол клиента (1 — мужчина, 0 — женщина);    
• CHILD_TOTAL — количество детей клиента;    
• DEPENDANTS — количество иждивенцев клиента;    
• PERSONAL_INCOME — личный доход клиента (в рублях);    
• LOAN_NUM_TOTAL — количество ссуд клиента;    
• LOAN_NUM_CLOSED — количество погашенных ссуд клиента.    

In [3]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report, confusion_matrix, mean_absolute_error
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# Загрузка данных
data = pd.read_csv('clients_data.csv')

# Просмотр первых строк данных
print(data.head())

   AGE  SOCSTATUS_WORK_FL  SOCSTATUS_PENS_FL  GENDER  CHILD_TOTAL  DEPENDANTS  \
0   49                  1                  0       1            2           1   
1   32                  1                  0       1            3           3   
2   52                  1                  0       1            4           0   
3   39                  1                  0       1            1           1   
4   30                  1                  0       0            0           0   

   PERSONAL_INCOME  LOAN_NUM_TOTAL  LOAN_NUM_CLOSED  LOAN_DLQ_NUM  TARGET  
0           5000.0               1                1             2       0  
1          12000.0               1                1             1       0  
2           9000.0               2                1             0       0  
3          25000.0               1                1             3       0  
4          12000.0               2                1             2       0  


In [5]:
# Первичный анализ данных
print(data.info())
print(data.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   AGE                15223 non-null  int64  
 1   SOCSTATUS_WORK_FL  15223 non-null  int64  
 2   SOCSTATUS_PENS_FL  15223 non-null  int64  
 3   GENDER             15223 non-null  int64  
 4   CHILD_TOTAL        15223 non-null  int64  
 5   DEPENDANTS         15223 non-null  int64  
 6   PERSONAL_INCOME    15223 non-null  float64
 7   LOAN_NUM_TOTAL     15223 non-null  int64  
 8   LOAN_NUM_CLOSED    15223 non-null  int64  
 9   LOAN_DLQ_NUM       15223 non-null  int64  
 10  TARGET             15223 non-null  int64  
dtypes: float64(1), int64(10)
memory usage: 1.3 MB
None
                AGE  SOCSTATUS_WORK_FL  SOCSTATUS_PENS_FL        GENDER  \
count  15223.000000       15223.000000       15223.000000  15223.000000   
mean      40.406096           0.909610           0.134468    

In [7]:
# Выбор признаков и целевой переменной
X = data[['AGE', 'SOCSTATUS_WORK_FL', 'SOCSTATUS_PENS_FL', 'GENDER', 
           'CHILD_TOTAL', 'DEPENDANTS', 'PERSONAL_INCOME', 
           'LOAN_NUM_TOTAL', 'LOAN_NUM_CLOSED']]
y = data['TARGET']

# Разделение данных на обучающую (80%) и тестовую (20%) выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание модели логистической регрессии
model = LogisticRegression(max_iter=3000)

# Обучение модели на обучающей выборке
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)


# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Вывод результатов
print(f"Точность модели: {accuracy}")
print("Матрица ошибок:")
print(conf_matrix)
print("Отчет о классификации:")
print(class_report)

Точность модели: 0.8788177339901477
Матрица ошибок:
[[2676    0]
 [ 369    0]]
Отчет о классификации:
              precision    recall  f1-score   support

           0       0.88      1.00      0.94      2676
           1       0.00      0.00      0.00       369

    accuracy                           0.88      3045
   macro avg       0.44      0.50      0.47      3045
weighted avg       0.77      0.88      0.82      3045



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
