# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres (или используйте `*.csv` как есть).
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

In [None]:
import pandas as pd
import numpy as np
from pickle import dump, load

In [None]:
url1 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_target.csv" # AGREEMENT_RK TARGET
url2 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_clients.csv" # AGE SOCSTATUS_WORK_FL SOCSTATUS_PENS_FL GENDER CHILD_TOTAL  DEPENDANTS
url3 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_salary.csv" # PERSONAL_INCOME and ID_CLIENT
url4 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_loan.csv" # ID_LOAN to ID_CLIENT (чтобы посчитать все кредиты клиента)
url5 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_close_loan.csv" # ID_LOAN и статус кредита
url6 = "https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/clients/D_job.csv" #profession



In [None]:
rk_target = pd.read_csv(url1)
client_info = pd.read_csv(url2)
pers_inc_id = pd.read_csv(url3)
id_loan_to_id = pd.read_csv(url4)
id_loan_to_credit_status = pd.read_csv(url5)
profession = pd.read_csv(url6)

In [None]:
df=pd.merge(rk_target, client_info, left_on="ID_CLIENT", right_on="ID", how="left")
df=pd.merge(df, pers_inc_id, left_on="ID", right_on="ID_CLIENT", how="left")
df=pd.merge(df, id_loan_to_id, left_on="ID", right_on="ID_CLIENT", how="left")
df=pd.merge(df, id_loan_to_credit_status, left_on="ID_LOAN", right_on="ID_LOAN", how="left")
df=pd.merge(df, profession, left_on="ID_CLIENT", right_on="ID_CLIENT", how="left")

In [None]:
df["LOAN_NUM_TOTAL"] = df.groupby("ID_CLIENT")["ID_LOAN"].transform("size")
df["LOAN_NUM_CLOSED"] = (df["CLOSED_FL"] == 1).groupby(df["ID_CLIENT"]).transform("sum")
df.shape

(21535, 29)

In [None]:
df=df[["AGREEMENT_RK", "AGE", "GEN_TITLE", "SOCSTATUS_WORK_FL", "SOCSTATUS_PENS_FL", "GENDER", "CHILD_TOTAL", "DEPENDANTS", "PERSONAL_INCOME","LOAN_NUM_TOTAL","LOAN_NUM_CLOSED","TARGET"]]

In [None]:
df.head(20)

Unnamed: 0,AGREEMENT_RK,AGE,GEN_TITLE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,TARGET
0,59910150,49,Рабочий,1,0,1,2,1,5000.0,2,2,0
1,59910150,49,Рабочий,1,0,1,2,1,5000.0,2,2,0
2,59910230,32,Рабочий,1,0,1,3,3,12000.0,1,1,0
3,59910525,52,Специалист,1,0,1,4,0,9000.0,2,1,0
4,59910525,52,Специалист,1,0,1,4,0,9000.0,2,1,0
5,59910803,39,Руководитель среднего звена,1,0,1,1,1,25000.0,1,1,0
6,59911781,30,Специалист,1,0,0,0,0,12000.0,2,1,0
7,59911781,30,Специалист,1,0,0,0,0,12000.0,2,1,0
8,59911784,29,Специалист,1,0,0,0,0,12000.0,2,1,0
9,59911784,29,Специалист,1,0,0,0,0,12000.0,2,1,0


Займемся обработкой датасета

In [None]:
df.shape

(21535, 12)

In [None]:
df = df.drop_duplicates()
df.shape

(15223, 12)

Взглянем на уникальные значения, может быть там есть аномальные значения

In [None]:
for column in df.columns:
    unique_values = df[column].unique()
    print(f"Уникальные значения в столбце {column}: {unique_values}")

Уникальные значения в столбце AGREEMENT_RK: [59910150 59910230 59910525 ... 75291923 75291960 75292242]
Уникальные значения в столбце AGE: [49 32 52 39 30 29 35 41 53 43 54 26 62 45 38 65 34 28 37 42 33 27 31 40
 63 61 44 59 48 24 23 47 58 51 56 22 36 57 50 46 55 66 25 60 64 21 67]
Уникальные значения в столбце GEN_TITLE: ['Рабочий' 'Специалист' 'Руководитель среднего звена'
 'Руководитель высшего звена' 'Служащий' 'Работник сферы услуг'
 'Высококвалифиц. специалист' 'Индивидуальный предприниматель' nan
 'Военнослужащий по контракту' 'Руководитель низшего звена' 'Другое'
 'Партнер']
Уникальные значения в столбце SOCSTATUS_WORK_FL: [1 0]
Уникальные значения в столбце SOCSTATUS_PENS_FL: [0 1]
Уникальные значения в столбце GENDER: [1 0]
Уникальные значения в столбце CHILD_TOTAL: [ 2  3  4  1  0  5  6  7  8 10]
Уникальные значения в столбце DEPENDANTS: [1 3 0 2 4 5 6 7]
Уникальные значения в столбце PERSONAL_INCOME: [5.000000e+03 1.200000e+04 9.000000e+03 2.500000e+04 1.500000e+04
 6.00000

Как видим, значения в пределах нормы

In [None]:
df.isnull().sum()

AGREEMENT_RK            0
AGE                     0
GEN_TITLE            1367
SOCSTATUS_WORK_FL       0
SOCSTATUS_PENS_FL       0
GENDER                  0
CHILD_TOTAL             0
DEPENDANTS              0
PERSONAL_INCOME         0
LOAN_NUM_TOTAL          0
LOAN_NUM_CLOSED         0
TARGET                  0
dtype: int64

Видим много пропусков в gen_title, оставим как было, тк в других столбцах все данные есть.

Проверим df на противоречия. Что я иммею ввиду:  несоответствие между возрастом и социальным статусом. Например: молодой человек (18 лет) с пенсионным статусом (1). Но! Если человек военный по контракту, то он может выйти в 45, поэтому будет считать что минимальный порог вхождения в пенсионеры(при выполнении всех условий) - 45 лет. Поэтому, если в столбце AGE < 45 и SOCSTATUS_PENS_FL == 1, то такие строки мы считаем невалидными и удаляем

In [None]:
df_bad = df.loc[(df['AGE'] < 45) & (df['SOCSTATUS_PENS_FL'] == 1)]
df_bad.shape
df = df.drop(index=df_bad.index)
df.shape

(15128, 12)

In [None]:

with open(path, "w", newline="") as f:
    df.to_csv(f, encoding="utf-8")
    print(f"Dataset was saved to {path}")

Dataset was saved to data/final_df.csv


Ещё были варианты:

1) Несоответствие между количеством детей и иждивенцев. Но ведь иждивенцами могут быть не только свои дети, но и например родственники с инвалидностью. Мы не имеем настолько подробных данных, поэтому этот вариант отметаем, могут стереться валидные данные.

2) Несоответствие между статусом работы и пенсией. Иногда у людей нет выбора, и они работают на пенсии. Поэтому вариант, что клиент работает (SOCSTATUS_WORK_FL = 1) и одновременно является пенсионером (SOCSTATUS_PENS_FL = 1) является правдой. Этот вариант тоже мимо.


## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.