# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres.
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

In [1]:
import pandas as pd

In [2]:
#Загружаем данные
df1 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_clients.csv')
df2 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_close_loan.csv')
df3 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_job.csv')
df4 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_last_credit.csv')
df5 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_loan.csv')
df6 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_pens.csv')
df7 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_salary.csv')
df8 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_target.csv')
df9 = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_work.csv')

In [8]:


#Объединяем данные
merged_df = df3.merge(df4, on='ID_CLIENT', how='outer')
merged_df = merged_df.merge(df5, on='ID_CLIENT', how='outer')
merged_df = merged_df.merge(df7, on='ID_CLIENT', how='outer')
merged_df = merged_df.merge(df8, on='ID_CLIENT', how='outer')
merged_df = merged_df.merge(df2, on='ID_LOAN', how='outer')
df1.rename(columns={'ID': 'ID_CLIENT'}, inplace=True)
merged_df = merged_df.merge(df1, on='ID_CLIENT', how='outer')

#Удаляем полные дубликаты и делаем бинарные переменные
merged_df = merged_df.drop_duplicates()

# Создание столбца LOAN_NUM_TOTAL
merged_df['LOAN_NUM_TOTAL'] = merged_df.groupby('ID_CLIENT')['ID_LOAN'].transform('count')
# Создание столбца LOAN_NUM_CLOSED
merged_df['LOAN_NUM_CLOSED'] = merged_df.groupby('ID_CLIENT')['CLOSED_FL'].transform(lambda x: (x == 1).sum())

#Удаление разных кредитов одного клиента
merged_df.drop_duplicates(subset=['ID_CLIENT'], keep='first', inplace=True)

#Отбираем нужные столбцы
columns = ['AGREEMENT_RK','TARGET','AGE','SOCSTATUS_WORK_FL','SOCSTATUS_PENS_FL','GENDER','CHILD_TOTAL','DEPENDANTS','PERSONAL_INCOME','LOAN_NUM_TOTAL','LOAN_NUM_CLOSED']
merged_df = merged_df[columns]



In [9]:
# Проверки нуловых значений
merged_df.isna().sum()

AGREEMENT_RK         777
TARGET               777
AGE                    0
SOCSTATUS_WORK_FL      0
SOCSTATUS_PENS_FL      0
GENDER                 0
CHILD_TOTAL            0
DEPENDANTS             0
PERSONAL_INCOME      777
LOAN_NUM_TOTAL         0
LOAN_NUM_CLOSED        0
dtype: int64

In [11]:
merged_df[merged_df.AGREEMENT_RK.isna()].describe()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
count,0.0,0.0,777.0,777.0,777.0,777.0,777.0,777.0,0.0,777.0,777.0
mean,,,40.172458,0.904762,0.137709,0.628057,1.061776,0.629344,,0.0,0.0
std,,,11.591795,0.293733,0.344816,0.483635,1.001953,0.806906,,0.0,0.0
min,,,21.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0
25%,,,30.0,1.0,0.0,0.0,0.0,0.0,,0.0,0.0
50%,,,39.0,1.0,0.0,1.0,1.0,0.0,,0.0,0.0
75%,,,50.0,1.0,0.0,1.0,2.0,1.0,,0.0,0.0
max,,,65.0,1.0,1.0,1.0,7.0,7.0,,0.0,0.0


У 777 объектов нет таргета, а также несколих других колонок, удалим такие объекты.

In [12]:
merged_df = merged_df.dropna()
merged_df.reset_index(drop=True, inplace=True)

In [13]:
merged_df.describe()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
count,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0
mean,65401830.0,0.11903,40.406096,0.90961,0.134468,0.654536,1.099389,0.645208,13853.836323,1.387769,0.751889
std,4568181.0,0.323835,11.601068,0.286748,0.341165,0.475535,0.995411,0.812252,9015.467617,0.793566,0.988499
min,59910150.0,0.0,21.0,0.0,0.0,0.0,0.0,0.0,24.0,1.0,0.0
25%,61920920.0,0.0,30.0,1.0,0.0,0.0,0.0,0.0,8000.0,1.0,0.0
50%,64371000.0,0.0,39.0,1.0,0.0,1.0,1.0,0.0,12000.0,1.0,0.0
75%,67088020.0,0.0,50.0,1.0,0.0,1.0,2.0,1.0,17000.0,2.0,1.0
max,75292240.0,1.0,67.0,1.0,1.0,1.0,10.0,7.0,250000.0,11.0,11.0


Есть подозрительные моменты, например:

* 10 детей
* 7 иждивенцев
* доход - 24

Проверим такие объекты.

In [16]:
ind = merged_df.CHILD_TOTAL > 5
merged_df[ind]

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
2385,61250208.0,0.0,49,1,0,1,6,0,12000.0,1,1
2916,61382118.0,0.0,60,0,1,1,6,0,5200.0,2,1
4017,61958911.0,1.0,56,0,1,1,6,0,5000.0,2,0
4976,62249518.0,0.0,60,1,1,1,6,0,7000.0,1,0
5071,62261659.0,0.0,62,0,1,0,6,0,7000.0,1,1
5183,62377743.0,0.0,59,0,1,1,7,0,12000.0,1,1
6672,63584425.0,0.0,56,1,1,1,8,1,7500.0,1,0
6968,63894742.0,0.0,39,1,0,1,6,6,12000.0,1,0
7462,64343517.0,0.0,36,1,0,0,6,6,20000.0,1,1
7717,64428091.0,0.0,56,0,1,1,7,1,4500.0,1,0


In [19]:
ind = (merged_df.CHILD_TOTAL > 5) & (merged_df.AGE - (18 + merged_df.CHILD_TOTAL - merged_df.DEPENDANTS) < 20)
merged_df[ind]

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
7462,64343517.0,0.0,36,1,0,0,6,6,20000.0,1,1
8614,64913008.0,1.0,39,1,0,1,10,0,8500.0,1,0


Объект 8614 выглядит как выброс, непонятно как у этого объекта может быть 10 детей и 0 иждивенцев в 39 лет. Удалим его из выборки.

In [22]:
merged_df = merged_df[merged_df.index != 8614].reset_index(drop=True)

In [24]:
merged_df.to_csv('data.csv', index=False)