# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres (или используйте `*.csv` как есть).
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

In [8]:
import pandas as pd
import numpy as np

D_work = pd.read_csv('D_work.csv')
D_target = pd.read_csv('D_target.csv')
D_salary = pd.read_csv('D_salary.csv')
D_pens = pd.read_csv('D_pens.csv')
D_loan = pd.read_csv('D_loan.csv')
D_last_credit = pd.read_csv('D_last_credit.csv')
D_job = pd.read_csv('D_job.csv')
D_clients = pd.read_csv('D_clients.csv')
D_close_loan = pd.read_csv('D_close_loan.csv')


In [9]:
D_target.head(5) # таблица Agreement

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET
0,59910150,106804370,0
1,59910230,106804371,0
2,59910525,106804372,0
3,59910803,106804373,0
4,59911781,106804374,0


Далее смотрим нужные таблицы на дубликаты. Если такие есть - удаляем.

In [10]:
print(D_target.duplicated().sum())
print(D_clients.duplicated().sum())
print(D_salary.duplicated().sum())
print(D_loan.duplicated().sum())
print(D_close_loan.duplicated().sum())

0
0
300
0
0


In [11]:
D_salary = D_salary.drop_duplicates()

Собираем основные таблицы:

In [12]:
data_client = pd.merge( D_target, D_clients, how = 'inner',  left_on = "ID_CLIENT", right_on = "ID")
data_client = pd.merge( data_client, D_salary, how = 'inner',  left_on = "ID_CLIENT", right_on = "ID_CLIENT")
data_client

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,FAMILY_INCOME,PERSONAL_INCOME
0,59910150,106804370,0,106804370,49,1,Среднее специальное,Состою в браке,2,1,1,0,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0
1,59910230,106804371,0,106804371,32,1,Среднее,Состою в браке,3,3,1,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0
2,59910525,106804372,0,106804372,52,1,Неполное среднее,Состою в браке,4,0,1,0,Иркутская область,Иркутская область,Иркутская область,0,0,от 10000 до 20000 руб.,9000.0
3,59910803,106804373,0,106804373,39,1,Высшее,Состою в браке,1,1,1,0,Ростовская область,Ростовская область,Ростовская область,1,0,от 20000 до 50000 руб.,25000.0
4,59911781,106804374,0,106804374,30,0,Среднее,Состою в браке,0,0,1,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15218,75291424,106819588,0,106819588,25,0,Среднее,Состою в браке,1,1,1,0,Воронежская область,Воронежская область,Воронежская область,0,0,от 10000 до 20000 руб.,12000.0
15219,75291888,106819589,0,106819589,51,1,Среднее специальное,Состою в браке,2,0,1,0,Башкирия,Башкирия,Башкирия,0,0,от 20000 до 50000 руб.,10000.0
15220,75291923,106819590,0,106819590,22,1,Среднее,Не состоял в браке,1,1,1,0,Брянская область,Брянская область,Брянская область,0,0,от 5000 до 10000 руб.,6000.0
15221,75291960,106819591,0,106819591,60,1,Среднее,Вдовец/Вдова,2,0,0,1,Приморский край,Приморский край,Приморский край,1,0,от 10000 до 20000 руб.,4500.0


Собираем таблицы с информацией по всем кредитам на клиенте:

In [13]:
loan = pd.merge(D_loan, D_close_loan, on = 'ID_LOAN')
loan_all = loan[['ID_LOAN','ID_CLIENT']].groupby('ID_CLIENT').count()
loan_closed = loan[['ID_CLIENT','CLOSED_FL']].groupby('ID_CLIENT').sum()
loan

Unnamed: 0,ID_LOAN,ID_CLIENT,CLOSED_FL
0,1753790658,106804370,1
1,1753790659,106804371,1
2,1753790660,106804372,1
3,1753790661,106804372,0
4,1753790662,106804373,1
...,...,...,...
21121,1753811779,106819588,1
21122,1753811780,106819589,0
21123,1753811781,106819590,0
21124,1753811782,106819591,0


In [14]:
loan_closed = loan_closed.rename(columns = {'CLOSED_FL':'LOAN_NUM_CLOSED'})
loan_closed

Unnamed: 0_level_0,LOAN_NUM_CLOSED
ID_CLIENT,Unnamed: 1_level_1
106804370,1
106804371,1
106804372,1
106804373,1
106804374,1
...,...
106819588,2
106819589,0
106819590,0
106819591,0


In [15]:
loan_all =loan_all.rename(columns = {'ID_LOAN':'LOAN_NUM_TOTAL'})
loan_all

Unnamed: 0_level_0,LOAN_NUM_TOTAL
ID_CLIENT,Unnamed: 1_level_1
106804370,1
106804371,1
106804372,2
106804373,1
106804374,2
...,...
106819588,3
106819589,1
106819590,1
106819591,1


In [16]:
data_client = pd.merge( data_client, loan_all, how = 'inner',  left_on = "ID_CLIENT", right_on = "ID_CLIENT")
data_client = pd.merge( data_client, loan_closed, how = 'inner',  left_on = "ID_CLIENT", right_on = "ID_CLIENT")

In [17]:
data_client

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,...,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,FAMILY_INCOME,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,59910150,106804370,0,106804370,49,1,Среднее специальное,Состою в браке,2,1,...,0,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0,1,1
1,59910230,106804371,0,106804371,32,1,Среднее,Состою в браке,3,3,...,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0,1,1
2,59910525,106804372,0,106804372,52,1,Неполное среднее,Состою в браке,4,0,...,0,Иркутская область,Иркутская область,Иркутская область,0,0,от 10000 до 20000 руб.,9000.0,2,1
3,59910803,106804373,0,106804373,39,1,Высшее,Состою в браке,1,1,...,0,Ростовская область,Ростовская область,Ростовская область,1,0,от 20000 до 50000 руб.,25000.0,1,1
4,59911781,106804374,0,106804374,30,0,Среднее,Состою в браке,0,0,...,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15218,75291424,106819588,0,106819588,25,0,Среднее,Состою в браке,1,1,...,0,Воронежская область,Воронежская область,Воронежская область,0,0,от 10000 до 20000 руб.,12000.0,3,2
15219,75291888,106819589,0,106819589,51,1,Среднее специальное,Состою в браке,2,0,...,0,Башкирия,Башкирия,Башкирия,0,0,от 20000 до 50000 руб.,10000.0,1,0
15220,75291923,106819590,0,106819590,22,1,Среднее,Не состоял в браке,1,1,...,0,Брянская область,Брянская область,Брянская область,0,0,от 5000 до 10000 руб.,6000.0,1,0
15221,75291960,106819591,0,106819591,60,1,Среднее,Вдовец/Вдова,2,0,...,1,Приморский край,Приморский край,Приморский край,1,0,от 10000 до 20000 руб.,4500.0,1,0


Итоговый датасет:

In [18]:
data_client = data_client.drop(columns = ['ID', 'ID_CLIENT',  'EDUCATION', 'MARITAL_STATUS', 'REG_ADDRESS_PROVINCE', 'FACT_ADDRESS_PROVINCE', 'POSTAL_ADDRESS_PROVINCE', 'FL_PRESENCE_FL',  'OWN_AUTO', 'FAMILY_INCOME', ])
data_client = data_client.rename(columns = {'PERSONAL_INCOME':'PERS_INCOME'})
data_client

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,GENDER,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,PERS_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,59910150,0,49,1,2,1,1,0,5000.0,1,1
1,59910230,0,32,1,3,3,1,0,12000.0,1,1
2,59910525,0,52,1,4,0,1,0,9000.0,2,1
3,59910803,0,39,1,1,1,1,0,25000.0,1,1
4,59911781,0,30,0,0,0,1,0,12000.0,2,1
...,...,...,...,...,...,...,...,...,...,...,...
15218,75291424,0,25,0,1,1,1,0,12000.0,3,2
15219,75291888,0,51,1,2,0,1,0,10000.0,1,0
15220,75291923,0,22,1,1,1,1,0,6000.0,1,0
15221,75291960,0,60,1,2,0,0,1,4500.0,1,0


Проверки:

In [19]:
data_client.duplicated().sum()

0

In [20]:
data_client.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15223 entries, 0 to 15222
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   AGREEMENT_RK       15223 non-null  int64  
 1   TARGET             15223 non-null  int64  
 2   AGE                15223 non-null  int64  
 3   GENDER             15223 non-null  int64  
 4   CHILD_TOTAL        15223 non-null  int64  
 5   DEPENDANTS         15223 non-null  int64  
 6   SOCSTATUS_WORK_FL  15223 non-null  int64  
 7   SOCSTATUS_PENS_FL  15223 non-null  int64  
 8   PERS_INCOME        15223 non-null  float64
 9   LOAN_NUM_TOTAL     15223 non-null  int64  
 10  LOAN_NUM_CLOSED    15223 non-null  int64  
dtypes: float64(1), int64(10)
memory usage: 1.4 MB


В итоговом датасете не заменял поля колонок SOCSTATUS_WORK_FL и SOCSTATUS_PENS_FL на значения из таблиц D_pens, D_work, потому что мало категорий в таблицах, но будем иметь в виду что 1 - значит НЕ, а 2 - "не известно"

In [21]:
D_pens

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,пенсионер
1,2,1,не пенсионер


In [22]:
D_work

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,работает
1,2,1,не работает
2,3,2,не известно


In [23]:
data_client.to_csv('bank_data.csv', index = 0)


In [25]:
data_client['TARGET'].mean()

0.1190304145043684

## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

In [None]:
!streamlit run app_streamlit.py