# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.

Для решения этой задачи загрузите файлы из базы в Postgres.
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.

**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.

Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
import seaborn as sns

In [2]:
df_clients = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_clients.csv')
df_close_loan = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_close_loan.csv')
df_job = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_job.csv')
df_last_credit = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_last_credit.csv')
df_loan = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_loan.csv')
df_pens = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_pens.csv')
df_salary = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_salary.csv')
df_work = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_work.csv')
df_target = pd.read_csv('https://raw.githubusercontent.com/aiedu-courses/stepik_linear_models/main/datasets/D_target.csv')

In [3]:
df_clients = df_clients.rename(columns={"ID": "ID_CLIENT"})

In [4]:
df_loan

Unnamed: 0,ID_LOAN,ID_CLIENT
0,1753790658,106804370
1,1753790659,106804371
2,1753790660,106804372
3,1753790661,106804372
4,1753790662,106804373
...,...,...
21121,1753811779,106819588
21122,1753811780,106819589
21123,1753811781,106819590
21124,1753811782,106819591


In [5]:
df_close_loan

Unnamed: 0,ID_LOAN,CLOSED_FL
0,1753790658,1
1,1753790659,1
2,1753790660,1
3,1753790661,0
4,1753790662,1
...,...,...
21121,1753811779,1
21122,1753811780,0
21123,1753811781,0
21124,1753811782,0


In [6]:
df_loan_all = df_loan.merge(df_close_loan, on="ID_LOAN")

### LOAN_NUM_TOTAL

In [7]:
df_num_total = df_loan_all.groupby('ID_CLIENT')['ID_LOAN'].count().to_frame()
df_num_total = df_num_total.rename(columns={'ID_LOAN':'LOAN_NUM_TOTAL'})

### LOAN_NUM_CLOSED

In [8]:
df_num_closed = df_loan_all.groupby('ID_CLIENT').agg({'CLOSED_FL':'sum'})
df_num_closed.rename(columns={'CLOSED_FL':'LOAN_NUM_CLOSED'}, inplace=True) 

### SALARY

In [9]:
df_salary_new = df_salary.drop_duplicates()

In [10]:
df_salary_loan = df_salary_new[['PERSONAL_INCOME', 'ID_CLIENT']].merge(df_num_total.reset_index(), on='ID_CLIENT')
df_salary_loan = df_salary_loan.merge(df_num_closed.reset_index(), on='ID_CLIENT')
df_salary_loan

Unnamed: 0,PERSONAL_INCOME,ID_CLIENT,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,20000.0,106809321,1,0
1,14000.0,106815561,1,1
2,15000.0,106811521,1,0
3,20000.0,106811252,1,1
4,25000.0,106808620,1,0
...,...,...,...,...
15218,15000.0,106812538,1,1
15219,12000.0,106814158,2,2
15220,14000.0,106805134,1,0
15221,7000.0,106812867,1,0


### DEPENDANTS + CHILD_TOTAL

In [11]:
df_dependants = df_clients[["ID_CLIENT", "DEPENDANTS", "CHILD_TOTAL"]].merge(df_salary_loan, on='ID_CLIENT')
df_dependants

Unnamed: 0,ID_CLIENT,DEPENDANTS,CHILD_TOTAL,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,106805103,0,1,25000.0,1,0
1,106809308,1,1,10000.0,1,0
2,106805867,0,2,30000.0,1,1
3,106808779,0,0,25000.0,1,0
4,106814289,1,1,15000.0,2,2
...,...,...,...,...,...,...
15218,106814680,1,1,8000.0,2,2
15219,106812464,0,0,12000.0,1,0
15220,106809255,0,0,9000.0,1,0
15221,106814593,0,0,12000.0,1,1


### GENDER

In [12]:
df_gender = df_dependants.merge(df_clients[["GENDER", "ID_CLIENT"]], on='ID_CLIENT')
df_gender

Unnamed: 0,ID_CLIENT,DEPENDANTS,CHILD_TOTAL,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,GENDER
0,106805103,0,1,25000.0,1,0,1
1,106809308,1,1,10000.0,1,0,1
2,106805867,0,2,30000.0,1,1,0
3,106808779,0,0,25000.0,1,0,1
4,106814289,1,1,15000.0,2,2,0
...,...,...,...,...,...,...,...
15218,106814680,1,1,8000.0,2,2,1
15219,106812464,0,0,12000.0,1,0,0
15220,106809255,0,0,9000.0,1,0,1
15221,106814593,0,0,12000.0,1,1,0


### SOCSTATUSES

In [13]:
df_socstatuses = df_gender.merge(df_clients[["SOCSTATUS_WORK_FL", "SOCSTATUS_PENS_FL", "ID_CLIENT"]], on='ID_CLIENT')
df_socstatuses

Unnamed: 0,ID_CLIENT,DEPENDANTS,CHILD_TOTAL,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,GENDER,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL
0,106805103,0,1,25000.0,1,0,1,1,0
1,106809308,1,1,10000.0,1,0,1,1,0
2,106805867,0,2,30000.0,1,1,0,1,1
3,106808779,0,0,25000.0,1,0,1,1,0
4,106814289,1,1,15000.0,2,2,0,1,0
...,...,...,...,...,...,...,...,...,...
15218,106814680,1,1,8000.0,2,2,1,1,0
15219,106812464,0,0,12000.0,1,0,0,1,0
15220,106809255,0,0,9000.0,1,0,1,1,0
15221,106814593,0,0,12000.0,1,1,0,1,0


### AGE

In [14]:
df_age = df_socstatuses.merge(df_clients[["AGE", "ID_CLIENT"]], on='ID_CLIENT')
df_age

Unnamed: 0,ID_CLIENT,DEPENDANTS,CHILD_TOTAL,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,GENDER,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,AGE
0,106805103,0,1,25000.0,1,0,1,1,0,42
1,106809308,1,1,10000.0,1,0,1,1,0,28
2,106805867,0,2,30000.0,1,1,0,1,1,64
3,106808779,0,0,25000.0,1,0,1,1,0,54
4,106814289,1,1,15000.0,2,2,0,1,0,26
...,...,...,...,...,...,...,...,...,...,...
15218,106814680,1,1,8000.0,2,2,1,1,0,26
15219,106812464,0,0,12000.0,1,0,0,1,0,26
15220,106809255,0,0,9000.0,1,0,1,1,0,30
15221,106814593,0,0,12000.0,1,1,0,1,0,25


### TARGET and AGR_RK

In [15]:
df_final = df_age.merge(df_target[["AGREEMENT_RK", "TARGET", "ID_CLIENT"]], on='ID_CLIENT')

Проверим на null:

In [16]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ID_CLIENT          15223 non-null  int64  
 1   DEPENDANTS         15223 non-null  int64  
 2   CHILD_TOTAL        15223 non-null  int64  
 3   PERSONAL_INCOME    15223 non-null  float64
 4   LOAN_NUM_TOTAL     15223 non-null  int64  
 5   LOAN_NUM_CLOSED    15223 non-null  int64  
 6   GENDER             15223 non-null  int64  
 7   SOCSTATUS_WORK_FL  15223 non-null  int64  
 8   SOCSTATUS_PENS_FL  15223 non-null  int64  
 9   AGE                15223 non-null  int64  
 10  AGREEMENT_RK       15223 non-null  int64  
 11  TARGET             15223 non-null  int64  
dtypes: float64(1), int64(11)
memory usage: 1.4 MB


Есть выброс в PERSONAL_INCOME, удалим его:

In [17]:
df_final = df_final.drop(df_final[df_final["PERSONAL_INCOME"] < 1950].index).reset_index(drop=True)
df_final = df_final.drop("ID_CLIENT", axis=1)

Проверим на дубликаты:

In [21]:
df_final.duplicated().any()

False

Сохраняем

In [22]:
df_final.to_csv("final_bd.csv", sep=";")