# Практическая работа

## Imports

In [1]:
import os
import streamlit as st
import pandas as pd
import numpy as np
# pd.set_option('display.float_format', '{:,.2f}'.format)
pd.set_option('display.max_columns', None)
# pd.set_option('display.max_rows', None)

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres.
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

In [2]:
data = dict()
datasets_path = os.path.join(os.getcwd(), 'datasets')
file_names = os.listdir(datasets_path)
for file_name in file_names:
    table_name = file_name.split('.')[0]
    file_path = os.path.join(datasets_path, file_name)
    data[table_name] = pd.read_csv(file_path)
#     print('+'*100)
#     print('Table name', table_name)
#     print('-'*100)
#     display(database[table_name].head())


In [3]:
data.keys()

dict_keys(['D_clients', 'D_close_loan', 'D_job', 'D_last_credit', 'D_loan', 'D_pens', 'D_salary', 'D_target', 'D_work'])

In [4]:
information = {'table_name':[],
               'duplicates':[],
               'null_sum':[],
               'len':[]
              }
for table in data.keys():
    duplicates = data[table].duplicated().sum()
    nulls = data[table].isna().sum().sum()
    information['table_name'].append(table)
    information['duplicates'].append(duplicates)
    information['null_sum'].append(nulls)
    information['len'].append(len(data[table]))

pd.DataFrame(information).set_index('table_name')

Unnamed: 0_level_0,duplicates,null_sum,len
table_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D_clients,0,0,16000
D_close_loan,0,0,21126
D_job,0,5469,15223
D_last_credit,0,0,15223
D_loan,0,0,21126
D_pens,0,0,2
D_salary,300,0,15523
D_target,0,0,15223
D_work,0,0,3


In [5]:
data['D_job'].isna().sum()/len(data['D_job'])

GEN_INDUSTRY    0.089798
GEN_TITLE       0.089798
JOB_DIR         0.089798
WORK_TIME       0.089864
ID_CLIENT       0.000000
dtype: float64

In [6]:
data.keys()

dict_keys(['D_clients', 'D_close_loan', 'D_job', 'D_last_credit', 'D_loan', 'D_pens', 'D_salary', 'D_target', 'D_work'])

In [7]:
loans = data['D_loan'].merge(data['D_close_loan'], on = 'ID_LOAN', how='left')
loans.head()

Unnamed: 0,ID_LOAN,ID_CLIENT,CLOSED_FL
0,1753790658,106804370,1
1,1753790659,106804371,1
2,1753790660,106804372,1
3,1753790661,106804372,0
4,1753790662,106804373,1


In [8]:
loan_num_total = (loans
                  .groupby(by='ID_CLIENT')['ID_LOAN']
                  .count()
                  .reset_index()
                  .rename(columns={'ID_LOAN': 'LOAN_NUM_TOTAL'})
                 )

loan_num_total.head()

Unnamed: 0,ID_CLIENT,LOAN_NUM_TOTAL
0,106804370,1
1,106804371,1
2,106804372,2
3,106804373,1
4,106804374,2


In [9]:
loan_num_closed = (loans
                   .groupby(by='ID_CLIENT')['CLOSED_FL']
                   .sum()
                   .reset_index()
                   .rename(columns={'CLOSED_FL': 'LOAN_NUM_CLOSED'})
                  )
loan_num_closed.head()

Unnamed: 0,ID_CLIENT,LOAN_NUM_CLOSED
0,106804370,1
1,106804371,1
2,106804372,1
3,106804373,1
4,106804374,1


In [10]:
df = (data['D_clients'].rename(columns={'ID': 'ID_CLIENT'})
      .merge(data['D_job'], on = 'ID_CLIENT', how='left')
      .merge(data['D_last_credit'], on = 'ID_CLIENT', how='left')
      .merge(data['D_salary'], on = 'ID_CLIENT', how='left')
      .merge(data['D_target'], on = 'ID_CLIENT', how='left')
      .merge(loan_num_total, on = 'ID_CLIENT', how='left')
      .merge(loan_num_closed, on = 'ID_CLIENT', how='left')
     )
df.head()

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,CREDIT,TERM,FST_PAYMENT,FAMILY_INCOME,PERSONAL_INCOME,AGREEMENT_RK,TARGET,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0,Другие сферы,Работник сферы услуг,Участие в основ. деятельности,3.0,5588.0,6.0,1000.0,от 20000 до 50000 руб.,25000.0,60099204.0,1.0,1.0,0.0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0,Торговля,Специалист,Участие в основ. деятельности,5.0,19498.0,12.0,0.0,от 10000 до 20000 руб.,10000.0,62244665.0,0.0,1.0,0.0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1,Другие сферы,Руководитель высшего звена,Участие в основ. деятельности,360.0,15470.0,3.0,15000.0,от 20000 до 50000 руб.,30000.0,61050759.0,0.0,1.0,1.0
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1,Государственная служба,Специалист,Участие в основ. деятельности,3.0,13960.0,6.0,2500.0,от 20000 до 50000 руб.,25000.0,62079659.0,0.0,1.0,0.0
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0,Другие сферы,Специалист,Участие в основ. деятельности,12.0,11890.0,6.0,8000.0,от 10000 до 20000 руб.,15000.0,66583553.0,0.0,2.0,2.0


In [11]:
columns_to_keep = ['AGREEMENT_RK',
                   'TARGET',
                   'AGE',
                   'SOCSTATUS_WORK_FL',
                   'SOCSTATUS_PENS_FL',
                   'GENDER',
                   'CHILD_TOTAL',
                   'DEPENDANTS',
                   'PERSONAL_INCOME',
                   'LOAN_NUM_TOTAL',
                   'LOAN_NUM_CLOSED',
                  ]

In [12]:
df = df[columns_to_keep]
df.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED
0,60099204.0,1.0,42,1,0,1,1,0,25000.0,1.0,0.0
1,62244665.0,0.0,28,1,0,1,1,1,10000.0,1.0,0.0
2,61050759.0,0.0,64,1,1,0,2,0,30000.0,1.0,1.0
3,62079659.0,0.0,54,1,0,1,0,0,25000.0,1.0,0.0
4,66583553.0,0.0,26,1,0,0,1,1,15000.0,2.0,2.0


In [13]:
df.to_csv('datasets/joined_dataset.csv', index=False)

**В данной работе оставим минимально необходимые поля для ряботы.**

Однако для исследования и построения предсказательной модели могут иметь влияние еще и следующие поля:

**'REG_ADDRESS_PROVINCE', 'FACT_ADDRESS_PROVINCE', 'POSTAL_ADDRESS_PROVINCE'** - на основе данных полей можно проверять является ли регион фактического проживания таким же, что и регион регистрации или регион доставки корреспонденции. Также каждый регион может иметь свой коэффициент надежности.

**'FAMILY_INCOME'** - данное поле также важно в модели предсказаний и может иметь значительное влияние, так как оно показывает напрямую доход семьи. На его основе можно также сделать новую фичу, которая будет проверять больше или меньше персональный доход относитель дохода семьи.

**'WORK_TIME'** - время работы на последнем месте работы. Довольно важный признак, который показывает насколько клиент постоянный, если он долго работает на последнем месте работы.

**'MARITAL_STATUS' и 'EDUCATION'** могут имет влияние на предсказания, но его нужно исследовать и тестировать на модели.  


## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

In [None]:
import streamlit as st
import matplotlib.pyplot as plt
import numpy as np

arr = np.random.normal(1, 1, size=100)
fig, ax = plt.subplots()
ax.hist(arr, bins=20)

st.pyplot(fig)