# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres (или используйте `*.csv` как есть).
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

# Решение

In [79]:
import numpy as np
import pandas as pd
import os

In [None]:
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
all_files = []
for file in os.listdir('/content/drive/MyDrive/temporary/lin mod/'):
    all_files.append(file)

print(all_files)

['D_clients.csv', 'D_close_loan.csv', 'D_job.csv', 'D_last_credit.csv', 'D_loan.csv', 'D_pens.csv', 'D_salary.csv', 'D_target.csv', 'D_work.csv']


In [None]:
# загрузим датасеты и сразу почистим от дублей
clients = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_clients.csv')
clients.drop_duplicates(inplace=True, ignore_index=True)
close_loan = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_close_loan.csv')
close_loan.drop_duplicates(inplace=True, ignore_index=True)
job = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_job.csv')
job.drop_duplicates(inplace=True, ignore_index=True)
last_credit = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_last_credit.csv')
last_credit.drop_duplicates(inplace=True, ignore_index=True)
loan = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_loan.csv')
loan.drop_duplicates(inplace=True, ignore_index=True)
pens = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_pens.csv')
pens.drop_duplicates(inplace=True, ignore_index=True)
salary = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_salary.csv')
salary.drop_duplicates(inplace=True, ignore_index=True)
target = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_target.csv')
target.drop_duplicates(inplace=True, ignore_index=True)
work = pd.read_csv('/content/drive/MyDrive/temporary/lin mod/' + 'D_work.csv')
work.drop_duplicates(inplace=True, ignore_index=True)


In [80]:
clients.head()

Unnamed: 0,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,ID_CLIENT
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0,106805103
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0,106809308
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1,106805867
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1,106808779
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0,106814289


In [None]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16000 entries, 0 to 15999
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   ID                       16000 non-null  int64 
 1   AGE                      16000 non-null  int64 
 2   GENDER                   16000 non-null  int64 
 3   EDUCATION                16000 non-null  object
 4   MARITAL_STATUS           16000 non-null  object
 5   CHILD_TOTAL              16000 non-null  int64 
 6   DEPENDANTS               16000 non-null  int64 
 7   SOCSTATUS_WORK_FL        16000 non-null  int64 
 8   SOCSTATUS_PENS_FL        16000 non-null  int64 
 9   REG_ADDRESS_PROVINCE     16000 non-null  object
 10  FACT_ADDRESS_PROVINCE    16000 non-null  object
 11  POSTAL_ADDRESS_PROVINCE  16000 non-null  object
 12  FL_PRESENCE_FL           16000 non-null  int64 
 13  OWN_AUTO                 16000 non-null  int64 
dtypes: int64(9), object(5)
memory usage: 1

In [None]:
clients['ID'].nunique()

16000

In [None]:
close_loan.head()

Unnamed: 0,ID_LOAN,CLOSED_FL
0,1753790658,1
1,1753790659,1
2,1753790660,1
3,1753790661,0
4,1753790662,1


In [None]:
job.head()

Unnamed: 0,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,ID_CLIENT
0,Торговля,Рабочий,Вспомогательный техперсонал,18.0,106804370
1,Торговля,Рабочий,Участие в основ. деятельности,97.0,106804371
2,Информационные технологии,Специалист,Участие в основ. деятельности,84.0,106804372
3,Образование,Руководитель среднего звена,Участие в основ. деятельности,168.0,106804373
4,Государственная служба,Специалист,Участие в основ. деятельности,101.0,106804374


In [None]:
last_credit.head()

Unnamed: 0,CREDIT,TERM,FST_PAYMENT,ID_CLIENT
0,8000.0,6,8650.0,106804370
1,21650.0,6,4000.0,106804371
2,33126.0,12,4000.0,106804372
3,8491.82,6,5000.0,106804373
4,21990.0,12,4000.0,106804374


In [None]:
loan.head()

Unnamed: 0,ID_LOAN,ID_CLIENT
0,1753790658,106804370
1,1753790659,106804371
2,1753790660,106804372
3,1753790661,106804372
4,1753790662,106804373


In [None]:
pens.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,пенсионер
1,2,1,не пенсионер


In [None]:
salary.head()

Unnamed: 0,FAMILY_INCOME,PERSONAL_INCOME,ID_CLIENT
0,от 20000 до 50000 руб.,20000.0,106809321
1,от 20000 до 50000 руб.,14000.0,106815561
2,от 10000 до 20000 руб.,15000.0,106811521
3,от 20000 до 50000 руб.,20000.0,106811252
4,от 20000 до 50000 руб.,25000.0,106808620


In [None]:
salary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   FAMILY_INCOME    15223 non-null  object 
 1   PERSONAL_INCOME  15223 non-null  float64
 2   ID_CLIENT        15223 non-null  int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 356.9+ KB


In [None]:
target.head()

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET
0,59910150,106804370,0
1,59910230,106804371,0
2,59910525,106804372,0
3,59910803,106804373,0
4,59911781,106804374,0


In [None]:
target.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   AGREEMENT_RK  15223 non-null  int64
 1   ID_CLIENT     15223 non-null  int64
 2   TARGET        15223 non-null  int64
dtypes: int64(3)
memory usage: 356.9 KB


In [None]:
work.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,работает
1,2,1,не работает
2,3,2,не известно


In [None]:
merged_df = pd.merge(loan, close_loan, on='ID_LOAN')

In [None]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21126 entries, 0 to 21125
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   ID_LOAN    21126 non-null  int64
 1   ID_CLIENT  21126 non-null  int64
 2   CLOSED_FL  21126 non-null  int64
dtypes: int64(3)
memory usage: 495.3 KB


In [None]:
print(merged_df['ID_LOAN'].nunique(), merged_df['ID_CLIENT'].nunique())

21126 15223


In [None]:
merged_loan = merged_df.groupby('ID_CLIENT').agg({'ID_LOAN': 'count', 'CLOSED_FL': 'sum'})

In [None]:
merged_loan.head()

Unnamed: 0_level_0,ID_LOAN,CLOSED_FL
ID_CLIENT,Unnamed: 1_level_1,Unnamed: 2_level_1
106804370,1,1
106804371,1,1
106804372,2,1
106804373,1,1
106804374,2,1


In [None]:
merged_loan = merged_loan.reset_index()

In [None]:
merged_loan.head()

Unnamed: 0,ID_CLIENT,ID_LOAN,CLOSED_FL
0,106804370,1,1
1,106804371,1,1
2,106804372,2,1
3,106804373,1,1
4,106804374,2,1


In [None]:
clients['ID_CLIENT'] = clients['ID']

In [83]:
df = pd.merge(target, merged_loan, on='ID_CLIENT', how='left')
df = pd.merge(df, clients, on='ID_CLIENT', how='left')
df = pd.merge(df, salary, on='ID_CLIENT', how='left')

In [None]:
df.head()

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET,ID_LOAN,CLOSED_FL,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,...,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,FAMILY_INCOME,PERSONAL_INCOME
0,59910150,106804370,0,1,1,106804370,49,1,Среднее специальное,Состою в браке,...,1,1,0,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0
1,59910230,106804371,0,1,1,106804371,32,1,Среднее,Состою в браке,...,3,1,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0
2,59910525,106804372,0,2,1,106804372,52,1,Неполное среднее,Состою в браке,...,0,1,0,Иркутская область,Иркутская область,Иркутская область,0,0,от 10000 до 20000 руб.,9000.0
3,59910803,106804373,0,1,1,106804373,39,1,Высшее,Состою в браке,...,1,1,0,Ростовская область,Ростовская область,Ростовская область,1,0,от 20000 до 50000 руб.,25000.0
4,59911781,106804374,0,2,1,106804374,30,0,Среднее,Состою в браке,...,0,1,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0


In [None]:
df.isna().sum()

Unnamed: 0,0
AGREEMENT_RK,0
ID_CLIENT,0
TARGET,0
ID_LOAN,0
CLOSED_FL,0
ID,0
AGE,0
GENDER,0
EDUCATION,0
MARITAL_STATUS,0


In [84]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   AGREEMENT_RK             15223 non-null  int64  
 1   ID_CLIENT                15223 non-null  int64  
 2   TARGET                   15223 non-null  int64  
 3   ID_LOAN                  15223 non-null  int64  
 4   CLOSED_FL                15223 non-null  int64  
 5   ID                       15223 non-null  int64  
 6   AGE                      15223 non-null  int64  
 7   GENDER                   15223 non-null  int64  
 8   EDUCATION                15223 non-null  object 
 9   MARITAL_STATUS           15223 non-null  object 
 10  CHILD_TOTAL              15223 non-null  int64  
 11  DEPENDANTS               15223 non-null  int64  
 12  SOCSTATUS_WORK_FL        15223 non-null  int64  
 13  SOCSTATUS_PENS_FL        15223 non-null  int64  
 14  REG_ADDRESS_PROVINCE  

In [85]:
df['ALL_FL'] = df['ID_LOAN']

In [86]:
cols = df.columns.to_list()

In [87]:
cols

['AGREEMENT_RK',
 'ID_CLIENT',
 'TARGET',
 'ID_LOAN',
 'CLOSED_FL',
 'ID',
 'AGE',
 'GENDER',
 'EDUCATION',
 'MARITAL_STATUS',
 'CHILD_TOTAL',
 'DEPENDANTS',
 'SOCSTATUS_WORK_FL',
 'SOCSTATUS_PENS_FL',
 'REG_ADDRESS_PROVINCE',
 'FACT_ADDRESS_PROVINCE',
 'POSTAL_ADDRESS_PROVINCE',
 'FL_PRESENCE_FL',
 'OWN_AUTO',
 'FAMILY_INCOME',
 'PERSONAL_INCOME',
 'ALL_FL']

In [88]:
fin_cols = ['AGREEMENT_RK', 'TARGET', 'ALL_FL', 'CLOSED_FL', 'AGE', 'GENDER', 'CHILD_TOTAL','DEPENDANTS', 'SOCSTATUS_WORK_FL', 'SOCSTATUS_PENS_FL', 'FL_PRESENCE_FL', 'OWN_AUTO', 'PERSONAL_INCOME']

In [89]:
df = df[fin_cols]

In [None]:
try:
    import ydata_profiling
except ImportError:
    !pip install ydata-profiling

Collecting ydata-profiling
  Downloading ydata_profiling-4.12.2-py2.py3-none-any.whl.metadata (20 kB)
Collecting visions<0.8.0,>=0.7.5 (from visions[type_image_path]<0.8.0,>=0.7.5->ydata-profiling)
  Downloading visions-0.7.6-py3-none-any.whl.metadata (11 kB)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.12-py3-none-any.whl.metadata (9.6 kB)
Collecting imagehash==4.3.1 (from ydata-profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl.metadata (8.0 kB)
Collecting dacite>=1.8 (from ydata-profiling)
  Downloading dacite-1.9.2-py3-none-any.whl.metadata (17 kB)
Collecting PyWavelets (from imagehash==4.3.1->ydata-profiling)
  Downloading pywavelets-1.

In [None]:
from ydata_profiling import ProfileReport
# Импорт функции для кэширования зип-файла
from ydata_profiling.utils.cache import cache_zipped_file

In [90]:
# Генерация профильного отчета
profile = ProfileReport(
        df, title="Profile Report", explorative=True
    )

In [91]:
# Или использование HTML-отчета внутри iframe
profile

Output hidden; open in https://colab.research.google.com to view.

In [92]:
df.to_csv('fin_data.csv', index=False)