# Практическая работа

# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите файлы из базы в Postgres (или используйте `*.csv` как есть).
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

Ниже представлен минимальный список колонок, которые должны находиться в итоговом датасете после склейки и агрегации данных. По своему усмотрению вы можете добавить дополнительные к этим колонки.

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

## Задание 1

Соберите всю информацию о клиентах в одну таблицу, где одна строчка соответствует полной информации об одном клиенте.

## Задание 2

При помощи инструмента Streamlit проведите разведочный анализ данных. В него может входить:

* построение графиков распределений признаков
* построение матрицы корреляций
* построение графиков зависимостей целевой переменной и признаков
* вычисление числовых характеристик распределения числовых столбцов (среднее, min, max, медиана и так далее)
* любые другие ваши идеи приветствуются!

[Пример Streamlit-приложения](https://rateyourflight.streamlit.app) с разведочным анализом, прогнозом модели и оценкой ее результатов.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

In [2]:
#
df_clients = pd.read_csv('datasets/D_clients.csv')
df_close_loans = pd.read_csv('datasets/D_close_loan.csv')
df_job = pd.read_csv('datasets/D_job.csv')
df_last_credit = pd.read_csv('datasets/D_last_credit.csv')
df_loan = pd.read_csv('datasets/D_loan.csv')
df_pens = pd.read_csv('datasets/D_pens.csv')
df_salary = pd.read_csv('datasets/D_salary.csv')
df_target = pd.read_csv('datasets/D_target.csv')
df_work = pd.read_csv('datasets/D_work.csv')

In [3]:
df_clients.head()

Unnamed: 0,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0


In [4]:
df_clients.shape

(16000, 14)

In [5]:
df_close_loans.shape

(21126, 2)

In [6]:
df_close_loans.head()

Unnamed: 0,ID_LOAN,CLOSED_FL
0,1753790658,1
1,1753790659,1
2,1753790660,1
3,1753790661,0
4,1753790662,1


In [7]:
# df_close_loan не имеет айдишнк клиента.(плохо)

In [8]:
df_job.head()

Unnamed: 0,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,ID_CLIENT
0,Торговля,Рабочий,Вспомогательный техперсонал,18.0,106804370
1,Торговля,Рабочий,Участие в основ. деятельности,97.0,106804371
2,Информационные технологии,Специалист,Участие в основ. деятельности,84.0,106804372
3,Образование,Руководитель среднего звена,Участие в основ. деятельности,168.0,106804373
4,Государственная служба,Специалист,Участие в основ. деятельности,101.0,106804374


In [9]:
df_job.shape

(15223, 5)

In [10]:
df_last_credit.head()

Unnamed: 0,CREDIT,TERM,FST_PAYMENT,ID_CLIENT
0,8000.0,6,8650.0,106804370
1,21650.0,6,4000.0,106804371
2,33126.0,12,4000.0,106804372
3,8491.82,6,5000.0,106804373
4,21990.0,12,4000.0,106804374


In [11]:
df_last_credit.shape

(15223, 4)

In [12]:
df_loan.head()

Unnamed: 0,ID_LOAN,ID_CLIENT
0,1753790658,106804370
1,1753790659,106804371
2,1753790660,106804372
3,1753790661,106804372
4,1753790662,106804373


In [13]:
df_loan.shape

(21126, 2)

In [14]:
# к преведущиму коммету: но айдишник клиента, можно прикрутить по айдишнику займа (это хорошо). 

In [15]:
df_pens.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,пенсионер
1,2,1,не пенсионер


In [16]:
# мда. Наверное выдернули из БД. Без связях с другими таблицами,информативности НОЛЬ. 

In [17]:
df_salary.head()

Unnamed: 0,FAMILY_INCOME,PERSONAL_INCOME,ID_CLIENT
0,от 20000 до 50000 руб.,20000.0,106809321
1,от 20000 до 50000 руб.,14000.0,106815561
2,от 10000 до 20000 руб.,15000.0,106811521
3,от 20000 до 50000 руб.,20000.0,106811252
4,от 20000 до 50000 руб.,25000.0,106808620


In [18]:
df_salary.shape

(15523, 3)

In [19]:
df_target.head()

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET
0,59910150,106804370,0
1,59910230,106804371,0
2,59910525,106804372,0
3,59910803,106804373,0
4,59911781,106804374,0


In [20]:
df_target.shape

(15223, 3)

In [21]:
df_work.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,работает
1,2,1,не работает
2,3,2,не известно


In [22]:
# df_work, df_pens лидеры нашего чарта и будут выступать в профессиональной лиге (без нашего участия).

# df_loan и df_close_loan можно объединить в один датафрейм и тогда у нас будет датафрейм с информацией о клиентах,
# которые закрыли либо/не закрыли займ.(Надо?)

In [23]:
df_loan_total = df_loan.merge(df_close_loans, on='ID_LOAN', how='outer')

In [24]:
df_loan_total

Unnamed: 0,ID_LOAN,ID_CLIENT,CLOSED_FL
0,1753790658,106804370,1
1,1753790659,106804371,1
2,1753790660,106804372,1
3,1753790661,106804372,0
4,1753790662,106804373,1
...,...,...,...
21121,1753811779,106819588,1
21122,1753811780,106819589,0
21123,1753811781,106819590,0
21124,1753811782,106819591,0


In [25]:
#df = df.reindex(columns=['A', 'C', 'B'])

df_loan_total = df_loan_total.reindex(columns=['ID_CLIENT', 'ID_LOAN', 'CLOSED_FL'])
df_loan_total['ID_LOAN'].dtype

dtype('int64')

In [26]:
df_loan_total['ID_CLIENT'].value_counts()

106814086    11
106816059     8
106819079     8
106816080     8
106815100     7
             ..
106809752     1
106809753     1
106809754     1
106809755     1
106819592     1
Name: ID_CLIENT, Length: 15223, dtype: int64

In [27]:
# итак у нас есть клиенты с 11 кредитами. Едем дальше.

In [28]:
#переименуем столбец с айдишниками клиентов
df_clients = df_clients.rename(columns={'ID':'ID_CLIENT'})

In [29]:
df_clients.head()

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0


In [30]:
#df_clients.merge(df_union_15523, how='left', left_on='ID', right_on='ID_CLIENT')

df_clients = df_clients.merge(df_loan_total, on='ID_CLIENT', how='outer')
df_clients

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO,ID_LOAN,CLOSED_FL
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0,1.753791e+09,0.0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0,1.753796e+09,0.0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1,1.753792e+09,1.0
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1,1.753796e+09,0.0
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0,1.753802e+09,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21898,106814680,26,1,Среднее,Не состоял в браке,1,1,1,0,Чувашия,Чувашия,Чувашия,0,0,1.753803e+09,1.0
21899,106812464,26,0,Среднее специальное,Состою в браке,0,0,1,0,Карелия,Карелия,Карелия,0,0,1.753800e+09,0.0
21900,106809255,30,1,Среднее специальное,Не состоял в браке,0,0,1,0,Белгородская область,Белгородская область,Белгородская область,0,0,1.753796e+09,0.0
21901,106814593,25,0,Среднее специальное,Состою в браке,0,0,1,0,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,1.753803e+09,1.0


In [31]:
df_clients.shape

(21903, 16)

In [32]:
df_clients['ID_LOAN'].dtype

dtype('float64')

In [33]:
df_clients['CLOSED_FL'].dtype

dtype('float64')

In [34]:
# Будьте аккуратны c NaN, они — тихие разрушители данных!
df_clients['ID_LOAN'] = df_clients['ID_LOAN'].fillna(0.0).round().astype('Int64')
df_clients['CLOSED_FL'] = df_clients['CLOSED_FL'].fillna(0.0).round().astype('Int64')



In [35]:
df_clients['CLOSED_FL'].dtype

Int64Dtype()

In [36]:
df_clients['ID_LOAN'].dtype

Int64Dtype()

In [37]:
df_clients.shape

(21903, 16)

In [38]:
np.any(df_clients.isna().values)

False

In [43]:
# итак у нас нет нанов
#осталось df_job, df_last_credit, df_salary замержить 

df_clients = df_clients.merge(df_job, how='left', on='ID_CLIENT')

In [44]:
df_clients = df_clients.merge(df_last_credit, how='left', on='ID_CLIENT')

In [45]:
df_clients = df_clients.merge(df_salary, how='left', on='ID_CLIENT')

In [None]:
df_clients = df_clients.merge(df_salary, how='left', on='ID_CLIENT')

In [46]:
#ну и конечно таргет
df_clients = df_clients.merge(df_target, how='left', on='ID_CLIENT')

In [47]:
df_clients.shape

(22312, 27)

In [48]:
df_clients.head()

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,...,GEN_TITLE,JOB_DIR,WORK_TIME,CREDIT,TERM,FST_PAYMENT,FAMILY_INCOME,PERSONAL_INCOME,AGREEMENT_RK,TARGET
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,...,Работник сферы услуг,Участие в основ. деятельности,3.0,5588.0,6.0,1000.0,от 20000 до 50000 руб.,25000.0,60099204.0,1.0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,...,Специалист,Участие в основ. деятельности,5.0,19498.0,12.0,0.0,от 10000 до 20000 руб.,10000.0,62244665.0,0.0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,...,Руководитель высшего звена,Участие в основ. деятельности,360.0,15470.0,3.0,15000.0,от 20000 до 50000 руб.,30000.0,61050759.0,0.0
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,...,Специалист,Участие в основ. деятельности,3.0,13960.0,6.0,2500.0,от 20000 до 50000 руб.,25000.0,62079659.0,0.0
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,...,Специалист,Участие в основ. деятельности,12.0,11890.0,6.0,8000.0,от 10000 до 20000 руб.,15000.0,66583553.0,0.0


In [49]:
df_clients['AGREEMENT_RK'] = df_clients['AGREEMENT_RK'].fillna(0.0).round().astype('Int64')
df_clients['TARGET'] = df_clients['TARGET'].fillna(0.0).round().astype('Int64')

In [50]:
df_clients.head()

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,...,GEN_TITLE,JOB_DIR,WORK_TIME,CREDIT,TERM,FST_PAYMENT,FAMILY_INCOME,PERSONAL_INCOME,AGREEMENT_RK,TARGET
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,...,Работник сферы услуг,Участие в основ. деятельности,3.0,5588.0,6.0,1000.0,от 20000 до 50000 руб.,25000.0,60099204,1
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,...,Специалист,Участие в основ. деятельности,5.0,19498.0,12.0,0.0,от 10000 до 20000 руб.,10000.0,62244665,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,...,Руководитель высшего звена,Участие в основ. деятельности,360.0,15470.0,3.0,15000.0,от 20000 до 50000 руб.,30000.0,61050759,0
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,...,Специалист,Участие в основ. деятельности,3.0,13960.0,6.0,2500.0,от 20000 до 50000 руб.,25000.0,62079659,0
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,...,Специалист,Участие в основ. деятельности,12.0,11890.0,6.0,8000.0,от 10000 до 20000 руб.,15000.0,66583553,0


In [51]:
np.any(df_clients.isna().values)

True

In [52]:
df_clients.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22312 entries, 0 to 22311
Data columns (total 27 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID_CLIENT                22312 non-null  int64  
 1   AGE                      22312 non-null  int64  
 2   GENDER                   22312 non-null  int64  
 3   EDUCATION                22312 non-null  object 
 4   MARITAL_STATUS           22312 non-null  object 
 5   CHILD_TOTAL              22312 non-null  int64  
 6   DEPENDANTS               22312 non-null  int64  
 7   SOCSTATUS_WORK_FL        22312 non-null  int64  
 8   SOCSTATUS_PENS_FL        22312 non-null  int64  
 9   REG_ADDRESS_PROVINCE     22312 non-null  object 
 10  FACT_ADDRESS_PROVINCE    22312 non-null  object 
 11  POSTAL_ADDRESS_PROVINCE  22312 non-null  object 
 12  FL_PRESENCE_FL           22312 non-null  int64  
 13  OWN_AUTO                 22312 non-null  int64  
 14  ID_LOAN               

In [54]:
#В датасете есть пропуски
df_clients.isnull().sum()

ID_CLIENT                     0
AGE                           0
GENDER                        0
EDUCATION                     0
MARITAL_STATUS                0
CHILD_TOTAL                   0
DEPENDANTS                    0
SOCSTATUS_WORK_FL             0
SOCSTATUS_PENS_FL             0
REG_ADDRESS_PROVINCE          0
FACT_ADDRESS_PROVINCE         0
POSTAL_ADDRESS_PROVINCE       0
FL_PRESENCE_FL                0
OWN_AUTO                      0
ID_LOAN                       0
CLOSED_FL                     0
GEN_INDUSTRY               2581
GEN_TITLE                  2581
JOB_DIR                    2581
WORK_TIME                  2585
CREDIT                      777
TERM                        777
FST_PAYMENT                 777
FAMILY_INCOME               777
PERSONAL_INCOME             777
AGREEMENT_RK                  0
TARGET                        0
dtype: int64

In [56]:
#проверяем проценты пропусков
df_clients.isnull().mean() * 100

ID_CLIENT                   0.000000
AGE                         0.000000
GENDER                      0.000000
EDUCATION                   0.000000
MARITAL_STATUS              0.000000
CHILD_TOTAL                 0.000000
DEPENDANTS                  0.000000
SOCSTATUS_WORK_FL           0.000000
SOCSTATUS_PENS_FL           0.000000
REG_ADDRESS_PROVINCE        0.000000
FACT_ADDRESS_PROVINCE       0.000000
POSTAL_ADDRESS_PROVINCE     0.000000
FL_PRESENCE_FL              0.000000
OWN_AUTO                    0.000000
ID_LOAN                     0.000000
CLOSED_FL                   0.000000
GEN_INDUSTRY               11.567766
GEN_TITLE                  11.567766
JOB_DIR                    11.567766
WORK_TIME                  11.585694
CREDIT                      3.482431
TERM                        3.482431
FST_PAYMENT                 3.482431
FAMILY_INCOME               3.482431
PERSONAL_INCOME             3.482431
AGREEMENT_RK                0.000000
TARGET                      0.000000
d

In [57]:
#Work_time либо- неизвестно либо, либо не работают, либо ноль

df_clients['WORK_TIME'] = df_clients['WORK_TIME'].fillna(0.0).round(1).astype('Float64')

In [58]:
df_clients['GEN_INDUSTRY'] = df_clients['GEN_INDUSTRY'].fillna('неизвестно').astype('str')

In [59]:
df_clients['GEN_TITLE'] = df_clients['GEN_TITLE'].fillna('неизвестно').astype('str')

In [60]:
df_clients['JOB_DIR'] = df_clients['JOB_DIR'].fillna('неизвестно').astype('str')

In [61]:
# еще раз проверяем проценты пропусков
df_clients.isnull().mean() * 100

ID_CLIENT                  0.000000
AGE                        0.000000
GENDER                     0.000000
EDUCATION                  0.000000
MARITAL_STATUS             0.000000
CHILD_TOTAL                0.000000
DEPENDANTS                 0.000000
SOCSTATUS_WORK_FL          0.000000
SOCSTATUS_PENS_FL          0.000000
REG_ADDRESS_PROVINCE       0.000000
FACT_ADDRESS_PROVINCE      0.000000
POSTAL_ADDRESS_PROVINCE    0.000000
FL_PRESENCE_FL             0.000000
OWN_AUTO                   0.000000
ID_LOAN                    0.000000
CLOSED_FL                  0.000000
GEN_INDUSTRY               0.000000
GEN_TITLE                  0.000000
JOB_DIR                    0.000000
WORK_TIME                  0.000000
CREDIT                     3.482431
TERM                       3.482431
FST_PAYMENT                3.482431
FAMILY_INCOME              3.482431
PERSONAL_INCOME            3.482431
AGREEMENT_RK               0.000000
TARGET                     0.000000
dtype: float64

In [62]:
#поскольку у 3,48%  отсутствует информация о том брал ли он кредит и на какой срок предположу что, с определенной степени вероятности,
# почти наверняка кредит он в этом банке не брал. Видимо заходили просто так - поглядеть,поспросить . И тут у нас два варианта.
# Выберем тот в котором их мнение нам не важно

In [63]:
df_clients = df_clients.dropna()
df_clients.shape

(21535, 27)

In [64]:
df_clients.isnull().sum()

ID_CLIENT                  0
AGE                        0
GENDER                     0
EDUCATION                  0
MARITAL_STATUS             0
CHILD_TOTAL                0
DEPENDANTS                 0
SOCSTATUS_WORK_FL          0
SOCSTATUS_PENS_FL          0
REG_ADDRESS_PROVINCE       0
FACT_ADDRESS_PROVINCE      0
POSTAL_ADDRESS_PROVINCE    0
FL_PRESENCE_FL             0
OWN_AUTO                   0
ID_LOAN                    0
CLOSED_FL                  0
GEN_INDUSTRY               0
GEN_TITLE                  0
JOB_DIR                    0
WORK_TIME                  0
CREDIT                     0
TERM                       0
FST_PAYMENT                0
FAMILY_INCOME              0
PERSONAL_INCOME            0
AGREEMENT_RK               0
TARGET                     0
dtype: int64

In [67]:
#проверяем на дублткаты
df_clients.duplicated().sum()

409

In [68]:
df_clients.drop_duplicates()

Unnamed: 0,ID_CLIENT,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,...,GEN_TITLE,JOB_DIR,WORK_TIME,CREDIT,TERM,FST_PAYMENT,FAMILY_INCOME,PERSONAL_INCOME,AGREEMENT_RK,TARGET
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,...,Работник сферы услуг,Участие в основ. деятельности,3.0,5588.0,6.0,1000.0,от 20000 до 50000 руб.,25000.0,60099204,1
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,...,Специалист,Участие в основ. деятельности,5.0,19498.0,12.0,0.0,от 10000 до 20000 руб.,10000.0,62244665,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,...,Руководитель высшего звена,Участие в основ. деятельности,360.0,15470.0,3.0,15000.0,от 20000 до 50000 руб.,30000.0,61050759,0
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,...,Специалист,Участие в основ. деятельности,3.0,13960.0,6.0,2500.0,от 20000 до 50000 руб.,25000.0,62079659,0
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,...,Специалист,Участие в основ. деятельности,12.0,11890.0,6.0,8000.0,от 10000 до 20000 руб.,15000.0,66583553,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22307,106814680,26,1,Среднее,Не состоял в браке,1,1,1,0,Чувашия,...,Специалист,Участие в основ. деятельности,36.0,11750.0,4.0,1900.0,от 5000 до 10000 руб.,8000.0,66751099,0
22308,106812464,26,0,Среднее специальное,Состою в браке,0,0,1,0,Карелия,...,Специалист,Участие в основ. деятельности,24.0,12350.0,6.0,1380.0,от 20000 до 50000 руб.,12000.0,64562377,0
22309,106809255,30,1,Среднее специальное,Не состоял в браке,0,0,1,0,Белгородская область,...,Специалист,Участие в основ. деятельности,36.0,4915.0,10.0,2000.0,от 5000 до 10000 руб.,9000.0,62236542,0
22310,106814593,25,0,Среднее специальное,Состою в браке,0,0,1,0,Кабардино-Балкария,...,Специалист,Участие в основ. деятельности,36.0,5860.0,3.0,2000.0,от 10000 до 20000 руб.,12000.0,66739926,0


In [69]:
df_clients.to_csv('datasets/bank_clients_clean.csv')