# Предобработка данных

## Импорты библиотек

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
DATA_PATH = 'datasets/'
DATA_FULL_FILENAME = 'data_full.csv'

## target

In [3]:
# чтение датасета
target_df = pd.read_csv(DATA_PATH + 'target.csv')

In [4]:
# вывод на экран первых 5 объектов датасета
target_df.head()

Unnamed: 0,AGREEMENT_RK,ID_CLIENT,TARGET
0,59910150,106804370,0
1,59910230,106804371,0
2,59910525,106804372,0
3,59910803,106804373,0
4,59911781,106804374,0


In [5]:
# вывод на экран общей информации о датасете
target_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   AGREEMENT_RK  15223 non-null  int64
 1   ID_CLIENT     15223 non-null  int64
 2   TARGET        15223 non-null  int64
dtypes: int64(3)
memory usage: 356.9 KB


датасет не содержит пропусков

In [6]:
# проверка: датасет содержит информацию об уникальных клиентах
assert target_df.AGREEMENT_RK.nunique() == len(target_df)
assert target_df.ID_CLIENT.nunique() == len(target_df)

# проверка: бинарность целевого значения
assert target_df.TARGET.nunique() == 2

датасет не содержит дубликатов, следовательно, в объединенном датасете должна содержаться информация о 15223 уникальных клиентах

здесь и далее — для удобства объединения датасетов сделаем признак `ID_CLIENT` индексом:


In [7]:
# установление столбца ID_CLIENT в качестве индекса
target_df.set_index(keys='ID_CLIENT', inplace=True)

## clients

In [8]:
# чтение датасета
clients_df = pd.read_csv(DATA_PATH + 'clients.csv')

In [9]:
# вывод на экран первых 5 объектов датасета
clients_df.head()

Unnamed: 0,ID,AGE,GENDER,EDUCATION,MARITAL_STATUS,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,REG_ADDRESS_PROVINCE,FACT_ADDRESS_PROVINCE,POSTAL_ADDRESS_PROVINCE,FL_PRESENCE_FL,OWN_AUTO
0,106805103,42,1,Среднее,Не состоял в браке,1,0,1,0,Московская область,Московская область,Московская область,1,0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,1,0,Читинская область,Читинская область,Читинская область,0,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,1,1,Иркутская область,Иркутская область,Иркутская область,0,1
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,1,0,Новосибирская область,Новосибирская область,Новосибирская область,1,1
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,1,0,Красноярский край,Красноярский край,Красноярский край,1,0


In [10]:
# вывод на экран общей информации о датасете
clients_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16000 entries, 0 to 15999
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   ID                       16000 non-null  int64 
 1   AGE                      16000 non-null  int64 
 2   GENDER                   16000 non-null  int64 
 3   EDUCATION                16000 non-null  object
 4   MARITAL_STATUS           16000 non-null  object
 5   CHILD_TOTAL              16000 non-null  int64 
 6   DEPENDANTS               16000 non-null  int64 
 7   SOCSTATUS_WORK_FL        16000 non-null  int64 
 8   SOCSTATUS_PENS_FL        16000 non-null  int64 
 9   REG_ADDRESS_PROVINCE     16000 non-null  object
 10  FACT_ADDRESS_PROVINCE    16000 non-null  object
 11  POSTAL_ADDRESS_PROVINCE  16000 non-null  object
 12  FL_PRESENCE_FL           16000 non-null  int64 
 13  OWN_AUTO                 16000 non-null  int64 
dtypes: int64(9), object(5)
memory usage: 1

- датасет не содержит пропусков
- датасет содержит более 15223 объектов (количество объектов в датасете `target`), возможно в нем содержатся дубликаты:

In [11]:
# проверка на дубликаты
assert clients_df.ID.nunique() == len(clients_df)

датасет не содержит дубликатов, следовательно, не все указанные в нем клиенты участвовали в маркетинговой кампании (и информация о таких клиентах не должна содержаться в объединенном датасете) 

In [12]:
# вывод описательных статистик по признакам с числовыми значениями
clients_df.select_dtypes(include='int').drop(columns='ID').describe()

Unnamed: 0,AGE,GENDER,CHILD_TOTAL,DEPENDANTS,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,FL_PRESENCE_FL,OWN_AUTO
count,16000.0,16000.0,16000.0,16000.0,16000.0,16000.0,16000.0,16000.0
mean,40.39475,0.65325,1.097562,0.644437,0.909375,0.134625,0.310188,0.116562
std,11.600365,0.47595,0.995731,0.811975,0.287084,0.341333,0.462585,0.321298
min,21.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,30.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
50%,39.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0
75%,50.0,1.0,2.0,1.0,1.0,0.0,1.0,0.0
max,67.0,1.0,10.0,7.0,1.0,1.0,1.0,2.0


- описательные статистики не выявили аномальных значений
- среди клиентов есть работающие пенсионеры (сумма средних значений признаков `SOCSTATUS_WORK_FL` и `SOCSTATUS_PENS_FL` больше 1)

Создадим списки с ID работающих клиентов и клиентов-пенсионеров

In [13]:
# создание списков id работающих клиентов и клиентов-пенсионеров
work_ids = clients_df[clients_df.SOCSTATUS_WORK_FL == 1].ID
pens_ids = clients_df[clients_df.SOCSTATUS_PENS_FL == 1].ID

In [14]:
# по каждому признаку со значениями типа object вывод на экран уникальных значений
for col in clients_df.select_dtypes(include='object').columns:
    print(col)
    print(clients_df[col].unique())
    print()

EDUCATION
['Среднее' 'Среднее специальное' 'Высшее' 'Неполное среднее'
 'Неоконченное высшее' 'Два и более высших образования' 'Ученая степень']

MARITAL_STATUS
['Не состоял в браке' 'Состою в браке' 'Вдовец/Вдова' 'Гражданский брак'
 'Разведен(а)']

REG_ADDRESS_PROVINCE
['Московская область' 'Читинская область' 'Иркутская область'
 'Новосибирская область' 'Красноярский край' 'Кабардино-Балкария'
 'Брянская область' 'Рязанская область' 'Ростовская область' 'Карелия'
 'Омская область' 'Бурятия' 'Воронежская область' 'Мурманская область'
 'Ставропольский край' 'Оренбургская область' 'Краснодарский край'
 'Тверская область' 'Хабаровский край' 'Приморский край'
 'Тюменская область' 'Вологодская область' 'Хакасия' 'Тамбовская область'
 'Челябинская область' 'Пермская область' 'Кемеровская область'
 'Костромская область' 'Саратовская область' 'Ленинградская область'
 'Архангельская область' 'Пензенская область' 'Курская область'
 'Ивановская область' 'Чувашия' 'Амурская область' 'Курганская 

признаки не содержат аномальных значений

In [15]:
# переименование столбца ID в ID_CLIENT
clients_df.rename(columns={'ID': 'ID_CLIENT'}, inplace=True)

# установление столбца ID_CLIENT в качестве индекса
clients_df.set_index(keys='ID_CLIENT', inplace=True)

## work

In [16]:
# чтение датасета
work_df = pd.read_csv(DATA_PATH + 'work.csv')

In [17]:
# вывод на экран первых 5 объектов датасета
work_df.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,работает
1,2,1,не работает
2,3,2,не известно


значения данного датасета противоречат данным датасета `clients` и их описанию:
- столбец `SOCSTATUS_WORK_FL` принимает только два значения (0 и 1)
- согласно описанию к данным датасета `clients`, 1 означает, что клиент работает

Адресуем данные противоречия коллегам, которые собирали данные, и не будем использовать значения датасета `work` при объединении датасетов

## job

In [18]:
# чтение датасета
job_df = pd.read_csv(DATA_PATH + 'job.csv')

In [19]:
# вывод на экран первых 5 объектов датасета
job_df.head()

Unnamed: 0,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,ID_CLIENT
0,Торговля,Рабочий,Вспомогательный техперсонал,18.0,106804370
1,Торговля,Рабочий,Участие в основ. деятельности,97.0,106804371
2,Информационные технологии,Специалист,Участие в основ. деятельности,84.0,106804372
3,Образование,Руководитель среднего звена,Участие в основ. деятельности,168.0,106804373
4,Государственная служба,Специалист,Участие в основ. деятельности,101.0,106804374


In [20]:
# вывод на экран общей информации о датасете
job_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   GEN_INDUSTRY  13856 non-null  object 
 1   GEN_TITLE     13856 non-null  object 
 2   JOB_DIR       13856 non-null  object 
 3   WORK_TIME     13855 non-null  float64
 4   ID_CLIENT     15223 non-null  int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 594.8+ KB


- количество объектов в датасете соответствует количеству объектов в датасете `target`
- датасет содержит пропуски в значениях признаков

Проверим, что датасеты `job_df` и `target_df` содержат информацию об одних и тех же клиентах:

In [21]:
# проверка: датасеты job_df и target_df содержат информацию об одних и тех же клиентах
assert job_df.ID_CLIENT.equals(pd.Series(target_df.index))

Посчитаем количество пропусков:

In [22]:
# выаод на экран количества пропусков 
job_df.isna().sum()

GEN_INDUSTRY    1367
GEN_TITLE       1367
JOB_DIR         1367
WORK_TIME       1368
ID_CLIENT          0
dtype: int64

Проверим гипотезу, что пропуски в значениях признаков, связанных с работой, содержатся в данных о клиентах-пенсионерах (клиентах со значением `1` в столбце `SOCSTATUS_PENS_FL` датасета `clients_df`):

In [23]:
# вывод на экран объектов датасета с пропусками в значениях признака WORK_TIME,
# чьи id принадлежат клиентам-пенсионерам
job_df[(job_df.WORK_TIME.isna()) & (job_df.ID_CLIENT.isin(pens_ids))]

Unnamed: 0,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,ID_CLIENT
16,,,,,106804386
29,,,,,106804399
40,,,,,106804410
43,,,,,106804413
53,,,,,106804423
...,...,...,...,...,...
15185,,,,,106819555
15191,,,,,106819561
15196,,,,,106819566
15197,,,,,106819567


In [24]:
# вывод на экран объекта с пропуском в значении признака WORK_TIME и отсутствием пропуска
# в значении GEN_INDUSTRY
job_df[(~job_df.GEN_INDUSTRY.isna()) & (job_df.WORK_TIME.isna())]

Unnamed: 0,GEN_INDUSTRY,GEN_TITLE,JOB_DIR,WORK_TIME,ID_CLIENT
9847,Строительство,Специалист,Участие в основ. деятельности,,106814217


Гипотеза подтвердилась за исключением одного работающего клиента, у которого указана информация о работе, но не указана информация о рабочих часах.

Для клиентов-пенсионеров заполним пропуски значением-индикатором пропуска, для работающего клиента-медианным значением.

In [25]:
# заполнение пропусков
job_df.loc[9847, 'WORK_TIME'] = job_df.WORK_TIME.median()

job_df.fillna({
    'GEN_INDUSTRY': 'not_applicable',
    'GEN_TITLE': 'not_applicable',
    'JOB_DIR': 'not_applicable',
    'WORK_TIME': -1
}, inplace=True)

In [26]:
# вывод описательных статистик по признакам с числовыми значениями
job_df.select_dtypes(include=['int', 'float']).drop(columns='ID_CLIENT').describe().round()

Unnamed: 0,WORK_TIME
count,15223.0
mean,266.0
std,23244.0
min,-1.0
25%,14.0
50%,40.0
75%,96.0
max,2867959.0


В значениях датасета содержатся аномальные значения — работник не может работать на последнем месте работы 238996 лет (2867959 / 12). 

Решим проблему с аномальными значениями после объединения датасетов

In [27]:
# по каждому признаку со значениями типа object вывод на экран уникальных значений
for col in job_df.select_dtypes(include='object').columns:
    print(col)
    print(job_df[col].unique())
    print()

GEN_INDUSTRY
['Торговля' 'Информационные технологии' 'Образование'
 'Государственная служба' 'Другие сферы' 'Сельское хозяйство'
 'Здравоохранение' 'Металлургия/Промышленность/Машиностроение'
 'not_applicable' 'Коммунальное хоз-во/Дорожные службы' 'Строительство'
 'Транспорт' 'Банк/Финансы' 'Ресторанный бизнес/Общественное питание'
 'Страхование' 'Нефтегазовая промышленность' 'СМИ/Реклама/PR-агенства'
 'Энергетика' 'Салоны красоты и здоровья' 'ЧОП/Детективная д-ть'
 'Развлечения/Искусство' 'Наука' 'Химия/Парфюмерия/Фармацевтика'
 'Сборочные производства' 'Туризм'
 'Юридические услуги/нотариальные услуги' 'Маркетинг' 'Подбор персонала'
 'Информационные услуги' 'Недвижимость' 'Управляющая компания' 'Логистика']

GEN_TITLE
['Рабочий' 'Специалист' 'Руководитель среднего звена'
 'Руководитель высшего звена' 'Служащий' 'Работник сферы услуг'
 'Высококвалифиц. специалист' 'Индивидуальный предприниматель'
 'not_applicable' 'Военнослужащий по контракту'
 'Руководитель низшего звена' 'Другое' 'П

признаки не содержат аномальных значений

In [28]:
# установление столбца ID_CLIENT в качестве индекса
job_df.set_index(keys='ID_CLIENT', inplace=True)

## salary

In [29]:
# чтение датасета
salary_df = pd.read_csv(DATA_PATH + 'salary.csv')

In [30]:
# вывод на экран первых 5 объектов датасета
salary_df.head()

Unnamed: 0,FAMILY_INCOME,PERSONAL_INCOME,ID_CLIENT
0,от 20000 до 50000 руб.,20000.0,106809321
1,от 20000 до 50000 руб.,14000.0,106815561
2,от 10000 до 20000 руб.,15000.0,106811521
3,от 20000 до 50000 руб.,20000.0,106811252
4,от 20000 до 50000 руб.,25000.0,106808620


In [31]:
# вывод на экран общей информации о датасете
salary_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15523 entries, 0 to 15522
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   FAMILY_INCOME    15523 non-null  object 
 1   PERSONAL_INCOME  15523 non-null  float64
 2   ID_CLIENT        15523 non-null  int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 363.9+ KB


- датасет не содержит пропусков
- датасет содержит более 15223 объектов (количество объектов в датасете `target`), возможно в нем содержатся дубликаты:

In [32]:
# проверка на дубликаты
assert salary_df.duplicated().sum()

Посчитаем количество дубликатов:

In [33]:
duplicates_num = salary_df.duplicated().sum()
print(f'датасет salary_df содержит {duplicates_num} дубликата/ов')

датасет salary_df содержит 300 дубликата/ов


Удалим дубликаты и проверим, что после этой операции датасеты `salary_df` и `target_df` содержат информацию об одних и тех же клиентах:

In [34]:
# удаление дубликатов
salary_df = salary_df.drop_duplicates().sort_values(by='ID_CLIENT').reset_index(drop=True)

In [35]:
# проверка: после удаления дубликатов датасеты salary_df и target_df содержат информацию об одних и тех же клиентах
assert salary_df.ID_CLIENT.equals(pd.Series(target_df.index))

In [36]:
# вывод описательных статистик по признакам с числовыми значениями
salary_df.select_dtypes(include=['float']).describe().round()

Unnamed: 0,PERSONAL_INCOME
count,15223.0
mean,13854.0
std,9015.0
min,24.0
25%,8000.0
50%,12000.0
75%,17000.0
max,250000.0


доход 24 рубля выглядит аномально низким; посмотрим на 5 объектов с наименьшим и с наибольшим доходом:

In [37]:
# вывод на экран 5 объектов с наименьшим и наибольшим доходом
pd.concat([
    salary_df.sort_values(by='PERSONAL_INCOME').head(),
    salary_df.sort_values(by='PERSONAL_INCOME').tail()
])

Unnamed: 0,FAMILY_INCOME,PERSONAL_INCOME,ID_CLIENT
3491,от 20000 до 50000 руб.,24.0,106807861
9091,до 5000 руб.,1950.0,106813461
9842,от 10000 до 20000 руб.,2000.0,106814212
4081,от 10000 до 20000 руб.,2000.0,106808451
5222,от 10000 до 20000 руб.,2100.0,106809592
11374,от 20000 до 50000 руб.,160000.0,106815744
144,от 20000 до 50000 руб.,170000.0,106804514
6276,от 20000 до 50000 руб.,220000.0,106810646
2726,от 20000 до 50000 руб.,250000.0,106807096
7273,от 20000 до 50000 руб.,250000.0,106811643


- возможная причина аномального значения 24 — три пропущенные нули: согласно значению признака `FAMILY_INCOME`, доход данного клиента должен быть в диапазоне от 20 до 50 тысяч рублей; при этом мы не можем однозначно сказать, должен ли быть доход этого клиента равен 2400 и 24000 рублей; в отстутсиве информации заменим значение медианой
- мы видим, что доходы клиентов с наибольшим доходом выше их семейного дохода, но мы не можем однозначно определить, была ли допущена ошибка в значении признака `PERSONAL_INCOME` (лишние нули) или в значении признака `FAMILY_INCOME` (ошибочно выбранная категория семейного дохода) или семейный доход не учитывает персональный

In [38]:
# замена аномального значения медианой
salary_df.loc[3491, 'PERSONAL_INCOME'] = salary_df['PERSONAL_INCOME'].median()

In [39]:
# по каждому признаку со значениями типа object вывод на экран уникальных значений
for col in salary_df.select_dtypes(include='object').columns:
    print(col)
    print(salary_df[col].unique())
    print()

FAMILY_INCOME
['от 10000 до 20000 руб.' 'от 20000 до 50000 руб.' 'свыше 50000 руб.'
 'от 5000 до 10000 руб.' 'до 5000 руб.']


признак `FAMILY_INCOME` не содержит аномальных значений

In [40]:
# установление столбца ID_CLIENT в качестве индекса
salary_df.set_index(keys='ID_CLIENT', inplace=True)

##  pens

In [41]:
# чтение датасета
pens_df = pd.read_csv(DATA_PATH + 'pens.csv')

In [42]:
# вывод на экран первых 5 объектов датасета
pens_df.head()

Unnamed: 0,ID,FLAG,COMMENT
0,1,0,пенсионер
1,2,1,не пенсионер


значения данного датасета противоречат данным датасета `clients` и их описанию: согласно описанию к данным датасета `clients`, 1 в столбце `SOCSTATUS_PENS_FL`означает, что клиент — пенсионер

Адресуем данные противоречия коллегам, которые собирали данные, и не будем использовать значения датасета `pens` при объединении датасетов

## loan и loan_close

In [43]:
# чтение датасетов
loan_df = pd.read_csv('datasets/loan.csv')
close_loan_df = pd.read_csv('datasets/close_loan.csv')

In [44]:
# создание списка с названиями датасетов, связанные с займами
loan_df_names = ['loan', 'close_loan']

In [45]:
# вывод на экран первых 5 объектов каждого датасета
for df_name, df in zip(loan_df_names, [loan_df, close_loan_df]):
    print(df_name)
    display(df.head())
    print()

loan


Unnamed: 0,ID_LOAN,ID_CLIENT
0,1753790658,106804370
1,1753790659,106804371
2,1753790660,106804372
3,1753790661,106804372
4,1753790662,106804373



close_loan


Unnamed: 0,ID_LOAN,CLOSED_FL
0,1753790658,1
1,1753790659,1
2,1753790660,1
3,1753790661,0
4,1753790662,1




In [46]:
# вывод на экран общей информации о каждом датасете
for df_name, df in zip(loan_df_names, [loan_df, close_loan_df]):
    print(df_name)
    display(loan_df.info())
    print()

loan
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21126 entries, 0 to 21125
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   ID_LOAN    21126 non-null  int64
 1   ID_CLIENT  21126 non-null  int64
dtypes: int64(2)
memory usage: 330.2 KB


None


close_loan
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21126 entries, 0 to 21125
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   ID_LOAN    21126 non-null  int64
 1   ID_CLIENT  21126 non-null  int64
dtypes: int64(2)
memory usage: 330.2 KB


None



датасеты содержат более 15223 объектов (количество объектов в датасете `target`), возможно в нем содержатся дубликаты:

In [47]:
# проверка: в датасетах нет дубликатов
assert loan_df.duplicated().sum() == 0
assert close_loan_df.duplicated().sum() == 0
# проверка: количество уникальных клиентов в датасете loan равно количеству клиентов в датасете target и количество уникальных займов в датасете loan равно количеству уникальных займов в датасете close_loan
assert loan_df.ID_CLIENT.nunique() == len(target_df) and loan_df.ID_LOAN.nunique() == close_loan_df.ID_LOAN.nunique()

На основании проверок выше мы можем сделать вывод, что у отдельных клиентов более одного займа. Для создания объединенного датасета аггрегируем данные:

In [48]:
# аггрегирование данных по займам в новый датафрейм loan_agg_df
loan_agg_df = (loan_df.set_index('ID_LOAN').join(close_loan_df.set_index('ID_LOAN')))
loan_agg_df.reset_index(inplace=True)
loan_agg_df = loan_agg_df.groupby('ID_CLIENT')['CLOSED_FL'].agg(['count', 'sum'])
loan_agg_df.rename(columns={
    'count': 'LOAN_NUM_TOTAL',
    'sum': 'LOAN_NUM_CLOSED'    
}, inplace=True)

## last_credit

In [49]:
# чтение датасета
last_credit_df = pd.read_csv(DATA_PATH + 'last_credit.csv')

In [50]:
# вывод на экран первых 5 объектов датасета
last_credit_df.head()

Unnamed: 0,CREDIT,TERM,FST_PAYMENT,ID_CLIENT
0,8000.0,6,8650.0,106804370
1,21650.0,6,4000.0,106804371
2,33126.0,12,4000.0,106804372
3,8491.82,6,5000.0,106804373
4,21990.0,12,4000.0,106804374


In [51]:
# вывод на экран общей информации о датасете
last_credit_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CREDIT       15223 non-null  float64
 1   TERM         15223 non-null  int64  
 2   FST_PAYMENT  15223 non-null  float64
 3   ID_CLIENT    15223 non-null  int64  
dtypes: float64(2), int64(2)
memory usage: 475.8 KB


- датасет не содержит пропусков
- количество объектов в датасете соответствует количеству объектов в датасете `target`; проверим, что датасеты содержат информацию об одних и тех же клиентах:

In [52]:
# проверка
assert last_credit_df.ID_CLIENT.equals(pd.Series(target_df.index))

проверка выше также показала, что датасет не содержит дубликатов

In [53]:
last_credit_df.drop(columns='ID_CLIENT').describe()

Unnamed: 0,CREDIT,TERM,FST_PAYMENT
count,15223.0,15223.0,15223.0
mean,14667.959345,8.101031,3398.562655
std,12147.873496,4.09409,5158.108934
min,2000.0,3.0,0.0
25%,6500.0,6.0,1000.0
50%,11550.0,6.0,2000.0
75%,19170.0,10.0,4000.0
max,119700.0,36.0,140000.0


признаки не содержат аномальных значений

In [54]:
# установление столбца ID_CLIENT в качестве индекса
last_credit_df.set_index(keys='ID_CLIENT', inplace=True)

# Объединение датасетов и сохранение объединенного датасета

Объединим датасеты `target`, `clients`, `job`, `salary`, `last_credit` и аггрегированные датасеты `loan`, `close_loan`. 

Будем объединять датасеты по id клиентов таким образом, чтобы в объединенном датасете содержалась информация только о клиентах из датасета `target`:

In [55]:
# объединение датасетов
data_full = target_df.join([
    clients_df,
    job_df,
    salary_df,
    loan_agg_df,
    last_credit_df
])

# сброс индекса
data_full.reset_index(inplace=True)

Вернемся к проблеме аномальных значений стажа на последнем месте работы. Будем считать аномальными такие значения, для которых стаж в годах больше, чем количество лет клиента минус 16 (т.е. клиент не смог бы получить такой стаж, если бы работал в одной и той же компании начиная с 16 лет):

In [56]:
# вывод на экран аномальных значений стажа на последнем месте работы
data_full[(data_full.WORK_TIME // 12) > (data_full.AGE - 16)][['AGE', 'WORK_TIME']]

Unnamed: 0,AGE,WORK_TIME
148,43,360.0
676,53,780.0
1092,45,1312.0
2179,23,156.0
2532,58,4320.0
2983,44,600.0
3039,40,480.0
3323,39,612.0
3797,39,300.0
4155,40,328.0


При использовании нашего предположения датасет содержит 44 аномальных значения стажа. Заменим такие значения медианой:

In [57]:
# устранение аномальных значений в столбце WORK_TIME
data_full.loc[data_full[(data_full.WORK_TIME // 12) > (data_full.AGE - 16)].index, 'WORK_TIME'] = data_full[data_full.WORK_TIME != -1].WORK_TIME.median()

In [58]:
# сохранение объединенного датасета
data_full.to_csv(DATA_PATH + DATA_FULL_FILENAME, index=False)