# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd
import numpy as np
try:
    df = pd.read_csv('/datasets/data.csv')
except:
    df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [2]:
#Откроем таблицу
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
#смотрим подробности о таблице
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Видно, что в колонках "days_employed" и "total_income" есть пропуски

In [4]:
#посмотрим предварительно на пропуски в колонке "total_income"
df.loc[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [5]:
#посмотрим предварительно на пропуски в колонке "days_employed"
df.loc[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Есть гипотеза, что люди с пропусками в колонке "total_income" имеют пропуски и в колонке "days_employed"

In [6]:
#выберем те строки в которых одновременно пропущены значения в обеих колонках
df.loc[(df['total_income'].isna()) & (df['days_employed'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Количество пропущенных строк в каждой отдельной колонке и в таблице с объединённым условием равны. Получается, что в нашей таблице пропуски в обеих колонках встречаются в одних и тех же строках. 
Интересно определить зависят ли эти пропуски от какой-то конкретной категории заёмщиков или распределены равномерно.

Посмотрим предварительно категории. Сколько их в колонках "education", "family_status", "income_type", "purpose". Не дублируются ли они неявным образом, что может сказаться на последующих группировках.

In [7]:
categories = ['education', 'family_status', 'income_type', 'purpose']
for cat in categories:
    print(cat)
    display(df[cat].value_counts())
    print()

education


среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


family_status


женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


income_type


сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64


purpose


свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      




Прикинем количество дубликатов по строкам. Однако имеем в виду, что их может быть и больше по причине наличия неявных дубликатов в категориях.

In [8]:
df.duplicated().sum()

54

**Вывод**

Первый взгляд на данные выявил пропуски в двух колонках. Причём пропуски встречаются у одних и тех же людей. Весьма вероятно, что большинство этих пропусков не являются случайными. Их количество навскидку составляет порядка 10%, так что удалять пропуски нежелательно, предпочтительнее их заполнить. 

В колонке "days_employed" встречаются отрицательные значения.

В колонках с категориями "education" и "purpose" есть неявные дубликаты. И если вместо колонки "education" данные можно группировать по дублирующей её колонке "education_id", то колонку "purpose" надо будет дополнительно лемматизировать.

## Шаг 2. Предобработка данных

### Обработка пропусков

Рассмотрим сперва пропуски в колонке "total_income"

In [9]:
df.loc[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Попробуем сгруппировать данные по 4 ранее описанным категориям "education", "family_status", "income_type", "purpose", прежде устранив неявные дубликаты в категории "education"

In [10]:
#приводим все категории в колонке  "education" к единому виду
df['education'] = df['education'].str.lower()
#проверяем уникальные значения в категориях колонки "education"
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Сгруппируем данные с пропусками в колонке "total_income" по категориям "education", "family_status", "income_type"

In [11]:
#группировка данных
for col in categories:
    display(df.loc[df['total_income'].isna()].groupby(col).count())

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
высшее,544,0,544,544,544,544,544,544,544,0,544
начальное,21,0,21,21,21,21,21,21,21,0,21
неоконченное высшее,69,0,69,69,69,69,69,69,69,0,69
среднее,1540,0,1540,1540,1540,1540,1540,1540,1540,0,1540


Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status_id,gender,income_type,debt,total_income,purpose
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Не женат / не замужем,288,0,288,288,288,288,288,288,288,0,288
в разводе,112,0,112,112,112,112,112,112,112,0,112
вдовец / вдова,95,0,95,95,95,95,95,95,95,0,95
гражданский брак,442,0,442,442,442,442,442,442,442,0,442
женат / замужем,1237,0,1237,1237,1237,1237,1237,1237,1237,0,1237


Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,debt,total_income,purpose
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
госслужащий,147,0,147,147,147,147,147,147,147,0,147
компаньон,508,0,508,508,508,508,508,508,508,0,508
пенсионер,413,0,413,413,413,413,413,413,413,0,413
предприниматель,1,0,1,1,1,1,1,1,1,0,1
сотрудник,1105,0,1105,1105,1105,1105,1105,1105,1105,0,1105


Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
автомобили,57,0,57,57,57,57,57,57,57,57,0
автомобиль,41,0,41,41,41,41,41,41,41,41,0
высшее образование,40,0,40,40,40,40,40,40,40,40,0
дополнительное образование,48,0,48,48,48,48,48,48,48,48,0
жилье,60,0,60,60,60,60,60,60,60,60,0
заняться высшим образованием,56,0,56,56,56,56,56,56,56,56,0
заняться образованием,55,0,55,55,55,55,55,55,55,55,0
на покупку автомобиля,30,0,30,30,30,30,30,30,30,30,0
на покупку подержанного автомобиля,42,0,42,42,42,42,42,42,42,42,0
на покупку своего автомобиля,53,0,53,53,53,53,53,53,53,53,0


Группировка показала, что пропуски в данных по большей части имеются у людей со средним образованием, состоящих в браке и принадлежащих категории "сотрудник". 

In [12]:

cat_income_type = df.loc[(df['total_income'].isna())]['income_type'].unique()
cat_education = df.loc[(df['total_income'].isna())]['education'].unique()

for cat_in in cat_income_type:
    print('Среднее по', cat_in, 
      int(df.loc[df['income_type'] == cat_in, 'total_income'].mean()))
    print('Медиана по', cat_in, 
      int(df.loc[df['income_type'] == cat_in, 'total_income'].median()))
    print('Максимум по', cat_in, 
          int(df.loc[df['income_type'] == cat_in, 'total_income'].max())) 
    print('Минимум по', cat_in, 
          int(df.loc[df['income_type'] == cat_in, 'total_income'].min())) 
    
print()
for cat_ed in cat_education:
    print('Медиана по', cat_ed, 
          int(df.loc[df['education'] == cat_ed, 'total_income'].median())) 
   


Среднее по пенсионер 137127
Медиана по пенсионер 118514
Максимум по пенсионер 735103
Минимум по пенсионер 20667
Среднее по госслужащий 170898
Медиана по госслужащий 150447
Максимум по госслужащий 910451
Минимум по госслужащий 29200
Среднее по компаньон 202417
Медиана по компаньон 172357
Максимум по компаньон 2265604
Минимум по компаньон 28702
Среднее по сотрудник 161380
Медиана по сотрудник 142594
Максимум по сотрудник 1726276
Минимум по сотрудник 21367
Среднее по предприниматель 499163
Медиана по предприниматель 499163
Максимум по предприниматель 499163
Минимум по предприниматель 499163

Медиана по среднее 136478
Медиана по высшее 175340
Медиана по неоконченное высшее 160115
Медиана по начальное 117137


Логично предположить, что доход человека в большей степени зависит от его занятий, чем от образования (хотя и во втором случае имеется прямая корреляция). Давайте в таком случае заменим пропуски в колонке "total_income" по медианным значениям (чтобы уйти от излишнего разброса) для каждой категории из "income_type".

In [13]:
#создаём перечень категорий из колонки "income_type" для которых есть пропуски в колонке "total_income"
cat_income_type = df.loc[(df['total_income'].isna())]['income_type'].unique()
print(cat_income_type)

['пенсионер' 'госслужащий' 'компаньон' 'сотрудник' 'предприниматель']


In [14]:
#заменяем пропущенные значения в колонке "total_income" для каждой категории на медианный доход в этой категории
for inc_type in cat_income_type:
    df.loc[(df['total_income'].isna()) & (df['income_type'] == inc_type), 'total_income'] = \
    df.loc[df['income_type'] == inc_type, 'total_income'].median()

In [15]:
#проверяем наличие пропусков в колонке "total_income"
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Разберёмся с пропусками в колонке "days_employed". Поскольку это одни и те же люди, возьмём аналогичную функцию и заменим пропуски на медиану в каждой категории. Кроме того, чтобы правильно расчитывать медиану необходимо избавиться от отрицательных значений в колонке просто взяв их по модулю.

In [16]:
#избавляемся от отрицательных значений в колонке "days_employed"
df['days_employed'] = abs(df['days_employed'])

In [17]:
#беглая оценка медиан для каждой категории (не включается в проект)
for cat_in in cat_income_type:
    print('Медиана по', cat_in, 
      int(df.loc[df['income_type'] == cat_in, 'days_employed'].median()))
    print('Максимум по', cat_in, 
          int(df.loc[df['income_type'] == cat_in, 'days_employed'].max())) 
    print('Минимум по', cat_in, 
          int(df.loc[df['income_type'] == cat_in, 'days_employed'].min())) 
    
print()
for cat_ed in cat_education:
    print('Медиана по', cat_ed, 
          int(df.loc[df['education'] == cat_ed, 'days_employed'].median())) 
    print('Максимум по', cat_ed, 
          int(df.loc[df['education'] == cat_ed, 'days_employed'].max())) 
    print('Минимум по', cat_ed, 
          int(df.loc[df['education'] == cat_ed, 'days_employed'].min())) 

Медиана по пенсионер 365213
Максимум по пенсионер 401755
Минимум по пенсионер 328728
Медиана по госслужащий 2689
Максимум по госслужащий 15193
Минимум по госслужащий 39
Медиана по компаньон 1547
Максимум по компаньон 17615
Минимум по компаньон 30
Медиана по сотрудник 1574
Максимум по сотрудник 18388
Минимум по сотрудник 24
Медиана по предприниматель 520
Максимум по предприниматель 520
Минимум по предприниматель 520

Медиана по среднее 2392
Максимум по среднее 401755
Минимум по среднее 24
Медиана по высшее 1895
Максимум по высшее 401715
Минимум по высшее 24
Медиана по неоконченное высшее 1209
Максимум по неоконченное высшее 399693
Минимум по неоконченное высшее 51
Медиана по начальное 3043
Максимум по начальное 401440
Минимум по начальное 62


In [18]:
#заменяем пропущенные значения в колонке "days_employed" для каждой категории на медианный cтаж в этой категории
for inc_type in cat_income_type:
    df.loc[(df['days_employed'].isna()) & (df['income_type'] == inc_type), 'days_employed'] = \
    df.loc[df['income_type'] == inc_type, 'days_employed'].median()

In [19]:
#проверяем наличие пропусков в колонке "days_employed"
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Кроме явных пропусков в виде значений **NaN** нам могут встретится и неявные. Это заполненные значениями элементы таблицы, которые, однако не могут существовать в действительности. Например нулевой возраст заёмщика.  Давайте пройдём по всем колонкам и поищем значения, которых не может быть.

In [59]:
#Пробегаем в цикле по всем колонкам, выводя уникальные значения в каждой колонке
for col in df.columns:
    print(col)
    print(df[col].unique())
    print()

children
[1 0 3 2 4 5]

days_employed
[  8437   4024   5623 ... 362161 373995 343937]

dob_years
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51 59 29 60 55 58 71
 22 73 66 69 19 72 70 74 75]

education
['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']

education_id
[0 1 2 3 4]

family_status
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']

family_status_id
[0 1 2 3 4]

gender
['F' 'M']

income_type
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']

debt
[0 1]

total_income
[253875 112080 145885 ...  89672 244093  82047]

purpose
['жилье' 'автомобиль' 'образование' 'свадьба' 'недвижимость']



В колонках "children", "dob_years" и "gender" указаны явно невозможные значения. А в колонке "days_employed" количество дней стажа явно превышает продолжительность жизни человека. Давайте отдельно посчитаем количество ошибок в колонках "children", "dob_years" и "gender".

In [56]:
print('Значений в колонке "children" = -1 - ', df.loc[df['children'] == -1]['children'].count())

print('Значений в колонке "children" = 20 - ', df.loc[df['children'] == 20]['children'].count())

print('Значений в колонке "dob_years" = 0 - ', df.loc[df['dob_years'] == 0]['dob_years'].count())

print('Значений в колонке "gender" = "XNA" - ', df.loc[df['gender'] == 'XNA']['gender'].count())

Значений в колонке "children" = -1 -  0
Значений в колонке "children" = 20 -  0
Значений в колонке "dob_years" = 0 -  0
Значений в колонке "gender" = "XNA" -  0


Нетрудно посчитать, что общее количество таких ошибок не превышает 1% от общего числа строк. В этом случае проще такие строки удалить, чем заполнять пропуски на основе усреднённых значений.

In [57]:
#Удаляем строки с неявными пропусками и ошибками

df = df.drop(df[df['children'] == -1].index)

df = df.drop(df[df['children'] == 20].index)

df = df.drop(df[df['gender'] == 'XNA'].index)

df = df.drop(df[df['dob_years'] == 0].index)


In [55]:
#Проверяем результат
for col in ['children', 'gender', 'dob_years']:
    print(col)
    print(df[col].unique())
    print()

children
[1 0 3 2 4 5]

gender
['F' 'M']

dob_years
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51 59 29 60 55 58 71
 22 73 66 69 19 72 70 74 75]



**Вывод**

В данных существуют явные пропуски в двух колонках - "days_employed" и "total_income". Пропуски трудно назвать случайными, они присутствуют у одних и тех же людей. 
Наиболее типичным представителем группы заёмщиков с пропущенными значениями в стаже и доходах является человек со средним образованием, состоящий в браке и примерно в половине случаев относящийся к категории "сотрудник".
Вероятными причинами пропусков является возможное отсутствие истории доходов и стажа у людей со средним образованием, хотя для проверки этого допущения надо сгруппировать выборку по возрастным периодам. Также возможны ошибки при выгрузке, репликации баз данных либо некорректном преобразовании типов колонок. Если там лежали "неожиданные" для преобразователя типов данные и использовался метод **to_numeric()** с атрибутом **errors='coerce'**, который заменяет некоррректные данные на **NaN**.

Поскольку более вероятно, что доходы человека больше зависят от его занятий чем от образования, пропуски в доходах было решено заполнять медианными значениями из соответствующей колонки, однако поделенной на категории по типу доходов. Медиана была выбрана исходя из того, что доходы даже внутри одной категории могут отличаться на порядок. То есть разброс довольно  существенен, и средние значения, в отличие от медианы могут значительно искажать оценку. 
Аналогично заполнялись пропуски в колонке со стажем, только перед вычислением медианных стажей вся колонка была избавлена от отрицательных значений. 

Кроме явных пропусков были обнаружены неявные пропуски в колонках "children", "gender", "dob_years". Поскольку их было меньше 1% по отношению к общему количеству заёмщиков их было проще удалить из таблицы методом **drop()**.

В случае с колонкой "days_employed" ясно только одно - она выгружалась с ошибками в каком-то неизвестном формате, поскольку предположение что содержимое колонки это количество часов или секунд разбилось о такие же невероятные цифры результатов преобразования. Утешает лишь то, что для анализа данных в данном случае она неважна, и ей можно пренебречь при группировках.

### Замена типа данных

Обратим внимание на типы данных в таблице

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21376 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21376 non-null  int64  
 1   days_employed     21376 non-null  float64
 2   dob_years         21376 non-null  int64  
 3   education         21376 non-null  object 
 4   education_id      21376 non-null  int64  
 5   family_status     21376 non-null  object 
 6   family_status_id  21376 non-null  int64  
 7   gender            21376 non-null  object 
 8   income_type       21376 non-null  object 
 9   debt              21376 non-null  int64  
 10  total_income      21376 non-null  float64
 11  purpose           21376 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


В колонке "days_employed" значения хранятся как числа с плавающей точкой, хотя количество дней это целые числа. Преобразуем тип колонки в целочисленный. Также преобразуем колонку "total_income", поскольку для расчёта метрик по заёмщику десятичная часть от дохода на общую оценку не влияет.

In [26]:
#Преобразуем тип данных в колонках
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = df['total_income'].astype(int)

In [27]:
#Проверяем результат
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21376 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21376 non-null  int64 
 1   days_employed     21376 non-null  int64 
 2   dob_years         21376 non-null  int64 
 3   education         21376 non-null  object
 4   education_id      21376 non-null  int64 
 5   family_status     21376 non-null  object
 6   family_status_id  21376 non-null  int64 
 7   gender            21376 non-null  object
 8   income_type       21376 non-null  object
 9   debt              21376 non-null  int64 
 10  total_income      21376 non-null  int64 
 11  purpose           21376 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


**Вывод**

Тип колонки "days_employed", содержащий количество дней стажа, и "total_income" преобразовали из вещественного в целочисленный методом **astype()**. Теперь тип колонок определён как **int64**.

### Обработка дубликатов

Теперь разберёмся с дубликатами. Применим метод **duplicated()**, который ищет в датафрейме дублированные строки.

In [28]:
#Посчитаем количество дублированных строк в таблице
df.duplicated().sum()

71

In [29]:
#Взглянем на получившуюся таблицу состоящую из дубликатов
display(df[df.duplicated()])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,1574,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для семьи
3290,0,365213,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
4182,1,1574,34,высшее,0,гражданский брак,1,F,сотрудник,0,142594,свадьба
4851,0,365213,60,среднее,1,гражданский брак,1,F,пенсионер,0,118514,свадьба
5557,0,365213,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,365213,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,дополнительное образование
21032,0,365213,60,среднее,1,женат / замужем,0,F,пенсионер,0,118514,заняться образованием
21132,0,1574,47,среднее,1,женат / замужем,0,F,сотрудник,0,142594,ремонт жилью
21281,1,1574,30,высшее,0,женат / замужем,0,F,сотрудник,0,142594,покупка коммерческой недвижимости


В таблице индексы явно идут не подряд, поэтому при удалении дубликатов с помощью функции **drop_duplicates()** лучше сбросить индексы. Это избавит нас от возможных проблем в будущем, если мы решим обращаться к элементам датафрейма по индексам.

In [31]:
#Избавляемся от дубликатов и сбрасываем нумерацию индексов
df = df.drop_duplicates().reset_index(drop=True)

In [32]:
#Проверяем информацию по количеству строк
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21305 entries, 0 to 21304
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21305 non-null  int64 
 1   days_employed     21305 non-null  int64 
 2   dob_years         21305 non-null  int64 
 3   education         21305 non-null  object
 4   education_id      21305 non-null  int64 
 5   family_status     21305 non-null  object
 6   family_status_id  21305 non-null  int64 
 7   gender            21305 non-null  object
 8   income_type       21305 non-null  object
 9   debt              21305 non-null  int64 
 10  total_income      21305 non-null  int64 
 11  purpose           21305 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Очевидно - количество строк уменьшилось, остаётся проверить удалились ли нужные нам строки или что-то лишнее.

In [33]:
#Ещё раз проверяем дубликаты
df.duplicated().sum()

0

**Вывод**

Количество дубликатов по сравнению с общим объёмом данных было незначительным. Кроме того, было замечено, что за счёт исправления неявных дубликатов в колонке "education" количество дублированных строк выросло в 1,5 раза.
Для поиска дублированных строк был выбран метод **duplicated()**. Для удаления дубликатов  - метод **drop_duplicates()** совместно с методом **reset_index()** и атрибутом **drop=True)**. Они компактны, быстро работают, с ними удобно читать код.

Дубликаты могли появиться из-за слияния нескольких таблиц из разных источников.

### Лемматизация

В колонке "purpose" содержатся неявные дубликаты. Для упрощения группировок все цели получения кредита необходимо привести к некоему общему виду. С этим лучше всего справится лемматизация.

In [34]:
#Импортируем модуль лемматизации 
from pymystem3 import Mystem
m = Mystem()

In [35]:
#Создадим функцию которая заменяет все слова в столбце на леммы
def lemmatize_purpose(string): 
    purp_lem = m.lemmatize(string)
    return purp_lem

In [36]:
#Применяем функцию с помощью метода apply
df['purpose'] = df['purpose'].apply(lemmatize_purpose)

In [37]:
#Проверяем результат
df['purpose'].value_counts()

[автомобиль, \n]                                          963
[свадьба, \n]                                             786
[на,  , проведение,  , свадьба, \n]                       763
[сыграть,  , свадьба, \n]                                 759
[операция,  , с,  , недвижимость, \n]                     670
[покупка,  , коммерческий,  , недвижимость, \n]           658
[покупка,  , жилье,  , для,  , сдача, \n]                 648
[операция,  , с,  , коммерческий,  , недвижимость, \n]    647
[операция,  , с,  , жилье, \n]                            645
[жилье, \n]                                               639
[покупка,  , жилье, \n]                                   637
[покупка,  , жилье,  , для,  , семья, \n]                 637
[строительство,  , собственный,  , недвижимость, \n]      632
[недвижимость, \n]                                        628
[операция,  , со,  , свой,  , недвижимость, \n]           624
[строительство,  , недвижимость, \n]                      619
[строите

Лемматизация слов в столбце успешно проведена, однако результат ещё не достигнут. Для приведения целей кредита к общему виду создадим список целей на основе уже лемматизированных описаний цели кредита.

In [38]:
#Создаём список целей кредита
purpose_lem = ['автомобиль', 'свадьба', 'недвижимость', 'жилье', 'образование']

In [39]:
#Функция замены лемматизированного описания цели кредита на определённое значение из списка
def purpose_filt(pur_string):
    for pur in purpose_lem:
        if pur in pur_string:
            return pur

In [40]:
#Применяем функцию замены описания на списочное определение
df['purpose'] = df['purpose'].apply(purpose_filt)

In [41]:
#Проверяем уникальные значения столбца "purpose"
df['purpose'].value_counts()

недвижимость    6311
жилье           4428
автомобиль      4273
образование     3985
свадьба         2308
Name: purpose, dtype: int64

**Вывод**

Колонка "purpose" в которой содержались цели кредита была заполнена неявными дубликатами, что осложняло последующие группировки. Для автоматизации избавления от дубликатов необходимо было привести все слова к единой форме, выделить среди них основные цели и заменить описания на одно из соответствующих слов по списку.
Для чего была сначала проведена лемматизация слов столбца с помощью модуля **Mystem** библиотеки **pymystem3**, а затем простой заменой столбец "purpose" был приведён к виду, удобному для чтения и группировки. 
В обоих случаях было удобнее всего написать функцию и применить её к столбцу использовав метод **apply()**.

### Категоризация данных

В колонке "dob_years" содержится возраст заёмщиков, однако группировать по нему неудобно, поскольку уникальных значений слишком много. Давайте выделим возрастные периоды и определим для них категории.

In [79]:
sorted(df['dob_years'].unique())

[19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75]

In [None]:
Давайте определим до 24 лет - студенты, от 25 до 65 - , после 65 - пенсионеры

**Вывод**

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

**Вывод**

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

**Вывод**

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

**Вывод**

- Как разные цели кредита влияют на его возврат в срок?

**Вывод**

## Шаг 4. Общий вывод

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [ ]  удалены дубликаты;
- [ ]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [ ]  описаны возможные причины появления дубликатов в данных;
- [ ]  выделены леммы в значениях столбца с целями получения кредита;
- [ ]  описан процесс лемматизации;
- [ ]  данные категоризированы;
- [ ]  есть объяснение принципа категоризации данных;
- [ ]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [ ]  в каждом этапе есть выводы;
- [ ]  есть общий вывод.