## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откроим файл с данными и изучим общую информацию. 

In [33]:
import pandas as pd
from io import BytesIO
import requests
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', 30)

In [31]:
def data_from_g_sheets(spreadsheet_id):
    file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
    r = requests.get(file_name)
    return pd.read_csv(BytesIO(r.content))

In [34]:
try:
    df = pd.read_csv('/datasets/data.csv')
except:
    df = data_from_g_sheets('1C3KMU_PGoHaHDpNlJZZi1c92Wt3vEhcbd51JUXH1h9Y')

In [36]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


None

In [38]:
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


#### Представленная таблица: 21525 строк на 12 столбцов

In [39]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

#### В столбцах days_employed и total_income одинаковое количество пропусков. Это связано с тем, что, скорее всего, тот, кто не указал официальный источник доходов, у того и нет стажа, и самих доходов в таблице.

In [41]:
df[df['days_employed'].isnull()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [42]:
df[df['total_income'].isnull()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [43]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [44]:
#print('Минимальное кол-во детей:', df['children'].min())
#print('Максимальное кол-во детей:', df['children'].max())
#print('Среднее кол-во детей: {:.1}'.format(df['children'].mean()))
#print('Медианное кол-во детей:', df['children'].median())

In [45]:
df[df['children'] == -1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,-4417.703588,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.346412,профильное образование
705,-1,-902.084528,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.899271,приобретение автомобиля
742,-1,-3174.456205,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.044444,дополнительное образование
800,-1,349987.852217,54,среднее,1,Не женат / не замужем,4,F,пенсионер,0,86293.724153,дополнительное образование
941,-1,,57,Среднее,1,женат / замужем,0,F,пенсионер,0,,на покупку своего автомобиля
1363,-1,-1195.264956,55,СРЕДНЕЕ,1,женат / замужем,0,F,компаньон,0,69550.699692,профильное образование
1929,-1,-1461.303336,38,среднее,1,Не женат / не замужем,4,M,сотрудник,0,109121.569013,покупка жилья
2073,-1,-2539.761232,42,среднее,1,в разводе,3,F,компаньон,0,162638.609373,покупка жилья
3814,-1,-3045.290443,26,Среднее,1,гражданский брак,1,F,госслужащий,0,131892.785435,на проведение свадьбы
4201,-1,-901.101738,41,среднее,1,женат / замужем,0,F,госслужащий,0,226375.766751,операции со своей недвижимостью


In [46]:
print('Средний возраст людей с -1 ребеноком:', int(df[df['children'] == -1]['dob_years'].mean()))

Средний возраст людей с -1 ребеноком: 42


#### В столбце children есть отриацельные значения. Предполагаю, что эта ошибка  возникла из-за ручного ввода. Скорее всего -1 значит 1, так как большая часть заемщиков с -1 ребеноком женаты и зрелого возраста. Учту это, когда буду редактирвоать данные.

In [47]:
#print('Минимальный возвраст заемщеков: {}'.format(df['dob_years'].min()))
#print('Максимальное возвраст заемщеков: {}'.format(df['dob_years'].max()))
#print('Средний возраст: {:.3}'.format(df['dob_years'].mean()))
#print('Медианный возраст: {:.3}'.format(df['dob_years'].median()))

In [48]:
df[df['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,-2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,-1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,-1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,среднее,1,женат / замужем,0,F,сотрудник,0,,жилье
20462,0,338734.868540,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,331741.271455,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,-108.967042,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости


In [49]:
df[(df['dob_years'] > 0) & (df['dob_years'] < 18)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


#### В столбце dob_years есть нулевые значения, при этом нет людей с возрастом в диапазоне от 0 до 18 лет. Это говорит о том, что люди, скорее всего, не указали свой возраст. Таких людей я бы выделил в отдельную категорию в дальнейшем.

In [50]:
print(df.groupby('education')['education'].count().sort_values(ascending=False))

education
среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


#### Столбец education, скорее всего, заполенен руками или распознан грубым алгоритмом, так как зачастую имеет разную табуляцию. Нужно будет привести все значения к одному регистру.

In [51]:
print(df.groupby('education_id')['education_id'].count().sort_values(ascending=False))

education_id
1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64


In [52]:
df[df['education_id'] == 4].head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2963,0,337584.81556,69,Ученая степень,4,женат / замужем,0,M,пенсионер,0,98752.495442,покупка жилой недвижимости
4170,0,-409.200149,45,УЧЕНАЯ СТЕПЕНЬ,4,Не женат / не замужем,4,M,сотрудник,0,198570.757322,операции с коммерческой недвижимостью
6551,0,-5352.03818,58,ученая степень,4,женат / замужем,0,M,сотрудник,0,268411.214536,заняться высшим образованием
12021,3,-5968.075884,36,ученая степень,4,женат / замужем,0,F,госслужащий,0,111392.231107,покупка жилья
12786,0,376276.219531,62,ученая степень,4,женат / замужем,0,F,пенсионер,0,255425.196556,покупка жилой недвижимости


#### Столбец education_id имеет 4 статуса: 0 - высшее образование;  1 - среднее,  2 - неоконченное высшее; 3 - начальное; 4 - ученая степень.
#### В таблице больше всего людей со средним образованием.


In [53]:
print(df.groupby('family_status')['family_status'].count().sort_values(ascending=False))

family_status
женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


In [54]:
print(df.groupby('family_status_id')['family_status_id'].count().sort_values(ascending=False))

family_status_id
0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64


In [55]:
#print(df['family_status'].unique())
for i in df['family_status'].unique():print(i)       

женат / замужем
гражданский брак
вдовец / вдова
в разводе
Не женат / не замужем


#### В таблице есть два столбца, по которым можно определить семейное положение заемщиков: family_status и family_status_id. Оба понятны и не имеют ошибок: 0 -  женат / замужем; 1 - гражданский брак; 2 - Не женат / не замужем; 3 - в разводе; 4 - вдовец / вдова.

In [56]:
print(df.groupby('gender')['gender'].count().sort_values(ascending=False))

gender
F      14236
M       7288
XNA        1
Name: gender, dtype: int64


#### В столбце gender указан пол. Большая часть заемщиков женского пола. Есть один человек без определенного пола.

In [57]:
print(df.groupby('income_type')['income_type'].count().sort_values(ascending=False))

income_type
сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64


#### В столбце income_type указаны должности заемщиков. В выборке больше всего наемных сотрудников.

In [58]:
print(df.groupby('debt')['debt'].count().sort_values(ascending=False))

debt
0    19784
1     1741
Name: debt, dtype: int64


#### Столбец debt указывает на наличие задолженности. 0 - нет; 1 - есть.

In [59]:
print(df.groupby('purpose')['purpose'].count().sort_values(ascending=False))

purpose
свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образовани

#### Столбец purpose содержит информацию о цели кредита. Скорее всего, в анкете (заявке на кредит) это было наборное поле (заполнялось руками). Отсюда такое больше кол-во вариаций на тему...

### Вывод

#### Изучив данные, считаю необходимым:
#### Заменить пропуски в столбцах total_income и days_employed, на среднее или медианное, сузив выборку по типу образования. Считаю, что нужно добавить еще один столбец offical_job со значениями 0 - нет, 1 - да, чтобы в дальнейшем повнимательнее исследовать эту группу "темных/серых лошадок", которые не указали официальный источник доходов (в перспективе).
#### Заменить в days_employed дни на годы. Сейчас это выглядит мало информативно.
#### В поле children нужно будет заменить -1 ребенка на 1 ребенка.
#### В поле dob_years заменить нулевой возраст на 'no info'.
#### Поле education можно привести к нижнему регистру с эстетической точки зрения, так как большой пользы оно нам не принесет, так как вполне можно ориентироваться на education_id
#### Поле family_status по смыслу полностью дублирует family_status_id - ничего делать не будем.
#### Поле purpose нужно сгруппировать по лемматизированному списку.¶


### Шаг 2. Предобработка данных

### Обработка пропусков

In [60]:
print(df.groupby('children')['children'].count().sort_values(ascending=False))
print(df['children'].count())
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)
print(df.groupby('children')['children'].count().sort_values(ascending=False))
print(df['children'].count())
# заменяю -1 ребенка на 1 и проверяю ничего ли не потерялось.

children
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
21525
children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64
21525


In [61]:
df.loc[df['days_employed'] < 0, 'days_employed'] = df['days_employed'] * -1
df['days_employed'] = df['days_employed'] / 365
df.head(5)
# хочу перевести стаж из дней в годы.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [62]:
df.columns = ['children', 'years_employed', 'dob_years', 'education', 'education_id', 'family_status',
       'family_status_id', 'gender', 'inncome_type', 'debt', 'total_income', 'purpose']
df.columns

Index(['children', 'years_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'inncome_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [63]:
df[(df['years_employed'] > 100)]['years_employed'].count()

3445

In [64]:
df[(df['years_employed'] > 100)]['years_employed'].head(5)

4      932.235814
18    1096.660649
24     927.539597
25     996.023258
30     919.401832
Name: years_employed, dtype: float64

#### Я попробовал навести порядок в столбце days_employed. Предположил, что все отрицательные значения — это ошибка, и умножил их на -1, чтобы сделать положительными. После чего я решил перевести стаж из дней в годы для удобства анализа и восприятия, и тут столкнулся с необъяснимой аномалией: У меня есть 3445 строк со стажем больше 100 лет... Зачастую, сильно больше 100 лет. Поскольку данный столбец никак не будет использоваться в исследовании, я его пока больше не буду трогать, так как в нем, откровенно говоря, чушь. Возможно, изначально в нем данные не в днях, а скажем, в часах или вообще нечто иное. Нужно сделать запрос дата-инженерам и уточнить этот момент.

In [65]:
#df.drop(['years_employed'], axis='columns', inplace=True)
#df.info()

In [66]:
df['offical_job_id'] = 1
df['total_income'] = df['total_income'].fillna(-1)
df.loc[df['total_income'] == -1, 'offical_job_id'] = 0
df['offical_job_id']
df.groupby('offical_job_id')['offical_job_id'].agg(['count'])
#добавляем новый столбец, по которому мы сможем понимать, кто предсотавил данные об официальных доходах, а кто нет.

Unnamed: 0_level_0,count
offical_job_id,Unnamed: 1_level_1
0,2174
1,19351


In [67]:
print('Процент пропусков в столбце total_income {:.1%}'
      .format(df['offical_job_id'][(df['offical_job_id'] == 0)].count() / df['offical_job_id'].count()))

Процент пропусков в столбце total_income 10.1%


In [68]:
print(df['education'].value_counts().sort_values(ascending=False))

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


In [69]:
df['education'] = df['education'].str.lower()
# приводим значения в 'education' к нижнему регистру
print(df['education'].value_counts().sort_values(ascending=False))

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


In [70]:
df_without_nan = df.loc[df['total_income'] != -1 ]
#df_without_nan.info()
df_without_nan.groupby('education')['total_income'].agg(['min','max','mean', 'median']).sort_values(('mean'), ascending=False)
# посмтрим на разброс доходов по типу образования, чтобы понять как нам лучше заполнить NaN-ы.

Unnamed: 0_level_0,min,max,mean,median
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
высшее,32178.213678,2265604.0,207142.515219,175340.818855
неоконченное высшее,34466.133539,958434.6,181534.022774,160115.398644
ученая степень,98752.495442,268411.2,174750.155792,157259.898555
среднее,20667.263793,1726276.0,153715.643971,136478.643244
начальное,25308.586849,490067.3,132155.513626,117137.352825


In [71]:
mean_higher_education = df_without_nan[(df_without_nan['education'] == 'высшее')]['total_income'].mean()
mean_inc_higher_education = df_without_nan[(df_without_nan['education'] == 'неоконченное высшее')]['total_income'].mean()
mean_degree = df_without_nan[(df_without_nan['education'] == 'ученая степень')]['total_income'].mean()
mean_secondary_education = df_without_nan[(df_without_nan['education'] == 'среднее')]['total_income'].mean()
mean_primary_education = df_without_nan[(df_without_nan['education'] == 'начальное')]['total_income'].mean()
print(mean_higher_education)
print(mean_inc_higher_education)
print(mean_degree)
print(mean_primary_education)
# готвоим "средние доходы" по каждму типу образования, чтобы заменить NaN-ы

207142.51521895974
181534.0227742708
174750.15579183973
132155.51362555483


In [72]:
df.loc[((df['total_income'] == -1) & (df['education'] == 'высшее')), 'total_income'] = mean_higher_education
df.loc[((df['total_income'] == -1) & (df['education'] == 'неоконченное высшее')),'total_income'] = mean_inc_higher_education
df.loc[((df['total_income'] == -1) & (df['education'] == 'среднее')),'total_income'] = mean_secondary_education
df.loc[((df['total_income'] == -1) & (df['education'] == 'начальное')),'total_income'] = mean_primary_education
# заменяем пустые знанчение в total_income на средние

In [73]:
df[df['offical_job_id'] == 0].head(10)

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,inncome_type,debt,total_income,purpose,offical_job_id
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,153715.643971,сыграть свадьбу,0
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,153715.643971,образование,0
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,153715.643971,строительство жилой недвижимости,0
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,153715.643971,сделка с подержанным автомобилем,0
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,153715.643971,сыграть свадьбу,0
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,153715.643971,операции с коммерческой недвижимостью,0
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,207142.515219,покупка жилья для семьи,0
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,207142.515219,операции с коммерческой недвижимостью,0
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,207142.515219,жилье,0
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,153715.643971,жилье,0


### Вывод

#### В столбце children встречалось значение -1 и 20. Скорее всего, эти ошибки возникли при ручном заполнении анкет заемщиками. В 20 детей можно было бы поверить, если бы в выборке встречались...17, 18, 19...., но их нет. Ближайшее максимальное кол-во детей 5. Я исправил -1 на 1, а 20 на 2 методом replace. Так стало логичнее.
#### В столбце days_employed странные данные. Мало того, что там довольно часто встречаются отрицательные значения, так и при конвертации в годы часто получаются "стажи" больше возраста заемщика. Я решил больше пока не трогать этот столбец и задать вопрос дата-инженерам. Возможно, там был указан стаж в часах, а не в днях. Нужны уточнения. На текущий момент этот столбец мне не нужен в исследованиях.
 #### В столбце education было много дубликатов, записанных в разных табуляциях. Я привел все к нижнему регистру. Кол-во уникальных категорий образования сократилось с 15 до 5. Такой разброс был связан с тем, что, скорее всего, эти поля заполнялись руками.
 #### В поле total_income я заполнил пропуски.  Процент пропусков был большим: 10.1%. Методология следующая: я взял медианные доходы по каждому типу образования и заполнил ими пропуски, но чтобы в перспективе понимать, что в действительности эти заемщики не заполнили свои доходы, я добавил еще один столбец - индикатор official_job_id, где 0 - данные не были предоставлены, и теперь это медианные значения, а 1 - были.

### Замена типа данных

In [74]:
df['total_income'] = df['total_income'].astype(int)
df.head(5)

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,inncome_type,debt,total_income,purpose,offical_job_id
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1
2,0,15.406637,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,1
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,1
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,1


### Вывод

#### Я решил, что нужно заменить float на int  в столбце total_income, чтобы округлить "доходы" заемщиков для более удобного визуального анализа. Тысячные доли никто не получает в дейсвительности :-)

### Обработка дубликатов

In [75]:
print(df['purpose'].value_counts().sort_values(ascending=False))
#проверим кол-во уникальных причин, по которым люди брали кредиты

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

### Вывод

 #### В выборке слишком много вариаций на тему...Предпологаю, что причины, по которым были взяты кредиты, указывались ручным набором. Для дальнейшего анализа нам необходимо сгруппировать данные до более узких групп. Для этого нужно будет применить лемматизацию и последующую категоризацию. Просмотрев список дубликатов, глаз цепляется за "недвижимость", "свадьбу", "автомобиль" и "образование", но проверить догадки стоит алгоритму:-)

### Лемматизация

In [76]:
from pymystem3 import Mystem
from collections import Counter
m = Mystem()
print(Counter(m.lemmatize(' '.join(df['purpose']))))
df['lemmas'] = df.purpose.map(m.lemmatize)


Counter({' ': 55201, 'недвижимость': 6367, 'покупка': 5912, 'жилье': 4473, 'автомобиль': 4315, 'образование': 4022, 'с': 2924, 'операция': 2610, 'свадьба': 2348, 'свой': 2235, 'на': 2233, 'строительство': 1881, 'высокий': 1375, 'получение': 1316, 'коммерческий': 1315, 'для': 1294, 'жилой': 1233, 'сделка': 944, 'дополнительный': 909, 'заниматься': 908, 'подержать': 858, 'проведение': 777, 'сыграть': 774, 'сдача': 653, 'семья': 641, 'собственный': 635, 'со': 630, 'ремонт': 612, 'приобретение': 462, 'профильный': 436, 'подержанный': 110, '\n': 1})


### Вывод

#### Лемматизация проведена по столбцу purpose, так как причин для кредита слишком много. Нужно было подготовить столбец для дальнейшей группировки.

### Категоризация данных

In [77]:
def purpose_category(row):
    if 'недвижимость' in row['lemmas']:
        return 'недвижимость'
    if 'жилье' in row['lemmas']:
        return 'недвижимость'
    if 'автомобиль' in row['lemmas']:
        return 'автомобиль'
    if 'образование' in row['lemmas']:
        return 'образование'
    if 'свадьба' in row['lemmas']:
        return 'свадьба'


In [78]:
df['lemmas'] = df.apply(purpose_category, axis = 1)
df.head(10)
# методом apply мы заменяем в столбце lemmas значениея на категории, которые присваиваются вызовом функции purpose_category, 
# в зависимости от того, какой текст находится в обрабатываемой ячейке.

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,inncome_type,debt,total_income,purpose,offical_job_id,lemmas
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1,недвижимость
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1,автомобиль
2,0,15.406637,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,1,недвижимость
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,1,образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,1,свадьба
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,1,недвижимость
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,1,недвижимость
7,0,0.418574,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,1,образование
8,2,18.985932,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,1,свадьба
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,1,недвижимость


In [79]:
cols = list(df.columns)
#a, b = cols.index('offical_job_id'), cols.index('purpose')
#cols[b], cols[a] = cols[a], cols[b]
df = df[['children', 'years_employed', 'dob_years', 'education', 'education_id', 'family_status',
         'family_status_id', 'gender', 'inncome_type', 'debt', 'total_income', 'offical_job_id','purpose', 'lemmas']]
df = df[cols]
df.head(10)
# для удобства восприятия, меня столбцы местами.

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,inncome_type,debt,total_income,purpose,offical_job_id,lemmas
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1,недвижимость
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1,автомобиль
2,0,15.406637,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,1,недвижимость
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,1,образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,1,свадьба
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,1,недвижимость
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,1,недвижимость
7,0,0.418574,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,1,образование
8,2,18.985932,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,1,свадьба
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,1,недвижимость


### Вывод

#### После изучения лемматизированных данных было решено присвоить всем причинам, указанными в столбце purpose, категории: недвижимость, автомобиль, образование и свадьба, и добавить их в столбец lemmas. Эти категории, так или иначе, ложатся в контекст столбца purpose и полностью покрывают все причины, по которым были взяты кредиты.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [80]:
all_without_children = df['children'][(df['children'] == 0)].count()
all_with_children = df['children'][(df['children'] > 0)].count()

debtors_without_children = df['children'][(df['children'] == 0) & (df['debt'] == 1)].count()
debtors_with_children = df['children'][(df['children'] > 0) & (df['debt'] == 1)].count()

children_factor = pd.DataFrame({'children_id':['no', 'yes', 'all'], 
                                'all_clients':[all_without_children, all_with_children, 
                                                all_without_children + all_with_children], 
                                 'all_debtors':[debtors_without_children, debtors_with_children, 
                                                debtors_without_children + debtors_with_children], 
                                '%_of_debtors':['{:.1%}'.format(debtors_without_children / all_without_children), 
                                                '{:.1%}'.format(debtors_with_children / all_with_children),
                                               '{:.1%}'.format((debtors_without_children + debtors_with_children) / 
                                                             (all_without_children + all_with_children))]})
children_factor.sort_values('%_of_debtors',ascending=False)  

Unnamed: 0,children_id,all_clients,all_debtors,%_of_debtors
1,yes,7376,678,9.2%
2,all,21525,1741,8.1%
0,no,14149,1063,7.5%


### Вывод

#### Есть. Заемщиков с просрочкой, у которых есть дети, больше, чем тех, у кого нет детей. Как ни крути, дети - это дополнительная финансовая нагрузка.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [81]:
#df['family_status'].unique()
all_married = df['family_status'][(df['family_status'] == 'женат / замужем')].count()
all_unmarried = df['family_status'][(df['family_status'] == 'Не женат / не замужем')].count()
all_in_divorce = df['family_status'][(df['family_status'] == 'в разводе')].count()
all_civil_marriage = df['family_status'][(df['family_status'] == 'гражданский брак')].count()
all_widower_widow = df['family_status'][(df['family_status'] == 'вдовец / вдова')].count()


debt_married = df['family_status'][(df['family_status'] == 'женат / замужем') & (df['debt'] == 1)].count()
debt_unmarried = df['family_status'][(df['family_status'] == 'Не женат / не замужем') & (df['debt'] == 1)].count()
debt_in_divorce = df['family_status'][(df['family_status'] == 'в разводе') & (df['debt'] == 1)].count()
debt_civil_marriage = df['family_status'][(df['family_status'] == 'гражданский брак') & (df['debt'] == 1)].count()
debt_widower_widow = df['family_status'][(df['family_status'] == 'вдовец / вдова') & (df['debt'] == 1)].count()


married_factor = pd.DataFrame({'family_status':['женат / замужем','не женат / не замужем', 'в разводе',
                                                'гражданский брак','вдовец / вдова'],
                              'all_clients':[all_married, all_unmarried, all_in_divorce, 
                                            all_civil_marriage, all_widower_widow],
                              'all_debtors':[debt_married, debt_unmarried, debt_in_divorce, 
                                              debt_civil_marriage, debt_widower_widow],
                              '%_of_debtors':['{:.1%}'.format(debt_married / all_married), 
                                               '{:.1%}'.format(debt_unmarried / all_unmarried),
                                               '{:.1%}'.format(debt_in_divorce / all_in_divorce), 
                                               '{:.1%}'.format(debt_civil_marriage / all_civil_marriage),
                                               '{:.1%}'.format(debt_widower_widow / all_widower_widow)]})

                                
married_factor.sort_values('%_of_debtors',ascending=False)                                                

Unnamed: 0,family_status,all_clients,all_debtors,%_of_debtors
1,не женат / не замужем,2813,274,9.7%
3,гражданский брак,4177,388,9.3%
0,женат / замужем,12380,931,7.5%
2,в разводе,1195,85,7.1%
4,вдовец / вдова,960,63,6.6%


### Вывод

#### Люди, которые не состоят в отношениях или не хотят официального статуса, отдают кредиты несколько хуже женатых, разведенных и вдовцов/вдов. Предположу, что это связано с тем, что люди, которые не хотят серьезных отношений, более ветреные и легкомысленные. Это отражается не только на их образе жизни, но и на просрочках по кредитам:-)

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [82]:
df['income_group'] = pd.qcut(df['total_income'], 5)
df['income_group'].unique()
# сгруппируем заемщиков по их доходам так, чтобы их было равное кол-во в каждой группе.

[(214253.4, 2265604.0], (98661.6, 135518.8], (135518.8, 162148.0], (20666.999, 98661.6], (162148.0, 214253.4]]
Categories (5, interval[float64]): [(20666.999, 98661.6] < (98661.6, 135518.8] < (135518.8, 162148.0] < (162148.0, 214253.4] < (214253.4, 2265604.0]]

In [83]:
#df['income_group'] = pd.cut(df['total_income'], [df['total_income'].min(),100000,200000,500000,1000000,df['total_income'].max()])
#df_income = df.groupby('income_group')['total_income'].agg(['count','median'])
# добавляю еще один группировочный столбец 'income_group', по которому я буду группировать вовзвращемость кредитов
df_debt = df[(df['debt'] == 1)]
df_income_debt = df_debt.groupby('income_group')['debt'].agg(['count'])
df_income_debt.columns = ['all_debetors']
#print(df_income_debt)
df_income_all = df.groupby('income_group')['debt'].agg(['count'])
df_income_all.columns = ['all_clients']
df_income_all['all_debetors'] = df_income_debt['all_debetors']
df_income_all['%_of_debtors'] = df_income_all['all_debetors'] / df_income_all['all_clients']
df_income_all = df_income_all.sort_values('%_of_debtors',ascending=False)
df_income_all.style.format({'%_of_debtors': '{:.1%}'.format})

Unnamed: 0_level_0,all_clients,all_debetors,%_of_debtors
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(135518.8, 162148.0]",4305,384,8.9%
"(98661.6, 135518.8]",4305,357,8.3%
"(162148.0, 214253.4]",4305,352,8.2%
"(20666.999, 98661.6]",4305,345,8.0%
"(214253.4, 2265604.0]",4305,303,7.0%


### Вывод

#### Есть. Хуже всех отдают кредиты заёмщик из группы с доходом от 135 тыс. руб. до 162 тыс. руб.

- Как разные цели кредита влияют на его возврат в срок?

In [84]:
#df['lemmas'].unique()
all_realty = df['lemmas'][(df['lemmas'] == 'недвижимость')].count()
all_auto = df['lemmas'][(df['lemmas'] == 'автомобиль')].count()
all_education = df['lemmas'][(df['lemmas'] == 'образование')].count()
all_wedding = df['lemmas'][(df['lemmas'] == 'свадьба')].count()



debt_realty = df['lemmas'][(df['lemmas'] == 'недвижимость') & (df['debt'] == 1)].count()
debt_auto = df['lemmas'][(df['lemmas'] == 'автомобиль') & (df['debt'] == 1)].count()
debt_education = df['lemmas'][(df['lemmas'] == 'образование') & (df['debt'] == 1)].count()
debt_wedding = df['lemmas'][(df['lemmas'] == 'свадьба') & (df['debt'] == 1)].count()


lemmas_factor = pd.DataFrame({'credit_cat':['недвижимость','автомобиль', 'образование','свадьба'],
                              'all_clients':[all_realty, all_auto, all_education, all_wedding],
                              'all_debtors':[debt_realty, debt_auto, debt_education, debt_wedding],
                              '%_of_debtors':['{:.1%}'.format(debt_realty / all_realty), 
                                               '{:.1%}'.format(debt_auto / all_auto),
                                               '{:.1%}'.format(debt_education / all_education), 
                                               '{:.1%}'.format(debt_wedding / all_wedding)]})

                                
lemmas_factor.sort_values('%_of_debtors',ascending=False)          

Unnamed: 0,credit_cat,all_clients,all_debtors,%_of_debtors
1,автомобиль,4315,403,9.3%
2,образование,4022,370,9.2%
3,свадьба,2348,186,7.9%
0,недвижимость,10840,782,7.2%


### Вывод

#### Есть. Хуже всего отдают кредиты, взятые на автомобили и образование. Предположу, что это связано с тем, что покупка машины зачастую делается на эмоциях и не позволяет граммотно оценить свои возможности по дальнейшему обслуживанию и содержанию. Что касается образования, то тут все более тривиально. Те, кто учатся, не всегда имеют возможность зарабатывать достаточно, так как они учатся :-) 

### Шаг 4. Общий вывод

#### Исходя из данных, полученных в ходе исследования, можно сделать следующие выводы:
#### 1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
#### Есть. Заемщиков с просрочкой, у которых есть, дети больше, чем тех, у кого нет детей. Как ни крути, дети - это дополнительная финансовая нагрузка.
#### 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
#### Есть. Люди, которые не состоят в отношениях или не хотят официального статуса, отдают кредиты несколько хуже женатых, разведенных и вдовцов/вдов. Предположу, что это связано с тем, что люди, которые не хотят серьезных отношений, более ветреные и легкомысленные. Это отражается не только на их образе жизни, но и на просрочках по кредитам :-)
#### 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
#### Есть. Хуже всех отдают кредиты заёмщики из группы с доходом от 135 тыс. руб. до 162 тыс. руб. Стоит иметь в виду, что это не самые мало зарабатывающие люди в нашей выборке, а вполне себе среднйи класс.
#### 4. Как разные цели кредита влияют на его возврат в срок?
#### Есть. Хуже всего отдают кредиты, взятые на автомобили и образование. Предположу, что это связано с тем, что покупка машины зачастую делается на эмоциях и не позволяет граммотно оценить свои возможности по дальнейшему обслуживанию и содержанию. Что касается образования, то тут все более тривиально. Те, кто учатся, не всегда имеют возможность зарабатывать достаточно, так как они учатся :-)