# Проект номер 1. Предобработка данных

## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга**

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
print(data.head(10))


   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   
5         0    -926.185831         27    высшее             0   
6         0   -2879.202052         43    высшее             0   
7         0    -152.779569         50   СРЕДНЕЕ             1   
8         2   -6929.865299         35    ВЫСШЕЕ             0   
9         0   -2188.756445         41   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0    

In [2]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [3]:
print(data.isnull().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


### Вывод

1) содержится 21525 строк, типы данных float64(2), int64(5), object(5).

2) метод .info() показал, что среди всех столбцов есть столбцы days_employed и total_income, в которых число ненулевых значений меньше, чем длина таблицы. Т.е. есть либо некорректные значения, либо нулевые значения. Метод .isnull().sum() показал что обозначенные столбцы содержат по 2174 NaN значений (как раз 21525-19351=2174). 2174/21525=0,1. То есть пропущенные значения составляют 10% данных, плюс относятся к категории Пенсионеров. Следовательно удалять значения для стажа не стоит. А значения дохода стоит заменить на среднее или медианное значение.

3) столбец days_employed содержит отрицательные значения, что является ошибкой, так как трудовой стаж в днях отрицательным быть не может. Однако есть предположение, что у всех НЕ пенсионеров он отрицательный. стаж пенсионеров измеряется сотнями лет, что некорректно. Возможно эти значения надо перевести в NaN, как уже стоит у некоторых пенсионеров. Значения данного столбца не очень важны для формирования выводов по проекту. Так же присутствуют значения NaN. Также стоит отметить, что стаж должен быть целым числом, следовательно необходимо округлить значения до целого. 

4) в столбце income_type есть значения госслужащий, которые по сути относятся к занятости "сотрудник"

5) столбец Образование содержит названия с буквами разных регистров - необходимо все сделать маленькими буквами для обработки.

### Шаг 2. Предобработка данных

### Обработка пропусков

In [4]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Первым делом по столбцу days_employed видно, что присутствуют огромные значения стажа, относящиеся к пенсионерам. Скорее всего это либо ошибки при вводе данных пенсионерами, либо какой-то сбой.

Преобразую отрицательные значения в положительные, а большие некорректные значения для пенсионеров заменю на NaN. После чего пропущенные значения для пенсионеров заполню на среднее значение стажа.

In [5]:
data['days_employed'] = data['days_employed'] * (-1)
data['days_employed'] = data[data['days_employed'] >= 0]['days_employed'] 

print(data['days_employed'].mean())
print(data['days_employed'].median())

print(data.head(5))

2353.0159319988766
1630.0193809778216
   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   Среднее             1   
3         3    4124.747207         32   среднее             1   
4         0            NaN         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение а

получены среднее и медианное значение для стажа, которые различаются достаточно сильно (2353 и 1630). Я заполняю NaN на среднее, т.к. предполагаю, что стаж у пенсионеров должен быть сильно больше остальных значений и показатель среднее - ближе к их реальному стажу.

In [6]:
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].mean())
print(data.head(5))

   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   Среднее             1   
3         3    4124.747207         32   среднее             1   
4         0    2353.015932         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

Теперь посчитаем среднее и медианное значения для дохода:

In [7]:
print(data['total_income'].mean())
print(data['total_income'].median())

167422.30220817294
145017.93753253992


Они отличаюся на 15%, но я возьму медианное, т.к. низких и средних доходов всегда больше по количеству, чем больших (которые вносят сильное влияние, повышая среднее значение)

In [8]:
data['total_income'] = data['total_income'].fillna(data['total_income'].mean())
print(data.head(5))

   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   Среднее             1   
3         3    4124.747207         32   среднее             1   
4         0    2353.015932         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

In [9]:
data.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Вывод

1) Столбец стаж был сделан положительным значением, 

2) была произведена замена стажа для пенсионеров на среднее значение

3) пропущенные значения в столбце доходов заменены на медианные

### Замена типа данных

Проверим таблицу на предмет того какие в ней содержатся типы данных:

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Видно, что столбцы образование, семейное положение, пол, тип занятости и цель кредита - строковый тип. Остальные столбцы числовые. Необходимо заменить тип float на integer для столбцов days_employed и total_income, так как трудовой стаж в днях не может быть дробным числом, а копейки в столбце total_income не являются важным уточнением.

In [11]:
data['total_income'] = data['total_income'].astype('int')
data['days_employed'] = data['days_employed'].astype('int')
print(data.head(10))

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   Среднее             1   
3         3           4124         32   среднее             1   
4         0           2353         53   среднее             1   
5         0            926         27    высшее             0   
6         0           2879         43    высшее             0   
7         0            152         50   СРЕДНЕЕ             1   
8         2           6929         35    ВЫСШЕЕ             0   
9         0           2188         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Столбцы стажа и доходов сделаны целочисленными.

### Обработка дубликатов

Первым делом проверим грубые прямые дубликаты строк в таблице:

In [13]:
data.duplicated().sum()

54

Их оказалось 54. заменим с помощью data.drop_duplicates().reset_index(drop=True):

In [14]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

Теперь их ноль. Далее проверим виды и количество значений в столбце education: 

In [15]:
data['education'].value_counts()

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Видно, что есть повторения из-за букв в разном регистре, так что надо от этого избавиться с помощью str.lower(). После проверим value_counts()

In [16]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Аналогично проверим для других столбцов строкового типа: family_status, income_type, purpose

In [17]:
data['family_status'].value_counts()

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

со значениями все в порядке в отношении регистров и дубликатов, однако по смыслу есть некорректность. человек в разводе, вдовец\вдова, а также гражданский брак, по букве закона являются неженатыми или незамужними людьми, то есть необходимо поменять некоторые категории.

In [18]:
data['family_status'] = data['family_status'].str.lower()
data.loc[data['family_status'] == 'вдовец / вдова', 'family_status'] = 'не женат / не замужем'
data.loc[data['family_status'] == 'в разводе', 'family_status'] = 'не женат / не замужем'
data.loc[data['family_status'] == 'гражданский брак', 'family_status'] = 'не женат / не замужем'
data['family_status'].value_counts()

женат / замужем          12344
не женат / не замужем     9127
Name: family_status, dtype: int64

In [19]:
data['income_type'].value_counts()

сотрудник          11091
компаньон           5080
пенсионер           3837
госслужащий         1457
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

Есть смысловые повторы: госслужащий - сотрудник гос.организации, компаньон - он же предприниматель; студент - безработный, однако их всего 3; в декрете - сотрудник фирмы, находящийся в декрете, так что значения необходимо поменять:

In [20]:
data.loc[data['income_type'] == 'госслужащий', 'income_type'] = 'сотрудник'
data.loc[data['income_type'] == 'в декрете', 'income_type'] = 'сотрудник'
data.loc[data['income_type'] == 'предприниматель', 'income_type'] = 'компаньон'
data.loc[data['income_type'] == 'студент', 'income_type'] = 'безработный'
data['income_type'].value_counts()

сотрудник      12549
компаньон       5082
пенсионер       3837
безработный        3
Name: income_type, dtype: int64

In [21]:
data['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

разбор этого столбца необходимо производить с помощью лемматизации, так как есть много похожих выражений.

проверим также:

In [22]:
data['children'].value_counts()

 0     14107
 1      4809
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Есть два странных значения — -1 и 20. Скорее всего оба - опечатки. заменим -1 на 1 и 20 на 2

In [23]:
data.loc[data['children'] == -1, 'children'] = 1
data.loc[data['children'] == 20, 'children'] = 2
data['children'].value_counts()

0    14107
1     4856
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [24]:
data['dob_years'].value_counts()

35    616
40    607
41    606
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    538
48    537
37    536
50    513
43    512
32    509
49    508
28    503
45    497
27    493
56    484
52    484
47    477
54    476
46    473
53    459
57    456
58    456
51    448
55    443
59    443
26    408
60    374
25    357
61    354
62    349
63    269
24    264
64    262
23    253
65    194
22    183
66    182
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

встречается значение "0" 101 раз, сюда входят несколько человек, относящиеся к безработным и к студентам, однако этих значений значительно больше. Возможно люди не хотели указывать свой стаж и ставили 0. Заменим на среднее значение стажа по столбцу, округленное до целых.

In [25]:
data['dob_years'].mean()

43.279074099948765

In [26]:
data.loc[data['dob_years'] == 0, 'dob_years'] = 43
data['dob_years'].value_counts()

35    616
43    613
40    607
41    606
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    538
48    537
37    536
50    513
32    509
49    508
28    503
45    497
27    493
52    484
56    484
47    477
54    476
46    473
53    459
57    456
58    456
51    448
55    443
59    443
26    408
60    374
25    357
61    354
62    349
63    269
24    264
64    262
23    253
65    194
22    183
66    182
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [27]:
data['education_id'].value_counts()

1    15188
0     5251
2      744
3      282
4        6
Name: education_id, dtype: int64

1   среднее

0   высшее

2   неок высш

3   начальное

4   ученая степень

Значения совпадают с образованием в столбце education

In [28]:
data['family_status_id'].value_counts()

0    12344
1     4163
4     2810
3     1195
2      959
Name: family_status_id, dtype: int64

столбец "семейное положение" был переделан, так что индексы family_status_id тоже надо поменять

0    женат / замужем

1    не женат / не замужем

4    не женат / не замужем

3    не женат / не замужем

2    не женат / не замужем

Также выше видно, что индексы проставлены ошибочно, значения 4 3 и 2 должны быть равны 1

In [29]:
data.loc[data['family_status_id'] == 4, 'family_status_id'] = 1
data.loc[data['family_status_id'] == 3, 'family_status_id'] = 1
data.loc[data['family_status_id'] == 2, 'family_status_id'] = 1
data['family_status_id'].value_counts()

0    12344
1     9127
Name: family_status_id, dtype: int64

In [30]:
data['gender'].value_counts()

F      14189
M       7281
XNA        1
Name: gender, dtype: int64

появлилось ошибочное значение XNA, возможно ввели ошибку или специально не указали. На что заменить непонятно, добавим к женщинам (к менее многочисленной группе)

In [31]:
data.loc[data['gender'] == 'XNA', 'gender'] = 'F'
data['gender'].value_counts()

F    14190
M     7281
Name: gender, dtype: int64

In [32]:
data['debt'].value_counts()

0    19730
1     1741
Name: debt, dtype: int64

все в порядке

### Вывод

Были удалены основные дубликаты, как прямые (грубые) дубликаты целых строк, так и смысловые дубликаты, сбитые значения индексов и т.п. Вероятнее всего все эти дубликаты появлялись из-за невнимательностей или ошибок пользователей, либо они специально указывали ложные данные.

### Лемматизация

In [33]:
from pymystem3 import Mystem
m = Mystem()
text = ' '.join(data.purpose)
lemmas = m.lemmatize(text)
#print(lemmas)
from collections import Counter
print(Counter(lemmas))
data['lemmas'] = data['purpose'].apply(m.lemmatize)

Counter({' ': 55066, 'недвижимость': 6353, 'покупка': 5900, 'жилье': 4461, 'автомобиль': 4308, 'образование': 4014, 'с': 2918, 'операция': 2604, 'свадьба': 2335, 'свой': 2231, 'на': 2228, 'строительство': 1879, 'высокий': 1374, 'получение': 1315, 'коммерческий': 1312, 'для': 1290, 'жилой': 1231, 'сделка': 941, 'дополнительный': 907, 'заниматься': 904, 'подержать': 853, 'проведение': 773, 'сыграть': 769, 'сдача': 652, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'приобретение': 461, 'профильный': 436, 'подержанный': 111, '\n': 1})


### Вывод

С помощью библиотеки pymestem3 были определены леммы в целях кредитов, где видно следующее:

1) выделяются категории, связанные с: недвижимостью, автомобилем, образованием, свадьбой

2) остальные леммы являются дополнительными словами в цели кредита

3) категория жильё относится к недвижимости

### Категоризация данных

In [34]:
print(data['lemmas'].value_counts().sum())
print(data['lemmas'].value_counts())


21471
[автомобиль, \n]                                          972
[свадьба, \n]                                             793
[на,  , проведение,  , свадьба, \n]                       773
[сыграть,  , свадьба, \n]                                 769
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           662
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 652
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строительство,  , собственный,  , недвижимость, \n]      635
[недвижимость, \n]                                        633
[операция,  , со,  , свой,  , недвижимость, \n]           627
[строительство,  , жилой,  , недвижимость, \n]            625
[п

необходимо категоризовать данные по следующим категориям:
1) по наличию детей
2) по семейному положению
3) по уровню дохода
4) по целям кредита

In [35]:
def children_group(row):
    child = row['children']
    if child == 0:
        return 'ноль'
    if child == 1:
        return 'один'
    if child == 2:
        return 'два'
    if child == 3:
        return 'три'
    if child == 4:
        return 'четыре'
    return 'пять и более'

data['children_group'] = data.apply(children_group, axis=1)
data['children_group'].value_counts()

ноль            14107
один             4856
два              2128
три               330
четыре             41
пять и более        9
Name: children_group, dtype: int64

Добавлен столбец с категорией по количеству детей

In [36]:
print(data['family_status'].value_counts())
def group_by_famstatus(row):
    status = row['family_status']
    if 'женат / замужем' in status:
        return 'женат / замужем'
    return 'не женат / не замужем'
data['family_status_group'] = data.apply(group_by_famstatus, axis=1)
data['family_status_group'].value_counts()

женат / замужем          12344
не женат / не замужем     9127
Name: family_status, dtype: int64


женат / замужем          12344
не женат / не замужем     9127
Name: family_status_group, dtype: int64

добавлен столбец с группой по семейному положению

In [37]:
def group_by_income(row):
    income = row['total_income']
    if income < data['total_income'].median():
        return 'выше медианного'
    return 'ниже медианного'
data['income_group'] = data.apply(group_by_income, axis=1)
data['income_group'].value_counts()    

ниже медианного    10736
выше медианного    10735
Name: income_group, dtype: int64

добавлен столбец с категорией по уровню дохода выше и ниже медианного

In [38]:
def group_by_lemmas(row):
    text = row['lemmas']
    if 'автомобиль' in text:
        return 'покупка автомобиля'
    if 'образование' in text:
        return 'получение образования'
    if 'недвижимость' in text or 'жилье' in text or 'ремонт' in text:
        return 'покупка недвижимости'
    if 'свадьба' in text:
        return 'свадьба'
data['lemmas_group'] = data.apply(group_by_lemmas, axis=1)
data['lemmas_group'].value_counts()

покупка недвижимости     10814
покупка автомобиля        4308
получение образования     4014
свадьба                   2335
Name: lemmas_group, dtype: int64

добавлен столбец с категорией по цели кредита

In [39]:
grouped_children = data.groupby('children_group')
print(grouped_children)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8fce473710>


In [40]:
grouped_family_status = data.groupby('family_status_group')
print(grouped_family_status)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8fce474110>


In [41]:
grouped_income = data.groupby('income_group')
print(grouped_income)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8fce474a50>


In [42]:
#grouped_children = data.groupby('lemmas_group')
grouped_purpose = data.groupby('lemmas_group')
print(grouped_purpose)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8fce47a390>


### Вывод

Данные были разбиты на категории по следующим признакам: 

1) по количеству детей 0,1,2,3,4,5

2) по семейному положению: женат/замужем, не женат/ не замужем

3) по уровню дохода: выше медианного, ниже медианного

4) по целям кредита: недвижимость, образование, авто, свадьба, медицина

### Шаг 3. Ответьте на вопросы

Для ответа на поставленный вопрос был посчитан и добавлен столбец Conversion, который показывает отношение числа просрочек (долг=1) к общему числу кредитов для данной группы. Чем выше этот показатель, тем чаще в данной группе имеют просрочки по выплате кредита и следовательно более вероятно и в будущем будут иметь просрочки.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [43]:
data_pivot_children = data[["children_group", "children", "debt"]].pivot_table(index=["children_group"], columns="debt", aggfunc="count", fill_value=0)
data_pivot_children['conversion'] = data_pivot_children['children'][1] / (data_pivot_children['children'][0] + data_pivot_children['children'][1])
data_pivot_children

Unnamed: 0_level_0,children,children,conversion
debt,0,1,Unnamed: 3_level_1
children_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
два,1926,202,0.094925
ноль,13044,1063,0.075353
один,4411,445,0.091639
пять и более,9,0,0.0
три,303,27,0.081818
четыре,37,4,0.097561


Зависимости от количества детей как таковой нет, но есть зависимость от наличия детей:

те, кто имеет 0 детей реже имеют долг по выплате, чем те, кто имеет детей.

### Вывод

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [44]:
data_pivot_family = data[["family_status_group", "family_status", "debt"]].pivot_table(index=["family_status_group"], columns="debt", aggfunc="count", fill_value=0)
data_pivot_family['conversion'] = data_pivot_family['family_status'][1] / (data_pivot_family['family_status'][0] + data_pivot_family['family_status'][1])
data_pivot_family

Unnamed: 0_level_0,family_status,family_status,conversion
debt,0,1,Unnamed: 3_level_1
family_status_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
женат / замужем,11413,931,0.075421
не женат / не замужем,8317,810,0.088748


### Вывод

Женатые или замужние люди реже имеют задержки по кредиту, зависимость есть.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [45]:
data_pivot_income = data[["income_group", "total_income", "debt"]].pivot_table(index=["income_group"], columns="debt", aggfunc="count", fill_value=0)
data_pivot_income['conversion'] = data_pivot_income['total_income'][1] / (data_pivot_income['total_income'][0] + data_pivot_income['total_income'][1])
data_pivot_income

Unnamed: 0_level_0,total_income,total_income,conversion
debt,0,1,Unnamed: 3_level_1
income_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
выше медианного,9839,896,0.083465
ниже медианного,9891,845,0.078707


### Вывод

Неожиданный вывод, но люди с доходом выше мединного чаще имеют задержки по кредитам, однако разница между группами минимальна. Зависимость есть.

- Как разные цели кредита влияют на его возврат в срок?

In [46]:
data_pivot_purpose = data[['lemmas_group', 'lemmas', 'debt']].pivot_table(index=['lemmas_group'], columns='debt', aggfunc='count', fill_value=0)
data_pivot_purpose['conversion'] = data_pivot_purpose['lemmas'][1] / (data_pivot_purpose['lemmas'][0] + data_pivot_purpose['lemmas'][1])
data_pivot_purpose

Unnamed: 0_level_0,lemmas,lemmas,conversion
debt,0,1,Unnamed: 3_level_1
lemmas_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
покупка автомобиля,3905,403,0.093547
покупка недвижимости,10032,782,0.072314
получение образования,3644,370,0.092177
свадьба,2149,186,0.079657


### Вывод

Покупка автомобиля и получение образования чаще имеют просрочки по возврату, чем покупка недвижимости или свадьба. 

### Шаг 4. Общий вывод

В ходе выполнения проекта были проделаны следующие основные шаги: 
- изучены исходные данные, 
- определены и заполнены пропущенные значения,
- изменен тип данных для нескольких столбцов на целочисленный,
- удалены прямые, смысловые, регистровые дубликаты в данных,
- проведена лемматизация целей кредитов,
- данные разделены на категории, 
- даны ответы на вопросы проекта.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.