Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

# Шаг 1. Откройте файл с данными и изучите общую информацию. 


In [1]:
import pandas as pd

In [2]:
import seaborn

In [3]:
data = pd.read_csv('/datasets/data.csv')

In [4]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [5]:
data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Вывод


Тип данных в каждом столбце соответствует действительности: все цифры по типу int64/float64, все строчные значение object. Заметны пропуски в некоторых стролцах - 'days_employe' и 'total_income', нужно проверить каждый столбец на предмет подобных пропусков. 
Также заметны странные значения в столбце 'days_employed' - часть из них отрицательная; присутствуют огромные значения, которые не могут быть реальными, поскольку перекрывают годы жизни, к тому же по типу они не целочисленные, хотя столбец хранит дни работы.
В столбце 'education' часть слов написаны в верхнем регистре, их нужно привести к одному виду.
В столбце 'total_income' значения по типу не целочисленные, что довольно странно. Указывается всё вплоть до копеек, или это какая-то ошибка?
Решение - предлагаю рассмотреть каждый столбец по отдельности, ведь я наверняка что-то проглядел. Все пропуски/странности будем устранять по ходу действия.

# Шаг 2. Предобработка данных


## Обработка пропусков


### Столбец 'children'

In [7]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Странные значения (-1 и 20), с ними нужно разобраться. Возможно, что ошибка ввода и -1 == 1, а 20 == 2; нужно проверить эту гипотезу.

In [8]:
data.groupby('children')['dob_years'].value_counts()

children  dob_years
-1        34           3
          46           3
          28           2
          31           2
          32           2
                      ..
 20       60           1
          61           1
          62           1
          64           1
          69           1
Name: dob_years, Length: 289, dtype: int64

In [9]:
data.groupby('children')['dob_years'].unique()

children
-1     [46, 50, 57, 54, 55, 38, 42, 26, 41, 64, 32, 4...
 0     [33, 53, 27, 43, 50, 41, 40, 65, 54, 56, 35, 4...
 1     [42, 36, 26, 33, 24, 57, 62, 49, 50, 28, 48, 3...
 2     [35, 36, 37, 46, 50, 39, 33, 27, 32, 38, 48, 5...
 3     [32, 0, 35, 45, 37, 31, 33, 34, 28, 39, 38, 29...
 4     [36, 34, 44, 33, 37, 45, 35, 46, 49, 24, 29, 3...
 5                          [42, 36, 31, 37, 35, 38, 59]
 20    [21, 44, 56, 59, 0, 35, 23, 40, 26, 45, 37, 24...
Name: dob_years, dtype: object

Значения -1 и 20 характерны для людей разного трудового стажа, при этом мы видим, что иногда для каждого года значений несколько. Выбрасывать эти данные нельзя - они важны для исследования, скорее всего имеет место техническая ошибка, так что просто воспользуюсь функцией abs() и уберу отрицательные значения, а так же заменю 20 на 2.

In [10]:
data['children'] = abs(data['children'])

In [11]:
data.loc[(data.children == 20), ('children')] = 2

In [12]:
data.groupby('children')['dob_years'].value_counts()

children  dob_years
0         56           446
          48           429
          57           422
          58           421
          54           413
                      ... 
5         31             1
          37             1
          38             1
          42             1
          59             1
Name: dob_years, Length: 220, dtype: int64

### Столбец 'days_employed'

Избавились от аномальных значений в столбце 'children'. Перейдём к столбцу 'days_employed' - в предыдущем пункте я заметил, что имеется синхронное отсутствие значений в двух столбцах - 'days_employed' и 'total_income', предлагаю разобраться с ними по очереди. 
Начнём со столбца 'days_employed' - для начала нужно узнать причину разброса в значениях. 
Гипотеза - посмотрим отдельно отрицательные и положительные значения, возможно мы найдём какую-то закономерность

In [13]:
data_unique_above_0 = data[data['days_employed'] > 0]
data_unique_above_0['income_type'].unique()

array(['пенсионер', 'безработный'], dtype=object)

In [14]:
data[(data['days_employed'] > 0) & (data['income_type'] == 'пенсионер')].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
35,0,394021.072184,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.677436,на проведение свадьбы
50,0,353731.432338,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.730612,автомобили
56,0,370145.087237,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.043533,образование
71,0,338113.529892,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.696397,автомобили
78,0,359722.945074,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.646,сделка с автомобилем


In [15]:
data[(data['days_employed'] > 0) & (data['income_type'] == 'безработный')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,среднее,1,женат / замужем,0,M,безработный,1,59956.991984,покупка жилья для сдачи
14798,0,395302.838654,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.511368,ремонт жилью


Увидел, что значения отработанных дней положительны для пенсионеров и безработных, то есть для людей, которые получают доход за счёт государства. Возможно данные для них брались из какой-то отдельной государственной базы.
Визуально кажется, что значения одного порядка, это нужно проверить. 
Можно сделать вывод, что для остальных групп граждан значения дней отрицательные, нужно посмотреть, как они выглядят. 

In [16]:
data_unique_above_0['days_employed'].mean()

365004.3099162686

In [17]:
data_unique_above_0['days_employed'].count()

3445

In [18]:
data_unique_above_0 = data[(data['days_employed'] >= 300000) & (data['days_employed'] < 410000)]
data_unique_above_0 ['days_employed'].count()

3445

Значения для пенсионеров и безработных находятся в промежутке от 300000 до 410000, довольно странно.
Гипотеза - Возможно, эти данные просто представляют собой время начала работы человека.

In [19]:
#data['days_employed'] = pd.to_datetime(data['days_employed'], format='%Y-%m-%dT%H:%M:%S')

In [20]:
#data

Гипотеза подтвердилась. Не вижу смысла переводить цифры во время, так как в числовом формате проще работать. Давайте теперь посмотрим на группу отрицательных чисел.

In [21]:
data[(data['days_employed'] < 0) & (data['income_type'] == 'сотрудник')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование


In [22]:
data[(data['days_employed'] < 0) & (data['income_type'] == 'компаньон')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
10,2,-4171.483647,36,высшее,0,женат / замужем,0,M,компаньон,0,113943.49146,покупка недвижимости
14,0,-1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127.911772,покупка жилой недвижимости
33,0,-1548.637544,48,среднее,1,женат / замужем,0,F,компаньон,0,157245.786233,покупка жилья


Что значит компаньон? 
Гипотеза - возможно, это человек, который с кем-то в браке/партнёрстве и это совместный доход. Проверим:

In [23]:
data_unique_income = data[data['income_type'] == 'компаньон']
data_unique_income['family_status'].unique()

array(['гражданский брак', 'женат / замужем', 'Не женат / не замужем',
       'в разводе', 'вдовец / вдова'], dtype=object)

Гипотеза с браком не подтвердилась. Ну хорошо, тогда давайте посмотрим на общий доход

In [24]:
data.groupby('income_type')['total_income'].median()

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

Компаньоны больше всех зарабатывают, а это характерно для предпринимателей - давайте объединим эти столбцы.

In [25]:
data.loc[data['income_type'] == 'компаньон', 'income_type'] = 'предприниматель'

In [26]:
data[(data['days_employed'] <= 0) & (data['income_type'] == 'студент')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9410,0,-578.751554,22,высшее,0,Не женат / не замужем,4,M,студент,0,98201.625314,строительство собственной недвижимости


In [27]:
data[(data['days_employed'] <= 0) & (data['income_type'] == 'в декрете')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
20845,2,-3296.759962,39,СРЕДНЕЕ,1,женат / замужем,0,F,в декрете,1,53829.130729,автомобиль


In [28]:
data[(data['debt'] == 0) & (data['income_type'] == 'предприниматель')].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,предприниматель,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,предприниматель,0,240525.97192,операции с жильем
10,2,-4171.483647,36,высшее,0,женат / замужем,0,M,предприниматель,0,113943.49146,покупка недвижимости
33,0,-1548.637544,48,среднее,1,женат / замужем,0,F,предприниматель,0,157245.786233,покупка жилья
37,0,-6448.81086,43,ВЫСШЕЕ,0,гражданский брак,1,F,предприниматель,0,154128.878672,приобретение автомобиля


Все отрицательные значения в столбце 'days_employed' во второй группе выглядят корректно, если отбросить минус.
Предлагаю в столбце 'days_employed' заменять пропуски исходя из типа дохода(так мы воспользуемся закономерностью с двумя разными наборами данных) и годами жизни(это логично, больше жил = больше работал в большинстве случаев)
Хорошо, что делать со столбцом 'days_employed' понятно, давайте посмотрим на столбец 'total_income'.

### Столбец 'income_type'

In [29]:
data.groupby('income_type')['total_income'].sum()

income_type
безработный        2.626795e+05
в декрете          5.382913e+04
госслужащий        2.242186e+08
пенсионер          4.721299e+08
предприниматель    9.269639e+08
сотрудник          1.616062e+09
студент            9.820163e+04
Name: total_income, dtype: float64

In [30]:
data.groupby('education_id')['total_income'].sum()

education_id
0    9.768841e+08
1    2.104828e+09
2    1.225355e+08
3    3.449259e+07
4    1.048501e+06
Name: total_income, dtype: float64

In [31]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,предприниматель,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,предприниматель,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Кажется, есть зависимость в доходах от типа заработка и образования. Логично - если хорошо учился, то шанс много зарабатывать выше; если не принимать во внимание аномальные значения из столбцов, где мало людей, то тип заработка тоже влияет - объяснимо, разные социальные слои - разный доход. Предлагаю в столбце 'total_income' заменить пустые значения медианным исходя из образования и типа дохода, о столбце 'days_employed' мои соображения выше по тексту. Приступаем:

In [32]:
data['total_income'] = data['total_income'].fillna(data.groupby(['education_id', 'income_type'])['total_income'].transform('median'))

In [33]:
data['days_employed'] = abs(data['days_employed'])

In [34]:
data['days_employed'] = data['days_employed'].fillna(data.groupby(['income_type', 'dob_years'])['days_employed'].transform('median'))

In [35]:
data[data['days_employed'].isna()].count()

children            3
days_employed       0
dob_years           3
education           3
education_id        3
family_status       3
family_status_id    3
gender              3
income_type         3
debt                3
total_income        3
purpose             3
dtype: int64

In [36]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3619,0,,24,среднее,1,женат / замужем,0,F,пенсионер,0,114842.854099,покупка своего жилья
17374,0,,69,высшее,0,Не женат / не замужем,4,F,предприниматель,0,201879.56108,автомобили
18175,2,,31,среднее,1,гражданский брак,1,F,пенсионер,0,114842.854099,свадьба


Три строчки - капля в море, можно удалить.

In [37]:
data.dropna(subset = ['days_employed'], inplace = True)

In [38]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [39]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21522 entries, 0 to 21524
Data columns (total 12 columns):
children            21522 non-null int64
days_employed       21522 non-null float64
dob_years           21522 non-null int64
education           21522 non-null object
education_id        21522 non-null int64
family_status       21522 non-null object
family_status_id    21522 non-null int64
gender              21522 non-null object
income_type         21522 non-null object
debt                21522 non-null int64
total_income        21522 non-null float64
purpose             21522 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Закончил со столбцами 'days_employed' и 'total_income', переходим к столбцу 'dob_years'

### Столбец 'dob_years'

In [40]:
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Присутствуют 0 значения, давайте посмотрим, для кого они характерны.

In [41]:
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,предприниматель,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,1501.480883,0,среднее,1,женат / замужем,0,F,сотрудник,0,136555.108821,жилье
20462,0,338734.868540,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,331741.271455,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,108.967042,0,высшее,0,женат / замужем,0,M,предприниматель,0,240702.007382,строительство жилой недвижимости


Возможно, у всех людей без долга это значение равно 0? Других паттернов я не вижу, давайте проверим.

In [42]:
data[(data['dob_years'] == 0) & (data['debt'] == 0)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,предприниматель,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,1501.480883,0,среднее,1,женат / замужем,0,F,сотрудник,0,136555.108821,жилье
20462,0,338734.868540,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,331741.271455,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,108.967042,0,высшее,0,женат / замужем,0,M,предприниматель,0,240702.007382,строительство жилой недвижимости


Гипотеза не подтвердилась. Предлагаю заменить 0 медианными значениями исходя из типа дохода и рабочих дней, ранее мы выявили закономерность в этих данных.

In [43]:
data['dob_years'] = data['dob_years'].fillna(data.groupby(['income_type', 'days_employed'])['dob_years'].transform('median'))

In [44]:
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Со столбцом 'dob_years' закончили, переходим к столбцу 'education'.

### Столбцы 'education' и 'education_id'

In [45]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Привести все наименования к одному виду (все буквы сделать маленькими), Nan отсутствуют.

In [46]:
data['education'] = data['education'].str.lower()

In [47]:
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [48]:
data['education_id'].unique()

array([0, 1, 2, 3, 4])

In [49]:
data['education_id'].value_counts()

1    15231
0     5259
2      744
3      282
4        6
Name: education_id, dtype: int64

Всё вроде нормально, Nan отсутствуют. Странно, что у последнего типа всего 6 значений, стоит посмотреть.

In [50]:
data[data['education_id'] == 4]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2963,0,337584.81556,69,ученая степень,4,женат / замужем,0,M,пенсионер,0,98752.495442,покупка жилой недвижимости
4170,0,409.200149,45,ученая степень,4,Не женат / не замужем,4,M,сотрудник,0,198570.757322,операции с коммерческой недвижимостью
6551,0,5352.03818,58,ученая степень,4,женат / замужем,0,M,сотрудник,0,268411.214536,заняться высшим образованием
12021,3,5968.075884,36,ученая степень,4,женат / замужем,0,F,госслужащий,0,111392.231107,покупка жилья
12786,0,376276.219531,62,ученая степень,4,женат / замужем,0,F,пенсионер,0,255425.196556,покупка жилой недвижимости
21519,1,2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости


Нет закономерностей, просто учёная степень - удел избранных:) Идём дальше.

### Столбцы 'family_status' и 'family_status_id'

In [51]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [52]:
data['family_status'].value_counts()

женат / замужем          12379
гражданский брак          4176
Не женат / не замужем     2812
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Всё вроде нормально, Nan отсутствуют.

In [53]:
data['family_status_id'].unique()

array([0, 1, 2, 3, 4])

In [54]:
data['family_status_id'].value_counts()

0    12379
1     4176
4     2812
3     1195
2      960
Name: family_status_id, dtype: int64

Всё вроде нормально, Nan отсутствуют.

### Столбец 'gender'

In [55]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [56]:
data['gender'].value_counts()

F      14233
M       7288
XNA        1
Name: gender, dtype: int64

XNA встречается один раз - нужно посмотреть на эту строку внимательно.

In [57]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,предприниматель,0,203905.157261,покупка недвижимости


In [58]:
data.drop(data[(data['gender'] == 'XNA') ].index, inplace=True)

Проще удалить, ни на что не повлияет.

### Столбец 'income_type'

In [59]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'предприниматель', 'госслужащий',
       'безработный', 'студент', 'в декрете'], dtype=object)

In [60]:
data['income_type'].value_counts()

сотрудник          11119
предприниматель     5085
пенсионер           3854
госслужащий         1459
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

Всё вроде нормально, Nan отсутствуют. Есть несколько групп, где почти нет людей. Так как их очень мало, то можно оставить, как есть, это не повлияет на результат.

### Столбец 'debt'

In [61]:
data['debt'].unique()

array([0, 1])

In [62]:
data['debt'].value_counts()

0    19780
1     1741
Name: debt, dtype: int64

Всё вроде нормально, Nan отсутствуют. Получается, что долг только у каждого 20-го?

### Столбец 'purpose'

In [63]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Много повторяющихся значений, можно их сгруппировать по леммам (сделаю позже), Nan отсутствуют.

### Вывод

Данные в столбце days_employed были взяты из разных источников:
Для пенсионеров и безработных они имеют вид больших положительных значений, для всех остальных групп граждан - небольших отрицательных. Поэтому я обработал их по-разному:
Все отрицательные значения я взял по модулю - теперь они выглядят корректно.
Все положительные значения не трогал, с ними нет проблем.
Пропуски в столбце 'days_employed' заменил на медианное значение исходя из возраста человека и типа дохода - это логично(люди одной социальной страты должны работать примерно одно и то же время, не зря же говорят о различиях поколений).
Пропуски в столбце 'total_income' заменил на медианное значение исходя из уровня образования человека и его типа заработка - это логично(люди одного возраста и типа занятости должны получать приблизительно одинаково).

Странные значения (-1 и 20) в столбце 'children' посчитал техническим браком и заменил на корректные (1 и 2).

В столбце 'dob_years' заменил нулевые значения медианным исходя из выработанных дней и типа дохода.

В столбце 'education' привёл все типы к одному виду - строчные буквы.

В столбце 'income_type' объединил предпринимателей с компаньонами - это близкие по типу люди.

## Замена типа данных

Посмотрим, какие типы данных у нас присутствуют

In [64]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21521 entries, 0 to 21524
Data columns (total 12 columns):
children            21521 non-null int64
days_employed       21521 non-null float64
dob_years           21521 non-null int64
education           21521 non-null object
education_id        21521 non-null int64
family_status       21521 non-null object
family_status_id    21521 non-null int64
gender              21521 non-null object
income_type         21521 non-null object
debt                21521 non-null int64
total_income        21521 non-null float64
purpose             21521 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Есть претензии только к двум столбцам - 'days_employed' и 'total_income'.

In [65]:
data['days_employed'] = data['days_employed'].astype('int')

In [66]:
data['total_income'] = data['total_income'].astype('int')

### Вывод

В столбце 'days_employed' хранятся значения в днях, а значит тип данных должен быть целочисленным.
В столбце 'total_income' хранятся значения дохода и вряд ли банк интересуют копейки, поэтому отбросим не нужную часть данных, приведя их к целочисленному типу.

## Обработка дубликатов

Проверим, сколько дубликатов осталось в таблице.

In [67]:
data.duplicated().sum()

71

Возможно, это не все дубликаты, в столбце education я уже всё привёл к одному виду, сделаем то же самое для столбцов 'family_status' и 'purpose'.

In [68]:
data['family_status'] = data['family_status'].str.lower()
data['purpose'] = data['purpose'].str.lower()

In [69]:
data.duplicated().sum()

71

Нет, это все. Прежде чем удалять, давайте на них посмотрим.

In [70]:
data[data.duplicated()].head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,1849,41,среднее,1,женат / замужем,0,F,сотрудник,0,136555,покупка жилья для семьи
3290,0,365515,58,среднее,1,гражданский брак,1,F,пенсионер,0,114842,сыграть свадьбу
4182,1,1567,34,высшее,0,гражданский брак,1,F,сотрудник,0,165640,свадьба
4851,0,364211,60,среднее,1,гражданский брак,1,F,пенсионер,0,114842,свадьба
5557,0,365515,58,среднее,1,гражданский брак,1,F,пенсионер,0,114842,сыграть свадьбу
6312,0,1361,30,среднее,1,женат / замужем,0,M,сотрудник,0,136555,строительство жилой недвижимости
7808,0,364806,57,среднее,1,гражданский брак,1,F,пенсионер,0,114842,на проведение свадьбы
7921,0,366616,64,высшее,0,гражданский брак,1,F,пенсионер,0,144240,на проведение свадьбы
7938,0,364254,71,среднее,1,гражданский брак,1,F,пенсионер,0,114842,на проведение свадьбы
8583,0,365515,58,высшее,0,не женат / не замужем,4,F,пенсионер,0,144240,дополнительное образование


Видимо часть дубликатов вызвана тем, что мы заполнили одинаковыми значениями столбец 'total_income'. Плюс у каждой записи нет уникального id, поэтому лучше эти записи оставить, всё равно они погоды не сделают - их слишком мало.

In [71]:
#data = data.drop_duplicates().reset_index(drop = True)

In [72]:
#data.duplicated().sum()

### Вывод

Дубликаты малочисленны и ни на что не влияют.

## Лемматизация

До этого я заметил, что в столбце 'purpose' много однотипных значений. Воспользуемся лемматизацией, чтобы вычислить основные причины для кредита.

In [73]:
data['purpose'].head(10)

0                 покупка жилья
1       приобретение автомобиля
2                 покупка жилья
3    дополнительное образование
4               сыграть свадьбу
5                 покупка жилья
6             операции с жильем
7                   образование
8         на проведение свадьбы
9       покупка жилья для семьи
Name: purpose, dtype: object

In [74]:
from pymystem3 import Mystem
from collections import Counter
m = Mystem()

In [75]:
purpose_list = data['purpose'].unique()
purpose_list

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [76]:
lemma_all = []

for lemma in purpose_list:
    if lemma not in lemma_all:
        lemma_all.append(m.lemmatize(lemma))
lemma_all_list = list(map(''.join, lemma_all))        

In [77]:
(Counter(lemma_all_list))

Counter({'покупка жилье\n': 1,
         'приобретение автомобиль\n': 1,
         'дополнительный образование\n': 1,
         'сыграть свадьба\n': 1,
         'операция с жилье\n': 1,
         'образование\n': 1,
         'на проведение свадьба\n': 1,
         'покупка жилье для семья\n': 1,
         'покупка недвижимость\n': 1,
         'покупка коммерческий недвижимость\n': 1,
         'покупка жилой недвижимость\n': 1,
         'строительство собственный недвижимость\n': 1,
         'недвижимость\n': 1,
         'строительство недвижимость\n': 1,
         'на покупка подержать автомобиль\n': 1,
         'на покупка свой автомобиль\n': 1,
         'операция с коммерческий недвижимость\n': 1,
         'строительство жилой недвижимость\n': 1,
         'жилье\n': 1,
         'операция со свой недвижимость\n': 1,
         'автомобиль\n': 2,
         'заниматься образование\n': 1,
         'сделка с подержанный автомобиль\n': 1,
         'получение образование\n': 1,
         'свадьба\n': 

Можно выделить несколько категорий - недвижимость/жилье, автомобиль, образование и свадьба. Давайте сгруппируем все типы в эти 4 категории 

In [78]:
def lemma_unique(row):
    lemma = m.lemmatize(row)
    if ('недвижимость' in lemma) or ('жилье' in lemma):
        return 'недвижимость';
    if 'образование' in lemma:
        return 'образование';
    if 'свадьба' in lemma:
        return 'свадьба';
    if 'автомобиль' in lemma:
        return 'автомобиль';
    
data['purpose']=data['purpose'].apply(lemma_unique)
data['purpose'].value_counts()

недвижимость    10838
автомобиль       4314
образование      4022
свадьба          2347
Name: purpose, dtype: int64

### Вывод

Изучил данные и все причины кредитования разделил на 4 типа:
1) Всё, что связано с недвижимостью - покупка, сдача, ремонт.
2) Всё, что связано с образованием - дополнительное, профильное, высшее.
3) Всё, что связано с автомобилями - покупка нового или старого автомобиля.
4) Свадьба

## Категоризация данных

Так как глобальная задача - ответить на 4 вопроса, то я предлагаю сразу перейти к выводам и категоризировать по ходу дела, исходя из нужд каждого вопроса.

# Шаг 3. Ответьте на вопросы

## Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [79]:
pivot_table_children = data.pivot_table(index='children', values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_table_children

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14146,1063,0.075145
1,4865,445,0.09147
2,2130,202,0.094836
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


In [80]:
data_children_without_debt = data[(data['children'] == 0) & (data['debt'] == 0)].count()
data_children_with_debt = data[(data['children'] != 0) & (data['debt'] == 1)].count()
diff_children = data_children_without_debt / data_children_with_debt
diff_children

children            19.29646
days_employed       19.29646
dob_years           19.29646
education           19.29646
education_id        19.29646
family_status       19.29646
family_status_id    19.29646
gender              19.29646
income_type         19.29646
debt                19.29646
total_income        19.29646
purpose             19.29646
dtype: float64

## Вывод

Очевидно, что наличие ребёнка увеличивает процент непогашенных кредитов довольно сильно вне зависимости от количества детей. Из общего ряда выделяются только семьи, в которых есть 3 ребёнка (разница всего 0.5-6% против 1.5% и выше в остальных группах), но это может быть связано с малой выборкой. 
Если мы поделим всех людей на 2 группы - с детьми и без, то увидим, что у первых повышение вероятности невозврата денег на 20%.
Ответ: Да, влияет, предпочтительнее выдавать кредит людям без детей.

## Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [81]:
pivot_table_family_status = data.pivot_table(index='family_status', values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_table_family_status

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,1195,85,0.07113
вдовец / вдова,960,63,0.065625
гражданский брак,4175,388,0.092934
женат / замужем,12379,931,0.075208
не женат / не замужем,2812,274,0.09744


## Вывод

Получается интересная зависимость от семейного положения.
Не женатые люди и люди, живущие в гражданском браке сильно выделяются из остальных категорий в худшую сторну.
Можно разделить всех людей на 2 типа - были/есть в браке и те, кто в браке не был никогда. У последних повышается вероятность невозврата денег на 2%.
Вот такую рекламу семьи нужно крутить по телевизору!
P.S. Вдовам и вдовцам приоритетнее выдавать кредиты и я чувствую здесь хороший потенциал для стендапа с чёрными шутками.

## Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [82]:
#pivot_table_family_total_income = data.groupby('total_income')['debt'].mean() * 100
pivot_table_total_income = data.pivot_table(index='total_income', values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_table_total_income 

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
20667,1,1,1.0
21205,1,0,0.0
21367,1,0,0.0
21695,1,0,0.0
21895,1,0,0.0
...,...,...,...
1711309,1,0,0.0
1715018,1,0,0.0
1726276,1,0,0.0
2200852,1,1,1.0


In [83]:
data['total_income'].mean()

165341.44918916406

In [84]:
data['total_income'].median()

143496.0

In [85]:
d1 = data[(data['total_income'] <= 80000) & (data['total_income'] >= 0)]
data_total_income_1 = d1['children'].count()
data_total_income_1

2276

In [86]:
d2 = data[(data['total_income'] <= 100000) & (data['total_income'] >= 80001)]
data_total_income_2 = d2['children'].count()
data_total_income_2

2187

In [87]:
d3 = data[(data['total_income'] <= 120000) & (data['total_income'] >= 100001)]
data_total_income_3 = d3['children'].count()
data_total_income_3

2730

In [88]:
d4 = data[(data['total_income'] <= 140000) & (data['total_income'] >= 120001)]
data_total_income_4 = d4['children'].count()
data_total_income_4

3176

In [89]:
d5 = data[(data['total_income'] <= 160000) & (data['total_income'] >= 140001)]
data_total_income_5 = d5['children'].count()
data_total_income_5

2423

In [90]:
d6 = data[(data['total_income'] <= 180000) & (data['total_income'] >= 160001)]
data_total_income_6 = d6['children'].count()
data_total_income_6

2120

In [91]:
d7 = data[(data['total_income'] <= 220000) & (data['total_income'] >= 180001)]
data_total_income_7 = d7['children'].count()
data_total_income_7

2602

In [92]:
d8 = data[(data['total_income'] <= 300000) & (data['total_income'] >= 220001)]
data_total_income_8 = d8['children'].count()
data_total_income_8

2525

In [93]:
d9 = data[(data['total_income'] <= 2300000) & (data['total_income'] >= 300001)]
data_total_income_9 = d9['children'].count()
data_total_income_9

1482

In [94]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21521 entries, 0 to 21524
Data columns (total 12 columns):
children            21521 non-null int64
days_employed       21521 non-null int64
dob_years           21521 non-null int64
education           21521 non-null object
education_id        21521 non-null int64
family_status       21521 non-null object
family_status_id    21521 non-null int64
gender              21521 non-null object
income_type         21521 non-null object
debt                21521 non-null int64
total_income        21521 non-null int64
purpose             21521 non-null object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


In [95]:
def total_income_all(income):
    if 0 <= income <= 60000:
        return 60000
    elif 80000 >= income >= 60001:
        return 80000
    elif 100000 >= income >= 80001:
        return 100000
    elif 120000 >= income >= 100001:
        return 120000
    elif 140000 >= income >= 120001:
        return 140000
    elif 160000 >= income >= 140001:
        return 160000
    elif 180000 >= income >= 160001:
        return 180000
    elif 220000 >= income >= 180001:
        return 220000
    elif 300000 >= income >= 220001:
        return 300000
    elif 2300000 >= income >= 300001:
        return 2300000
    
for income in data['total_income']:
     total_income_all(income)
    

data['total_income_all'] = data['total_income'].apply(total_income_all)

In [96]:
total_income_all = data.pivot_table(index='total_income_all', values='debt', aggfunc=['count', 'sum', 'mean'])
total_income_all

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_all,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
60000,806,49,0.060794
80000,1470,125,0.085034
100000,2187,180,0.082305
120000,2730,227,0.08315
140000,3176,285,0.089736
160000,2423,216,0.089146
180000,2120,173,0.081604
220000,2602,202,0.077633
300000,2525,178,0.070495
2300000,1482,106,0.071525


In [97]:
def total_income_all_less(income):
    if 0 <= income <= 100000:
        return 100000
    elif 200000 >= income >= 100001:
        return 200000
    elif 300000 >= income >= 200001:
        return 300000
    elif 2300000 >= income >= 300001:
        return 2300000
    
for income in data['total_income']:
     total_income_all_less(income)
    

data['total_income_all_less'] = data['total_income'].apply(total_income_all_less)

In [98]:
total_income_all_less = data.pivot_table(index='total_income_all_less', values='debt', aggfunc=['count', 'sum', 'mean'])
total_income_all_less

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_all_less,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
100000,4463,354,0.079319
200000,11805,1021,0.086489
300000,3771,260,0.068947
2300000,1482,106,0.071525


## Вывод

Сначала я разделил всех людей на примерно равные по количеству присутствующих группы, шаг был по большей части через 20000₽. 
Потом я решил проверить некие закономерности, которые я увидел, и поделил всех на более мелкие группы с шагом 100000₽.
Что можно сказать - лучше всего с кредитами справляются люди, которые получают меньше всего - до 60000₽. 
И чем дальше, тем хуже - риск невыплат практически планомерно растёт и достигает своего пика на 160000₽, 
потом начинается постепенное снижение. 
Если разбить людей на более крупные группы с шагом в 100000₽, то общая тенденция сохраняется, но её проще заметить.

## Как разные цели кредита влияют на его возврат в срок?

In [99]:
pivot_table_purpose = data.pivot_table(index='purpose', values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_table_purpose

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4314,403,0.093417
недвижимость,10838,782,0.072154
образование,4022,370,0.091994
свадьба,2347,186,0.07925


## Вывод

Думаю, что полученные данные можно разделить на 2 категории: люди, которые тратят деньги на изменение своих жизненных условий (свадьба и новая квартира - это нечто весомое, то, с чем ты будешь жить долго) и люди, которые покупают необязательные вещи(автомобиль - это роскошь, а не средство передвижения, поэтому он не в приоритете, а работу можно и без образования найти).
Если отойти от лирики, то выводы очевидны: кредиты на автомобили и образование люди выплачивают хуже, чем кредиты на недвижимость и свадьбу. 

# Шаг 4. Общий вывод

Наличие ребёнка увеличивает процент непогашенных кредитов довольно сильно вне зависимости от количества детей. 

Люди, которые никогда не узаканивали свои отношения платят хуже, чем те, которые решились на подобный шаг. Более того, уход
одного из партнёров из жизни даже придаёт сил выплачивать кредит лучше остальных.

Лучше всего с кредитами справляются люди, которые получают меньше всего - до 60000₽, риск невыплаты растёт с ростом зарплаты, тенденция сходит на нет после рубежа в 160000₽.

Кредиты на автомобили и образование люди выплачивают хуже, чем кредиты на недвижимость и свадьбу. 

Спасибо большое:)

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.