# Исследование надежности заемщиков.

Кредитный отдел банка предоставил данные о платежеспособности клиентов.

**Цель исследования** — проверить четыре гипотезы: 

* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

Результаты исследования будут использованы при построение модели кредитного скоринга. 

**Ход исследования**

О данных в файла `/datasets/data.csv` нам ничего не известно, поэтому перед проверкой гипотез необходимо будет провести обзор данных. 
Соответственно, исследование разделится на четыре этапа:
 1. Обзор данных
 2. Предобработка данных
 3. Проверка гипотез
 4. Общие выводы и рекомендации

## Обзор данных

In [1]:
import pandas as pd # импорт библиотеки pandas

In [2]:
df = pd.read_csv('/datasets/data.csv') # чтение файла с данными и сохранение в df

df.info() # получение общей информации о данных в таблице df


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
 df.head(10) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
 df.tail(10) # получение последних 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [5]:
df.describe().astype(int) #вывод таблицы со статистическими данными без десятичных знаков после запятой

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525,19351,21525,21525,21525,21525,19351
mean,0,63046,43,0,0,0,167422
std,1,140827,12,0,1,0,102971
min,-1,-18388,0,0,0,0,20667
25%,0,-2747,33,1,0,0,103053
50%,0,-1203,42,1,0,0,145017
75%,1,-291,53,1,1,0,203435
max,20,401755,75,4,4,1,2265604


Посмотрим информацию по отдельным столбцам, которые в т.ч. необходимы нам для исследования.

In [6]:
df['education'].value_counts() #посмотрим категории в столбце education, чтобы проверить корректность заполненных данных

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [7]:
df['family_status'].value_counts() #посмотрим категории по столбцу family_status

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [8]:
df['gender'].value_counts() #посмотрим категории по столбцу gender

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [9]:
df['income_type'].value_counts() #посмотрим категории по столбцу income_type

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [10]:
df['purpose'].value_counts() #посмотрим категории по столбцу purpose

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

### Выводы обзора данных

В таблице имеется двенадцать столбцов, которые в соответствии с документацией к данным представляют следующее:

* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.


Из представленных данных можно сделать несколько выводов:
* больше всего кредитов представлено людям со *средним* образованием, которые работают *сотрудниками*,
* 66% кредитов были выданы *женщинам*,
* кредиты пользуются большей популярностью у *женатых/замужних людей*, 
* самая растространненая цель получения кредита - *на свадьбу*. 

Были выявлены следующие *проблемы* в предоставленных данных:

* колонка `children`:  
    * имееются 47 отрицательных значений, а также 76 значений, где детей больше 20, что тоже вызывает подозрение о корректности заполненных данных; 
* колонка `days_employed`: 
    * имеются отрицальные и слишком большие положительные значения,
    * имеются пропущенные значения;
* в колонке `dob_years`:
    * имеются нулевые значения;
* в колонке `education`:
    * имеются неявные дубликаты - используются разные типы регистров;
* в колонке `gender`: 
    * имеется ошибочное значение XNA;
* колонка `total_income`:
    * имеются пропущенные значения;
* в колонке `purpose`:
    * имеется много дубликатов, которые по сути являются идентичными.

## Предобработка данных

### Заполнение пропусков

Пропущенные значения была выявлены в колонках `days_employed` (общий трудовой стаж) и `total_income` (ежемесячный доход). Посмотрим их количество. 

In [11]:
df.isna().sum() #считаем количество пропусков в датафрейме

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Проверим общую долю пропущенных значений от общего количества.

In [12]:
df.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

Пропущенные значения составляют порядка 10% от общего количества.
Пропущенные значения в данных колонках могут быть связаны с тем, что эти люди не работали на момент выдачи кредита (т.е. были безработными), либо с тем, что данные были заполнены некорректно. 
Пропущенные данные столбца `total_income` заполним медианными значениями по типу занятости. Медиана позволит не включать в расчет сильно выбивающиеся доходы и таким образом не окажет влияния на общий результат.

Пропущенные значения в столбце `days_employed` заменим на нули, чтобы избавиться от пропусков, но в дальнейшим к ним вернемся, т.к. в данном столбце присутствует большое количество аномальных значений.

In [13]:
df['total_income'] = df['total_income'].fillna(0) #сначала заменим все пропущенные значения на 0
df['days_employed'] = df['days_employed'].fillna(0)

In [14]:
df_ti_median = df.groupby('income_type')['total_income'].median() 
df_ti_median
#расчитаем медианное значение дохода для каждого типа занятости

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        139034.452386
компаньон          162401.351555
пенсионер          110179.690761
предприниматель    249581.572474
сотрудник          133546.457238
студент             98201.625314
Name: total_income, dtype: float64

In [15]:
for income_type in df_ti_median.index:
    df.loc[(df['total_income'].isna()) & (df['income_type'] == income_type), 'total_income'] = df_ti_median.loc[income_type]

#заменим пропущенные значения в колонке total_income по каждому типу занятости медианным значением колонки total_income

In [16]:
df.isna().sum() #проверим количество пропусков в датафрейме после замены

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Пропуски в колонке `total_income` были успешно заменены медианным значением, а в `колонке days_employed` нулевым.

### Проверка данных на аномалии и исправления.

Анализ выше показал, что в столбце `days_employed`, помимо пропущенных значений, имееются также отрицальные значения и аномально большие, что может быть связано с разными причинами: 
* некорректное заполнение исходных данных (например, сотрудник перепутал ячейки и в дату начала трудовой деятельности вбил текущую дату, а в текущую - дату начала трудовой деятельности),
* произошёл какой-то сбой в выгрузке данных.

Т.к. у нас нет возможности перезапросить исходные данные, предположим, что отрицательные значения связаны с некорректным заполнением исходных данных и на самом деле должны быть положительными числами, и переведем все значения колонки `days_employed` в абсолютные значения.

In [17]:
df['days_employed'] = df['days_employed'].abs() #перевод всех значений в абсолютную величину
df['days_employed'].describe() #проверим остались ли отрицательные значения

count     21525.000000
mean      60156.419005
std      133355.929525
min           0.000000
25%         610.652074
50%        1808.053434
75%        4779.587738
max      401755.400475
Name: days_employed, dtype: float64

Среднее значение рабочего стажа составляет 60 259 дней, что является очень большим значением (165 лет), которое точно не может быть правдой. Так же это видно и по максимальному значению - 401 755 дней. Рассчитаем медианное значение стажа для каждого типа занятости. 

In [18]:
df_dy_median = df.groupby('income_type')['days_employed'].median() 
df_dy_median

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2385.358043
компаньон            1311.128244
пенсионер          360505.668544
предприниматель       260.424042
сотрудник            1360.363902
студент               578.751554
Name: days_employed, dtype: float64

Из таблицы выше стало ясно, что аномально высокие значения имеются по двум категориям: безработные и пенсионеры. 
Такое заполнение данных, вероятнее всего, связано с тем, что при подаче заявки на кредит безработные и пенсионеры не предоставляют справки с места работы и трудовые книжки, соответственно, эти данные взять неоткуда и сотрудники банка намеренно вводят даты некорректно (например, дату начала трудовой деятельности) из-за чего и возникают аномально высокие значения.
Учитывая, что эти данные нам для дальнейшего исследования не нужны, в данных категориях заменим аномальные значения на нулевые, а в остальных группах пропуски заменим на медианное значение по группе.

In [19]:
max_days_employed = (75-16)*365 #создадим переменную, чтобы рассчитать максимальное количество дней трудового стажа, которое может быть
#75 - это максимальные возраст, который есть в таблице, 
#16 - минимальный возраст, с которого можно самостоятельно начать работать


df.loc[(df['income_type'] == 'безработный') & (df['days_employed'] >= max_days_employed), 'days_employed'] = 0
df.loc[(df['income_type'] == 'пенсионер') & (df['days_employed'] >= max_days_employed), 'days_employed'] = 0

for income_type in df_dy_median.index:
    df.loc[(df['days_employed'].isna()) & (df['income_type'] == income_type), 'days_employed'] = df_dy_median.loc[income_type]

In [20]:
df['days_employed'].describe() #проверим отсутствие отрицальных и аномально больших значений

count    21525.000000
mean      1738.772191
std       2234.171998
min          0.000000
25%          0.000000
50%        982.531720
75%       2518.168900
max      18388.949901
Name: days_employed, dtype: float64

In [21]:
df['days_employed'].isna().sum() #проверим остались ли в таблице пропуски по столбцу days_employed

0

По итогам обзора данных были выявлены некорректные значения в колонке `children` (отрицальные значения и аномально большие). Вероятнее всего, это связано с некорректным внесением информации в базу данных. Проверим количество этих значений. 

In [22]:
df['children'].value_counts() #подсчет категорий колонки children

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Количество ошибочных значений минимальное (менее 1%). Можно предположить, что данные были внесены ошибочно (например, ошибочно добавлены 0 и "-"). Но так как значение небольшое, скорректируем таблицу удалив эти данные. 

In [23]:
df = df.loc[df['children'] >= 0] #создадим условия, чтобы в таблицу попадали только строки, 
df = df.loc[df['children'] < 20] #с количеством детей больше 0, но меньше 20
df['children'].value_counts() #проверим результат

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Также было замечено ошибочное значение в столбце `gender`. Поскольку оно было единичным, так же удалим его. 

In [24]:
df = df.loc[df['gender'] != 'XNA'] #исключим из выборки неизвестное значение
df['gender'].value_counts() #проверим результат

F    14154
M     7247
Name: gender, dtype: int64

Проверим столбец `dob_years` поскольку в нём встречались значения равные 0.

In [25]:
df['dob_years'].value_counts().tail(11)

0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Так как колонка с возрастом не участвует в дальнейших расчетах заменем все нулевые значения на среднее. 

In [26]:
df.loc[df['dob_years'] == 0, 'dob_years'] = df['dob_years'].mean() #заменяем все нулевые значения на средние
df.loc[df['dob_years'] == 0].count().sum() #проверим заменились ли все нулевые значения

0

### Изменение типов данных.

Для дальнейшего удобства приведем доходы (колонка `total_income`) к целочисленным значениям.

In [27]:
try: 
    df['total_income'] = int(df['total_income'])
except:
    df['total_income'] = df['total_income'].astype(int)
df['total_income'].dtype

dtype('int64')

### Удаление дубликатов.

В столбце `education` по итогам обзора данных были выявлены неявные дубликаты (были использованы разные регистры). Приведем их к одному виду. 

In [28]:
df['education'] = df['education'].str.lower() #приведем все значения к единому регистру
df['education'].unique() #теперь проверим количество уникальных значений в столбце

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Теперь проанализируем есть ли в таблице какие-либо еще дубликаты. 

In [29]:
df.duplicated().sum() #проверяем наличие дубликатов в таблице

71

In [30]:
df.drop_duplicates().reset_index(drop = True) #избавляемся от дубликатов с пересозданием индексов
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,0.0,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27.0,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43.0,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50.0,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35.0,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41.0,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Поскольку таблицы довольно большая, визуально с ней сложно работать. Для этого мы ее немного сократим, создав отдельные словари для колонок `education` и `family_status`. Также это сократитит время обработки исходных данных. 

In [31]:
education_dict = df[['education', 'education_id']] #создадим новый датафрейм словаря
education_dict = education_dict.drop_duplicates().reset_index(drop=True) #удалим все дубликаты в этом датафрейме
education_dict

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [32]:
family_status_dict = df[['family_status', 'family_status_id']] #создадим новый датафрейм словаря
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True) #удалим все дубликаты в этом датафрейме
family_status_dict

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [33]:
#удалим из исходного датафрейма "ненужные" столбцы - education и family_status

df = df.drop(['education', 'family_status'], axis = 1)
df.head(15) #выведем на экран первый 15 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42.0,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33.0,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32.0,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,0.0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27.0,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43.0,0,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50.0,1,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35.0,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41.0,1,0,M,сотрудник,0,144425,покупка жилья для семьи


### Категоризация дохода.

Для того, чтобы ответить на вопрос исследования о влиянии уровня дохода на возврат кредита в срок, необходимо разделить клиентов на 5 категорий (по условиям задачи) по уровню дохода.

In [34]:
def income_category(income): #напишем функцию, которая будет присваивать различиные категории в зависимости от уровня дохода
    try:
        if income <= 30000:
            return 'E'
        if 30001 <= income <= 50000:
            return 'D'
        if 50001 <= income <= 200000:
            return 'C'
        if 200001 <= income <= 1000000:
            return 'B'
    
        return 'A'
    except:
        display('Ошибка')

#display(income_category(1000)) #проверка того, что функция работает верно
#display(income_category(40000))
#display(income_category(100000))
#display(income_category(500000))
#display(income_category(10000000))

df['total_income_category'] = df['total_income'].apply(income_category) #добавим в нашу таблицу новый столбец с категорией дохода
df.head(15) #выведем на экран первый 15 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42.0,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33.0,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32.0,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,0.0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926.185831,27.0,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879.202052,43.0,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152.779569,50.0,1,0,M,сотрудник,0,135823,образование,C
8,2,6929.865299,35.0,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188.756445,41.0,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


### Категоризация целей кредита.

Также для ответа на последний вопрос исследования о том как различные цели кредита влияют на его возврат в срок, необходимо разбить эти цели на несколько категорий, т.к. исходя из обзора данных целей кредита в таблице очень много, но по факту они дублируют друг друга, а какие-то написаны просто с орфографическими ошибками. Можно выделить 4 цели, которые имееются в исходных данных:
  * операции с автомобилем,
  * получение образования,
  * проведение свадьбы,
  * операции с недвижимостью.

Наиболее оптимальный путь для разделения целей на разные категории - провести лемматизацию. 

In [35]:
from pymystem3 import Mystem #импортируем библиотеку pymystem3 
m = Mystem()

def purpose_category(your_purpose): #здесь напишем функцию, которая будет по словам присваивать категорию
    lemmas = m.lemmatize(your_purpose)
    try:
        if 'автомобиль' in lemmas:
            return 'операции с автомобилем'
        if 'образование' in lemmas:
            return 'получение образования'
        if 'свадьба' in lemmas:
            return 'проведение свадьбы'
        return  'операции с недвижимостью'
    except:
        display('Ошибка')

#создадим новый столбец в нашей таблице, который в зависимости от цели будет присваивать категорию
df['purpose_category'] = df['purpose'].apply(purpose_category) 
df.head(15) #выведем первые 15 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42.0,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33.0,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32.0,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,0.0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27.0,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43.0,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50.0,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35.0,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41.0,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Предобработка данных: выводы

По итогам проведенной преобработки данные было сделано следующее:
* были заполнены пропуски  в колонках `days_employed` и `total_income`. Пропуски были заполнены медианными значениями по типам занятости;
* некорректные значения в колонке `children` (отрицальные значения и аномально большие) были удалены из таблицы, ввиду их незначительного количества (менее 1%);
* удалено ошибочное значение в столбце `gender` (оно было единичным);
* в колонке `dob_years` вместо пустых значений подставили средние;
* удалили возникающие дубликаты в таблице;
* сократили таблицу удалив колонки `education` и `family_status` и создали для них отдельные словари;
* провели категоризацию доходов и целей кредита.

## Проверка гипотез

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для ответов на поставленные вопросы проще всего информацию обработать в табличном виде с помощью построения сводных таблиц.

In [36]:
children_debt = df.pivot_table(index='children', values='debt', aggfunc=['count','sum', 'mean'])  
#создадим сводную таблицу 

children_debt.columns = ['Общее количество заемщиков','Количество должников','Доля должников в %'] 
#добавим все необходимые столбцы, которые хотим увидеть в сводную таблицу

children_debt['Доля должников в %']= round(children_debt['Доля должников в %'] * 100, 2)
#переведем колонку Доля должников в % в проценты с округлением до двух десятичных знаков

children_debt.sort_values(by = 'Доля должников в %', ascending = False)
#отсортируем по столбцу "Доля должников в %" по возрастанию

Unnamed: 0_level_0,Общее количество заемщиков,Количество должников,Доля должников в %
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,9.76
2,2055,194,9.44
1,4818,444,9.22
3,330,27,8.18
0,14148,1063,7.51
5,9,0,0.0


**Вывод:**

Прямой зависимости между количеством детей и возвратом кредита в срок нет. При этом, по таблице видно, что заемщики, у которых дети отсутствуют являются более платежеспособными, чем те, у которых есть дети (количество не важно). Данные по заёмщикам с 5 детьми не репрезентативны ввиду малого количества данных.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [37]:
family_status_dict #выведем дата фрейм со словарем на экран

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [38]:
family_status_debt=df.pivot_table(index='family_status_id', values='debt', aggfunc=['count','sum', 'mean'])

family_status_debt.columns = ['Общее количество заемщиков','Количество должников','Доля должников в %']

family_status_debt['Доля должников в %']= round(family_status_debt['Доля должников в %'] * 100, 2)

family_status_debt.sort_values(by = 'Доля должников в %', ascending = False)

family_status_debt.merge(family_status_dict, on ='family_status_id')
family_status_debt

Unnamed: 0_level_0,Общее количество заемщиков,Количество должников,Доля должников в %
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12302,927,7.54
1,4159,385,9.26
2,952,63,6.62
3,1189,84,7.06
4,2799,273,9.75


**Вывод:**

Заёмщики, которые находятся не в браке или в гражданском браке являются менее платежеспособными, как видно из таблицы выше.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [39]:
total_income_debt = df.pivot_table(index='total_income_category',values='debt',aggfunc=['count','sum', 'mean'])

total_income_debt.columns = ['Общее количество заемщиков','Количество должников','Доля должников в %']

total_income_debt['Доля должников в %']= round(total_income_debt['Доля должников в %'] * 100, 2)

total_income_debt.sort_values(by = 'Доля должников в %', ascending = False)

Unnamed: 0_level_0,Общее количество заемщиков,Количество должников,Доля должников в %
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,13831,1183,8.55
A,25,2,8.0
E,2184,172,7.88
B,5012,354,7.06
D,349,21,6.02


**Вывод:**

Ярко выраженной зависимости между уровнем дохода и возвратом кредита в срок нет (данные по заемщикам с категорией E (доход менее 30 000) не показательны, ввиду малого количества). При этом, несмотря на малое количество заемщиков в категории А - это люди, у которых очень высокий доход и по определнию их не может быть много. Стоит обратить внимание, что несмотря на их уровень дохода среди них имеется 8% не возвращающих обязательства по каким-то причинам в срок. 

### Как разные цели кредита влияют на его возврат в срок?

In [40]:
purpose_debt = df.pivot_table(index='purpose_category',values='debt',aggfunc=['count','sum', 'mean'])

purpose_debt.columns = ['Общее количество заемщиков','Количество должников','Доля должников в %']

purpose_debt['Доля должников в %']= round(purpose_debt['Доля должников в %'] * 100, 2)

purpose_debt.sort_values(by = 'Доля должников в %', ascending = False)

Unnamed: 0_level_0,Общее количество заемщиков,Количество должников,Доля должников в %
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4288,400,9.33
получение образования,3997,369,9.23
проведение свадьбы,2337,183,7.83
операции с недвижимостью,10779,780,7.24


**Вывод:**

Самый популярный тип кредитов: операции с недвижимостью, но ним же самый маленький процент должников. При этом самый высокий процент неуплат приходится на кредиты, которые берут для покупки автомобиля или получения образования.

<div class="alert alert-info"> <b>Комментарий студента:</b> 
Спасибо! Воспользовалась твоим советом. 
За инфу про сводные тоже спасибо)
</div>

## Общий вывод:

**Кратный обзор выполненных работ**:

Ход исследования был разделен на три части: 
1. Обзор данных
2. Предобработка данных
3. Проверка гипотез

В рамках первой части ввиду отствия какой-либо информации о предоставленных данных был сделан их подробный анализ, в ходе которого были выявлены проблемы, такие как: пропущенные и некорретные значения, нулевые значения, а также дубликаты. 

В рамках второй части "Предобработка данных" были заполнены пропусти, выявлены аномалии в данных, проведено изменение типов данных, удаление дубликатов, а также провели категоризацию уровня доходов заемщиков и целей кредита. 

В третьей части исследования осуществлялась проверка гипотез путем построения сводных таблиц на основе уже скорректированных данных.

**Основные выводы**:

 1. Количество детей не влияет на возможность вернуть кредит в срок, при этом бездетные заемщики платят по своим обязательствам лучше.
 2. Заемщики, которые не состоят в официальном браке платят по своим обязательствам хуже. Вероятнее всего, это связано с тем, что их доходы меньше, чем у семейных. 
 3. Зависимости между уровнем дохода и возвратом кредита в срок не установлено. Однако стоит обратить внимание на заемщиков с очень высоким уровнем дохода и выяснить более подробно, почему они пропускают платежи по кредитам. 
 4. Среди заемщиков, которые берут кредиты на покупку автомобиля или получение образования, бОльшая доля должников, чем среди тех, кто берет кредиты на свадьбу или недвижимость.
    
**Общие рекомендации**:

Обратить внимание на ввод информации в ячейки с датой стажа, поскольку на данный момент они выгружаются некорректно ввиду большого количества неправильно заполненных данных. Возможно, стоит поменять форму заполнения. 