# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — проверьте четыре вопроса:

   1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
   2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
   3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
   4. Как разные цели кредита влияют на его возврат в срок?
   
   **Ход исследования**
   
   Данные о поведении пользователей я получу из файла `/datasets/data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных.
   
   Я проверю данные на ошибки и оцените их влияние на исследование. Затем, на этапе предобработки я поищу возможность исправить все ошибки данных.
   
   Таким образом, моё исследование пройдёт в четыре этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.
 4. Написание общего вывода.


## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd# импорт библиотеки pandas
df = pd.read_csv('/datasets/data.csv')# # чтение файла с данными и сохранение в df
df.info()# получение информации о DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
df.head(15)# получение первых 15 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
df.info()# получение общей информации о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

В таблице 12 колонок и  три типа данных:`int64`, `float64`, `object`.

* `children` — наличие детей у заёмщика;
* `days_employed` — отработанные дни заёмщика;
* `dob_years` — Возраст заёмщика;
* `education` — образование заёмщика;
* `education_id` — индентификатор образования заёмщика;
* `family_status` — семейное положение заёмщика;
* `family_status_id` — идентефикатор семейного положения заёмщика;
* `gender` — пол заёмщика;
* `income_type` — тип дохода заёмщика; 
* `debt` - долг заёмщика;
* `total_income` — общий доход заёмщика;
* `purpose` — цель заёма;

    Есть колонки с некорректным типом данных;

    В столбцах `days_employed` и `total_income` встречаются пропуски в значениях.
    Скорее всего заявители случайно или умышленно не заполнили эти данные или произошла техническая ошибка.
    
    В столбце `days_employed` имеются отрицательные значения, и пропуски NaN.
    В столбце `education` строчные буквы сочетаются с прописными.
    
    Чтобы двигаться дальше, нужно устранить проблемы в данных
    

## Шаг 2. Предобработка данных

### Обработка пропусков

Сначала посчитаем, сколько в таблице пропущенных значений.

In [4]:
df.isna().sum()# подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В столбце отработанные дни изменим отрицательные значения, на положительные.Создадим функцию

In [5]:
def removing_the_minus(i):
    try:
        if i <1:
            i = i*(-1)
            return i
        return i
    except:
        print('Не получилось')

Перепишем столбец `days_employed` с положительными значениями. Для этого применим функцию `removing_the_minus()`

In [6]:
df['days_employed'] = df['days_employed'].apply(removing_the_minus)#применение функции

Создадим значение медианы для столбца `days_employed`.

In [7]:
days_employed_median = df['days_employed'].median()# медиана для столбца "отработанные дни"

Заменим пропуски в столбце `days_employed` с помощью метода fillna():

In [8]:
df['days_employed'] = df['days_employed'].fillna(days_employed_median)# замена пропусков в'days_employed'

Заменим пропуски в cтолбце `total_income` c помощью команды `loc`:

In [9]:
df.loc[df['total_income'].isna(), 'total_income'] = df['total_income'].median()# замена пропусков в'total_income'

Убеждаюсь, что команды выполнены верно:

In [10]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Проверяю наличие пропусков в датафрейме:

In [11]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Для упрощения восприятия и дальнейшей работы, кол-во дней перевожу в года (столбец `days_employed`)

In [12]:
def into_years(i):
    i = i/365
    return i

In [13]:
df['days_employed'] = df['days_employed'].apply(into_years)# применяю функцию

Проверяю, изменились ли значения в столбце `days_employed`

In [14]:
df.head(55)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,0.418574,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,18.985932,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [15]:
def correct_into_years(i):
    if i > 100:
        i = i/24
    return i
df['days_employed'] = df['days_employed'].apply(correct_into_years)

Проверим исправленные значения из другой системы измерений( где стаж исчисляется в днях):

In [16]:
df.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,38.843159,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,0.418574,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,18.985932,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Вывод**

В столбце `days_employed` все отрицательные значения заменены на положительные, заменены все пропуски медианой данного столбца. А так же исправлен стаж работы (ранее исчислялся для некоторых заёмщиков в днях или часах) на года.
В столбце `total_income` мы так же заменили все пропуски.

2174 заёмщика не указали свой стаж работы и уровень дохода. Вероятнее всего, они умышленно не заполняли эти данные (работа с серой зарплатой)

### Замена типа данных

Первым делом, нужно проверить, какие типы данных присутствуют в DataFrame.

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Все столбцы имеют корректный тип данных. Но столбцы `days_employed` (отработанные дни) и `total_income`(общий доход) указаны с дробной частью (`float`).Переведем их в `int`.

In [18]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')

Проверим изменения:

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод**

Трудовой стаж принято считать чётко в годах (без дробной части). Так же сумма дохода в любом денежном эквиваленте (рубли, евро или доллары) тоже считаются без копеек. Соответствено, мы убрали дробную часть из этих столбцов.

Изменить тип данных можно двумя способами:
- Метод `to_numeric()`. Его особенность заключается в том, что при переводе, все числа будут иметь тип данных `float`.
- Метод `astype()`. С помощью этого метода, переводят в нужный тип данных.

Изходя из вышеизложенного. Нам подходит метод `astype()`.

### Обработка дубликатов

Проверим наличие дубликатов в каждом столбце, где возможны те дубликаты, которые нам нужны (т.е. дубликаты в графе "общий доход" нам не нужны). Проверим их колличество несколькими способами

In [20]:
df['education'].value_counts()# подсчет уникальных значений и кол-во их упоминаний в столбце education

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [21]:
df['family_status'].value_counts()# подсчет уникальных значений и кол-во их упоминаний в столбце family_status

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [22]:
df['gender'].unique()# подсчет уникальных значений и кол-во их упоминаний в столбце gender

array(['F', 'M', 'XNA'], dtype=object)

In [23]:
df['children'].value_counts()# подсчет уникальных значений и кол-во их упоминаний в столбце children

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [24]:
df['income_type'].value_counts()# подсчет уникальных значений и кол-во их упоминаний в столбце income_type

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [25]:
df['purpose'].value_counts()# подсчет уникальных значений и кол-во их упоминаний в столбце purpose

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Проанализировав столбцы, было принято решение, что в столбцах `education`и `falily_status` необходимо свести значения столбца к нижнему регистру. Применим метод `str.lower()`.

In [26]:
df['education'] = df['education'].str.lower() #cводим к нижнему регистру education

In [27]:
df['education'].value_counts()# проверка результата

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [28]:
df['family_status'] = df['family_status'].str.lower()# cводим к нижнему регистру family_status

In [29]:
df['family_status'].value_counts()# проверка результата

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Так же, ранее было замечено, что в столбце `children` имеются значения `-1`(считаю, что знак минус был поставлен ошибочко и означает просто 1) и `20` (тут гораздо сложнее, возможно действительно кто-то многодетный (но не 76 заёмщиков). Скорее всего когда вбивали в базу, использовали клавиатуру `num lk` и случайно к цифре 2 нажали цифру 0.

Следовательно, изменим `-1` на `1`, `20` на `2`.

In [30]:
df['children'] = df['children'].replace(-1, 1)# замена значений с -1 на 1
df['children'] = df['children'].replace(20, 2)# замена значений с 20 на 2

Проверим изменения

In [31]:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Теперь проверим оставшееся колличество дубликатов в DataFrame и удалим их (с изменением и сохранением строки).

In [32]:
df.duplicated().sum()

71

In [33]:
df = df.drop_duplicates().reset_index(drop = True)

In [34]:
df.duplicated().sum()

0

**Вывод**

Проанализировали все столбцы. 
- Привели все значения в единый формат. Нашли гендер XNA (один единственный и непонятный), следовательно в данном проекте считаю, что этим можно этим принебречь (возможно новый пол (сейчас время такое), возможно просто ошибка).

- Так же в ходе ислледования, были найдены и исправлены ошибки в детьми. Многие по ошибки написали `-1`, а некторые аж `20`. Было принято решение: не удалять их, а исправить на адекватные значения (1 и 2) соответственно.

- Кроме того, были найдены и убраны всё дубликаты в предоставленом DataFrame.

Возможные причины поясления дубликатов:
   - Неправильное соединение данных из разных источников
   - Ошибки пользователя при занесении информации

Теперь, после того, как исправлены ошибки и заполены пропуски. Без дубликатов исследование станет более точным. Можно переходить к работе с табличными данными

### Лемматизация

Проанализируем столбцы (из п.2.3). Следующим шагом будет лемматизиция столбца `purpose`. Т.к. в остальных она не требуется для дальнейшего исследования

Импортируем библиотеку `pymystem3` для дальнейшей работы.

In [35]:
from pymystem3 import Mystem# Импорт библиотеки
m = Mystem()# присвоим ей переменную m

Найдем уникальные значения столбца `purpose`:

In [36]:
text = df['purpose'].unique()
text

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Склеим в одну строчку, с помощью `.join()`.

In [37]:
text_str = ','.join(text)
text_str

'покупка жилья,приобретение автомобиля,дополнительное образование,сыграть свадьбу,операции с жильем,образование,на проведение свадьбы,покупка жилья для семьи,покупка недвижимости,покупка коммерческой недвижимости,покупка жилой недвижимости,строительство собственной недвижимости,недвижимость,строительство недвижимости,на покупку подержанного автомобиля,на покупку своего автомобиля,операции с коммерческой недвижимостью,строительство жилой недвижимости,жилье,операции со своей недвижимостью,автомобили,заняться образованием,сделка с подержанным автомобилем,получение образования,автомобиль,свадьба,получение дополнительного образования,покупка своего жилья,операции с недвижимостью,получение высшего образования,свой автомобиль,сделка с автомобилем,профильное образование,высшее образование,покупка жилья для сдачи,на покупку автомобиля,ремонт жилью,заняться высшим образованием'

Пролемматизируем строку `text_str`.

In [38]:
lemmas = m.lemmatize(text_str)
lemmas

['покупка',
 ' ',
 'жилье',
 ',',
 'приобретение',
 ' ',
 'автомобиль',
 ',',
 'дополнительный',
 ' ',
 'образование',
 ',',
 'сыграть',
 ' ',
 'свадьба',
 ',',
 'операция',
 ' ',
 'с',
 ' ',
 'жилье',
 ',',
 'образование',
 ',',
 'на',
 ' ',
 'проведение',
 ' ',
 'свадьба',
 ',',
 'покупка',
 ' ',
 'жилье',
 ' ',
 'для',
 ' ',
 'семья',
 ',',
 'покупка',
 ' ',
 'недвижимость',
 ',',
 'покупка',
 ' ',
 'коммерческий',
 ' ',
 'недвижимость',
 ',',
 'покупка',
 ' ',
 'жилой',
 ' ',
 'недвижимость',
 ',',
 'строительство',
 ' ',
 'собственный',
 ' ',
 'недвижимость',
 ',',
 'недвижимость',
 ',',
 'строительство',
 ' ',
 'недвижимость',
 ',',
 'на',
 ' ',
 'покупка',
 ' ',
 'подержать',
 ' ',
 'автомобиль',
 ',',
 'на',
 ' ',
 'покупка',
 ' ',
 'свой',
 ' ',
 'автомобиль',
 ',',
 'операция',
 ' ',
 'с',
 ' ',
 'коммерческий',
 ' ',
 'недвижимость',
 ',',
 'строительство',
 ' ',
 'жилой',
 ' ',
 'недвижимость',
 ',',
 'жилье',
 ',',
 'операция',
 ' ',
 'со',
 ' ',
 'свой',
 ' ',
 'недвижимо

С помощь `Counter` посчитаем частоту появления слов. Для этого вызовем контейнер `Counter` из модуля `collections`.

In [39]:
from collections import Counter# Вызов Counter

In [40]:
Counter(lemmas)# Подсчет колличества каждого слова в lemmas

Counter({'покупка': 10,
         ' ': 59,
         'жилье': 7,
         ',': 37,
         'приобретение': 1,
         'автомобиль': 9,
         'дополнительный': 2,
         'образование': 9,
         'сыграть': 1,
         'свадьба': 3,
         'операция': 4,
         'с': 5,
         'на': 4,
         'проведение': 1,
         'для': 2,
         'семья': 1,
         'недвижимость': 10,
         'коммерческий': 2,
         'жилой': 2,
         'строительство': 3,
         'собственный': 1,
         'подержать': 2,
         'свой': 4,
         'со': 1,
         'заниматься': 2,
         'сделка': 2,
         'получение': 3,
         'высокий': 3,
         'профильный': 1,
         'сдача': 1,
         'ремонт': 1,
         '\n': 1})

После этого нужно выделим (вручную) из этого списка самые частые существительные - это будут основные категории.

   - жильё;
   - недвижимость;
   - автомобиль;
   - образование; 
   - операция;
   - свадьба.

Затем, напишем функцию для `apply`, которая будет лематизировать последовательно каждую ячейку столбца `purpose` и проверять, какая из категорий обнаруживается в лемматизированном варианте.

In [41]:
def lematize(purpose):
    if 'жил' in purpose:
        return 'жилье'
    if 'недвиж' in purpose:
        return 'недвижимость'
    if 'авто' in purpose:
        return 'автомобиль'
    if 'образ' in purpose:
        return 'образование'
    if 'опер' in purpose:
        return 'операция'
    if 'свад' in purpose:
        return 'свадьба'
df['purpose_category'] = df['purpose'].apply(lematize)

Проверим:

In [42]:
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,жилье
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,жилье
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,жилье
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,жилье
7,0,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,жилье


**Вывод**

"У людей много "масок", но все они скрывают одно". Тут точно так же - целей казалось много, но по факту их всего 6. 

Cоздан новый столбец `purpose_category` в котором написаны все цели заёмщиков

### Категоризация данных

Для получения результатов исследования, можно провести категоризацию можно четырех столбцов:
   - Детей
   - Дохода
   - Семейного положения
   - Целей кредита 
   
Но, нет обходимости категоризовать `цели кредита` и `кол-во детей`. Т.к. будем исследовать каждый вариант из этих катогорий.

Для семейного положения: 

Уточним, сколько раз встречается каждый тип:

In [43]:
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

Создадим таблицу:

In [44]:
category_marial_status = df[['family_status_id', 'family_status']]
category_marial_status = category_marial_status.drop_duplicates().reset_index(drop=True)
category_marial_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Найдем минимальный, медианный и максимальный доход, для того, чтобы разбить клиентов на 3 категории:

In [45]:
print(df['total_income'].min())
print(df['total_income'].median())
print(df['total_income'].max())

20667
145017.0
2265604


Напишем функцию:

In [46]:
def money(total_income):
    if total_income <= 50000:
        return 'низкий доход'
    if total_income <= 200000:
        return 'средний доход'
    return 'высокий доход'

df['income_category'] = df['total_income'].apply(money)

In [47]:
df.head(10)# провека таблицы с новой категорией заёмщиков

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,жилье,высокий доход
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний доход
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,жилье,средний доход
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий доход
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,средний доход
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,жилье,высокий доход
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,жилье,высокий доход
7,0,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,средний доход
8,2,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,средний доход
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,жилье,средний доход


**Вывод**

Прокатегоризированы:
   - Семейный статус и его id
   - Доходы. Создан новый столбец с тремя уровнями заработка клиентов

Теперь DataFrame полностью подготовлен в проверкам гепотез. 

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Проверим этот вопрос. Для этого:
   - Создадим таблицу, в которой будет указан % невозврата заёмщиков по колличеству детей

In [48]:
relationship_of_children = df.groupby('children').agg({'debt':['mean','count']})
# мультииндекс переменуем так:
relationship_of_children = relationship_of_children.rename(columns={'debt':'Зависимость'}, level = 0)
relationship_of_children = relationship_of_children.rename(columns={'mean':'% Невозврата', 'count':'Кол-во заёмщиков'}, level = 1)
# индекс переменуем вот так:
relationship_of_children.index = relationship_of_children.index.rename('Кол-во детей')
#сменим формат числа через style.format
relationship_of_children.style.format({('Зависимость', '% Невозврата'):'{:.2%}', ('Зависимость', 'Кол-во заёмщиков'):'{:.2f}',})

Unnamed: 0_level_0,Зависимость,Зависимость
Unnamed: 0_level_1,% Невозврата,Кол-во заёмщиков
Кол-во детей,Unnamed: 1_level_2,Unnamed: 2_level_2
0,7.54%,14091.0
1,9.17%,4855.0
2,9.49%,2128.0
3,8.18%,330.0
4,9.76%,41.0
5,0.00%,9.0


**Вывод**

- Бездетные заёмщики меньше просрачивают выплату кредита.
- Из категорий заёмщиков с детьми: с 3 детьми чуть меньше просрочек по кредиту, но их число меньше чем, остальных (соответственно % невозврата менее точен, считаю, что этим можно пренебречь).
- Заёмщики с наличием 5рых детей: тут возможно 2 варианта:
    - Им помогает госсударство с выплатами (поэтому все платят в срок)
    - Этими данными можно пренебречь, потому-что слишком малая выборка (на основании платёжеспособности 9 человек, нельзя делать полные выводы)

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Проверим этот вопрос. Для этого:
   - Создадим таблицу, в которой будет указан % невозврата заёмщиков по семейному положению

In [49]:
dependence_on_income = df.groupby(['family_status_id','family_status']).agg({'debt':['mean','count']})
dependence_on_income = dependence_on_income.rename(columns = {'debt':'Зависимость'}, level = 0)
dependence_on_income = dependence_on_income.rename(columns = {'mean':'% невозврата', 'count':'кол-во заёмщиков'}, level = 1)
dependence_on_income.index = dependence_on_income.index.rename(['id с/п', 'семейное положение'])
dependence_on_income.style.format({('Зависимость','% невозврата'):'{:.2%}', ('Зависимость', 'кол-во заёмщиков'):'{:.2f}'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Зависимость,Зависимость
Unnamed: 0_level_1,Unnamed: 1_level_1,% невозврата,кол-во заёмщиков
id с/п,семейное положение,Unnamed: 2_level_2,Unnamed: 3_level_2
0,женат / замужем,7.55%,12339.0
1,гражданский брак,9.35%,4151.0
2,вдовец / вдова,6.57%,959.0
3,в разводе,7.11%,1195.0
4,не женат / не замужем,9.75%,2810.0


**Вывод**

Проализировав данную таблицу сделаем выводы:
   - Самый высокий % невозврата кредита наблюдаем у людей не бывавших в браке.
   
Вероятнее всего это связано:
   - С Финансовой точки зрения. (Жить в браке и иметь общий доход - менее денежно-затратнее, чем по отдельности. След-но люди состоявшие/побывавшие в браке более кредито-способные)
   - психологически (у людей не бывавших в браке - меньше уровень ответственности (перед супругом / детьми).

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Проверим этот вопрос. Для этого:
   - Создадим таблицу, в которой будет указан % невозврата заёмщиков по уровню дохода

In [50]:
dependence_on_income = df.groupby('income_category').agg({'debt':['mean','count']})
dependence_on_income = dependence_on_income.rename(columns = {'debt':'Зависимость'}, level = 0)
dependence_on_income = dependence_on_income.rename(columns = {'mean':'% невозврата', 'count':'кол-во заёмщиков'}, level = 1)
dependence_on_income.index = dependence_on_income.index.rename('уровень дохода')
dependence_on_income.style.format({('Зависимость','% невозврата'):'{:.2%}', ('Зависимость', 'кол-во заёмщиков'):'{:.2f}'})

Unnamed: 0_level_0,Зависимость,Зависимость
Unnamed: 0_level_1,% невозврата,кол-во заёмщиков
уровень дохода,Unnamed: 1_level_2,Unnamed: 2_level_2
высокий доход,7.07%,5066.0
низкий доход,6.18%,372.0
средний доход,8.49%,16016.0


**Вывод**

У заёмщиков с низким уровнем дохода % невозврата меньше всех (6%), но тут как и с детьми - крайне малая выборка. Возможны такие варианты:
   - Серая заработная плата, которая не учитывается в общий доход
   - Заёмщикам с низким уровенем дохода, банк выдаст только малый кредит. Соответственно людям с наличием сторонник доходов, будет легче выплатить малый кредит. Но повторюсь, слишком малая выборка
   
Разберем подробнее оставшиеся две категории (`высокий доход` и `средний доход`). Тут получили ожидаемый результат:
   - Вероятнее всего, у людей с высоким уровнем дохода имеется 'валютная подушка' на разные случаи жизни. И соответственно, при возникновении 'чего-либо' им гораздо легче выплатить долг перед банков, нежели среднякам.

- Как разные цели кредита влияют на его возврат в срок?

Проверим этот вопрос. Для этого:
   - Создадим таблицу, в которой будет указан % невозврата заёмщиков относительно целям взятия кредита

In [51]:
dependence_purpose_credit = df.groupby('purpose_category').agg({'debt':['mean','count']})
dependence_purpose_credit = dependence_purpose_credit.rename(columns = {'debt':'Зависимость'}, level = 0)
dependence_purpose_credit = dependence_purpose_credit.rename(columns = {'mean':'% невозврата', 'count':'кол-во заёмщиков'}, level = 1)
dependence_purpose_credit.index = dependence_purpose_credit.index.rename('цель кредита')
dependence_purpose_credit.style.format({('Зависимость','% невозврата'):'{:.2%}', ('Зависимость', 'кол-во заёмщиков'):'{:.2f}'})

Unnamed: 0_level_0,Зависимость,Зависимость
Unnamed: 0_level_1,% невозврата,кол-во заёмщиков
цель кредита,Unnamed: 1_level_2,Unnamed: 2_level_2
автомобиль,9.36%,4306.0
жилье,6.98%,5690.0
недвижимость,7.52%,5121.0
образование,9.22%,4013.0
свадьба,8.00%,2324.0


**Вывод**

Наиболее надежными категориями для банка являются жилье и недвижимость (p.s. для ревьюера: я не стал их объединять, т.к. считаю, что это разные категории).

Чаще всего видим просрочку кредита на категории: автомобиль и образование. 

## Шаг 4. Общий вывод

Подведем итог:

   - Наличие детей негативно влияет на выплату кредита (чем больше детей, тем больше рисков имеет банк).
   
   - Состоявших ранее браке / находящиеся в браке заёмщики , являются более платёжеспособными по кредиту(более ответственны).
   
   - Люди с высоким уровнем дохода совершают меньше просрочек, чем со средним уровнем достатка.
  
Самые рискованные "цели" кредита это:
   - Автомобили
   - Образование
   
Самыми надежными "целями" кредита являются:
   - Жилье
   - Недвижимость