## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Оглавление 

1. [Знакомство с данными](#step_1) 


2. [Предобработка данных](#step_2)
 * [Обработка пропусков](#step_2_1)
 * [Замена типа данных](#step_2_2)
 * [Обработка дубликатов](#step_2_3)
 * [Лемматизация](#step_2_4)
 * [Категоризация данных](#step_2_5)


3. [Ответы на вопросы](#step_3)


4. [Общий вывод](#step_4)


### Шаг 1. Откройте файл с данными и изучите общую информацию. <a class="anchor" id="step_1"></a>

In [1]:
import pandas as pd
from pymystem3 import Mystem
from nltk.stem import SnowballStemmer 
from collections import Counter

bank = pd.read_csv('/datasets/data.csv')

bank.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Для удобства восприятия переименуем некоторые столбцы данных: 

- dob_years -> age
- income_type -> occupation
- total_income -> income

In [2]:
bank.rename(columns = {'dob_years': 'age', 'income_type' : 'occupation', 'total_income': 'income'}, inplace = True)
bank.head(15)

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Проверим числовые столбцы, применив метод .describe()

In [3]:
bank.describe()

Unnamed: 0,children,days_employed,age,education_id,family_status_id,debt,income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Проверим не числовые столбцы для понимания какие данные представлены в них:

In [4]:
# цикл выведения значений по не числовым столбцам таблицы

for column in bank:
    if bank[column].dtype == object:
        print(column + ' имеет тип данных str!')
        display(bank[column].value_counts())
        

education имеет тип данных str!


среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

family_status имеет тип данных str!


женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

gender имеет тип данных str!


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

occupation имеет тип данных str!


сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: occupation, dtype: int64

purpose имеет тип данных str!


свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

### Вывод <a class="anchor" id="step_1_summary"></a>

Мы имеем большой объем данных (21525 строк), среди которых имеются ошибки и опечатки. Так же присутствуют разные типы данных - категориальные (family_status и др) и количественные (age и др).
Ряд столбцов имеют числовой тип данных, другие - строковый. 

- в столбце 'children'	есть данные меньше нуля, что для количества детей явно указывает на ошибку / опечатку
- в столбце 'children' максимальное значение 20. Подозрительно большое число.
- в столбце 'days_employed' также присутствуют отрицательные показания. Необходимо проверить почему появились такие данные
- столбец 'days_employed'так же несет в себе фантастические показатели по среднему стажу - 172 года. И по максимальному стажу - 1100 лет. 
- минимальное значение в столбце 'age' равно 0 чего быть не должно
- столбец 'gender' несет в себе одно отклонение от остальных данных - значение XNA
- общее количество строк отличается в двух столбцах: 'days_employed' и 'income'

### Шаг 2. Предобработка данных<a class="anchor" id="step_2"></a>

### Обработка пропусков<a class="anchor" id="step_2_1"></a>

#### 2.1. Обработка пропусков в стаже и доходах ####

В исходной таблице мы имеем два столбца, в которых мы имеем отличной от других количество не нулевых строк. 
Следует проверить как они взаимосвязаны и взаимосвязаны ли в принципе:

In [6]:
# проверим пропуски в 'days_employed'
bank[bank['days_employed'].isna()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
children            2174 non-null int64
days_employed       0 non-null float64
age                 2174 non-null int64
education           2174 non-null object
education_id        2174 non-null int64
family_status       2174 non-null object
family_status_id    2174 non-null int64
gender              2174 non-null object
occupation          2174 non-null object
debt                2174 non-null int64
income              0 non-null float64
purpose             2174 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Получаем закономерный результат - в столбцах 'days_employed' и 'income' пропущены данные в одних и тех же строках.

In [7]:
# посчитаем количество строк "days_employed" с отрицательными значениями
len(bank[bank['days_employed'] < 0])

15906

Получаем весьма большие показатели  - 15906 строк с отрицательными показателями стажа.

In [8]:
# проверим какие данные о занятости клиента хранятся в строках, где значения 'days_employed' отрицательные
bank[bank['days_employed'] <= 0].groupby('occupation')['occupation'] \
.count().sort_values(ascending = False)

occupation
сотрудник          10014
компаньон           4577
госслужащий         1312
студент                1
предприниматель        1
в декрете              1
Name: occupation, dtype: int64

In [9]:
# проверим какие данные хранятся о занятости в строках, где значения 'days_employed' больше 0
bank[bank['days_employed'] >= 0].groupby('occupation')['occupation'] \
.count().sort_values(ascending = False)

occupation
пенсионер      3443
безработный       2
Name: occupation, dtype: int64

In [10]:
# проверим какие данные о занятости хранятся в строках, где значения 'days_employed' отсутствуют
bank[bank['days_employed'].isna()].groupby('occupation')['occupation'] \
.count().sort_values(ascending = False)

occupation
сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: occupation, dtype: int64

Складывается ощущение, что для людей без работы (пенсионеры и безработные из столбца 'occupation') могло существовать свое правило внесения данных стажа. Поэтому подавляющее большинство пенсионеров и все базработные имеют стаж с положительным значением. В то же время доля пенсионеров порядка 10% имеет незаполненное поле стаж. 

Так как у нас есть явное разделение на отрицательные и положительные значения по опредленным категориям занятости - можем избавиться от знаков "минус".

In [11]:
bank['days_employed'] = bank['days_employed'].abs()

In [12]:
bank.describe()

Unnamed: 0,children,days_employed,age,education_id,family_status_id,debt,income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,66914.728907,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,139030.880527,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,24.141633,0.0,0.0,0.0,0.0,20667.26
25%,0.0,927.009265,33.0,1.0,0.0,0.0,103053.2
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,145017.9
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Посмотрим медианные значения по каждой категории занятости 

In [13]:
occupation_median_days = bank.groupby('occupation')['days_employed'] \
.median().sort_values(ascending = False)
occupation_median_days

occupation
безработный        366413.652744
пенсионер          365213.306266
в декрете            3296.759962
госслужащий          2689.368353
сотрудник            1574.202821
компаньон            1547.382223
студент               578.751554
предприниматель       520.848083
Name: days_employed, dtype: float64

Безработные и пенсионеры имеют слишком большие показатели стажа. Даже для пенсионеров 1000 лет - перебор.

При максимальном возрасте 75 лет - получается, что максимальный стаж не будет более 59 лет (работать можно с 16 лет). То есть в днях это будет 21535 дней. 
Посмотрим данные свыше этих показателей. 

In [14]:
bank[bank['days_employed'] > 21535].groupby('occupation')['days_employed'].count()

occupation
безработный       2
пенсионер      3443
Name: days_employed, dtype: int64

Получается, что 3443 пенсионера и 2 безработных имели стаж более возможного.

In [15]:
# посмотрим в каких ктегориях занятости стаж менее обозначенного 

bank[bank['days_employed'] < 21535].groupby('occupation')['days_employed'].count()

occupation
в декрете              1
госслужащий         1312
компаньон           4577
предприниматель        1
сотрудник          10014
студент                1
Name: days_employed, dtype: int64

Из чего делаем вывод, что аномалию привносит группа пенсионеров и безработных. Скорее всего - из стаж был внесен не в днях, а в часах. 

In [16]:
# поменяем часы на дни в ячейках, где значение больше заданного
bank['days_employed'] = bank['days_employed'].transform(lambda x: x/24 if x > 21535 else x) 


In [17]:
# проверим наличие больших значений 
bank[bank['days_employed'] > 21535].groupby('occupation')['days_employed'].count()

Series([], Name: days_employed, dtype: int64)

In [18]:
# снова проверим медаины по категориям 
bank[bank['days_employed'] < 17885].groupby('occupation')['days_employed'].median()

occupation
безработный        15267.235531
в декрете           3296.759962
госслужащий         2689.368353
компаньон           1547.382223
пенсионер          15217.221094
предприниматель      520.848083
сотрудник           1573.976433
студент              578.751554
Name: days_employed, dtype: float64

Заполним пропуски произведением медианного коэффициента по категориям занятости, умноженного на возраст в днях

In [19]:
bank['days_employed'] = bank.groupby('occupation')['days_employed'] \
.transform(lambda x: x.fillna(x.median()*bank['age']*365))
bank.head()

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Просмотрим медаинные данные столбца 'income' по категориям занятости

In [20]:
bank[bank['income'] >= 0].groupby('occupation')['income'].median()

occupation
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: income, dtype: float64

Никаких особых отклонений в данных не замечено.

Заполним пропуски медианными значениями по категориям занятости:

In [21]:
bank['income'] = bank.groupby('occupation')['income'].transform(lambda x: x.fillna(x.median()))
bank.head()

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Проверяем таблицу

In [22]:
bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
occupation          21525 non-null object
debt                21525 non-null int64
income              21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропуски устранены в 'days_employed' и 'income' заполнены. 

#### 2.2. Устранение странных данных в других столбцах ####

#### 2.2.1. В столбце 'children' унас были отрицательные значения (-1) и подозрительно большие (20 детей). Разберемся с этим. 

In [23]:
# посмотрим количество отрицательных данных
bank[bank['children'] == -1].groupby('age')['children'].value_counts().sum()

47

Получаем совсем небольшое число в масштабах наших данных.

In [24]:
# просто заменим отрицательные данные на 0
bank['children'] = bank['children'].replace(-1, 0)

# проверим данные
bank['children'].describe()

count    21525.000000
mean         0.541092
std          1.379943
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Проверим количество строк с максимальным значением 20

In [25]:
bank[bank['children'] == 20].groupby('age')['children'].value_counts().sum()

76

Похоже, что кто-то или опечатался, или произошел сбой. Заменим значение 20 на 2. Это будет соответствовать реальности и не будет излишне влиять на средние значения и медиану.

In [26]:
bank['children'] = bank['children'].replace(20, 2)

bank['children'].value_counts()

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

#### 2.2.2. Перейдем к следующему столбцу со странностями - 'age'. Здесь у нас есть возраст равный 0.  

Рассмотрим детально с группировкой по категории занятости. Заодно проверим нет ли среди данных возраста менее 18 лет.

In [27]:
bank[bank['age'] <= 18].groupby('occupation')['age'] \
.value_counts().sort_values(ascending = False)

occupation   age
сотрудник    0      55
пенсионер    0      20
компаньон    0      20
госслужащий  0       6
Name: age, dtype: int64

Получается, что здесь явно ошибка в данных и просто проставлены 0 в 101 строке. 

Заменим данные в этих строках на медианные значения возраста, так как медиана дает меньшие отклонения. 

In [28]:
bank['age'] = bank.groupby('occupation')['age'].transform(lambda x: x.replace(0, int(x.median())))
bank['age'].describe()

count    21525.000000
mean        43.496167
std         12.231538
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: age, dtype: float64

#### 2.2.3. Приведем к единому виду 'education'

In [29]:
# приведем все уровни образования к единому виду
bank['education'] = bank['education'].str.lower()

# проверим данные
bank['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

#### 2.2.4. Приведем в порядок столбец 'family_status'

In [30]:
# применим то же преобразование, что и пунктом выше
bank['family_status'] = bank['family_status'].str.lower()

# проверим
bank['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [31]:
# проверим наличие пропусков в датафрейме
bank.isna().sum()

children            0
days_employed       0
age                 0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
occupation          0
debt                0
income              0
purpose             0
dtype: int64

#### 2.2.5. Приведем в порядок столбец 'gender'

В данном столбце у нас было одно значение XNA. Просто заменим его на значение F. 

In [32]:
bank['gender'] = bank['gender'].replace('XNA', 'F')
bank['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

### Вывод

Мы устранили все пропуски в таблице и можем переходить к следующим задачам.

### Замена типа данных<a class="anchor" id="step_2_2"></a>

Еще раз просмотрим данные таблицы

In [33]:
bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
occupation          21525 non-null object
debt                21525 non-null int64
income              21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В целом нам не нужна дробная часть ни в 'days_employed', ни в 'income' - cожем заменить тип данных на int64 методом .astype()

Так же - переведем в логические переменные столбец 'debt'.

In [34]:
bank['days_employed'] = bank['days_employed'].astype('int')

bank['income'] = bank['income'].astype('int')

bank['debt'] = bank['debt'].astype('bool')

bank.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
occupation          21525 non-null object
debt                21525 non-null bool
income              21525 non-null int64
purpose             21525 non-null object
dtypes: bool(1), int64(6), object(5)
memory usage: 1.8+ MB


### Вывод

Всего два столбца требовали внимания при замене типа данных. В остальном все хорошо. 

### Обработка дубликатов <a class="anchor" id="step_2_2"></a>

Посчитаем количество дубликатов в датафрейме

In [35]:
bank

71

In [36]:
bank[bank.duplicated(keep = False)].sort_values(by = ['age', 'income'])

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose
8853,1,13215432,23,среднее,1,гражданский брак,1,F,сотрудник,False,142594,сыграть свадьбу
15892,0,13215432,23,среднее,1,не женат / не замужем,4,F,сотрудник,False,142594,сделка с подержанным автомобилем
19321,0,13215432,23,среднее,1,не женат / не замужем,4,F,сотрудник,False,142594,сделка с подержанным автомобилем
20297,1,13215432,23,среднее,1,гражданский брак,1,F,сотрудник,False,142594,сыграть свадьбу
3452,0,16662936,29,высшее,0,женат / замужем,0,M,сотрудник,False,142594,покупка жилой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
5865,0,366582856,66,среднее,1,вдовец / вдова,2,F,пенсионер,False,118514,операции со своей недвижимостью
9528,0,366582856,66,среднее,1,вдовец / вдова,2,F,пенсионер,False,118514,операции со своей недвижимостью
6537,0,394354284,71,среднее,1,гражданский брак,1,F,пенсионер,False,118514,на проведение свадьбы
7938,0,394354284,71,среднее,1,гражданский брак,1,F,пенсионер,False,118514,на проведение свадьбы


Имеем всего 137 строк с дубликатами и в рамках всего датафрейма эта погрешность незначительная. можем просто сбросить. 

In [37]:
# сбрасываем дубликаты 
bank = bank.drop_duplicates()

# убеждаемся, что дубликатов не осталось 
bank.duplicated().sum()

0

### Вывод

В огромной таблице после всех преобразований был всего 71 дубликат. Что говорит о неплохом качестве данных. 

### Лемматизация <a class="anchor" id="step_2_4"></a>

Приступим к лемматизации данных в 'purpose'. 

In [38]:
m = Mystem()

# создаем новый столбец с леммами 
bank['purpose_lemmas'] = bank['purpose'].apply(m.lemmatize) 

# выводим список всех лемм 
bank['purpose_lemmas'].value_counts()

[автомобиль, \n]                                          972
[свадьба, \n]                                             791
[на,  , проведение,  , свадьба, \n]                       768
[сыграть,  , свадьба, \n]                                 765
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           661
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 651
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строительство,  , собственный,  , недвижимость, \n]      635
[недвижимость, \n]                                        633
[операция,  , со,  , свой,  , недвижимость, \n]           627
[строительство,  , жилой,  , недвижимость, \n]            624
[покупка

In [39]:
# объявим функцию для введения новых категорий целей кредита на оснвое полученных лемм 
words = bank['purpose_lemmas']
def purpose_category_func(words):
    if "свадьба" in words:
        return 'свадьба'
    if "автомобиль" in words:
        return 'автомобиль'
    if "образование" in words:
        return 'образование'
    if "недвижимость" or 'жилье' in words:
        return 'недвижимость'
    if "ремонт" in words:
        return 'ремонт'

# добавим в датафрейм новый столбец с категориями 
bank['purpose_category'] = bank['purpose_lemmas'].apply(purpose_category_func)

# проверим таблицу 
bank.head(10)

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose,purpose_lemmas,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,False,255763,покупка жилья,"[покупка, , жилье, \n]",недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,False,240525,операции с жильем,"[операция, , с, , жилье, \n]",недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,False,135823,образование,"[образование, \n]",образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,False,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,False,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",недвижимость


### Вывод

Методом лемматизации и последующим присвоением соответстующим строкам новых коротких целей кредита мы упростили дальнейшие манипуляции с данными. Так же мы получили полноценные категории. 

### Категоризация данных<a class="anchor" id="step_2_5"></a>

Выведем категории для уровня дохода

In [40]:
# объявим функцию для разбияния дохода на уровни: 0-50, 50-150, 150-300, 300+ (в тысячах)

def income_category_func(digits):
    if digits == 0:
        return '0'
    elif digits <= 20000:
        return '0-20'
    elif 20000 < digits <= 50000:
        return '20-50'
    elif 50000 < digits <= 150000:
        return '50-150'
    elif 150000 < digits <= 300000:
        return '150-300'
    else:
        return '300+'
    
bank['income_category'] = bank['income'].apply(income_category_func)    

bank.head()

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,occupation,debt,income,purpose,purpose_lemmas,purpose_category,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость,150-300
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,50-150
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость,50-150
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,150-300
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,150-300


### Вывод

### Шаг 3. Ответьте на вопросы <a class="anchor" id="step_3"></a>

#### - Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [41]:
# сохраним массив данных, соответствующий наличию детей 
with_kids = bank[bank.children != 0]

# посчитаем соотношение 
with_kids_ratio = with_kids.debt.sum() / len(with_kids)

# выведем рзультат в процентах 
format(with_kids_ratio, '.2%')

'9.25%'

In [42]:
# сохраним массив данных, соответствующий условию - отсутствие детей 
without_kids = bank[bank.children == 0]

# посчитаем соотношение 
without_kids_ratio = without_kids.debt.sum() / len(without_kids)

# выведем рзультат в процентах 
format(without_kids_ratio, '.2%')

'7.53%'


### Вывод

Вероятность того, что люди без детей не вернут кредит (7.53%) ниже, чем для людей с детьми (9.25%). 

#### - Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [43]:
# создадим сводную таблицу должников по категории семейного положения 
bank_family_status = bank.pivot_table(index = 'family_status', columns = 'debt', values = 'family_status_id', aggfunc = 'count')

# посчитаем соотношение 
bank_family_status['ratio %'] = (bank_family_status[1] / bank_family_status[0])*100

bank_family_status

debt,False,True,ratio %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,7.657658
вдовец / вдова,896,63,7.03125
гражданский брак,3763,388,10.310922
женат / замужем,11408,931,8.16094
не женат / не замужем,2536,274,10.804416


### Вывод

С большей вероятность кредит не вернут люди не состояющие в официальных отношениях (не женат / не замужем) - 10.80%
Так же в зоне риска люди состоящие в не официальных отношениях (гражданский брак) - 10.31%

При этом люди сотсоящие или сотоявшие в официальном браке более ответственны: 
- люди из категории "женат / замужем" не вернули кредит в 8.16% случаев
- люди из категории "в разводе" не вернули кредит в 7.66% случаев
- люди из категории "вдовец / вдова" не вернули кредит в 7.03% случаев

#### - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [44]:
# создадим сводную таблицу должников по категориям дохода 
bank_income = bank.pivot_table(index = 'income_category', columns = 'debt', values = 'income', aggfunc = 'count')

# посчитаем соотношение 
bank_income['ratio %'] = (bank_income[1] / bank_income[0])*100

bank_income

debt,False,True,ratio %
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
150-300,7691,657,8.542452
20-50,349,23,6.590258
300+,1377,106,7.697894
50-150,10296,955,9.275447


### Вывод

Как бы странно это ни звучало, но - чем ниже доход, тем меньше вероятность просрочек и долгов по кредитным продуктам. Всего 6.59%. 
Так же вреоятность долгов низкая в категории больших доходов (свыше 300 тысяч) - 7.7%
В категориях 50-150 и 150-300 самая высокая вероятность долгов - 9.19% и 8.72% соответственно.

#### - Как разные цели кредита влияют на его возврат в срок?

In [45]:
# создадим сводную таблицу должников по категориям целей кредита
bank_purpose = bank.pivot_table(index = 'purpose_category', columns = 'debt', values = 'income', aggfunc = 'count')

# посчитаем соотношение 
bank_purpose['ratio %'] = (bank_purpose[1] / bank_purpose[0])*100

bank_purpose

debt,False,True,ratio %
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,10.325391
недвижимость,10029,782,7.797388
образование,3643,370,10.156464
свадьба,2138,186,8.699719


### Вывод

Кредиты на недвижимость самые надежные. Долги по ним могут возникнуть в 7.8%
Долги по свадебным кредитам возникают у 8.7%
И самые рисковые - авто и образование. Кредиты на эти цели не вернули 10.33% и 10.16% соответственно. 

### Шаг 4. Общий вывод <a class="anchor" id="step_4"></a>

На входе мы получили большой массив данных с некоторым количеством ошибок: пропусками, дубликатами, некорреткными данными и тд.

Для того, чтобы можно было корректо работать с данным массивом необходимо было избавиться: 
- от пропусков в столбцах 'days_employed' и 'income' 
- странными данными в столбцах 'age', 'gender', 'children' 
- неоднородными данными в столбцах 'education' и 'purpose'

Кроме того, были обнаружены серьезные отклонения в данных столбца 'days_employed', где стаж достигал показаний в 1000 лет.

Была произведена работа по категоризации целей кредита, что помогло сделать следйющий выводы:

- люди с доходами до 50 тысяч (ниже среднего), либо с доходами 300+ тысяч, состоящие или состоявшие в официальном браке и берущие кредит на недвижимость -  вполне платежеспособны и риски при работе с ними минимальны.

- самая рискованная же группа имеет следующие параметры: средний доход (от 50 до 300 тысяч), не состоящие в официальном браке и при этом целью кредита являтся или авто, или образование. 
