## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.


### Содержание
### [1. Файл с данными и общая информация](#section_id1)
### [2. Предобработка данных](#section_id2)
### [3. Дополнительная информация](#section_id3)
### [4. Общий вывод](#section_id4)


<a id='section_id1'></a>

## 1. Файл с данными и общая информация. 

Наш заказчик - кредитный отдел банка. Заказчиком были поставлены 4 задачи: как зависит кол-во детей, семейное положение, уровень дохода и цели кредита на факт погашения кредита в срок. Заказчик представил нам исходную таблицу данных о платежеспособности клиентов.

В данной таблице имеются следующие данные:
children - кол-во детей в семье;<br>
days_employed - общий трудовой стаж в днях;<br>
dob_years - возраст клиентов в годах;<br>
education - уровень образования клиента;<br>
education_id - идентификатор уровня образования;<br>
family_status - семейное положение;<br>
family_status_id - идентификатор семейного положения;<br>
gender - пол клиента;<br>
income_type - тип занятости;<br>
debt - имел ли задолженность по возврату кредитов;<br>
total_income - ежемесячный доход;<br>
purpose - цель получения кредита.<br>


In [1]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

1.days_employed носят отрицательное значение и тип вещественный (т.к. данный столбец нам будет не нужен, мы просто его опустим)
2.dob_years имеет нулевые значения (произведем сравнение с аналогичными людьми по типу занятости и с помощью медианы определим возраст)
3.total_income имеет пропуски

<a id='section_id2'></a>

## 2. Предобработка данных

### Обработка пропусков

In [3]:
#определим в каких столбцах имеются пропуска
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим, что пропуски имеются в 2 столбцах: days_employed и total_income. days_employed уберем все минусы и заполним пустые данные медианой

In [4]:
df['days_employed'] = df['days_employed'].abs()

In [5]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [6]:
df['days_employed'] = df['days_employed'].fillna(0)

In [7]:
df.isnull().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Мы избавились от пропусков заменив на ноль. Теперь по медиане посчитаем стаж работы

In [8]:
df[df['days_employed'] == 0].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,0.0,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,0.0,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,0.0,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,0.0,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,0.0,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,0.0,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,0.0,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,0.0,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,0.0,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,0.0,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [9]:
df.loc[df['days_employed'] == 0, 'days_employed'] = df['days_employed'].median()

In [10]:
df.loc[12:26]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,1808.053434,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
13,0,1846.641941,54,неоконченное высшее,2,женат / замужем,0,F,сотрудник,0,130458.228857,приобретение автомобиля
14,0,1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127.911772,покупка жилой недвижимости
15,1,972.364419,26,среднее,1,женат / замужем,0,F,сотрудник,0,116820.90445,строительство собственной недвижимости
16,0,1719.934226,35,среднее,1,женат / замужем,0,F,сотрудник,0,289202.704229,недвижимость
17,0,2369.99972,33,высшее,0,гражданский брак,1,M,сотрудник,0,90410.586745,строительство недвижимости
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
19,0,10038.818549,48,СРЕДНЕЕ,1,в разводе,3,F,сотрудник,0,242831.107982,на покупку своего автомобиля
20,1,1311.604166,36,среднее,1,женат / замужем,0,M,сотрудник,0,209552.644578,недвижимость
21,1,253.685166,33,среднее,1,гражданский брак,1,F,сотрудник,0,131812.203909,приобретение автомобиля


Итак, в столбце days_employed мы избавились от пропусков заменив их медианой (значение 1808). Также можно перевести данный столбец в целочисленный тип, но сделаем это чуть ниже)

In [11]:
#проверим на корректность столбец с детьми
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

76 людей по 20 детей (заменим на 2), и 47 по -1 (заменим на 1)

In [12]:
df.loc[df['children'] == 20, 'children'] = 2
df.loc[df['children'] == -1, 'children'] = 1
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [13]:
#проверим на корректность возраст людей (необходимо чтобы им было не менее 18 лет)
sort_dob_years = df.groupby('dob_years') #группируем по возрасту
sort_dob_years['dob_years'].count().head() #выводим на печать кол-во людей по возрасту

dob_years
0     101
19     14
20     51
21    111
22    183
Name: dob_years, dtype: int64

Видим что у 100 человек возраст не определен

In [14]:
df[df['dob_years'] == 0]['income_type'].value_counts()#определяем к какому типу занятости относятся люди с "нулевым" возрастом

сотрудник      55
компаньон      20
пенсионер      20
госслужащий     6
Name: income_type, dtype: int64

Найдем возраст 100 человек по медиане остальных людей с данным типом занятости

In [15]:
#людям с нулевым возрастом присваивается значение по медиане по соответсвующим типам занятостям
df.loc[(df['dob_years']==0)&(df['income_type']=='сотрудник'), 'dob_years'] = df[df['income_type']=='сотрудник']['dob_years'].median()
df.loc[(df['dob_years']==0)&(df['income_type']=='компаньон'), 'dob_years'] = df[df['income_type']=='компаньон']['dob_years'].median()
df.loc[(df['dob_years']==0)&(df['income_type']=='пенсионер'), 'dob_years'] = df[df['income_type']=='пенсионер']['dob_years'].median()
df.loc[(df['dob_years']==0)&(df['income_type']=='госслужащий'), 'dob_years'] = df[df['income_type']=='госслужащий']['dob_years'].median()

In [16]:
sort_dob_years = df.groupby('dob_years') #группируем по возрасту
sort_dob_years['dob_years'].count().head() #выводим на печать кол-во людей по возрасту

dob_years
19.0     14
20.0     51
21.0    111
22.0    183
23.0    254
Name: dob_years, dtype: int64

Также мы видим столбец dob_years преобразовался в тип float64, необходимо будет преобразовать обратно в int64

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null float64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


In [18]:
df['education'].value_counts()#проверяем на корректность образование

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Приведем все названия к нижнему регистру

In [19]:
df['education'] = df['education'].str.lower() # переводим в нижний регистр

In [20]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [21]:
df['family_status'].value_counts()#проверим на корректность семейное положение

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [22]:
df['family_status'] = df['family_status'].str.lower() # переводим в нижний регистр семейное положение

In [23]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [24]:
df['income_type'].value_counts()#проверим на корректность должности

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

Со строкой income_type все вроде бы хорошо

In [25]:
df.isnull().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Имеем 2174 пропусков в столбце total_income (заменим их сначала на нули, а потом посчитаем их значения по медиане)

In [26]:
df['total_income'] = df['total_income'].fillna(0)

In [27]:
df[df['total_income'] == 0]['income_type'].value_counts()#выводим должности тех у кого в стобце равно 0

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [28]:
df[df['total_income'] == 0]['education'].value_counts()#выводим образование тех у кого в столбце равно 0

среднее                1540
высшее                  544
неоконченное высшее      69
начальное                21
Name: education, dtype: int64

In [29]:
df.loc[df.loc[:,'total_income']==0].head(15)# для проверки

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,1808.053434,65.0,среднее,1,гражданский брак,1,M,пенсионер,0,0.0,сыграть свадьбу
26,0,1808.053434,41.0,среднее,1,женат / замужем,0,M,госслужащий,0,0.0,образование
29,0,1808.053434,63.0,среднее,1,не женат / не замужем,4,F,пенсионер,0,0.0,строительство жилой недвижимости
41,0,1808.053434,50.0,среднее,1,женат / замужем,0,F,госслужащий,0,0.0,сделка с подержанным автомобилем
55,0,1808.053434,54.0,среднее,1,гражданский брак,1,F,пенсионер,1,0.0,сыграть свадьбу
65,0,1808.053434,21.0,среднее,1,не женат / не замужем,4,M,компаньон,0,0.0,операции с коммерческой недвижимостью
67,0,1808.053434,52.0,высшее,0,женат / замужем,0,F,пенсионер,0,0.0,покупка жилья для семьи
72,1,1808.053434,32.0,высшее,0,женат / замужем,0,M,госслужащий,0,0.0,операции с коммерческой недвижимостью
82,2,1808.053434,50.0,высшее,0,женат / замужем,0,F,сотрудник,0,0.0,жилье
83,0,1808.053434,52.0,среднее,1,женат / замужем,0,M,сотрудник,0,0.0,жилье


In [30]:
income_type = ['сотрудник', 'компаньон', 'пенсионер', 'госслужащий', 'предприниматель'] #создадим 1-ый массив с должностями

In [31]:
education = ['среднее', 'высшее', 'неоконченное высшее', 'начальное'] #создадим 2-ой массив с образованием

In [32]:
for row in income_type:
    for row_1 in education:
        df.loc[(df['total_income'] == 0) & (df['income_type'] == row) & (df['education'] == row_1), 'total_income'] = df[df['income_type'] == row]['total_income'].median()

In [33]:
df[df['total_income'] == 0].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null float64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Как видим, людей с нулевой зп больше нет

### Вывод

1. Нами были определены столбцы с пропусками (days_employed и total_income). days_employed был удален ввиду отсутствия необходимости
2. Были исправлены ошибки в столбце children
3. В столбце dob_years обнаружены 101 человек с нулевым возрастом. Спрогнозированы возрасты по медиане по аналогичным должностям и уровню образования
4. В столбцах education и family_status приведены к нижнему регистру
5. В столбце total_income исправлены пропуска:
   5.1 Все NaN заменены на ноль
   5.2 Нулевые значения спрогнозирваны по медиане по аналогичным должностям и уровню образования
6. Возможные причины в пропусках следующие: по возрасту видимо просто забыли вбить данные (полностью случайные) ибо все люди имеют возраст, столбец по зп случайные или неслучайные т.к. человек мог просто забыть принести справку 2НДФЛ или не хочет афишировать свою зп(тогда правда ему не одобрят кредит на его хотелки)

### Замена типа данных

Необходимо столбцы dob_years и total_income привести к целочисленному типу (возраст в годах все таки целочисленный, а в зп "копейки" роли не играют)

In [35]:
df['dob_years'] = df['dob_years'].astype('int64')

In [36]:
df['total_income'] = df['total_income'].astype('int64')

In [37]:
df['days_employed'] = df['days_employed'].astype('int64')

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Как видим столбцы имеют целочисленный тип

### Обработка дубликатов

In [39]:
df.duplicated().sum()#определим кол-во дубликатов

71

In [40]:
df = df.drop_duplicates().reset_index(drop=True)#удалим дубликаты

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [42]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21450,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21451,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21452,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


Дубликаты удалены

### Вывод

В данной главе мы удалили все дубликата. Использовался метод поиска дубликата сходства по всем столбцам (если две или более строк совпадают, то они удаляются).
Возможная причина дубликатов: повторное представление клиента, неправильное соединение данных из разных источников, ошибки пользователей при занесении информации (например образование написано разным регистром, семейное положение).

### Лемматизация

In [43]:
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Итак, мы видим, что ключевые слова тут: свадьба, недвижимость, жилье, автомобиль, образование

In [44]:
from pymystem3 import Mystem
from collections import Counter#подключаем библиотеку лемматизации

In [45]:
m = Mystem()

In [46]:
def lemma_word(row):
    lemmas = m.lemmatize(row)
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'недвижимость' in lemmas:
        return 'недвижимость'
    if 'жилье' in lemmas:
        return 'жилье'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'

In [47]:
df['purpose_category'] = df['purpose'].apply(lemma_word)

In [48]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба


### Вывод

Мы создали новый столбец, на основе которой можно провести категоризацию
Процессе лемматизации следующий:в функцию мы подаем столбец с целью кредита, там проходит процесс перевода слов в исходное состояние слов (существительное в именительный падеж ед. числа муж. рода, глагол в неопр форму и т.д), после чего происходила "склейка" слов и происходило сравнение с одним из ключевым словом и записывалось это все в новый столбец

### Категоризация данных

In [49]:
df.groupby('purpose_category')['debt'].sum()

purpose_category
автомобиль      403
жилье           308
недвижимость    474
образование     370
свадьба         186
Name: debt, dtype: int64

In [50]:
rows = df['total_income'].quantile([.25, .5, .75])#разделим людей на 4 категории в зависимости от суммы денег

In [51]:
rows

0.25    107623.00
0.50    140215.50
0.75    195820.25
Name: total_income, dtype: float64

Необходимо создать еще один столбец для категоризации по деньгам (Условно разделим на: низкий доход, средний доход, выше среднего доход и высокий доход)

In [52]:
def money_split_func(row):
    if row < 107623.0:
        return 'низкий доход'
    elif 107623.0 <= row < 140209.5:
        return 'средний доход'
    elif 140209.5 <= row < 195813.25:
        return 'доход выше среднего'
    else:
        return 'высокий доход'          

In [53]:
df['income_category'] = df['total_income'].apply(money_split_func)

In [54]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,жилье,высокий доход
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,средний доход
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,жилье,доход выше среднего
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,высокий доход
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,доход выше среднего
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,жилье,высокий доход
21450,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,автомобиль,доход выше среднего
21451,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость,низкий доход
21452,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,автомобиль,высокий доход


### Вывод

В данном пункет мы создали категории по целям на кредит (после лемматизации) и уровню дохода. Разбивка на категории по данным категориям помогут нам ответить на вопросы.

<a id='section_id3'></a>

## 3. Дополнительная информация

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Для ответа на данный вопрос, необходимо определить общее кол-во людей по категориям кол-ва детей, общее кол-во долгов. После данных операций разделим одно на другое

In [55]:
data_pivot = df.pivot_table(index='children', columns='debt', values='education_id', aggfunc='count')

In [56]:
data_pivot.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 0 to 5
Data columns (total 2 columns):
0    6 non-null float64
1    5 non-null float64
dtypes: float64(2)
memory usage: 144.0 bytes


In [57]:
data_pivot

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


Переведем в целочисленный тип столбцы и избавимся от пустой строки 

In [58]:
data_pivot[1] = data_pivot[1].fillna(0)

In [59]:
data_pivot

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,0.0


In [60]:
data_pivot[0] = data_pivot[0].astype('int') # переведем все к целочисленному типу

In [61]:
data_pivot[1] = data_pivot[1].astype('int') #аналогично

In [62]:
data_pivot

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028,1063
1,4410,445
2,1926,202
3,303,27
4,37,4
5,9,0


In [63]:
#напишем функцию для нахождения совокупного кредита по разным категориям
def data_pivot_total(data):
    total = data[0] + data[1]
    return total

In [64]:
#напишем функцию для нахождения отношения долгов к общему кол-ву кредитов
def data_pivot_rate(data):
    rate = (data[1] / data['total']) * 100
    return rate

In [65]:
data_pivot['total'] = data_pivot_total(data_pivot)

In [66]:
data_pivot['rate'] = data_pivot_rate(data_pivot)

In [67]:
data_pivot.sort_values(by='rate', ascending=False)#отсортируем в порядке убывания

debt,0,1,total,rate
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,37,4,41,9.756098
2,1926,202,2128,9.492481
1,4410,445,4855,9.165808
3,303,27,330,8.181818
0,13028,1063,14091,7.543822
5,9,0,9,0.0


In [68]:
data_pivot.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 0 to 5
Data columns (total 4 columns):
0        6 non-null int64
1        6 non-null int64
total    6 non-null int64
rate     6 non-null float64
dtypes: float64(1), int64(3)
memory usage: 240.0 bytes


### Вывод

Чем больше детей, тем выше процент должников (люди с 3 детьми тут видимо аномалия, а те у кого 5 детей их всего 9 человек т.е. недостаточно данных)

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [69]:
data_pivot = df.pivot_table(index=['family_status'], columns='debt', values='education_id', aggfunc='count')

In [70]:
data_pivot

debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
в разводе,1110,85
вдовец / вдова,896,63
гражданский брак,3763,388
женат / замужем,11408,931
не женат / не замужем,2536,274


In [71]:
data_pivot['total'] = data_pivot_total(data_pivot) #найдем общее кол-во людей в зависимости от семейного положения

In [72]:
data_pivot['rate'] = data_pivot_rate(data_pivot) #найдем долю должников от общего кол-ва в зависимости от семейного положения

In [73]:
data_pivot.sort_values(by='rate', ascending=False)#отсортируем в порядке убывания

debt,0,1,total,rate
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
не женат / не замужем,2536,274,2810,9.75089
гражданский брак,3763,388,4151,9.347145
женат / замужем,11408,931,12339,7.545182
в разводе,1110,85,1195,7.112971
вдовец / вдова,896,63,959,6.569343


### Вывод

Судя по статистике неженатые и незамужние (видимо это самые молодые люди) имеют самую большую долю долгов банку в отличие от других. Больше всех кредитов берут женатые и замужние (совокупный бюджет у них выше и высока вероятность отдать все в срок) и у них один из самых низких долей долгов. Вдовец и вдовы берут меньше всех кредитов и доля у них самая низкая

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [74]:
data_pivot = df.pivot_table(index='income_category', columns='debt', values='education_id', aggfunc='count')

In [75]:
data_pivot

debt,0,1
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
высокий доход,4982,383
доход выше среднего,4893,470
низкий доход,4937,427
средний доход,4901,461


In [76]:
data_pivot['total'] = data_pivot_total(data_pivot) #найдем общее кол-во людей в зависимости от дохода

In [77]:
data_pivot['rate'] = data_pivot_rate(data_pivot) #найдем долю должников от общего кол-ва в зависимости от дохода

In [78]:
data_pivot.sort_values(by='rate', ascending=False)

debt,0,1,total,rate
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
доход выше среднего,4893,470,5363,8.763752
средний доход,4901,461,5362,8.597538
низкий доход,4937,427,5364,7.960477
высокий доход,4982,383,5365,7.138863


### Вывод

Чем выше доход, тем ниже доля вероятности долга перед банком. Как мы видим, в среднем люди с разными доходами берут одинковое кол-во кредитов. Очевидно, что люди с высоким доходом имеют меньше всех задолжностей, т.к имеют возможность отдать кредит в срок. Люди с доходом выше среднего имеют самый большой долг перед банком (мб не оценивают свои возможности и берут больше всех кредитов или имеют больше всех людей). Средний доход тоже ушел недалеко от дохода выше среднего. Люди с низким доходом видимо имеют не больше одного кредита, т.к. оценивают свои возможности.

- Как разные цели кредита влияют на его возврат в срок?

In [79]:
data_pivot = df.pivot_table(index=['purpose_category'], columns='debt', values='education_id', aggfunc='count')

In [80]:
data_pivot

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,3903,403
жилье,4152,308
недвижимость,5877,474
образование,3643,370
свадьба,2138,186


In [81]:
data_pivot['total'] = data_pivot_total(data_pivot) #найдем общее кол-во людей в зависимости от цели кредита

In [82]:
data_pivot['rate'] = data_pivot_rate(data_pivot) #найдем долю должников от общего кол-ва в зависимости от цели кредита

In [83]:
data_pivot.sort_values(by='rate', ascending=False)

debt,0,1,total,rate
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,3903,403,4306,9.359034
образование,3643,370,4013,9.220035
свадьба,2138,186,2324,8.003442
недвижимость,5877,474,6351,7.463392
жилье,4152,308,4460,6.90583


### Вывод

Итак, из существующего списка больше всего в процентном соотношении люди, которые берут кредит на автомобиль, меньше всего кто берет жилье

<a id='section_id4'></a>

## 4. Общий вывод

В ходе изучения таблицы данных клиентов, были выявлены следующие проблемы:
1. Не у всех стаж работы соответствует их возрасту (у одного вообще было 900 лет), но данный столбец для вывода результатов нам не пригодился и поэтому мы просто убрали пропуска.
2. 76 человек имели по 20 детей и 47 по -1 ребенку (20 детей видимо опечатка ибо ни у кого нет 7,8,9 и т.д детей и мы заменили их на 2 ребенка; -1 меня смутило (мб дело в кодировке, потому что поставить "-" перед значением случайно не получится, но все же я заменил на 1, хотя можно было и занулить тем более, что разница в долях погашения кредитов между людьми с 1 ребенком и без детей существенна (9,16 % против 7,54 % соответственно), можно проверить данную гипотезу тоже (9,23 % против 7,52 % если заменить везде -1 на 0 существенно ничего не изменилось).
3. Были обнаружены все дубликаты и удалены, которые могли возникнуть как по вине сотрудника банка при вводе данных клиента, так и самого клиента.
4. Цели кредита у клиентов расписаны у всех по разному, то не дает нормально категоризировать по данному столбцы, поэтому мы провели лемматизацию по 5 основным категориям (свадьба, недвижимость, жилье, образование и автомобиль) по которым му уже легком могли провести нужные нам операции.
5. В ходе работы с таблицей мы нашли зависимости наличия детей, уровня дохода, цели кредита, семейного положения на факт погашения кредита в срок. Вдовы и вдовцы берут меньше всего кредитов отсюда у них и самый низкий процент по задолженности перед банком. Женатые/замужник берут самые большие кредиты (у них совокупный бюджет и данный класс людей преобладает поэтому отказывать им в кредите я не вижу смысла, тем более у них один из самых низких процентов задолженности перед банком). Не имеющие детей люди тоже возвращают кредиты в срок чаще других, т.к. затраты на детей нулевые. ОЧевидно что люди с высокими доходами отдают кредит банку почти в срок, со средним и выше среднего доходами имеют проблемы ибо каждый 10-ыц имеет задолженность, возможно не совсем объективно оценивают свои возможности, но опять же эти люди составляют львиную долю людей и отказывать им в кредитах это значит потерять деньги (просто нужно глубже изучить данную категорию людей, например: посмотреть кол-во детей, цель кредита и семейного положения).