# Исследование надежности заемщиков.

На данных кредитного отдела банка необходимо выявить факторы, влияющие на степень надежности заемщиков.

Цель исследования — определить: влияет ли следующие факторы на факт погашения кредита в срок, 

- семейное положение
- доход
- количество детей клиента


Ход исследования:

1. Обзор данных.
2. Предобработка данных.
3. Ответы на вопросы

Входные данные: `'/datasets/data.csv'`

<div class="alert alert-success">
<b>✔️ Комментарий ревьюера v1:</b> 
<br>Молодец, что добавляешь описание проекта. Это поможет тебе быстро вспомнить о чем проект, если спустя время ты решишь к нему вернуться)
</div>

## Обзор данных

Импортируем библиотеку pandas, прочтем файл data.csv из папки /datasets, просмотрим информацию о таблице и ее содержание.

In [1]:
import pandas as pd

In [2]:
clients_stat = pd.read_csv('/datasets/data.csv')
clients_stat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
clients_stat.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


 Описание данных: 

* `children` — количество детей в семье. Тип int
* `days_employed` — общий трудовой стаж в днях. Тип float
* `dob_years` — возраст клиента в годах. Тип int
* `education` — уровень образования клиента. Тип object
* `education_id` — идентификатор уровня образования Тип int
* `family_status` — семейное положение. Тип object
* `family_status_id` — идентификатор семейного положения. Тип int
* `gender` — пол клиента. Тип object
* `income_type` — тип занятости. Тип object
* `debt` — имел ли задолженность по возврату кредитов. Тип int
* `total_income` — ежемесячный доход. Тип float
* `purpose` — цель получения кредита. Тип object

В названиях колонок нарушений нет.
Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

In [4]:
clients_stat.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


## Предобработка данных

### Заполнение пропусков

Посчитаем сколько в таблице пропущенных значений.

In [5]:
clients_stat.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски в столбцах days_employed и total_income. Причем одинаковое кол-во 2174. Просмотрим строки с пропусками, возможно есть еще закономерность.

In [6]:
clients_stat[clients_stat['days_employed'].isna()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Очевидных закономерностей нет, кроме того, что пропуск в каждой строке одновременно в обоих столбцах.
Оба столбца несут важную информацию, которая влияет на результат исследования. 
Посмотрим  какую долю составляют пропущенные значения в каждом из столбцов с пропусками, кол-во строк на кол-во пропусков:

In [7]:
clients_stat['days_employed'].isna().sum()/clients_stat['days_employed'].count()

0.11234561521368405

In [8]:
clients_stat['total_income'].isna().sum()/clients_stat['total_income'].count()

0.11234561521368405

In [9]:
clients_stat['days_employed'].isna().mean()

0.10099883855981417

In [10]:
clients_stat['total_income'].isna().mean()

0.10099883855981417

Доля пропусков 10%.
Заполнить пропуски необходимо числовыми значениями, чтобы была возможность без проблем производить мат операции. 
Заполнить средними значемниями лучшее решение, так как наимение серьезно повлияет на результат. Заполнение нулями может дать сильное отклонение

In [11]:
days_employed_median = clients_stat['days_employed'].median() #вычисление среднего значения
total_income_median = clients_stat['total_income'].median()
total_income_median

145017.93753253992

In [12]:
# заполнение средними пропусков значениями
clients_stat['days_employed'] = clients_stat['days_employed'].fillna(days_employed_median)
clients_stat['total_income'] = clients_stat['total_income'].fillna(total_income_median)

clients_stat.isna().sum() #проверка

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

###  Проверка данных на аномалии и исправления.

Таблица содержит количественные и категориальные переменные.

1. Проверим количественные переменные (children, days_employed, total_income): 

- выбросы с отрицательным значением
- выбросы со слишком большим значением

Проверка столбца children:

In [13]:
# Поиск отрицательных значений:
len(clients_stat.loc[clients_stat['children'] < 0])

47

In [14]:
len(clients_stat.loc[clients_stat['children'] == -1])

47

In [15]:
# В столбце 47 строк с отрицательным значением в столбце children. 
# Все значения равны -1, вероятнее всего имелось в виду 1.
# Заменим эти значения:

clients_stat['children'] = clients_stat['children'].replace(-1 , 1)
len(clients_stat.loc[clients_stat['children'] < 0])

0

In [16]:
# Поиск аномально больших значний. Отсортируем данные столбца в порядке убывания:
clients_stat['children'].sort_values(ascending = False).head()

15812    20
16795    20
15313    20
5020     20
3302     20
Name: children, dtype: int64

In [17]:
#len(clients_stat.loc[clients_stat['children'] > 5])
len(clients_stat.loc[clients_stat['children'] == 20])

76

In [18]:
# в столбце 76 значений равных 20. 
# Так как этот столбец содержит информацию о кол-ве детей, это аномальный показатель, 
# причем показателей в интервале (5,20) нет, вероятней всего имелось в виду 2. Так же два является медианным значением.
# Заменим значения:

clients_stat['children'] = clients_stat['children'].replace(20, 2)
len(clients_stat.loc[clients_stat['children'] == 20])

0

По аналогии обработаем остальные столбцы.

Проверка столбца days_employed

In [19]:
len(clients_stat.loc[clients_stat['days_employed'] < 0])

18080

In [20]:
clients_stat.loc[clients_stat['days_employed'] < 0].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья


In [21]:
# Значения отрицательные, но разные, похоже нужно заменить на модуль указанного значения

clients_stat['days_employed'] = clients_stat['days_employed'].abs()
len(clients_stat.loc[clients_stat['days_employed'] < 0])

0

Выведем таблицу, отсортированную по столбцу days_employed, чтобы посмотреть на самые большие значения

In [22]:
clients_stat['days_employed'].sort_values(ascending = False).head(20)

6954     401755.400475
10006    401715.811749
7664     401675.093434
2156     401674.466633
7794     401663.850046
4697     401635.032697
13420    401619.633298
17823    401614.475622
10991    401591.828457
8369     401590.452231
1184     401575.196728
4949     401573.905288
15192    401556.753550
5716     401524.259153
10484    401517.276388
16237    401486.706746
15599    401458.877781
701      401446.446720
14356    401440.834336
5762     401381.736156
Name: days_employed, dtype: float64

Очевидно аномальные значения. Возможно указано кол-во часов, а не дней.

In [23]:
# Если в столбце указанно кол-во дней, то
401755.400475 / 365 # = 1100.699727328767 лет

401755.400475 /24 / 365 # = 45.9 лет более реальная цифра

45.86248863869862

Заменим значения солбца.

In [24]:
clients_stat['days_employed'] = clients_stat['days_employed']/24
clients_stat['days_employed'].sort_values(ascending = False).head()

6954     16739.808353
10006    16738.158823
7664     16736.462226
2156     16736.436110
7794     16735.993752
Name: days_employed, dtype: float64

Проверка total_income

In [25]:
# Отрицательных значений нет
len(clients_stat['total_income'].loc[clients_stat['total_income'] < 0].unique())

0

In [26]:
# Посмотрим самый большой доход, отсортировав значения по убыванию
clients_stat['total_income'].sort_values(ascending = False).head(20)

12412    2.265604e+06
19606    2.200852e+06
9169     1.726276e+06
20809    1.715018e+06
17178    1.711309e+06
17503    1.597613e+06
18368    1.551153e+06
18353    1.427934e+06
15268    1.350246e+06
11071    1.286281e+06
2224     1.278623e+06
7447     1.240165e+06
19813    1.223042e+06
15211    1.172460e+06
13090    1.128836e+06
9871     1.103455e+06
10004    1.097955e+06
18766    1.092608e+06
19338    1.091628e+06
1590     1.089120e+06
Name: total_income, dtype: float64

In [27]:
 
clients_stat.loc[clients_stat['total_income'] > 500000]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
39,0,27.107825,31,высшее,0,гражданский брак,1,F,компаньон,0,754240.797248,заняться образованием
68,2,89.686480,46,высшее,0,женат / замужем,0,M,компаньон,0,592071.464571,операции с коммерческой недвижимостью
365,2,57.191088,36,высшее,0,женат / замужем,0,M,компаньон,0,553624.230462,покупка жилой недвижимости
379,0,296.499361,50,среднее,1,женат / замужем,0,F,сотрудник,1,506773.985753,жилье
685,0,76.662650,52,среднее,1,в разводе,3,F,сотрудник,0,536888.901920,высшее образование
...,...,...,...,...,...,...,...,...,...,...,...,...
21224,0,117.330303,39,неоконченное высшее,2,в разводе,3,F,компаньон,0,574891.367390,покупка жилой недвижимости
21259,0,230.909825,48,среднее,1,женат / замужем,0,M,компаньон,0,575689.161830,получение дополнительного образования
21295,0,14.668694,51,высшее,0,Не женат / не замужем,4,F,сотрудник,0,816023.123518,приобретение автомобиля
21392,2,68.504644,35,высшее,0,женат / замужем,0,M,компаньон,0,636515.293426,строительство собственной недвижимости


Проверка столбца dob_years:

In [28]:
# 101 строка с нулевым значением в столбце dob_years
clients_stat.loc[clients_stat['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,14439.234121,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,111.011382,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,78.027633,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,16577.356876,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,48.251232,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,50.140397,0,среднее,1,женат / замужем,0,F,сотрудник,0,145017.937533,жилье
20462,0,14113.952856,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,13822.552977,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,4.540293,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости


In [29]:
# Так как это возраст, логичнее всего заменить на среднее
clients_stat['dob_years'] = clients_stat['dob_years'].replace(0,clients_stat['dob_years'].mean())
len(clients_stat.loc[clients_stat['dob_years'] == 0])

0

In [30]:
# Проверим есть ли строки в которых возраст больше опыта
len(clients_stat.loc[clients_stat['days_employed']/365 >= clients_stat['dob_years']])
clients_stat.loc[clients_stat['days_employed']/365 >= clients_stat['dob_years']]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
157,0,14517.251167,38.0,среднее,1,женат / замужем,0,F,пенсионер,1,113560.650035,сделка с автомобилем
578,0,16577.356876,43.29338,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
751,0,16281.477669,41.0,среднее,1,женат / замужем,0,M,пенсионер,0,151898.693438,операции со своей недвижимостью
776,0,15222.35668,38.0,среднее,1,женат / замужем,0,F,пенсионер,0,73859.425084,покупка недвижимости
1242,0,13948.510826,22.0,Среднее,1,Не женат / не замужем,4,F,пенсионер,0,89368.600062,получение высшего образования
1383,0,14741.78382,37.0,среднее,1,вдовец / вдова,2,F,пенсионер,0,216452.226085,строительство недвижимости
1446,0,14122.485068,37.0,СРЕДНЕЕ,1,гражданский брак,1,M,пенсионер,0,148657.128499,свадьба
1637,0,16635.852021,39.0,среднее,1,женат / замужем,0,M,пенсионер,0,211513.978152,операции с недвижимостью
1752,1,16249.126643,38.0,ВЫСШЕЕ,0,Не женат / не замужем,4,F,пенсионер,0,311574.433591,покупка недвижимости
2992,0,15114.224288,39.0,среднее,1,в разводе,3,F,пенсионер,0,96891.811526,покупка недвижимости


58 строк 
- 56/58 имеют стиатус пенсионера, значит указанный возраст явно не соответствует действительности. Присвоим начальный пенсионный возраст
- 2/58 безработные, нет общих параметров, скорее всего опечатка

In [31]:
# 
clients_stat.loc[clients_stat['days_employed']/365 >= clients_stat['dob_years'], 'dob_years'] = 65
len(clients_stat.loc[clients_stat['days_employed']/365 >= clients_stat['dob_years']])

0

2. Теперь можно перейти к проверке категориальных переменных. 

Основные проблемы, которые могут встретиться:
- регистр
- опечатки
- неадекватное значение (по смыслу)

In [32]:
# Просмотрим уникальные значения education
clients_stat['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [33]:
# Приведем все значения к нижнему регистру
clients_stat['education'] = clients_stat['education'].str.lower()
clients_stat['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Аналогично с другими столбцами.

In [34]:
clients_stat['family_status'].unique() 

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [35]:
clients_stat['family_status'] = clients_stat['family_status'].str.lower()
clients_stat['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [36]:
clients_stat['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [37]:
clients_stat.loc[clients_stat['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,98.275021,24.0,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


В столбце gender странное значение XNA. Но так как в исследовании пол нас не интересует, оставим без изменений.

In [38]:
clients_stat['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [39]:
clients_stat['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

###  Изменение типов данных. 


In [40]:
clients_stat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null float64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Заменим тип days_employed, dob_years, total_income на float

In [41]:
clients_stat['days_employed'] = clients_stat['days_employed'].astype(int)
clients_stat['dob_years'] = clients_stat['dob_years'].astype(int)
clients_stat['total_income'] = clients_stat['total_income'].astype(int)

In [42]:
clients_stat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


###  Удаление дубликатов.

Посчитаем и удалим явные дупликаты:

In [43]:
clients_stat.duplicated().sum()

71

In [44]:
clients_stat = clients_stat.drop_duplicates().reset_index(drop = True)

In [45]:
clients_stat.duplicated().sum() # Проверка

0

In [46]:
# Просмотрим столбцы на неявные дубликаты

#clients_stat['education'].unique()
clients_stat['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

Дубликаты отсутствуют. 

###  Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создайте два новых датафрейма, которые будем использовать как словари: идентификатор - значение.
Использование таких структур "облегчит" основную таблицу без потери информации.

In [47]:
education_dict = clients_stat[['education_id','education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True) # удаление дубликатов

family_dict = clients_stat[['family_status_id','family_status']]
family_dict = family_dict.drop_duplicates().reset_index(drop=True)

family_dict.head()

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [48]:
clients_stat.drop(['education', 'family_status'], axis='columns', inplace=True) # Удалим столбцы из основной таблицы
clients_stat.info() # проверка

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 10 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education_id        21454 non-null int64
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(3)
memory usage: 1.6+ MB


### Категоризация дохода.

Присвоем каждой строке категорию по уровню дохода. Это необходимо для оценки влияние дохода на надежность клиента. Так как все показатели в столбце разные и нужно сгрупировать их, для выяления общей тенденции.

Для этого реализуем функцию, которая будет присваевать категорию по следующим правилам:

* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* выше — 'A',

In [49]:
 def total_income_category(total_income):
        if total_income <= 30000:
            return'E'
        elif total_income <= 50000:
            return'D'
        elif total_income <= 200000:
            return 'C'
        elif total_income <= 1000000:
            return 'B'
        elif total_income >= 1000001:
            return 'A'  

In [50]:
clients_stat['total_income_category'] =  clients_stat['total_income'].apply(total_income_category) # Запишем результат работы функции в новый столбец
clients_stat.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,351,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,167,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,234,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,171,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


###  Категоризация целей кредита.

Так как один из вопросов, которые нам надо исследовать: "Как разные цели кредита влияют на его возврат в срок?", цели тоже следует разбить на категории. 

Сделаем это следующим образом, на основании данных из столбца purpose: 
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

И сформируем новый столбец purpose_category.

In [51]:
clients_stat['purpose'].unique() # Просмотри уникальные значения в столбце

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [52]:
# Функция, осуществляющая поиск подстроки в данных столбца, и по результату присваивающая категорию.

def purpose_category(purpose):
    if purpose.find('авто') != -1:
        return 'операции с автомобилем'
    elif purpose.find('жил') != -1 or purpose.find('недвижи')!= -1:
        return 'операции с недвижимостью'
    elif purpose.find('свад') != -1:
        return 'проведение свадьбы'
    elif purpose.find('образов') != -1:
        return 'получение образования'
    else: 'error'

In [53]:
# Результат работы функции запишем в новый столбец purpose_category
clients_stat['purpose_category'] = clients_stat['purpose'].apply(purpose_category)
#clients_stat[clients_stat['purpose_category'] == 'error']
#clients_stat.head(50)

## Ответы на вопросы

Данные подготовлены теперь можно исследовать зависимости.

Нас интересуют следующие вопросы:
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?


##### Есть ли зависимость между количеством детей и возвратом кредита в срок?
Для того чтобы ответить на превый вопрос сгруппируем данные таблицы по столбцу children, и посчитаем кол-во должников для каждой группы.

Но показательной будет только доля должников от кол-ва людей в группе. Посчитаем процент должников:

In [54]:
a = len(clients_stat.query('children == 0 and debt == 1')) 
b = len(clients_stat.query('children == 0 and debt == 0'))
a/(a+b)

0.07543822297920659

In [55]:
a = len(clients_stat.query('children == 1 and debt == 1')) 
b = len(clients_stat.query('children == 1 and debt == 0'))
a/(a+b)

0.09165808444902163

In [56]:
a = len(clients_stat.query('children == 2 and debt == 1')) 
b = len(clients_stat.query('children == 2 and debt == 0'))
a/(a+b)

0.09492481203007519

In [57]:
a = len(clients_stat.query('children == 3 and debt == 1')) 
b = len(clients_stat.query('children == 3 and debt == 0'))
a/(a+b)

0.08181818181818182

In [58]:
a = len(clients_stat.query('children == 4 and debt == 1')) 
b = len(clients_stat.query('children == 4 and debt == 0'))
a/(a+b)

0.0975609756097561

In [59]:
a = len(clients_stat.query('children == 5 and debt == 1')) 
b = len(clients_stat.query('children == 5 and debt == 0'))
a/(a+b)

0.0

In [60]:
pivot_children = pd.pivot_table(clients_stat, values = 'days_employed',index=['children'], columns=['debt'], aggfunc='count')
display(pivot_children)

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


In [61]:
pivot_children['percent'] = pivot_children[1]/(pivot_children[0]+pivot_children[1])
pivot_children

debt,0,1,percent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,0.075438
1,4410.0,445.0,0.091658
2,1926.0,202.0,0.094925
3,303.0,27.0,0.081818
4,37.0,4.0,0.097561
5,9.0,,


###### Вывод

 Самые низкие показатели у категории людей без детей - 7.5%
Самые высокие - 9,7% ( 4 ребёнка)
Выборка людей у которых 5 детей не показательна.

#####  Есть ли зависимость между семейным положением и возвратом кредита в срок?

Так же поступим с вопросом о влияние семейного положения на надежность клиента. 

Отличие в следующем: изначально мы будем работать с идентификатором семейного положения, после для наглядности объединим полученную таблицу со "словарем" family_dict.

In [62]:
a = len(clients_stat.query('family_status_id == 0 and debt == 1')) 
b = len(clients_stat.query('family_status_id == 0 and debt == 0'))
a/(a+b)


0.07545181943431396

In [63]:
a = len(clients_stat.query('family_status_id == 1 and debt == 1')) 
b = len(clients_stat.query('family_status_id == 1 and debt == 0'))
a/(a+b)

0.09347145266200915

In [64]:
a = len(clients_stat.query('family_status_id == 2 and debt == 1')) 
b = len(clients_stat.query('family_status_id == 2 and debt == 0'))
a/(a+b)

0.06569343065693431

In [65]:
a = len(clients_stat.query('family_status_id == 3 and debt == 1')) 
b = len(clients_stat.query('family_status_id == 3 and debt == 0'))
a/(a+b)

0.07112970711297072

In [66]:
a = len(clients_stat.query('family_status_id == 4 and debt == 1')) 
b = len(clients_stat.query('family_status_id == 4 and debt == 0'))
a/(a+b)

0.09750889679715302

###### Вывод
Самый низкий процент должников среди вдовцов - 6,5%, самый высокий у людей не состоящих в браке - 9,7%.


##### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Для определения влияние дохода сгрупируем по категориям, присвоенным ранее.

In [67]:
a = len(clients_stat.query('total_income_category == "A" and debt == 1')) 
b = len(clients_stat.query('total_income_category == "A" and debt == 0'))
a/(a+b)


0.08

In [68]:
a = len(clients_stat.query('total_income_category == "B" and debt == 1')) 
b = len(clients_stat.query('total_income_category == "B" and debt == 0'))
a/(a+b)


0.07062090854989089

In [69]:
a = len(clients_stat.query('total_income_category == "C" and debt == 1')) 
b = len(clients_stat.query('total_income_category == "C" and debt == 0'))
a/(a+b)


0.08491508491508491

In [70]:
a = len(clients_stat.query('total_income_category == "D" and debt == 1')) 
b = len(clients_stat.query('total_income_category == "D" and debt == 0'))
a/(a+b)


0.06

In [71]:
a = len(clients_stat.query('total_income_category == "E" and debt == 1')) 
b = len(clients_stat.query('total_income_category == "E" and debt == 0'))
a/(a+b)


0.09090909090909091

###### Вывод

Меньше всего должников среди людей с уровнем дохода 30001–50000

##### Как разные цели кредита влияют на его возврат в срок?

In [72]:
a = len(clients_stat.query('purpose_category == "операции с автомобилем" and debt == 1')) 
b = len(clients_stat.query('purpose_category == "операции с автомобилем" and debt == 0'))
a/(a+b)



0.09359033906177427

In [73]:
a = len(clients_stat.query('purpose_category == "операции с недвижимостью" and debt == 1')) 
b = len(clients_stat.query('purpose_category == "операции с недвижимостью" and debt == 0'))
a/(a+b)


0.0723337341596522

In [74]:
a = len(clients_stat.query('purpose_category == "получение образования" and debt == 1')) 
b = len(clients_stat.query('purpose_category == "получение образования" and debt == 0'))
a/(a+b)


0.0922003488661849

In [75]:
a = len(clients_stat.query('purpose_category == "проведение свадьбы" and debt == 1')) 
b = len(clients_stat.query('purpose_category == "проведение свадьбы" and debt == 0'))
a/(a+b)


0.08003442340791739

Больше всего должников в категории "операции автомобилем".

## Общий вывод:

В ходе исследования определили:

1. зависимость между количеством детей и возвратом кредита в срок
    -  Самые низкие показатели по задолженностям у категории людей без детей - 7.5%
       Самые высокие - 9,7% (4 ребёнка)
       Выборка людей у которых 5 детей не показательна.



2. зависимость между семейным положением и возвратом кредита в срок
    -  Вдовцы и холостые люди реже оказываются должниками.
  
  
3. зависимость между уровнем дохода и возвратом кредита в срок
    -  Меньше всего должников среди людей с уровнем дохода 30001–50000,больше всего среди людей с доходами меньше 30000.
  
  
4. зависимость между целью кредита и возвратом кредита в срок
    -  Операции с автомобилем чаще всего становятся причиной задолженности.



На самом деле процент должников, независимо от данных параметров колеблется от 7 до 10 процентов, нужна информация насколько существенна такая разница.

Наименьшие риски несёт клиент без детей, холостой, с доходом 30000-50000, планирующий купить недвижимость