# Исследование надёжности заёмщиков — анализ банковских данных

<b>Цель:</b>на основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок<br>
<b>Описание:</b>На основе данных кредитного отдела банка исследовал влияние семейного положения и
количества детей на факт погашения кредита в срок. Была получена информация о
данных. Определены и обработаны пропуски. Заменены типы данных на соответствующие
хранящимся данным. Удалены дубликаты. Выделены леммы в значениях столбца и
категоризированны данные.

### Шаг 1. Обзор данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/datasets/data.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Просмотрим первые 5-ть значений таблицы

In [4]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Просмотрим последние 5-ть значений

In [5]:
df.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Найдем столбцы в которых есть пропуски в значениях

In [6]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

отсортируем таблицу по столбцу 'days_employed' (трудовой стаж) по убыванию.

In [7]:
display(df.sort_values(by='days_employed', ascending=False))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


отсортируем таблицу по столбцу 'total_income' (ежемесячный доход) по убыванию.

In [8]:
display(df.sort_values(by='total_income', ascending=False))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12412,0,-1477.438114,44,высшее,0,женат / замужем,0,M,компаньон,0,2.265604e+06,ремонт жилью
19606,1,-2577.664662,39,высшее,0,женат / замужем,0,M,компаньон,1,2.200852e+06,строительство недвижимости
9169,1,-5248.554336,35,среднее,1,гражданский брак,1,M,сотрудник,0,1.726276e+06,дополнительное образование
20809,0,-4719.273476,61,среднее,1,Не женат / не замужем,4,F,сотрудник,0,1.715018e+06,покупка жилья для семьи
17178,0,-5734.127087,42,высшее,0,гражданский брак,1,M,компаньон,0,1.711309e+06,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Просежуточные выводы: в двух столбцах были найденные пропуски в значениях. В days_employed   -  2174 пропусков, в total_income  -   2174 пропусков

### Шаг 2.1 Заполнение пропусков

In [9]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [10]:
import numpy as np

In [11]:
m = np.vectorize(len)


Как видно пропуски в двух столбцах: days_employed (трудовой стаж) и total_income (уровень дохлда). 

In [12]:
print('доля пропусков в столбце days_employed:', df['days_employed'].isna().sum() / len(df['days_employed']) * 100)

доля пропусков в столбце days_employed: 10.099883855981417


In [13]:
print('доля пропусков в столбце total_income:', df['total_income'].isna().sum() / len(df['total_income']) * 100)

доля пропусков в столбце total_income: 10.099883855981417


Возможные причины пропусков:
 - ЧЕЛОВЕЧЕСКИЙ ФАКТОР. В графе могут быть пропуски по причине незаполнения граф. Возможно разработчик не предусмотрел данные графы как обязательные к заолнению и в ходе внесения данных оператором данные были не внесены.
 - ТЕХНОЛОГИЧЕСКИЙ ФАКТОР. Возможно данные графы заполнялись из дополнительных БД и был сбой в результете чего некоторые данные не были внесены в данную таблицу.

Зполнение медианным значением для кол-в переменных является лучшем решением т.к. медиана более устойчева к аномально большим и малым значениям. Например: аномально большоиу дохлоду или анамально большому стажу

In [14]:
days_employed_median = df['days_employed'].median()
total_income_median = df['total_income'].median()

df['days_employed'] = df['days_employed'].fillna(value=days_employed_median)
df['total_income'] = df['total_income'].fillna(value=total_income_median)

In [15]:
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Шаг 2.2 Проверка данных на аномалии и исправления.

In [16]:
print('Набор уникальных значений в столбце children', df['children'].unique())

Набор уникальных значений в столбце children [ 1  0  3  2 -1  4 20  5]


Как видно есть два аномальных значения: -1 и 20. Если 20, еще может быть. -1 не может быть в столбце с количественными данными

In [17]:
print('Кол-во значений -1 в children:', df[df['children'] == -1 ]['children'].count())
print('Кол-во значений 20 в children:', df[df['children'] == 20 ]['children'].count())

Кол-во значений -1 в children: 47
Кол-во значений 20 в children: 76


In [18]:
display(df[df['children'] == 20])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,-855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,-3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,-2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,-2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,-601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,-1203.369529,53,среднее,1,женат / замужем,0,M,компаньон,0,145017.937533,покупка жилой недвижимости
21404,20,-494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


Согласен, что значения "20" довольно странное. В связи с тем что проблематично выявить закономерность его появления, решил удалить строки с занчениями "-1" и "20". Строк от обще выборке не много, на результат исследования должны не повлиять.

In [19]:
df = df.drop(df[(df.children == -1) | (df.children == 20)].index)
print('Кол-во значений -1 в children:', df[df['children'] == -1 ]['children'].count())
print('Кол-во значений 20 в children:', df[df['children'] == 20 ]['children'].count())

Кол-во значений -1 в children: 0
Кол-во значений 20 в children: 0


Возможное появление значения -1: таким образом могли сотрудники обозначать отсутвие детей, видно что в таблице присутвует и значение 0. -1 могло воявиться по причине того что данные вносяться с клавиатуры, а в поле не предесмотрено ограничение на ввод отрицательных начений

In [20]:
print('Кол-во аномальных значений (значения < 0) в days_employed:', df[df['days_employed'] < 0 ]['days_employed'].count())
print('Кол-во значений > 0 в days_employed:', df[df['days_employed'] > 0 ]['days_employed'].count())

Кол-во аномальных значений (значения < 0) в days_employed: 17971
Кол-во значений > 0 в days_employed: 3431


In [21]:
display(df[df['days_employed'] > 0 ])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


Заметно что очень большое кол-во аномальных значений. Скорее всего эти значения были сохранены в другом формате или типе данных т.к. рчень большое кол-во аномальных данных

In [22]:

df['days_employed'] = df['days_employed'].abs()

print('Кол-во аномальных значений (значения < 0) в days_employed:', df[df['days_employed'] < 0 ]['days_employed'].count())
print('Кол-во значений > 0 в days_employed:', df[df['days_employed'] > 0 ]['days_employed'].count())

Кол-во аномальных значений (значения < 0) в days_employed: 0
Кол-во значений > 0 в days_employed: 21402


In [23]:
print('Набор уникальных значений в столбце dob_years', df['dob_years'].unique())

Набор уникальных значений в столбце dob_years [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]


Как видно есть данные со значение 0. Возраст не может быть равен 0.

In [24]:
print('Кол-во значений = 0 в dob_years:', df[df['dob_years'] == 0 ]['dob_years'].count())

Кол-во значений = 0 в dob_years: 100


Удалим строки с возратом = 0

In [25]:
df = df.drop(df[df.dob_years == 0].index)
print('Кол-во значений = 0 в dob_years:', df[df['dob_years'] == 0 ]['dob_years'].count())

Кол-во значений = 0 в dob_years: 0


Данное значение возможно могло появится по причине того, что например для заполнения анкеты требовалось заполнить все поля, а тот кто вносил данные не хотел указывать свой возраст

In [26]:
print('Набор уникальных значений в столбце education_id', df['education_id'].unique())

Набор уникальных значений в столбце education_id [0 1 2 3 4]


In [27]:
print('Набор уникальных значений в столбце debt', df['debt'].unique())

Набор уникальных значений в столбце debt [0 1]


In [28]:
print('Кол-во значений < 0 в total_income:', df[df['total_income'] < 0 ]['total_income'].count())

Кол-во значений < 0 в total_income: 0


In [29]:
print('Набор уникальных значений в столбце gender', df['gender'].unique())

Набор уникальных значений в столбце gender ['F' 'M' 'XNA']


При проверке встретилось интересное значение в столбце "gender". Проверим теперь какое кол-во таких значений внесено в столбце.

In [30]:
print('Кол-во значений = XNA в gender:', df[df['gender'] == 'XNA' ]['gender'].count())

Кол-во значений = XNA в gender: 1


Удалим строчку с данным значением.

In [31]:
df = df.drop(df[df.gender == 'XNA'].index)
print('Кол-во значений = XNA в gender:', df[df['gender'] == 'XNA' ]['gender'].count())

Кол-во значений = XNA в gender: 0


Как видно такое значение в строке втречаеться только один раз.

### Шаг 2.3. Изменение типов данных.

In [32]:
df['total_income'] = df['total_income'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21301 entries, 0 to 21524
Data columns (total 12 columns):
children            21301 non-null int64
days_employed       21301 non-null float64
dob_years           21301 non-null int64
education           21301 non-null object
education_id        21301 non-null int64
family_status       21301 non-null object
family_status_id    21301 non-null int64
gender              21301 non-null object
income_type         21301 non-null object
debt                21301 non-null int64
total_income        21301 non-null int64
purpose             21301 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.1+ MB


### Шаг 2.4. Удаление дубликатов.

In [33]:
print('кол-во уникальных дубликатов', df.duplicated().sum())

кол-во уникальных дубликатов 54


In [34]:
df = df.drop_duplicates().reset_index(drop=True)

In [35]:
print('Набор уникальных значений в столбце education', df['education'].unique())

Набор уникальных значений в столбце education ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


Как видно из полученных данных, данные записаны в таблицу в разных регистрах. Нужно привести все к строчным буквам

In [36]:
df['education'] = df['education'].str.lower()
print('Набор уникальных значений в столбце education', df['education'].unique())

Набор уникальных значений в столбце education ['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


In [37]:
print('Набор уникальных значений в столбце family_status', df['family_status'].unique())

Набор уникальных значений в столбце family_status ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']


In [38]:
df['family_status'] = df['family_status'].str.lower()
print('Набор уникальных значений в столбце family_status', df['family_status'].unique())

Набор уникальных значений в столбце family_status ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'не женат / не замужем']


In [39]:
print('Набор уникальных значений в столбце income_type', df['income_type'].unique())

Набор уникальных значений в столбце income_type ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']


In [40]:
print('Набор уникальных значений в столбце purpose', df['purpose'].unique())

Набор уникальных значений в столбце purpose ['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим 

In [41]:
print('кол-во уникальных дубликатов', df.duplicated().sum())

кол-во уникальных дубликатов 17


In [42]:
df = df.drop_duplicates().reset_index(drop=True)
print('кол-во уникальных дубликатов', df.duplicated().sum())

кол-во уникальных дубликатов 0


Возможные причины появления дубликатов:
    
    - Человеческий фактор. Ручной ввод данных из-за этого были различия в регистре символов и одни и те же записи воспринимались как различные.. 

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [56]:
df_education = df[['education_id', 'education']]
df_education = df_education.drop_duplicates().reset_index()
df_education.head()

Unnamed: 0,index,education_id,education
0,0,0,высшее
1,1,1,среднее
2,13,2,неоконченное высшее
3,31,3,начальное
4,2934,4,ученая степень


In [57]:
df_family_status = df[['family_status_id', 'family_status']]
df_family_status = df_family_status.drop_duplicates().reset_index()
df_family_status.head()

Unnamed: 0,index,family_status_id,family_status
0,0,0,женат / замужем
1,4,1,гражданский брак
2,18,2,вдовец / вдова
3,19,3,в разводе
4,24,4,не женат / не замужем


In [60]:
df = df.drop(['education', 'family_status'], axis = 1)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

In [61]:
def total_income_category(total_income):
    if total_income >= 0 and total_income <= 30000:
        return 'E'
    if total_income > 30000 and total_income <= 50000:
        return 'D'
    if total_income > 50000 and total_income <= 200000:
        return 'C'
    if total_income > 200000 and total_income <= 1000000:
        return 'B'
    else:
        return 'A'

df['total_income_category'] = df['total_income'].apply(total_income_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

In [62]:
def purpose_category(purpose):
    if 'авто' in purpose or 'жил' in purpose:
        return 'операции с автомобилем'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'свадь' in purpose:
        return 'проведение свадьбы'
    if 'образ' in purpose:
        return 'получение образования'

df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с автомобилем
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с автомобилем
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


In [63]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21230 entries, 0 to 21229
Data columns (total 12 columns):
children                 21230 non-null int64
days_employed            21230 non-null float64
dob_years                21230 non-null int64
education_id             21230 non-null int64
family_status_id         21230 non-null int64
gender                   21230 non-null object
income_type              21230 non-null object
debt                     21230 non-null int64
total_income             21230 non-null int64
purpose                  21230 non-null object
total_income_category    21230 non-null object
purpose_category         21230 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 1.9+ MB
None


### Ответы на вопросы.

##### Вопрос 1:

Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [64]:
print('с просрочкой по кредиту')

print('Для категории - Нет детей', df[(df['children'] == 0) & (df['debt'] == 1)]['debt'].count() / df[df['children'] == 0]['debt'].count() * 100)

print('Для категории - Один ребенок', df[(df['children'] == 1) & (df['debt'] == 1)]['debt'].count() / df[df['children'] == 1]['debt'].count() * 100)

print('Для категории - Детей >1 и <4', df[(df['children'] > 1) & (df['children'] <= 3) & (df['debt'] == 1)]['debt'].count() / df[(df['children'] > 1) & (df['children'] <= 3)]['debt'].count() * 100)

print('Для категории - Больше 3 детей', df[(df['children'] > 3) & (df['debt'] == 1)]['debt'].count() / df[df['children'] > 3]['debt'].count() * 100)

print('без просрочки по кредиту')

print('Для категории - Нет детей', df[(df['children'] == 0) & (df['debt'] == 0)]['debt'].count() / df[df['children'] == 0]['debt'].count() * 100)

print('Для категории - Один ребенок', df[(df['children'] == 1) & (df['debt'] == 0)]['debt'].count() / df[df['children'] == 1]['debt'].count() * 100)

print('Для категории - Детей >1 и <4', df[(df['children'] > 1) & (df['children'] <= 3) & (df['debt'] == 0)]['debt'].count() / df[(df['children'] > 1) & (df['children'] <= 3)]['debt'].count() * 100)

print('Для категории - Больше 3 детей', df[(df['children'] > 3) & (df['debt'] == 0)]['debt'].count() / df[df['children'] > 3]['debt'].count() * 100)



с просрочкой по кредиту
Для категории - Нет детей 7.545824120961416
Для категории - Один ребенок 9.202838063439065
Для категории - Детей >1 и <4 9.336713138994508
Для категории - Больше 3 детей 8.0
без просрочки по кредиту
Для категории - Нет детей 92.45417587903859
Для категории - Один ребенок 90.79716193656094
Для категории - Детей >1 и <4 90.66328686100549
Для категории - Больше 3 детей 92.0


##### Вывод 1:

Из полученных данных видно, что процент по просрочки кредита меньше у категории "Нет детей" - 92,4% возврата и категории "Больше 3-х детей" - 92% возврата. У категорий "Один ребенок" - 90,79% возврата и "Детей >1 и <4" - 90,66% возврата, самый большой процент невозрата.  

##### Вопрос 2:

Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [68]:
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'не женат / не замужем']

print('с просрочкой по кредиту')

print('Для категории - не женат', df[(df['family_status_id'] == 4) & (df['debt'] == 1)]['debt'].count() / df[df['family_status_id'] == 4]['debt'].count() * 100)
print('Для категории - женат', df[(df['family_status_id'] == 0) & (df['debt'] == 1)]['debt'].count() / df[df['family_status_id'] == 0]['debt'].count() * 100)
print('Для категории - гражданский брак', df[(df['family_status_id'] == 1) & (df['debt'] == 1)]['debt'].count() / df[df['family_status_id'] == 1]['debt'].count() * 100)
print('Для категории - в разводе', df[(df['family_status_id'] == 3) & (df['debt'] == 1)]['debt'].count() / df[df['family_status_id'] == 3]['debt'].count() * 100)
print('Для категории - вдовец / вдова', df[(df['family_status_id'] == 2) & (df['debt'] == 1)]['debt'].count() / df[df['family_status_id'] == 2]['debt'].count() * 100)


print('без просрочки по кредиту')

  
print('Для категории - не женат', df[(df['family_status_id'] == 4) & (df['debt'] == 0)]['debt'].count() / df[df['family_status_id'] == 4]['debt'].count() * 100)
print('Для категории - женат', df[(df['family_status_id'] == 0) & (df['debt'] == 0)]['debt'].count() / df[df['family_status_id'] == 0]['debt'].count() * 100)
print('Для категории - гражданский брак', df[(df['family_status_id'] == 1) & (df['debt'] == 0)]['debt'].count() / df[df['family_status_id'] == 1]['debt'].count() * 100)
print('Для категории - в разводе', df[(df['family_status_id'] == 3) & (df['debt'] == 0)]['debt'].count() / df[df['family_status_id'] == 3]['debt'].count() * 100)
print('Для категории - вдовец / вдова', df[(df['family_status_id'] == 2) & (df['debt'] == 0)]['debt'].count() / df[df['family_status_id'] == 2]['debt'].count() * 100)





с просрочкой по кредиту
Для категории - не женат 9.784172661870503
Для категории - женат 7.5575206746909025
Для категории - гражданский брак 9.31420233463035
Для категории - в разводе 7.124681933842239
Для категории - вдовец / вдова 6.553911205073996
без просрочки по кредиту
Для категории - не женат 90.2158273381295
Для категории - женат 92.44247932530911
Для категории - гражданский брак 90.68579766536965
Для категории - в разводе 92.87531806615776
Для категории - вдовец / вдова 93.44608879492601


##### Вывод 2:

Из результа видно, что лучше всех возвращают кредиты клиенты из категории "вдовец / вдова " - 93,4% возврата, так же неплохо из категорий "женат" - 92,4% возврата и "в разводе" - 92,8% возврата. Хуже всех возвращают кредиты  клиенты из категорий "не женат" - 90,2% возврата и "гражданский брак" - 90,68% возврата. Видна зависимость в том, что люди женатые или бывшие в прошлом в браке возвращают чаще кредиты, чем те кто не женат или находится в гражданском браке.

##### Вопрос 3:

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [69]:
print('с просрочкой по кредиту')

print('Для категории - E', df[(df['total_income_category'] == 'E') & (df['debt'] == 1)]['debt'].count() / df[df['total_income_category'] == 'E']['debt'].count() * 100)

print('Для категории - D', df[(df['total_income_category'] == 'D') & (df['debt'] == 1)]['debt'].count() / df[df['total_income_category'] == 'D']['debt'].count() * 100)

print('Для категории - C', df[(df['total_income_category'] == 'C') & (df['debt'] == 1)]['debt'].count() / df[df['total_income_category'] == 'C']['debt'].count() * 100)

print('Для категории - B', df[(df['total_income_category'] == 'B') & (df['debt'] == 1)]['debt'].count() / df[df['total_income_category'] == 'B']['debt'].count() * 100)

print('Для категории - A', df[(df['total_income_category'] == 'A') & (df['debt'] == 1)]['debt'].count() / df[df['total_income_category'] == 'A']['debt'].count() * 100)


print('без просрочки по кредиту')


print('Для категории - E', df[(df['total_income_category'] == 'E') & (df['debt'] == 0)]['debt'].count() / df[df['total_income_category'] == 'E']['debt'].count() * 100)

print('Для категории - D', df[(df['total_income_category'] == 'D') & (df['debt'] == 0)]['debt'].count() / df[df['total_income_category'] == 'D']['debt'].count() * 100)

print('Для категории - C', df[(df['total_income_category'] == 'C') & (df['debt'] == 0)]['debt'].count() / df[df['total_income_category'] == 'C']['debt'].count() * 100)

print('Для категории - B', df[(df['total_income_category'] == 'B') & (df['debt'] == 0)]['debt'].count() / df[df['total_income_category'] == 'B']['debt'].count() * 100)

print('Для категории - A', df[(df['total_income_category'] == 'A') & (df['debt'] == 0)]['debt'].count() / df[df['total_income_category'] == 'A']['debt'].count() * 100)



с просрочкой по кредиту
Для категории - E 9.090909090909092
Для категории - D 6.051873198847262
Для категории - C 8.49211356466877
Для категории - B 7.079823505816285
Для категории - A 8.0
без просрочки по кредиту
Для категории - E 90.9090909090909
Для категории - D 93.94812680115274
Для категории - C 91.50788643533123
Для категории - B 92.92017649418372
Для категории - A 92.0


##### Вывод 3:

Из результа видно, что лучше всех возвращают кредиты клиенты из категории  D (30001–50000) выше низшего - 93,94% возврата, а хуже все из категории E (0–30000) низкий доход - 90,9% возврата. 

##### Вопрос 4:

Как разные цели кредита влияют на его возврат в срок?

In [70]:


print('с просрочкой по кредиту')

print('Для категории - операции с автомобилем', df[(df['purpose_category'] == 'операции с автомобилем') & (df['debt'] == 1)]['debt'].count() / df[df['purpose_category'] == 'операции с автомобилем']['debt'].count() * 100)

print('Для категории - получение образования', df[(df['purpose_category'] == 'получение образования') & (df['debt'] == 1)]['debt'].count() / df[df['purpose_category'] == 'получение образования']['debt'].count() * 100)

print('Для категории - проведение свадьбы', df[(df['purpose_category'] == 'проведение свадьбы') & (df['debt'] == 1)]['debt'].count() / df[df['purpose_category'] == 'проведение свадьбы']['debt'].count() * 100)

print('Для категории - операции с недвижимостью', df[(df['purpose_category'] == 'операции с недвижимостью') & (df['debt'] == 1)]['debt'].count() / df[df['purpose_category'] == 'операции с недвижимостью']['debt'].count() * 100)

print('без просрочки по кредиту')

print('Для категории - операции с автомобилем', df[(df['purpose_category'] == 'операции с автомобилем') & (df['debt'] == 0)]['debt'].count() / df[df['purpose_category'] == 'операции с автомобилем']['debt'].count() * 100)

print('Для категории - получение образования', df[(df['purpose_category'] == 'получение образования') & (df['debt'] == 0)]['debt'].count() / df[df['purpose_category'] == 'получение образования']['debt'].count() * 100)

print('Для категории - проведение свадьбы', df[(df['purpose_category'] == 'проведение свадьбы') & (df['debt'] == 0)]['debt'].count() / df[df['purpose_category'] == 'проведение свадьбы']['debt'].count() * 100)

print('Для категории - операции с недвижимостью', df[(df['purpose_category'] == 'операции с недвижимостью') & (df['debt'] == 0)]['debt'].count() / df[df['purpose_category'] == 'операции с недвижимостью']['debt'].count() * 100)



с просрочкой по кредиту
Для категории - операции с автомобилем 8.010518863153635
Для категории - получение образования 9.29471032745592
Для категории - проведение свадьбы 7.872988255763376
Для категории - операции с недвижимостью 7.528577059519118
без просрочки по кредиту
Для категории - операции с автомобилем 91.98948113684636
Для категории - получение образования 90.70528967254407
Для категории - проведение свадьбы 92.12701174423663
Для категории - операции с недвижимостью 92.47142294048089


##### Вопрос 4:

Из результатов видно, что клиенты с целью "операции с недвижимостью" - 92,4% возврата, чаще всего возвращают кредиты, хуже всех возвращают кредиты клиенты с целью "получение образования" - 90,7% возврата. Далее идут цели "проведение свадьбы" - 92,12% возврата и  "операции с автомобилем" - 91,98% возврата. 

## Общий вывод:

Из исследования видно, что семейное положение и количество детей клиента на факт погашения кредита в срок влияет. Видно что клиенты которые женаты или были в браке, без детей или если детей больше 3-х возвращают кредиты чаще. Хуже всех возвращают кредиты клиенты, которые не женаты или сотоят в браке с 1-3 ребенком в семье. 

Возвраты по кредитам в зависимости от семейного положения:

Для категории - не женат: 90.21%
Для категории - гражданский брак: 90.68%
Для категории - женат: 92.44%
Для категории - в разводе: 92.87%
Для категории - вдовец / вдова: 93.44%

Возвраты по кредитам в зависимости от кл-ва детей клиента:

Для категории - Детей >1 и <4: 90.66%
Для категории - Один ребенок: 90.79%
Для категории - Больше 3 детей: 92%
Для категории - Нет детей: 92.45%