# Исследование надежности заемщиокв.

##### На основании статистики о платежоспособности клиентов, представленной в виде таблицы данных, выясним влияет ли семейное положение и количество детей на факт возврата кредита в срок. Результаты проекта будут учтены при построении модели кредитного скоринга.

##### Входящая информация представленна в виде таблицы с колонками:

* children — количество детей в семье;
* days_employed — трудовой стаж в днях;  
* dob_days — возраст клиента в годах;
* education — образование клиента;
* education_id — идентификатор образования;
* family_status — семейное положение;
* family_status_id — идентификатор семейного положения;
* gender — пол клиента;
* income_type — тип занятости;
* debt — имел ли задолженность по возврату кредитов;
* total_income — доход в месяц;
* purpose — цель получения кредита.

#  Задание 1. Проведение исследования.

## Шаг 1. Откроем файл с данными datasets/data.csv и изучим общую информацию.

In [1]:
import pandas as pd # <импорт библиотеки pandas>

In [2]:
df = pd.read_csv('/datasets/data.csv') # <чтение файла с данными с сохранением в df>

In [3]:
df.head(10) # <получение первых 10 строк таблицы df>

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.tail(10) # <получение последних 10 строк таблицы df>

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [5]:
df.sample(10) # <получение 10 случайных строк таблицы df>

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19402,1,-2895.75842,31,среднее,1,женат / замужем,0,M,сотрудник,0,299775.483102,заняться образованием
4987,1,-6482.416723,39,среднее,1,Не женат / не замужем,4,F,сотрудник,0,104693.203283,операции с жильем
184,0,369682.222715,57,высшее,0,женат / замужем,0,M,пенсионер,0,141337.867042,покупка жилья для сдачи
954,0,370949.642361,58,среднее,1,женат / замужем,0,F,пенсионер,0,163950.685224,ремонт жилью
13568,1,-1236.181937,32,высшее,0,Не женат / не замужем,4,M,сотрудник,0,204721.388992,покупка своего жилья
7260,1,389658.24506,62,высшее,0,женат / замужем,0,F,пенсионер,0,143939.04316,автомобили
9299,0,-793.490783,42,среднее,1,гражданский брак,1,F,компаньон,1,116843.259675,сделка с автомобилем
6869,0,-12747.577578,58,среднее,1,женат / замужем,0,M,сотрудник,0,60012.415522,покупка недвижимости
12379,0,-1122.156485,54,среднее,1,Не женат / не замужем,4,M,сотрудник,1,109582.955278,получение дополнительного образования
7546,0,-3400.540011,25,среднее,1,гражданский брак,1,M,сотрудник,0,126286.057996,сыграть свадьбу


Отрицательные и несоответствующие действительности значения в столбце 'days_employed' свидетельствуют о системных технических ошибках заполнения, а значения разного региста в столбце 'education' об ошибках заполнения связанных с человеческим фактором.
Необходимо связаться с колегами с проcьбой разобраться с причиной некачественных данных.

In [6]:
df.describe() # <используем метод .describe() для предварительной оценки числовых данных в таблице df>

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [7]:
df.info() # <получение общей информации о данных в таблице df>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Всего в табилце 12 столбцов (2 типа float64, 5 типа int64 и 5 типа object).

Подробно разберём, какие в *df* столбцы и какую информацию они содержат:

* children — количество детей в семье;
* days_employed — трудовой стаж в днях;  
* dob_days — возраст клиента в годах;
* education — образование клиента;
* education_id — идентификатор образования;
* family_status — семейное положение;
* family_status_id — идентификатор семейного положения;
* gender — пол клиента;
* income_type — тип занятости;
* debt — имел ли задолженность по возврату кредитов;
* total_income — доход в месяц;
* purpose — цель получения кредита.

Количество значений в столбцах различается. Это говорит о том, что в данных есть нулевые значения. 

**Выводы**

Каждая строка таблицы содержит информацию о количестве детей в семье клиента, его трудовом стаже, возрасте, образовании, семейном положении, поле, типе занятости, наличие задолжности по возврату кредитов, доходе и цели получения кредита.

В столбцах *days_employed* и *education* есть ошибки заполнения требующие решения, но не влияющие на задачи проекта.  

Три проблемы которые нужно решить: пропуски, дубликаты, замену в значениях вещественного типа данных на целочисленный. 

Для проверки рабочих гипотез особенно ценны столбцы *children*, *family_status_id* и *debt*.

## Шаг 2. Предобработка данных:

Сгрупируем данные по типу занятости и посмотри на минимальные, максимальные и медианные значения соответствующих столбцов.

In [8]:
df.groupby('income_type')['children','days_employed','dob_years','education_id','family_status_id','debt','total_income'].min()
# <группировка по столбцу *income_type* и вычисление минимальных значений по соответствующим столбцам>

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
безработный,0,337524.466835,31,0,0,0,59956.991984
в декрете,2,-3296.759962,39,1,0,1,53829.130729
госслужащий,-1,-15193.032201,0,0,0,0,29200.077193
компаньон,-1,-17615.563266,0,0,0,0,28702.812889
пенсионер,-1,328728.720605,0,0,0,0,20667.263793
предприниматель,0,-520.848083,27,0,0,0,499163.144947
сотрудник,-1,-18388.949901,0,0,0,0,21367.648356
студент,0,-578.751554,22,0,4,0,98201.625314


In [9]:
df.groupby('income_type')['children','days_employed','dob_years','education_id','family_status_id','debt','total_income'].max()
# <группировка по столбцу *income_type* и вычисление максимальных значений по соответствующим столбцам>

Unnamed: 0_level_0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
безработный,1,395302.838654,45,1,1,1,202722.5
в декрете,2,-3296.759962,39,1,0,1,53829.13
госслужащий,20,-39.95417,75,4,4,1,910451.5
компаньон,20,-30.195337,74,3,4,1,2265604.0
пенсионер,20,401755.400475,74,4,4,1,735103.3
предприниматель,0,-520.848083,58,0,1,0,499163.1
сотрудник,20,-24.141633,74,4,4,1,1726276.0
студент,0,-578.751554,22,0,4,0,98201.63


In [10]:
df.groupby('income_type')['children','days_employed','dob_years','total_income'].median()
# <группировка по столбцу *income_type* и вычисление медианных значений по соответствующим столбцам>

Unnamed: 0_level_0,children,days_employed,dob_years,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
безработный,0.5,366413.652744,38.0,131339.751676
в декрете,2.0,-3296.759962,39.0,53829.130729
госслужащий,0.0,-2689.368353,40.0,150447.935283
компаньон,0.0,-1547.382223,39.0,172357.950966
пенсионер,0.0,365213.306266,60.0,118514.486412
предприниматель,0.0,-520.848083,42.5,499163.144947
сотрудник,0.0,-1574.202821,39.0,142594.396847
студент,0.0,-578.751554,22.0,98201.625314


Отлицательные значения в стоблцах children и days_employed недопустимы.

### Определение и заполнение пропущенных значений

In [11]:
df.columns # <перечень названий столбцов таблицы df>

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

В названиях столбцов нет проблем для доступа к данным.

In [12]:
df['days_employed'] = abs(df['days_employed']) # <преобразование значений столбца 'days_employed' к абсолютным значеням >
df['children'] = abs(df['children']) # <преобразование значений столбца 'children' к абсолютным значеням >

Перевод значений столбцов *days_employed* и *children* к абсолютным делает данные более читаемыми и поможет избежать ошибок. Это преобразование необходимо согласовать с поставщиком данных. Так как на лицо явная техническая ошибка данных.

In [13]:
# НАСТАВНИК: вот так наглядно видно, что значения зависят от income_type
# когда они в разных таблицах, всё-таки это не так очевидно
df.groupby('income_type').agg({'days_employed': [min, max, "median"], 'total_income': [min, max, "median"]})

Unnamed: 0_level_0,days_employed,days_employed,days_employed,total_income,total_income,total_income
Unnamed: 0_level_1,min,max,median,min,max,median
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
безработный,337524.466835,395302.838654,366413.652744,59956.991984,202722.5,131339.751676
в декрете,3296.759962,3296.759962,3296.759962,53829.130729,53829.13,53829.130729
госслужащий,39.95417,15193.032201,2689.368353,29200.077193,910451.5,150447.935283
компаньон,30.195337,17615.563266,1547.382223,28702.812889,2265604.0,172357.950966
пенсионер,328728.720605,401755.400475,365213.306266,20667.263793,735103.3,118514.486412
предприниматель,520.848083,520.848083,520.848083,499163.144947,499163.1,499163.144947
сотрудник,24.141633,18388.949901,1574.202821,21367.648356,1726276.0,142594.396847
студент,578.751554,578.751554,578.751554,98201.625314,98201.63,98201.625314


In [14]:
df.isnull().sum() # <суммарное количество пропусков, выявленных методом .isnull() в таблице df>

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Обнаружены NaN значения в столбцах *days_employed* и *total_income* . Они имеют технический характер происхождения. Так как связаны с вичислениями. 

In [15]:
days_employed_median = df['days_employed'].median() # <вычесление значения мдианы столбца значений days_employed и его запись>
total_income_median = df['total_income'].median() # <вычесление значения мдианы столбца значений total_income и его запись>
df['days_employed'] = df['days_employed'].fillna(days_employed_median) 
# <замена пропущенных значений в столбце 'days_employed' на значение медианы days_employed_median специальным методом замены> 
df['total_income'] = df['total_income'].fillna(total_income_median)
# <замена пропущенных значений в столбце 'total_income' на значение медианы total_income_median специальным методом замены>

In [16]:
df_income_type = df.groupby('income_type')['income_type','total_income'].median() # <группировка по колонке income_type
# столбцов income_type и total_income и сохранение полученной таблицы в df_income_type>

In [17]:
df_income_type # <вывод df_income_type>

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
безработный,131339.751676
в декрете,53829.130729
госслужащий,145017.937533
компаньон,162401.351555
пенсионер,128747.67557
предприниматель,322090.54124
сотрудник,145017.937533
студент,98201.625314


In [18]:
# НАСТАВНИК: вот так можно увидеть, что всё-таки минимум у предпринимателей поехал
print(total_income_median)
df.groupby('income_type').agg({'total_income': [min, max, "median"]})

145017.93753253992


Unnamed: 0_level_0,total_income,total_income,total_income
Unnamed: 0_level_1,min,max,median
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,59956.991984,202722.5,131339.751676
в декрете,53829.130729,53829.13,53829.130729
госслужащий,29200.077193,910451.5,145017.937533
компаньон,28702.812889,2265604.0,162401.351555
пенсионер,20667.263793,735103.3,128747.67557
предприниматель,145017.937533,499163.1,322090.54124
сотрудник,21367.648356,1726276.0,145017.937533
студент,98201.625314,98201.63,98201.625314


Для избежания потери ценных данных для проекта в столбцах *days_employed* и *total_income* заменены пустые значения на 0 без удаления соответствующих строк.      

In [19]:
df.isnull().sum() # <проверка: вычисление суммарного количества пропусков, выявленных в таблице df>

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Замена вещественного типа данных на целочисленный

In [20]:
df['days_employed'] = df['days_employed'].astype('int') 
# <замена вещественного типа данных в столбце 'days_employed' на целочисленный специальным методом замены типа данных>
df['total_income'] = df['total_income'].astype('int') 
# <замена вещественного типа данных в столбце 'days_employed' на целочисленный специальным методом замены типа данных>

Столбцы *days_employed* и *total_income* записаны как вещественные числа в формате *float64*. Используем метод *.astype()* с значением *int* для переобразования вещественных значений в целочисленные в формате *int64*

In [21]:
df.info() # <проверка типов данных>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Удаление дубликатов

In [22]:
df['education'] = df['education'].str.lower() # <преобразование значений столбца 'education' в нижний регистр>

Перевод значений в нижний регистр необходим для корректной работы методов *.duplicated()* *.drop_duplicates()* чувствительных к регистру.

In [23]:
df.duplicated().sum() # <получение суммарного количества дубликатов в таблице df>

71

In [24]:
df = df.drop_duplicates().reset_index(drop=True) # <удаление всех дубликатов из таблицы df специальным методом>

In [25]:
df.duplicated().sum() # <проверка на отсутствие>

0

Появление дубликатов имеет техническое происхождение. Это может быть связанно с ошибками перезаписи данных или же ошибок склеивания таблиц.

### Выделение леммы в значениях столбца с целями получения кредита

In [26]:
from pymystem3 import Mystem # <импорт библиотеки pymystem3 pandas c функцией лемматизации на русском языке>
m = Mystem()
uni = df['purpose'].unique()
lemm = [] 
for row in uni:
    lemm += m.lemmatize(row)  
    
from collections import Counter
print(Counter(lemm))  
df['purpose_lemma'] = df['purpose'].apply(m.lemmatize) # <применим функцию лемматизации к столбцу 'purpose' с помощью метода .apply() и запишем полученные значения в столбец 'purpose_lemma'>   

Counter({' ': 59, '\n': 38, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'подержать': 1, 'со': 1, 'подержанный': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1})


In [27]:
df['purpose'].value_counts() # <получим список количества уникальных значений колонки purpose с помощью метода .value_counts()>

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [28]:
df['purpose_lemma'].value_counts() 
# <получим список количества уникальных значений колонки purpose_lemma с помощью метода .value_counts()>

[автомобиль, \n]                                          972
[свадьба, \n]                                             791
[на,  , проведение,  , свадьба, \n]                       768
[сыграть,  , свадьба, \n]                                 765
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           661
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 651
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строительство,  , собственный,  , недвижимость, \n]      635
[недвижимость, \n]                                        633
[операция,  , со,  , свой,  , недвижимость, \n]           627
[строительство,  , жилой,  , недвижимость, \n]            624
[покупка

Создав отдельный столбец с леммами целей кредитов мы тем самым упростим дальнейшую работу в категоризацей данных и решения наших задач проекта.

### Категоризация данных

Проанализировав уникальные леммы целей кредита делаем вывод, что все цели можно разбить на четыре основных категории:
1. Недвижимость (жилье)
2. Автомобиль
3. Образование
4. Свадьба

Эти категории отражают примерный размер кредита исходя из стоимости того или иного товара или услуги.

In [29]:
def category(purpose_lemma): # <функция которая выдает название категории исходя из значения леммы>
    if 'автомобиль' in purpose_lemma:
        return 'автомобиль'
    if 'образование' in purpose_lemma:
        return 'образование'
    if 'свадьба' in purpose_lemma:
        return 'свадьба'
    return 'недвижимость'
df['purpose_category'] = df['purpose_lemma'].apply(category) # <применение метода .apply() для использования функции category к столбцу 'purpose_lemma'>
# <и записи результата в новый столбец 'purpose_category'> 

In [30]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",недвижимость


# Задание 2. Описание выводов.

## Шаг 1. Ответы на вопросы:

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [32]:
df_log = df[['children', 'debt','dob_years']] # <группировка по двум столбцам для анализа>
df_log.head(1)

Unnamed: 0,children,debt,dob_years
0,1,0,42


In [33]:
data_children_pivot = df_log.pivot_table(index='children', columns='debt', values='dob_years', aggfunc='count')
# <создадим сводную таблицу data_children_pivot по количеству детей колонки children и оплаты долга debt 
# и посчитаем значения оплаты долга относительно количества детей>

In [34]:
data_children_pivot['ratio_debt'] = (data_children_pivot[1]/(data_children_pivot[1]+data_children_pivot[0])).map('{:.2%}'.format)
# <добавим к таблице колонку ratio_debt отражающую процент клиентов не оплативших кредит вовремя>

In [35]:
data_children_pivot['all'] = data_children_pivot[1]+data_children_pivot[0] 
# <добавим к таблице data_children_pivot колонку all, отражающую количество людей без детей или с определенным их количестовм>

In [36]:
data_children_pivot = data_children_pivot.dropna() 
# <удалим строки содержищие пустые значения для наглядности полученных результатов>

In [37]:
data_children_pivot # <вывод полученной таблицы>

debt,0,1,ratio_debt,all
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13028.0,1063.0,7.54%,14091.0
1,4410.0,445.0,9.17%,4855.0
2,1858.0,194.0,9.45%,2052.0
3,303.0,27.0,8.18%,330.0
4,37.0,4.0,9.76%,41.0
20,68.0,8.0,10.53%,76.0


#### Вывод

Исходя из полученных данных доля клиентов не оплативших кредит в срок имеющих детей незначительно выше доли клиентов не оплативших кредит в срок без детей. 
Это говорит о том, что наличие детей и сопутствующих с ними трат незначительно влияет на вероятность выплат по кридиту в срок.

In [38]:
data_children_info = df_log.groupby("children")["debt"].agg(["count","sum", "mean"])
data_children_info["mean"] = data_children_info["mean"].map('{:.2%}'.format)
data_children_info.columns = ["all", "with_dept", "with_debt_ratio"]
data_children_info

Unnamed: 0_level_0,all,with_dept,with_debt_ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54%
1,4855,445,9.17%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%
20,76,8,10.53%


### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [41]:
df_family_status = df[['family_status','family_status_id', 'debt']] # <формирование таблицы ысо столбцами 'family_status', 'family_status_id' и 'debt'>
df_family_status.head(10)

Unnamed: 0,family_status,family_status_id,debt
0,женат / замужем,0,0
1,женат / замужем,0,0
2,женат / замужем,0,0
3,женат / замужем,0,0
4,гражданский брак,1,0
5,гражданский брак,1,0
6,женат / замужем,0,0
7,женат / замужем,0,0
8,гражданский брак,1,0
9,женат / замужем,0,0


In [42]:
data_fam_pivot = df_family_status.pivot_table(index='family_status', columns='debt', values='family_status_id', aggfunc='count')
# <формирование сводной таблицы по колонке family_status и debt, посчитав значения в соответствующих графах>

In [43]:
data_fam_pivot['ratio_debt'] = (data_fam_pivot[1]/(data_fam_pivot[1] + data_fam_pivot[0])).map('{:.2%}'.format)
# <добавим колонку ratio_debt, отрожающую процентное количество клиентов не оплатвших кредит в срок>

In [44]:
data_fam_pivot['all'] = data_fam_pivot[1] + data_fam_pivot[0]
# <добавим колонку all отражающую общее количество клиентов по каждому семейному положению>

In [45]:
data_fam_pivot # <вывод полученной таблицы>

debt,0,1,ratio_debt,all
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,2536,274,9.75%,2810
в разводе,1110,85,7.11%,1195
вдовец / вдова,896,63,6.57%,959
гражданский брак,3763,388,9.35%,4151
женат / замужем,11408,931,7.55%,12339


#### Вывод

Исходя из полученных данных семейное положение клиента незначитально влияет на его оплату кредита в срок. Но вероятность оплаты кредита в срок всеже немного выше у зумужных / женатых клиентов. Это может быть связано с большей социальной ответственностью семейных людей по сравнению с людми не женатыми / не замужными.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [46]:
df_income = df[['income_type','total_income','debt']] # <формирование таблицы со столбцами 'total_income' и 'debt'>
df_income.head(1)

Unnamed: 0,income_type,total_income,debt
0,сотрудник,253875,0


In [47]:
data_income_pivot = df_income.pivot_table(index='income_type', columns='debt', values='total_income', aggfunc='count')
# <сформеруем сводную таблицу data_income_pivot отражающую деятельность клиентов income_type и выплату кредита в срок debt
# и посчитаем количество значений по соответсвующим колонкам>

In [48]:
data_income_pivot['ratio_debt'] = (data_income_pivot[1] / (data_income_pivot[1] + data_income_pivot[0])).map('{:.2%}'.format)
# <добавим колонку ratio_debt для отображения процента клиентов не оплативших кредит в срок>

In [49]:
data_income_pivot['all'] = data_income_pivot[1] + data_income_pivot[0]
# <добавим колонку all отражающую общее количество клиентов по категориям столбца income_type>

In [50]:
data_income_pivot # <вывод таблицы data_income_pivot>

debt,0,1,ratio_debt,all
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
безработный,1.0,1.0,50.00%,2.0
в декрете,,1.0,nan%,
госслужащий,1371.0,86.0,5.90%,1457.0
компаньон,4702.0,376.0,7.40%,5078.0
пенсионер,3613.0,216.0,5.64%,3829.0
предприниматель,2.0,,nan%,
сотрудник,10023.0,1061.0,9.57%,11084.0
студент,1.0,,nan%,


In [51]:
df_income_type 
# <вывод таблицы отражающей медианные значения среднемесячного дохода total_income по каждой категории income_type>

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
безработный,131339.751676
в декрете,53829.130729
госслужащий,145017.937533
компаньон,162401.351555
пенсионер,128747.67557
предприниматель,322090.54124
сотрудник,145017.937533
студент,98201.625314


In [52]:
data_income_pivot['total_income'] = df_income_type['total_income'] 
# <заменим колонку total_income в сводной таблице data_income_pivot>

In [53]:
data_income_pivot

debt,0,1,ratio_debt,all,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
безработный,1.0,1.0,50.00%,2.0,131339.751676
в декрете,,1.0,nan%,,53829.130729
госслужащий,1371.0,86.0,5.90%,1457.0,145017.937533
компаньон,4702.0,376.0,7.40%,5078.0,162401.351555
пенсионер,3613.0,216.0,5.64%,3829.0,128747.67557
предприниматель,2.0,,nan%,,322090.54124
сотрудник,10023.0,1061.0,9.57%,11084.0,145017.937533
студент,1.0,,nan%,,98201.625314


In [54]:
data_income_pivot = data_income_pivot.dropna() # <удалим строки с пустыми значениями>

In [55]:
data_income_pivot # <вывод итоговой таблицы>

debt,0,1,ratio_debt,all,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
безработный,1.0,1.0,50.00%,2.0,131339.751676
госслужащий,1371.0,86.0,5.90%,1457.0,145017.937533
компаньон,4702.0,376.0,7.40%,5078.0,162401.351555
пенсионер,3613.0,216.0,5.64%,3829.0,128747.67557
сотрудник,10023.0,1061.0,9.57%,11084.0,145017.937533


Критерием оценки исходя из финансового положения клиента примем значение медианы дохода клиентов. 

### Как разные цели кредита влияют на его возврат в срок?

In [56]:
df_purpose = df[['purpose_category', 'debt','gender']] # <формирование таблицы с колонками purpose_category и debt> 
df_purpose.head(1)

Unnamed: 0,purpose_category,debt,gender
0,недвижимость,0,F


In [57]:
data_purpose_pivot = df_purpose.pivot_table(index='purpose_category', columns='debt', values='gender', aggfunc='count')
# <сформируем сводную таблицу data_purpose_pivot по основным целям кредита и задолжности>

In [58]:
data_purpose_pivot['ratio_debt'] = (data_purpose_pivot[1] / (data_purpose_pivot[1] + data_purpose_pivot[0])).map('{:.2%}'.format)
# <добавим колонку ratio_debt для отображения процента клиентов не оплативших кредит в срок>

In [59]:
data_purpose_pivot['all'] = data_purpose_pivot[1] + data_purpose_pivot[0]
# <добавим колонку all отражающую общее количество клиентов по категориям столбца purpose_category>

In [60]:
data_purpose_pivot # <вывод итоговой таблицы>

debt,0,1,ratio_debt,all
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,3903,403,9.36%,4306
недвижимость,10029,782,7.23%,10811
образование,3643,370,9.22%,4013
свадьба,2138,186,8.00%,2324


#### Вывод

Исходя из полученной статистики не выплат кредита в срок по целям можно сделать следующие выводы. Количество клиентов не выплативших в срок кредит колеблится незначительно. Клиенты которые брали кредит на автомобили и образование немного в большем количестве не выплатили его в срок, чем клиенты которые брали кридиты на недвижемость и свадьбу. Эти данные могут говорить о том, что в большенстве случаем клиенты которые собираються обзаводиться семьей или покупать недвижемость дял семьи более отвественно подходят к обязательствам перед банком. Так же мы видим кто минимальное количество невыплат кредита в срок идет по цели недвижемость. В большенстве случаев покупка недвижемости это серьезный шаг для клиетов и как следствие более серьезное отношение к обязательствам перед банком и понимание того что штрафные санкции банка после невыплат значительно больше чем по другим целям.

### Выводы по проекту

#### Решаемая задача:

Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок. 
Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты проекта будут учтены при построении модели кредитного скоринга.

#### Предобработка данных:

1. Отрицательные числовые значения значения были заменены на их абсолютные
2. Пропущенные числовые значения заменены на медианные
3. Все числовые значения преведены к целочисленному типу данных
4. Строки приведены к нижнему регистру
5. Произведено удаление дубликатов
6. Произведена леммитизация и категоризация целей кредитов

#### Выявленные проблемы в полученных данных:

Некоторые числа имели отрицательные значения, были веществвенными или же были пустыми. Это могло привести к некорректной оценки значений при анализе и удалении дубликатов.
Строковые данные были разных регистров, что в свою очередь могло превести к не полному удалению дубликатов.
Большая деффиринциация целей кредита тоже могла создать сложности при анализе данных.

#### На основании проведенного анализа оветим на следующие вопросы:

* **Есть ли зависимость между наличием детей и возвратом кредита в срок?**

Количество клиентов с детьми не выплативших вовремя кредит немного больше, чем у клиентов без детей. Это может быть связанно с непдесказуемыми финасовыми затратами на ребенка(детей) и как следсвие возрастание риска невыплатить кредит вовремя.

##### Зависимость не выплат клиентом кредита срок от количества детей

In [61]:
data_children_pivot.drop([0, 1], axis='columns')

debt,ratio_debt,all
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,7.54%,14091.0
1,9.17%,4855.0
2,9.45%,2052.0
3,8.18%,330.0
4,9.76%,41.0
20,10.53%,76.0


* **Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Количество замужных / женатых клиентов не выплативших кредит вовремя немного меньше, чем клиентов не заключенных в симейные узы. Клиенты заключившие брак более социально ответственные и как следсвие с большей долей вероятности выполнят обязательства перед банком.

##### Зависимость не выплат клиентом кредита в срок от семейного положения

In [62]:
data_fam_pivot.drop([0, 1], axis='columns')

debt,ratio_debt,all
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,9.75%,2810
в разводе,7.11%,1195
вдовец / вдова,6.57%,959
гражданский брак,9.35%,4151
женат / замужем,7.55%,12339


* **Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Клиенты с уровнем дохода выше среднего выполняют свои обязательства перед банком немного чаще, чем клиенты с уровнем дохода ниже среднего. Высокий уровень ежемесячного дохода позволяет клиентам сохрянять большую финансовую подушку безопасности, чем у клиентов с доходом ниже среднего, а так же выполнять обязательства перед банком даже при незапланированных финансовых тратах.

##### Зависемость не выплат клиентом кредита в срок от среднего значения среднемесячного дохода по категориям занятости

In [63]:
data_income_pivot.drop([0, 1], axis='columns')

debt,ratio_debt,all,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
безработный,50.00%,2.0,131339.751676
госслужащий,5.90%,1457.0,145017.937533
компаньон,7.40%,5078.0,162401.351555
пенсионер,5.64%,3829.0,128747.67557
сотрудник,9.57%,11084.0,145017.937533


* **Как разные цели кредита влияют на его возврат в срок?**

Клиенты целью кредита у которых является недвижемость чаще остальных выполняют платежные обязательства по креду вовремя, клиенты целью же готорых являються автомобиль или же образование немного чаще не выполняют требования по оплате кредита. Кредиты на недвижемость обычно взвешенно оцениваються клиентом так как являються довольно дорогостоящим мероприятием и связанны иногда с семейными парами. Кредиты на свадьбы менее дорогостоющие, чем недвижемость и связанны с семейными парами. Такие же кредиты имеющие цели покупки автомобиля или получение образования связанны с клиентами меньшей социальной ответственностью и имееют болле высокие шансы быть невыплаченными вовремя.

##### Зависемость не выплат клиентом кредита в срок от цели кредита  

In [64]:
data_purpose_pivot.drop([0, 1], axis='columns')

debt,ratio_debt,all
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,9.36%,4306
недвижимость,7.23%,10811
образование,9.22%,4013
свадьба,8.00%,2324


**Общие результаты**

Наиболее надежными являються клиенты пенсионеры и госслужещие состоящие в браке и не имеющее детей и целью кредита которых является недвижемость. 
А наименее надежными являються клиенты сотрудники, не состоящие в браке, имеющие детей и целью которых является покупка автомобиля или же получение образования.