## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Изучение общей информации. 

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data[data['days_employed'].isnull()].count()

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64

пропущенные значения days_employed и total_income находятся в одних и тех же строках

In [4]:
print('Уникальные значения столбца "education":', data['education'].unique())
print()
print('Уникальные значения столбца "family_status":', data['family_status'].unique())
print()
print('Уникальные значения столбца "gender":', data['gender'].unique())
print()
print('Уникальные значения столбца "income_type":', data['income_type'].unique())
print()
print('Уникальные значения столбца "purpose":', data['purpose'].unique())

Уникальные значения столбца "education": ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']

Уникальные значения столбца "family_status": ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']

Уникальные значения столбца "gender": ['F' 'M' 'XNA']

Уникальные значения столбца "income_type": ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']

Уникальные значения столбца "purpose": ['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на пок

In [5]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [6]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

### Вывод

- в таблице 21525 строк
- пропуски есть только в значениях days_employed и total_income и эти пропуски в одних и тех же строках
- в столбце education есть повторы, записанные в разных регистрах
- в столбце gender есть лишшнее значение (пола всего два)
- в столбце purpose есть схожие значения, которые можно объединить
- столбец days_employed, указывающий стаж в дняж, имеет непонятный формат (огромный стаж для пенсионеров и безработных и отрицательный для всех остальных)  
- количество детей "-1" - очевидная ошибка, скорее всего 1, "20" - видимо, болше 5
- возраст "0" - тоже ошибка (видимо, не заполнено поле в анкете)


### Шаг 2. Предобработка данных

### Обработка пропусков

In [7]:
living_area income_type_list = data['income_type'].unique()

for type in income_type_list:         
    income_median = data[data['income_type'] == type]['total_income'].median()
    days_employed_median = data[data['income_type'] == type]['days_employed'].median()
    data.loc[data['income_type'] == type, 'total_income'] = data.loc[data['income_type'] == type, 'total_income'].fillna(income_median)
    data.loc[data['income_type'] == type, 'days_employed'] = data.loc[data['income_type'] == type, 'days_employed'].fillna(days_employed_median)

data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [8]:
data['children'] = data['children'].replace(-1, 1)                 
data['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Исправляем отрицательные значения кол-ва детей

### Вывод

Пропущены значения в столюцах days_employed и total_income. Возможные причины - отказ сообщать сведения, отсутствие подтверждающих документов, ошибка оператора (маловероятно).  
Пропуски заполнены медианными значениями по каждому типу занятости

### Замена типа данных

In [9]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')  
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


 Вывод

Заменяем тип данных float64 на int64 методом .astype() - его можно применить ко всему столбцу

### Обработка дубликатов

In [10]:
data['education'] = data['education'].str.lower()
print(data['education'].value_counts())
print(data.duplicated().sum())
data = data.drop_duplicates().reset_index(drop=True)
print(data.duplicated().sum())

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64
71
0


### Вывод

Переведем значения столбца 'education' в нижний регистр. Количество уникальных значений сразу уменьшилось.  Заодно приведем в порядок столбец 'family_status' (там одно из значений было написано с большой буквы).  
Удаляем строки-дубликаты методом .drop_duplicates(). Проверяем.  
Возможные причины возникновения дубликатов - технический сбой, повторные загрузки анкет, повторные обращения за кредитом.

### Лемматизация

In [11]:
from pymystem3 import Mystem
m = Mystem()
lemma_values = ['жилье', 'автомобиль', 'образование', 'свадьба', 'недвижимость']
for lemma in lemma_values:
    for i in range(len(data)):
        lemmas = m.lemmatize(data.loc[i,'purpose'])
        if lemma in lemmas:
           data.loc[i,'purpose'] = lemma 
data['purpose'] = data['purpose'].replace('жилье', 'недвижимость')        
data['purpose'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose, dtype: int64

### Вывод

Из уникальных значений столбца purpose выделим 5 основных значений. В цикле по строкам таблицы лемматизируем каждое значение столбца  и присваиваем ячейке новое значение из наружного цикла по основным значениям.  
Жилье и недвижимость - не всегда одно и то же, но в данном контексте их можно объединить.  
Проверяем. Весь столбец заполнен четырьмя основными значениями.

### Категоризация данных

In [12]:
education_dict = data[['education', 'education_id']]
family_dict = data[['family_status', 'family_status_id']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
family_dict = family_dict.drop_duplicates().reset_index(drop=True)
print(family_dict)
print()
print(education_dict)

           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  Не женат / не замужем                 4

             education  education_id
0               высшее             0
1              среднее             1
2  неоконченное высшее             2
3            начальное             3
4       ученая степень             4


### Вывод

Созданы 2 словаря для значений семейного положения и образования, т.к они имеют идентификаторы. В дальнейшем столбцы с этими значениями можно будет удалить, оставив только столбцы с их id и словари.  
Категоризация требуется для суммы дохода, это сделано ниже с помощью функции cut().

### Шаг 3. Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [13]:
data.groupby('children')['debt'].agg(['mean', 'count'])

Unnamed: 0_level_0,mean,count
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.075438,14091
1,0.091658,4855
2,0.094542,2052
3,0.081818,330
4,0.097561,41
5,0.0,9
20,0.105263,76


### Вывод

При наличии в столбце (debt) только нулей и единиц среднее значение - это и есть доля единиц.  Бездетные люди чуть меньше склонны к просрочке по кредиту. Видимо, наличие детей чаще предполагает незапланированные траты. Среди родителей 5-ти детей всего 9 человек - слишком маленькая выборка.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [14]:
data.groupby('family_status')['debt'].agg(['mean', 'count'])

Unnamed: 0_level_0,mean,count
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,0.097509,2810
в разводе,0.07113,1195
вдовец / вдова,0.065693,959
гражданский брак,0.093471,4151
женат / замужем,0.075452,12339


### Вывод

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [15]:
data['total_income_bin'] = pd.cut(data['total_income'],[20000,50000,100000,150000,200000,300000, 500000, 1000000, 2000000, 5000000])
data.groupby('total_income_bin')['debt'].agg(['mean', 'count'])

Unnamed: 0_level_0,mean,count
total_income_bin,Unnamed: 1_level_1,Unnamed: 2_level_1
"(20000, 50000]",0.061828,372
"(50000, 100000]",0.080909,4091
"(100000, 150000]",0.087151,7160
"(150000, 200000]",0.085013,4764
"(200000, 300000]",0.070312,3584
"(300000, 500000]",0.072958,1261
"(500000, 1000000]",0.060914,197
"(1000000, 2000000]",0.043478,23
"(2000000, 5000000]",0.5,2


### Вывод

Раpобъем сумиу дохода на интервалы с помощью функции cut().  
Больше всего просрочек у людей с доходами от 50 000р. до 200 000р. Люди с более высоким уровнем дохода реже допускают просрочку платежа. Люди с низкими доходами также платят аккуратнее. Отдельно стоит группа с доходами >2000000, но там очень маленькая выборка (просрочил платеж 1 человек из 2-х)

- Как разные цели кредита влияют на его возврат в срок?

In [16]:
data.groupby('purpose')['debt'].agg(['mean', 'count'])

Unnamed: 0_level_0,mean,count
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,0.09359,4306
недвижимость,0.072334,10811
образование,0.0922,4013
свадьба,0.080034,2324


### Вывод

Наименьший процент просрочки по кредиту - по операциям с недвижисостью, наибольший процент просрочки по кредитам на автомобили и образование. Видимо, угроза потери недвижимости дисциплинирует сильнее всего.

### Шаг 4. Общий вывод

Итак, лучшие заемщики - это семейные пары без детей, имеющие высокий уровень дохода и приобретающие недвижимость.  
К просрочкам склонны заемщики с детьми со средним уровнем дохода, покупаюшие автомобиль или желающие получить кредит на образование.