# Исследование надежности заемщиков.

Задача данного проекта – разобраться, влияет ли количество детей и семейное положение на факт погашения кредита в срок. В качестве данных для исследования мы используем статистику о платёжеспособности клиентов банка заказчика.

### Шаг 1. Обзор данных

In [3]:
# открываем фаил csv
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
display(df)
#пользуюсь display(), считаю что втаком виде визуально таблица выглядит лучше

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


### Шаг 2.1 Заполнение пропусков

In [4]:
# выводим информацию о таблице
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Описание данных :   
·	children — количество детей в семье  
·	days_employed — общий трудовой стаж в днях  
·	dob_years — возраст клиента в годах  
·	education — уровень образования клиента  
·	education_id — идентификатор уровня образования  
·	family_status — семейное положение  
·	family_status_id — идентификатор семейного положения  
·	gender — пол клиента  
·	income_type — тип занятости  
·	debt — имел ли задолженность по возврату кредитов  
·	total_income — ежемесячный доход  
·	purpose — цель получения кредита   

Из общей информации данных видно, что в столбцах days_employed и total_income есть пропуски, которые нужно устранить и объяснить причину их появления.  Больше всего нас интересуют столбцы с показателями количества детей в семье, семейное положение, доход и наличие задолженностей по кредиту.

In [5]:
# определяем колличество пропусков
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
# Применим функцию и посчитаем пропуски в процентах
count_df = 0
total_count=0
wrong_days_employed = 0
wrong_total_income = 0
for row in df['days_employed']:
    try:
        count_df+=1
        count_nan = int(row)
        total_count += count_nan
    except:
        wrong_days_employed+=1
        
for row in df['total_income']:
    try:
        count_nan = int(row)
        total_count += count_nan
    except:
        wrong_total_income+=1        
print('Общее количество сторок:',count_df)
print('Количество пропусков в столбце days_employed:',wrong_days_employed) 
print('Количество пропусков в столбце total_income :',wrong_total_income)
print(wrong_days_employed/count_df*100,'%')      
        

Общее количество сторок: 21525
Количество пропусков в столбце days_employed: 2174
Количество пропусков в столбце total_income : 2174
10.099883855981417 %


Вывод:
1.В колонках days_employed(общий трудовой стаж в днях) и total_income ( ежемесячный доход) есть пропущенные значения.   

2.Общее количество значений в каждом столбце равно 21525 , пропущенных значений в колонках days_employed(общий трудовой стаж в днях) и total_income ( ежемесячный доход) одинаково равно 2174. Что составляет 10% от общего числа значений в колонках.  

3.Предположим, что пропуски в этих количественных данных произошли в результате не корректной выгрузки.   






### Шаг 2.2 Проверка данных на аномалии и исправления.

In [7]:
#Проверка аномалий 
for row in df: 
    print(df[row].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
-986.927316     1
-7026.359174    1
-4236.274243    1
-6620.396473    1
-1238.560080    1
               ..
-2849.351119    1
-5619.328204    1
-448.829898     1
-1687.038672    1
-582.538413     1
Name: days_employed, Length: 19351, dtype: int64
35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64
среднее   

Изучив уникальные значения столбцов, можно сделать вывод:  
*столбец children  значение -1 и 20. Поменять на 1 и 2   
*столбец days_employed пропуски.Значения отрицательные и положительные, адекватной корректировке не подаются, для исследования не   имеют ценности.Столбец можно удалить.  
*столбец dob_years нулевое значение. Удаляем значение.  
*столбец education дубликаты названий, значения в разных регистрах.Приводим к единому регистру.  
*столбец gender есть пропущенные данные. Строка одна, удаляем.  
*столбец total_income пропущенные значения.Меняем на медианну т.к. оно более стабильно.  
*столбец purpose похожие по смыслу значения.Групперуем.   
Причины появления таких данных различны: опечатки, разный способ внесения значений,ошибка при выгрузке данных.  

In [8]:
#Исправляем данные в столбеце children, меняем значение -1 на 1 и 20 на 2
df['children'] = df['children'].replace(20, 2)
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].fillna(0)
display(df['children'])

0        1
1        1
2        0
3        3
4        0
        ..
21520    1
21521    0
21522    1
21523    3
21524    2
Name: children, Length: 21525, dtype: int64

In [9]:
# Удаляем столбец days_employed
df = df.drop(['days_employed'], axis = 1)

Непойму почему удалённый столбец появляется вновь?

In [10]:
# Исправляем столбец dob_years
df = df.drop(df[df['dob_years']==0].index)
#проверяем
df['dob_years'].min()

19

In [11]:
#удаляем одно не верное значение в столбце gender
df = df.drop(df[df['gender']== 'XNA'].index)
#проверяем
df['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

### Шаг 2.3. Изменение типов данных.

In [12]:
# Заполняем медианным значение пропуски в столбце total_income
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform('median'))
display(df['total_income'])

0        253875.639453
1        112080.014102
2        145885.952297
3        267628.550329
4        158616.077870
             ...      
21520    224791.862382
21521    155999.806512
21522     89672.561153
21523    244093.050500
21524     82047.418899
Name: total_income, Length: 21423, dtype: float64

In [13]:
#заменяем вещественный тип данных в столбце total_income на целочисленный
df['total_income'] = df['total_income'].astype('int64')
display(df['total_income'])

0        253875
1        112080
2        145885
3        267628
4        158616
          ...  
21520    224791
21521    155999
21522     89672
21523    244093
21524     82047
Name: total_income, Length: 21423, dtype: int64

### Шаг 2.4. Удаление дубликатов.

In [14]:
# для начала узнаем количество дубликатов
df.duplicated().sum()

54

In [15]:
#Проверяем столбец education
df['education'].value_counts()

среднее                13691
высшее                  4686
СРЕДНЕЕ                  770
Среднее                  708
неоконченное высшее      665
ВЫСШЕЕ                   273
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [16]:
# приводим к нижнему регистру
df['education'] = df['education'].str.lower()




In [17]:
#Удаляем дубликаты
df = df.drop_duplicates().reset_index(drop= True)

In [18]:
#Проверяем df
df.duplicated().sum()

0

 Дубликаты удалили с помощью метода .drop_duplicates() вместе с reset_index(drop= True), чтобы в индексах небыло пропусков после удаления. Для поиска дубелей в столбце использовали метод value_counts() т.к он возвращает список и количество дублей.  Возможные причины появления дублей:неправильное соединение данных из разных источников, ошибки пользователя при занесении информации.  
 Результат проверки df вернул нам "0", это значит что дубликатов больше нет.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [19]:
#Создаём дополнительные датафреймы
education_dict = df[['education_id', 'education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
display(education_dict)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [20]:
education_dict = df[['family_status_id', 'family_status']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
display(education_dict)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


In [21]:
#Удаляем столбцы 'education'и'family_status'
df = df.drop(['education','family_status'], axis = 1)


Тут тоже непонятно, удалёные столбцы появятся вновь.

### Шаг 2.6. Категоризация дохода.

In [22]:
# создаём новый столбец total_income_category в котором мы назначаем категории кредитополучателю исходя из его дохода:
#·0–30000 — 'E';
#·30001–50000 — 'D';
#·50001–200000 — 'C';
#·200001–1000000 — 'B';
#·1000001 и выше — 'A'.


def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'

#проверяем

print(total_income_category(25000))




E


In [23]:
#Записываем заначения в ячейки методом appiy
df['total_income_category'] = df['total_income'].apply(total_income_category)
display(df)

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
...,...,...,...,...,...,...,...,...,...,...
21347,1,43,1,1,F,компаньон,0,224791,операции с жильем,B
21348,0,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C
21349,1,38,1,1,M,сотрудник,1,89672,недвижимость,C
21350,3,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B


### Шаг 2.7. Категоризация целей кредита.

In [29]:
  #вызовем библиотеку с функцией лемматизации
from pymystem3 import Mystem
m = Mystem()
#напишем функцию для категоризации целей получения кредита для нового столбца purpose_category
def purpose_category(row):
    lemma = m.lemmatize(row['purpose'])
    if 'свадьба' in lemma:
        return 'проведение свадьбы'
    if ('жилье' in lemma) or ('недвижимость' in lemma):
        return 'операции с недвижимостью'
    if 'автомобиль' in lemma:
        return 'операции с автомобилем'
    if 'образование' in lemma:
        return 'получение образования'
    return 'другое'

df['purpose_new'] = df.apply(purpose_category, axis=1)
display(df)

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_new
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...
21347,1,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21348,0,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21349,1,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21350,3,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [30]:
pivot_table_children_debt = df.pivot_table(index=['children'], columns= 'debt', values='family_status_id', aggfunc='count')
pivot_table_children_debt['% невозврата'] = pivot_table_children_debt[1]/(pivot_table_children_debt[1] + pivot_table_children_debt[0]) * 100
display(pivot_table_children_debt)


debt,0,1,% невозврата
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12963.0,1058.0,7.545824
1,4397.0,442.0,9.134119
2,1912.0,202.0,9.555345
3,301.0,27.0,8.231707
4,37.0,4.0,9.756098
5,9.0,,


Вывод:  
Менее платёжеспособные заёмшики оказались те у кого в семье 4 ребёнка - 9.7 %, далее идут семьи с 2 детьми - 9.5%,  
семьи с 1 ребёнком - 9 %, семьи с 3 детьми - 8.2 %, показатели у бездетных на втором месте по надёжности 7,5%. Но самые надёжные заёмщики это семьи у которых  5 детей , у них задолжностей нет, возможно потому что их всего 9.  
   


#####  Вопрос 2:Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [31]:
pivot_table_family_debt = df.pivot_table(index='family_status_id', columns= 'debt', values='children', aggfunc='count')
pivot_table_family_debt['% невозврата'] = pivot_table_family_debt[1]/(pivot_table_family_debt[1] + pivot_table_family_debt[0]) * 100
display(pivot_table_family_debt)

debt,0,1,% невозврата
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11363,927,7.542718
1,3743,386,9.348511
2,892,62,6.498952
3,1100,85,7.172996
4,2521,273,9.770938


Type Markdown and LaTeX:  𝛼2     
    Вывод:  
      Самый большой процент "невозврата" у 4 категории (Не женат / не замужем) - 10 %;  
      на втором месте категория номер 1 "гражданский брак" - 9 %;  
      на третьем месте категория номер 0 "женат / замужем" - 7.5 %;  
      на четвёртом категория номер 3 "в разводе" - 7 %;  
      самые надёжные заёмщики это номер 2 "вдовец / вдова" - 6.3 %  
 
 Отсюда следует, что клиенты, которые не состоят ни в каких отношениях более безответственно относятся к кредитным обязательствам. Заёмщики, которые были в браке или имеют статус вдовец/вдова чаще проявляют лояльность.   
      

#####  Вопрос 3 :Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [32]:
pivot_table_income_debt = df.pivot_table(index='total_income_category', columns= 'debt', values='children', aggfunc='count')
pivot_table_income_debt['% невозврата'] = pivot_table_income_debt[1]/(pivot_table_income_debt[1] + pivot_table_income_debt[0]) * 100
display(pivot_table_income_debt)

debt,0,1,% невозврата
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.0
B,4660,355,7.078764
C,14589,1353,8.487015
D,327,21,6.034483
E,20,2,9.090909


Type Markdown and LaTeX:  𝛼2   
Вывод:  
Заёмщики категории «Е»(до 30000) чаще остальных имеют задолжность по кредиту в что составляет 9 % от общего количества. Далее идут заемщики категории «С»(до 200000) их доля 8,5 % процента, за ними заёмщики категории «А»(от 1000000) - 8 %. Заёмщик категории «В»(до 1000000) остаются в должниках в 7% случаев, а самыми надёжными оказались заёмщики категории «D»(до 50000) их 6%.

Здесь получается интересный вывод, самыми ответственными заемщиками оказываются клиенты категории «D» выше «минимального» и «B» ниже «максимального». Получается, что эти категории имеют более стабильный доход и выплачивают кредит регулярно.А те , что по краям и по середине чаще остаются в должниках.


#####  Вопрос 4 : Как разные цели кредита влияют на его возврат в срок?

In [34]:
pivot_table_purpose_debt = df.pivot_table(index='purpose_new', columns= 'debt', values='children', aggfunc='count')
pivot_table_purpose_debt['% невозврата'] = pivot_table_purpose_debt[1]/(pivot_table_purpose_debt[1] + pivot_table_purpose_debt[0]) * 100

display(pivot_table_purpose_debt)

debt,0,1,% невозврата
purpose_new,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3884,400,9.337068
операции с недвижимостью,9984,779,7.237759
получение образования,3625,370,9.261577
проведение свадьбы,2126,184,7.965368


Type Markdown and LaTeX: 𝛼2   
Вывод:  
Также исследовали заёмщиков по типам кредитов, выяснилось, что более неплатёжеспособные стали те кто брал кредит на операции с автомобилем их 9,3%, за ними следуют заемщики бравшие кредит на образование - 9,2%. Категория клиентов бравших кредит на проведение свадьбы не корректно оплачивала задолжность в  7,4 % случаев. Самые ответственные заёмщики оказались среди тех кто брал кредит на операции с недвижимостью их 7,2 %.   
  Цель кредита тоже влияет на возврат кредита. Ипотечное кредитование оказалось самым оплачиваемым (это можно объяснить различными факторами: залог приобретаемого жилья, страховка, государственные и корпоративные программы) А вот автокредитование не всегда выплачивается в полном объёме т.к. это более импульсивная покупка (цель) из наших данных. 



##### Вывод 1:

Для лучшей презентации результатов исследования эту часть вывода хотелось бы дополнить «визуальными эффектами»: гистограммами, графиками или круговыми диаграммами.  


## Общий вывод:

Мы исследовали входные данные заказчика, предварительно проверили на сколько они корректны, выявили и исправили аномальные значения.  
 Изучили  параметры  кредитной нагрузки: количество детей, семейное положение, уровень дохода и цель кредита . Описали зависимость в процентном соотношении.  
Выполнили цель проекта : исследовали критерии которые в дальнейшем будут учтены при построении модели кредитного скоринга. 

<div class="alert alert-info" style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid ">

Итоги по каждой группе:  
    
    1.Количество детей  
 Самые низкие показатели возврата кредитных средств в семьях, где 4 ребёнка - 9.7 %. Без долгов оказались семьи с 5 детьми, но они малочисленны. Я бы обратила внимание на бездетных семей их показатели 7,5% 

    2.Семейное положение
 Самый большой процент "невозврата" у 4 категории «Не женат / не замужем» - 10 %. Самые надёжные заёмщики — это 2 категория «вдовец / вдова" - 6.3 %.  

    3.Уровень дохода
 Заёмщики категории «Е» (до 30000) чаще остальных имеют задолженность по кредиту в что составляет 9 %. Самыми надёжными заёмщики категории «D» (до 50000) их 6%.  

    4.Цель кредита    
 Чаще всего должниками становятся заёмщики автокредитования 9,3%. 
Ипотечные кредиты выплачиваются лучше их показатели 7,2 %.

    
    
</div>

</div>