# Исследование надежности заемщиков банка.

  Заказчиком проекта является кредитный отдел банка.  
  
В нашем проекте нужно провести исследование.  

**Цель исследования:** - как семейное положение и количество детей клиента влияет на факт  

погашения кредита в срок.  

Исследование будет проводиться на основе данных от банка - статистике о платёжеспособности клиентов.  

**Ход исследования:**  

Данные от банка мы получим из файла `data.csv.`

Исследование пройдёт в три этапа:

1. Обзор данных.  
2. Предобработка данных.  
3. Ответы на вопросы.


## Обзор данных


Составляем первое представление о данных банка.  

Импортируеи основной инструмент для аналитики - библиотеку `pandas`.  


In [1]:
import pandas as pd # чтение файла с данными и сохранение в df  

Прочитаем файл data.csv из папки /datasets и сохраним его в переменную df:

In [2]:
df = pd.read_csv('/datasets/data.csv') # чтение файла с данными и сохранение в df

Выведем на экран первые десять строк таблицы:

In [3]:
df.head(10) #получение первых 10 строк таблицы 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Одной командой получаеи общую информацию о таблице:

In [4]:
 df.info()# получение общей информации о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, всего у нас 21525 записи. В таблице двенадцать столбцов. Типы данных в двух столбцах — `float`, в пяти столбцах -`int`, в пяти столбцах - `object`.  

Согласно документации к данным:  

`children` — количество детей в семье  
`days_employed` — общий трудовой стаж в днях  
`dob_years` — возраст клиента в годах  
`education` — уровень образования клиента  
`education_id` — идентификатор уровня образования  
`family_status` — семейное положение  
`family_status_id` — идентификатор семейного положения  
`gender` — пол клиента  
`income_type` — тип занятости  
`debt` — имел ли задолженность по возврату кредитов  
`total_income` — ежемесячный доход  
`purpose` — цель получения кредита   

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные о клиенте. Колонки описывают самого клиента: пол, возраст,семейное положение,  

количество детей в семье, уровень образования, чем занимается и т.д. 

Предварительно можно утверждать, что, данных достаточно для проведения исследования. Но встречаются пропуски в данных.  

Сразу в глаза бросается проблема с колонкой `days_employed`:

- дни не могут быть вещественным числом.
- дни не могут быть отрицательными. 
  

В столбце `education` регистр букв разный.  

Но предварительно, эти данные для анализа нам не нужны.

Чтобы двигаться дальше, устраним проблемы в данных.

## Предобработка данных

### Заполнение пропусков

Сначала посчитаем, сколько в таблице пропущенных значений. 

In [5]:
df.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

 Посмотрим, что это за пустые значения в столбце `total_income`.

In [6]:
df[df['total_income'].isnull()].tail() # выведем на экран 10 последних строк столбца 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля


Посмотрим, что за пустые значения в столбце `days_employed`.

In [7]:
df[df['days_employed'].isnull()].tail() # выведем на экран 10 последних строк столбца 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля


  Посмотрим долю пропущенных значений.

In [8]:
df.isna().mean() # находим долю пропущенных значений 

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

  Доля пропущенных значений в столбцах `days_employed` и `total_income` составила по 10 процентов соответственно.  
  
  Если говорить о причинах возникновения пропусков, скорее всего они связаны с тем, что у людей нет подтвержденного дохода и стажа (работа в черную и тд). Однако сейчас у нас нет возможности уточнить этот момент у коллег, делающих выгрузку.

  Заполним пропуски в столбце `total_income`: 

In [9]:
total_income_avg = df['total_income'].median() # найдем медианное значение по столбцу
df['total_income']=df['total_income'].fillna(value=total_income_avg) # заполним пропуски в столбце медианным значением

  В нашем случае, заполнение пропусков медианным значением - это лучшее решение для количественных переменных. Это более объективная информация об уровне доходов клиентов банка, чем среднее значение. т.к среднее значение будет некорректно характеризовать данные, когда некоторые значения сильно выделяются среди большинства.

Заполним пропуски в столбце days_employed :

In [10]:
days_employed_avg = df['days_employed'].median() # найдем медианное значение по столбцу
df['days_employed']=df['days_employed'].fillna(value=days_employed_avg) # заполним пропуски в столбце медианным значением

  Выведем на экран первые десять строк таблицы:

In [11]:
df.head(10) #  выведем на экран 10 строк df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


  Снова посчитаем пропуски в таблице:

In [12]:
df.isna().sum() # подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Мы видим, что пропуски в столбцах total_income и days_employed отсутствуют.

### Проверка данных на аномалии и исправления.

В данных таблицы встречаются аномалии - значения, которые не отражают действительность и появились по какой-то ошибке.  
  
Обработаем значения в столбцах с аномалиями и опишем возможные причины  появления таких данных.

 1. В столбце `days_employed` стоят отрицательное количество дней трудового стажа. Обработаем данные с отрицательными данными и заменим их на положительные:

In [13]:
def negative_to_pozitive(value): # создаём функцию, которая будет изменять отрицательные значения на положительные
    if value < 0:
        value *= -1
        return value
    else:
        return value
df['days_employed'] = df['days_employed'].apply(negative_to_pozitive) # заменяем отрицательные значения в столбце на положительные

Выведем данные столбца `days_employed` на экран:

In [14]:
df['days_employed'].head()

0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4    340266.072047
Name: days_employed, dtype: float64

 Причиной появления данных с отрицательными значениями стажа скорей всего является выгрузка данных. В программе банка вероятней всего при вводе данных о клиенте стоит автоматическое вычисление трудового стажа : заносятся начало трудовой деятельности/места работы и окончание/по настоящее время. Вычисление происходит путем вычитания.  Обратили внимание на неадекватность стажа у пенсионеров. О причинах неадекватности значений надо было бы уточнить у операторов и исправить ошибку.

2. В столбце `children` также содержатся проблемы. Посмотрим данные на уровне подсчета уникальных значений:

In [15]:
df['children'].value_counts() # посчитаем уникальные значения

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Столбец `children` содержит значение 20 и -1, хотя отрицательного числа быть не может и 20 сильно выделяется на фоне остальной выборки. Заменим эти данные: примем -1 как бездетных, а 20 как ошибку при вводе '2'.

In [16]:
df.loc[df['children'] == -1, 'children'] = 0 #  заменим отрицательное значение на ноль
df.loc[df['children'] == 20, 'children'] = 2 # заменим 20 на 2

Снова посмотрим данные столбца:

In [17]:
df['children'].value_counts() #  посчитаем уникальные значения

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Причиной возникновения таких аномальных данных скорей всего является выгрузка данных и опечатки при вводе данных. В любом случае нам стоит об этом предупредить тех, кто делал выгрузку.

3. В столбце `dob_years` также содержатся проблемы. Посмотрим данные на уровне подсчета уникальных значений:

In [18]:
df['dob_years'].value_counts() #  посчитаем уникальные значения

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

В столбце `dob_years` есть нулевой возраст, которого быть не может, скорее всего он нам просто неизвестен.   
Так как в нашем случае вопросов касательно возраста нет, ничего не делаем.

4. В столбце `gender` также содержатся проблемы. Посмотрим данные на уровне подсчета уникальных значений:

In [19]:
df['gender'].value_counts() #  посчитаем уникальные значения

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Столбец в одной строке содержит пол XNA . 

Исправим значение XNA. Поскольку пол XNA только один, а в наших данных большинство женщины - заменим значением по умолчанию - F

In [20]:
df.loc[df['gender'] == 'XNA', 'gender'] = 'F' # исправим значение пола

Причиной такой ошибки может быть в самой категории на сайте или системе. У себя исправим, ответственных людей предупредим.

### Изменение типов данных.

В столбце `total_income` заменим вещественный тип данных на целочисленный:

In [21]:
df['total_income'] = df['total_income'].astype('int') # заменим вещественный тип данных на целочисленный

Выведем на экран первые пять строк столбца таблицы:

In [22]:
df['total_income'].head(5) # выведем на экран

0    253875
1    112080
2    145885
3    267628
4    158616
Name: total_income, dtype: int64

В столбце days_employed заменим вещественный тип данных на целочисленный:

In [23]:
df['days_employed'] = df['days_employed'].astype('int') # заменим вещественный тип данных на целочисленный

Выведем на экран первые пять строк столбца таблицы:

In [24]:
df['days_employed'].head(5) # выведем на экран

0      8437
1      4024
2      5623
3      4124
4    340266
Name: days_employed, dtype: int64

### Удаление дубликатов.

Посчитаем количество явных дубликатов в наборе данных:

In [25]:
df.duplicated().sum() # подсчёт явных дубликатов

54

Удалим явные дубликаты в наборе данных:

In [26]:
df = df.drop_duplicates().reset_index(drop=True) # удаление явных дубликатов (с удалением старых индексов и формированием новых)

Проверим и посчитаем количество явных дубликатов:

In [27]:
df.duplicated().sum() # проверка на отсутствие дубликатов

0

Посмотрим уникальные значения столбца `education`:

In [28]:
df['education'].sort_values().unique()# просмотр уникальных названий жанров

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

Приведем все значения столбца `education` к одному регистру:

In [29]:
df['education'] = df['education'].str.lower() # приведем все значения к одному регистру

Снова посмотрим уникальные значения столбца `education`:

In [30]:
df['education'].sort_values().unique() # просмотр уникальных названий жанров

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

Посмотрим уникальные значения столбца `family_status`:

In [31]:
df['family_status'].sort_values().unique() # просмотр уникальных значений

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

Приведем все значения столбца `family_status` к одному регистру:

In [32]:
df['family_status'] = df['family_status'].str.lower() # приведем все значения к одному регистру

Снова посмотрим уникальные значения столбца `family_status`:

In [33]:
df['family_status'].sort_values().unique() # просмотр уникальных значений

array(['в разводе', 'вдовец / вдова', 'гражданский брак',
       'женат / замужем', 'не женат / не замужем'], dtype=object)

Посмотрим уникальные значения столбца `income_type`:

In [34]:
df['income_type'].sort_values().unique() # просмотр уникальных значений

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

В столбце `income_type` оставим все как есть.

Посмотрим уникальные значения столбца `purpose`:

In [35]:
df['purpose'].sort_values().unique() # просмотр уникальных значений

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

В столбце `purpose` оставим все как есть.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Формируем словари для education и family_status.Выделим словарь для education:

In [36]:
education_dict = df[['education_id', 'education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True) # удалим дубликаты из словаря
education_dict.head(10) # проверим содержимое

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Аналогичным образом поступим с family_status - выделим словарь для family_status:

In [37]:
family_status_dict = df[['family_status_id', 'family_status']] # выделим словарь для family_status
# удалим дубликаты из словаря
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
# проверим содержимое
family_status_dict.head(10)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Так как словари мы сохранили, а id проставлены, удалим столбцы education и family_status из основной таблицы.

In [38]:
del df['education'] # удаляем столбец education 
del df['family_status'] # удаляем столбец family_status

Посмотрим, остались ли столбцы:

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21471 non-null  int64 
 1   days_employed     21471 non-null  int64 
 2   dob_years         21471 non-null  int64 
 3   education_id      21471 non-null  int64 
 4   family_status_id  21471 non-null  int64 
 5   gender            21471 non-null  object
 6   income_type       21471 non-null  object
 7   debt              21471 non-null  int64 
 8   total_income      21471 non-null  int64 
 9   purpose           21471 non-null  object
dtypes: int64(7), object(3)
memory usage: 1.6+ MB


###  Категоризация дохода.

Создадим столбец `total_income_category`  с категориями:  

 0-30000 -'E';  
 30001-50000 - 'D';  
 50001-200000 - 'C';  
 200001-1000000 -'B';  
 1000001 и выше -'A'.

In [40]:
def make_income_category(total_income): # создаём функцию для распределения по категориям 
    if total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    if total_income >= 1000001:
        return 'A'
    return 'Ошибка'

df['total_income_category'] = df['total_income'].apply(make_income_category) # заполняем столбец полученными категориями

Выводим на экран первые 10 строк нашей таблицы:

In [41]:
df.head(10) # выводим на экран первые 10 строк

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


 Посмотрим данные на уровне подсчета уникальных значений:

In [42]:
df['total_income_category'].value_counts() #  посчитаем уникальные значения

C    16033
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

 Проверим, что никто не остался без категорий:

In [43]:
df[df['total_income_category'] == ''] #проверим, что никто не остался без категории

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category


### Категоризация целей кредита.

Создадим столбец `purpose_category` с категориями:  

операции с автомобилем;  
операции с недвижимостью;  
проведение свадьбы;  
получение образования.

In [44]:
def purpose_category(purpose): # создаём функцию для формирования категорий
    if 'автомобил' in purpose:
        return 'операции с автомобилем'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образован' in purpose:
        return 'получение образования'
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    return purpose

Формируем столбец `purpose_category` и заполняем его полученными категориями:

In [45]:
df['purpose_category'] = df['purpose'].apply(purpose_category) # формируем столбец  и заполняем его полученными категориями

Выводим на экран первые 10 строк нашей таблицы:

In [46]:
df.head(10) # выводим на экран первые 10 строк

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Проверим, что никто не остался без категорий:

In [47]:
df[df['purpose_category'] == ''] #проверим, что никто не остался без категории

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category


## Ответы на вопросы.

**Вопрос 1: есть ли зависимость между количеством детей и возвратом кредита в строк?**

Создадим функцию, которая посчитает нам отношение в процентах, будем использовать для ответов на все вопросы.

In [48]:
def make_proportion(pdSerises):
    return str(round((pdSerises.sum() / pdSerises.count()) * 100, 2)) + '%'

Построим сводную таблицу для ответа на вопрос:

In [49]:
data_pivot = df.pivot_table(index=['children'], values=["debt"], aggfunc=['sum', 'count', make_proportion])
# сортируем, чтобы сразу видеть у кого ситуация лучше
data_pivot = data_pivot.sort_values(by=('make_proportion', 'debt'))
data_pivot

Unnamed: 0_level_0,sum,count,make_proportion
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,0,9,0.0%
0,1064,14154,7.52%
3,27,330,8.18%
1,444,4809,9.23%
2,202,2128,9.49%
4,4,41,9.76%


***Вывод:***  С увеличением количества детей мы видим увеличение количества просроченных задолженностей, хотя люди с 3 детьми чаще платят в срок чем люди с 1 ребенком. Данные не однозначные, возможно, нужна большая выборка, чем та, которую мы имеем. Бездетные, как правило реже просрачивают оплату по кредиту, чем люди с детьми.

**Вопрос 2: есть ли зависимость между семейным положением и возвратом кредита в срок?**

Поскольку мы до этого удаляли из основных данных текстовые значения family_status, тут необходимо их вернуть:

In [50]:
df_with_family_status = df.merge(family_status_dict, on='family_status_id', how='left')

Построим сводную таблицу для ответа на вопрос (по фрейму со значениями из словаря):

In [51]:
data_pivot = df_with_family_status.pivot_table(index=['family_status'], values=["debt"], aggfunc=['sum', 'count', make_proportion])
# сортируем, чтобы сразу видеть у кого ситуация лучше
data_pivot = data_pivot.sort_values(by=('make_proportion', 'debt'))
data_pivot

Unnamed: 0_level_0,sum,count,make_proportion
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,63,959,6.57%
в разводе,85,1195,7.11%
женат / замужем,931,12344,7.54%
гражданский брак,388,4163,9.32%
не женат / не замужем,274,2810,9.75%


***Вывод:***  Расчеты показали, что неженатые\незамужние, а также лица состоящие в гражданском браке в процентном соотношении чаще допускают задолженности по кредитам, из этого можно сделать вывод, что наиболее надежные заемщики семейные, либо побывавшие в семейных отношениях.

**Вопрос 3: есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [52]:
df.groupby('total_income_category')['debt'].mean() # сгруппируем данные по уровню дохода и возвратом кредита, посчитаем долю невозврата

total_income_category
A    0.080000
B    0.070621
C    0.084825
D    0.060000
E    0.090909
Name: debt, dtype: float64

***Вывод:***  Низкий доход немного влияет в худшую сторону на возврат кредита в срок, но не так значительно, как мы могли предполагать до расчетов.

 **Вопрос 4: как разные цели кредита влияют на его возврат в срок?**

In [53]:
df.groupby('purpose_category')['debt'].mean() # сгруппируем данные по целям кредита и возвратом кредита, посчитаем долю невозврата

purpose_category
операции с автомобилем      0.093547
операции с недвижимостью    0.072314
получение образования       0.092177
проведение свадьбы          0.079657
Name: debt, dtype: float64

***Вывод:***  Если смотреть по целям кредита, то тут уже заметная разница: по кредитам на автомобиль и образование чаще допускают просрочки. Кредиты на недвижмость хоть и являются наиболее крупными, но и заемщики, как показывают расчеты, относятся к ним более серьезно.

## Общий вывод:

В нашем исследовании необходимо ответить на главный вопрос: влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Проанализировав полученные данны в ходе проекта, мы можем предоставить общую картину для кредитного отдела банка.  
Главной задачей было разобраться с влиянием семейного положения и количества детей на погашение кредитам в срок.

Теперь мы можем сделать однозначный вывод: ваш лучший заемщик - это человек, состоящий в браке\разведенный и не имеющий детей.  
В идеале, если он берет кредит на недвижимость и имеет высокий доход.  
Отдельно хотелось бы отметить заемщиков с 5-ю детьми, которые не допустили ни одной просрочки по кредиту.