# Исследование надежности заемщиков.

В ходе выполнения проекта разберемся влияет ли семейное положение, количество детей клиента, цели кредита или уровень дохода клиента на факт погашения кредита в срок. Входные данные от кредитного отдела банка — статистика о платёжеспособности клиентов.

Результаты исследования могут быть учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Обзор данных

In [None]:
import pandas as pd # импортируем библиотеку pandas
df = pd.read_csv('bank_customer_reliability.csv') # чтение данных из файла и сохранение в переменной df
df.head(30) # вывод на экран первых 30 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Рассмотрим общую информацию по данным датафрейма при помощи метода `info`

In [None]:
df.info() # получение общей информации о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Изучим содержимое первого столбца датафрейма.

In [None]:
df['children'].value_counts() # выведем на экран распределение заемщиков по количеству детей в порядке убывания.

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Исходя из общей информации о данных таблицы, имеются пропуски значений в столбцах 'days_employed' и 'total income'.
Следующим этапом проверим долю пропущенных значений в данных указанных столбцов.

In [None]:
days_employed_isna = df['days_employed'].isna().sum()/len(df) # определяем долю пропущенных значений в столбце days_employed
total_income_isna = df['total_income'].isna().sum()/len(df) # определяем долю пропущенных значений в столбце total_income
display ('Количество пропущенных значений в столбце days_employed: {:.1%}'.format(days_employed_isna)) 
display ('Количество пропущенных значений в столбце total_income: {:.1%}'.format(total_income_isna))

'Количество пропущенных значений в столбце days_employed: 10.1%'

'Количество пропущенных значений в столбце total_income: 10.1%'

Доля пропусков в значениях столбцов 'days_employed' и 'total income' совпадает, что может свидетельствовать о том, что пропущенные значения относятся к безработным людям, не имевшим занятости на момент подачи заявки на кредит и, соответственно, не имевших дохода.

### Шаг 2.1 Проверка данных на аномалии и исправления.

В ходе изучения данных таблицы были обнаружены аномальные значения для столбца `days_employed`, а именно:  
    - встречается стаж работы с отрицательными значениями;  
        - а также слишком большие значения стажа работы - 100 и более лет.  
            Такие аномалии скорее всего связаны с ошибками занесения или выгрузки данных. Для проведения дальнейшего анализа поменяем отрицательные значения на положительные, а слишком большие значения менять не будем, принимая их как стаж, достаточный для выдачи кредита по умолчанию. В данном случае такие действия допустимы, поскольку анализ надежности клиентов не будет производиться на основании стажа их работы.  
                Также встречаются различия в регистрах записи данных в столбце 'education'. Для дальнейшего анализа данных приведем все значения к одному регистру (данный пункт исправим при работе с неявными дубликатами).  
                    В столбце children встречаются отрицательные значения, что наверняка вызвано технической ошибкой или человеческим фактором при вводе данных, количество детей в 20 человек наверняка также является ошибкой, заменим это значение на 2 ух детей.
    

In [None]:
df['days_employed'] = abs(df['days_employed']) # поменяем отрицательные значения в столбце 'days_employed' на положительные
df['children'] = abs(df['children']) # поменяем отрицательные значения в столбце 'children' на положительные
df['children'] = df['children'].replace(20,2) # измеенение количества детей в 20 человек на 2ух детей
df.head(10) # выведем 10 первых значений из измененной таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Шаг 2.2 Заполнение пропусков

Чтобы заполнить пропущенные данные в столбцах `days_employed` и `total_income`	, будем пользоваться медианными значениями в столбцах. Это поможет избежать влияния критически минимальных и максимальных значений по столбцам.

In [None]:
days_employed_median = df['days_employed'].median() #подсчитаем медианное значение для столбца 'days_employed'
df['days_employed'] = df['days_employed'].fillna(days_employed_median) #заполним пропущенные данные в столбце 'days_employed' медианными значениями
total_income_median= df['total_income'].median() #подсчитаем медианное значение для столбца 'total_income'
df['total_income'] = df['total_income'].fillna(total_income_median)#заполним пропущенные данные в столбце 'total_income' медианными значениями
df.info() # проверим результат заполнения пропущенных значений в таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


*Как следует из общей информации о данных в таблице с преобразованными данными, все пропущенные ячейки были заполнены.*

### Шаг 2.3. Изменение типов данных.

Для корректного подсчета доходов заемщиков изменим тип данных в столбце `total_income` на `int`, также поменяем тип данных в колонке со стажем на целочисленные значения.

In [None]:
df['total_income'] = df['total_income'].astype('int') # замена данных в колонке 'total_income' на целочисленные значения
df ['days_employed'] = df['days_employed'].astype('int') # замена данных в колонке 'days_employed' на целочисленные значения
df.head(10) # вывод 10 первых срок таблицы на экран

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Шаг 2.4. Удаление дубликатов.

Проверим столбцы на наличие явных дубликатов.

In [None]:
df.duplicated().sum() #проверка таблицы данных на наличие повторяющихся строк

54

**Вывод**: найдены явные дубликаты, они образовались скорее всего из-за технической ошибки.
    Следующим шагом произведем их удаление.

In [None]:
df = df.drop_duplicates().reset_index(drop = True) # удаление явных дубликатов 
df.duplicated().sum()

0

Мы избавились от явных дубликатов, теперь перейдем к поиску неявных.

In [None]:
df['education'].sort_values().unique() # проверка неявных дубликатов в столбце 'education'

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

В столбце `education` встречаются различия в регистрах записи данных . Для дальнейшего анализа данных приведем все значения к одному регистру.

In [None]:
df['education'] = df['education'].str.lower() #приведем данные в столбце 'education' к нижнему регистру
df.head(10) # выведем 10 первых значений из измененной таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Проверим оставшиеся столбцы с катеригориальными данными на предмет наличия неявных дубликатов.

In [None]:
df['family_status'].sort_values().unique() # проверка неявных дубликатов в столбце 'family_satus'
df['income_type'].sort_values().unique() # проверка неявных дубликатов в столбце 'income_type'
df['purpose'].sort_values().unique() # проверка неявных дубликатов в столбце 'purpose'

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

Столбцы `family_status` и `income_type` не содержат дубликатов, в столбце `purpose`
присутствуют многочисленные неявные дубликаты, их удалим при проведении категоризации по целям кредита.


### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим дополнительные датафреймы словарей по показателям образования и семейного положения.

In [None]:
df_education = df[['education','education_id']] #создание датафрейма по показателю образования
df_family = df[['family_status','family_status_id']]  #создание датафрейма по показателю семейного положения

Поскольку в обеих таблицах много явных дубликатов, удалим их, используя метод drop_duplicates() и создав новую индексацию строк.

In [None]:
df_education = df_education.drop_duplicates().reset_index(drop = True) #удаление явных дубликатов из датафрейма df_education
df_family = df_family.drop_duplicates().reset_index(drop = True) #удаление явных дубликатов из датафрейма df_efamily
df_education #вывод на экран полученного датафрейма df_education


Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [None]:
df_family #вывод на экран полученного датафрейма df_family

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


Изменим исходный датафрейм путем удаления столбцов с данными `education` и `family_status`, к этим данным сможем обратиться через созданные словари.

In [None]:
df = df[['children','days_employed','dob_years',
        'education_id','family_status_id','gender', 
        'income_type','debt','total_income','purpose']]
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

Для категоризации кредитополучателей по уровню дохода создадим 5 категорий, каждому кредитополучателю присвоим соответсвующую его доходу группу:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

Данные по группам доходов поместим в дополнительный столбец `total_income_category`

In [None]:
def income_category(income): #создадим функцию для сортировки заемщиков по уровню дохода
    if income <= 30000:
        return 'E'
    if income <= 50000:
        return 'D'
    if income <= 200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'
df['total_income_category'] = df['total_income'].apply(income_category)
df.tail(10)
    

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
21461,1,467,28,1,0,F,сотрудник,1,109486,заняться образованием,C
21462,0,914,42,0,0,F,компаньон,0,322807,покупка своего жилья,B
21463,0,404,42,0,1,F,компаньон,0,178059,на покупку своего автомобиля,C
21464,0,373995,59,1,0,F,пенсионер,0,153864,сделка с автомобилем,C
21465,1,2351,37,4,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,C
21466,1,4529,43,1,1,F,компаньон,0,224791,операции с жильем,B
21467,0,343937,67,1,0,F,пенсионер,0,155999,сделка с автомобилем,C
21468,1,2113,38,1,1,M,сотрудник,1,89672,недвижимость,C
21469,3,3112,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B
21470,2,1984,40,1,0,F,сотрудник,0,82047,на покупку автомобиля,C


In [None]:
df['total_income_category'].value_counts() # подсчет полученных категорий по уровню дохода

C    16033
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

*Как видно из полученого столбца, большинство заявителей имеют доход в пределах 50001–200000 руб.*

### Шаг 2.7. Категоризация целей кредита.

Для категоризации заемщиков по целям кредита создадим дополнительный столбец `purpose_category`. Данные в столбце будем присваивать в зависимости от целей, указанных в столбце `purpose`. Все цели будут соотнесены по четырем категориям:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [None]:
def purpose_category_creation(purpose): # создание функции для удаления неявных дубликатов из столбца purpose
    if 'авто' in purpose: 
        return 'операции с автомобилем'
    if 'образовани'in purpose:
        return 'получение образования'
    if 'жиль'  in purpose or 'недвижим' in purpose:
        return 'операции с недвижимостью'
    if 'свадьб'in purpose:
        return 'проведение свадьбы'
    return 'нет категории'
df['purpose_category'] = df['purpose'].apply(purpose_category_creation)
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


In [None]:
df['purpose_category'].value_counts() # подсчет количества полученных категорий по целям кредита

операции с недвижимостью    10814
операции с автомобилем       4308
получение образования        4014
проведение свадьбы           2335
Name: purpose_category, dtype: int64

*Для большинства заявителей целью получения кредита являются операции с недвижимостью; операции с автомобилем и получение образования делят второе место, наименьшее число случаев кредитования относится к свадебным событиям*

### Ответы на вопросы.

***Вопрос 1***: Проверим гипотезу о влиянии количества детей на возврат кредита в срок. Для этого сгруппируем данные по столбцу `children` и подсчитаем количество случаев невыплаты кредита в срок для каждой группы. Для выполнения задачи будем использовать сводную таблицу.

In [None]:
children_vs_debt = df.pivot_table(index=['children'],values='debt', aggfunc=[ 'sum', 'count']) # подсчитаем количество случаев возникновения задолженности в зависимости от количества детей в семье
                                                                                               # и добавим столбец с общим числом заемщиков по каждой категории
#children_vs_debt['with_debt_ratio'] = children_vs_debt['sum']/df['debt'].sum() # добавим столбец с данными по доле просрочек категории в общем числе просрочек 
#children_vs_debt['total_ratio'] = children_vs_debt['count']/df['debt'].count() # добавим столбец с данными по доле категории в общем числе заемщиков
children_vs_debt['debt_ratio'] = (children_vs_debt['sum']/children_vs_debt['count']*100).round(2) #находим процент должников в общем числе заемщиков по каждой группе
children_vs_debt

Unnamed: 0_level_0,sum,count,debt_ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14107,7.54
1,445,4856,9.16
2,202,2128,9.49
3,27,330,8.18
4,4,41,9.76
5,0,9,0.0


Построив сводную таблицу, мы получили общее количсество должников и заемщиков по каждой категории, а также нашли процентное долю должников в общем количестве заемщиков по каждой категории. Как видно из соотношения долей, наличие детей увеличивает риск невозврата кредита, особенно большой риск создают заемщики с четырьм детьми. 

***Вопрос 2***: Проверим гипотезу о влиянии семейного положения на возврат кредита в срок. Для этого сгруппируем данные по столбцу `family_status_id` и подсчитаем количество случаев невыплаты кредита в срок для каждой группы. Для выполнения задачи будем использовать сводную таблицу.

In [None]:
family_status_debt = df.pivot_table(index = ['family_status_id'], values ='debt', aggfunc = ['sum','count']) # подсчитаем количество случаев возникновения задолженности в зависимости от семейного положения
                                                                                               # и добавим столбец с общим числом заемщиков по каждой категории
#family_status_debt['with_debt_ratio'] = family_status_debt['sum']/df['debt'].sum() # добавим столбец с данными  по доле просрочек категории в общем числе просрочек 
#family_status_debt['total_income_ratio'] = family_status_debt['count']/df['debt'].count() # добавим столбец с данными по доле категории в общем числе заемщиков
family_status_debt['debt_ratio'] = (family_status_debt['sum']/family_status_debt['count']*100).round(2) #находим процент должников в общем числе заемщиков по каждой группе
family_status_debt

Unnamed: 0_level_0,sum,count,debt_ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12344,7.54
1,388,4163,9.32
2,63,959,6.57
3,85,1195,7.11
4,274,2810,9.75


При помощи построения сводной таблицы мы нашли количество должников и общее количество заемщиков по каждой категории, процентное соотношение между ними показывает, что наиболее неблагонадежными являются заемщики из категорий 1 и 4 - состоящие в гражданском браке, либо холостые соответсвенно.

***Вопрос 3***: Есть ли зависимость между уровнем дохода и возвратом кредита в срок? Проверим данную гипотезу путем группировки случаев задолженностей по столбцу `total_income_category` методом `grouped `

In [None]:
income_grouped = df.groupby('total_income_category')[['debt']].agg({'debt':['sum','count']}) #создадим таблицу сгруппированную по категориям дохода и подсчитаем общее количество задолженностей по каждой группе, 
                                                                                             #для сравнения добавим общее число заемщиков в каждой группе
#income_grouped['with_debt_ratio'] = income_grouped['debt']['sum']/df['debt'].sum() # добавим столбец с данными по доле просрочек категории в общем числе просрочек 
#income_grouped['total_income_ratio'] = income_grouped['debt']['count']/df['debt'].count() # добавим столбец с данными по доле категории в общем числе заемщиков
income_grouped['debt_ratio'] = (income_grouped['debt']['sum']/income_grouped['debt']['count']*100).round(2) #находим процент должников в общем числе заемщиков по каждой группе
income_grouped                                                                                                                        

Unnamed: 0_level_0,debt,debt,debt_ratio
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,8.0
B,356,5041,7.06
C,1360,16033,8.48
D,21,350,6.0
E,2,22,9.09


  Для определения наименее надежной категории заемщиков по уровню дохода мы подсчитали доли должников в общем количестве заемщиков по каждой категории. Как видно из процентных соотношений, наибольшую долю неблагонадежных кредиторов составляют заемщиуи категории `E`с доходом от `0 до 30000 руб.`

***Вопрос 4***: Как разные цели кредита влияют на его возврат в срок. Данную задачу выполним при помощи группировки данных по столбцу `purpose_category`

In [None]:
purpose_grouped = df.groupby('purpose_category')[['debt']].agg({'debt':['sum','count']}) #создадим таблицу сгруппированную по категориям дохода и подсчитаем общее количество задолженностей по каждой группе, 
                                                                                        #для сравнения добавим общее число заемщиков в каждой группе
#purpose_grouped['with_debt_ratio'] = purpose_grouped['debt']['sum']/df['debt'].sum() # добавим столбец с данными для каждой категории по доле просрочек категории в общем числе просрочек 
#purpose_grouped['total_purposes_ratio'] = purpose_grouped['debt']['count']/df['debt'].count() # добавим столбец с данными по доле категории в общем числе заемщиков
purpose_grouped['debt_ratio'] = (purpose_grouped['debt']['sum']/purpose_grouped['debt']['count']*100).round(2) #находим процент должников в общем числе заемщиков по каждой группе
purpose_grouped         

Unnamed: 0_level_0,debt,debt,debt_ratio
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,403,4308,9.35
операции с недвижимостью,782,10814,7.23
получение образования,370,4014,9.22
проведение свадьбы,186,2335,7.97


 Процент неблагонадежных заемщиков был посчитан как отношение количества должников к общему количеству заемщиков по каждой категории, подтвердилось утверждение о том, что наиболее рискованными являются цели кредита на операции с автомобилем и на образование.

## Общий вывод: в ходе исследования были проверены гипотезы о влиянии различных факторов на нарушение сроков погашения кредитов. В результате проведенного анализа были выявлены наибольшие риски просрочки выплаты кредитов для следующих групп: 
* лица с детьмми( особенно те, у которых четверо детей);
* люди не состоящие в браке или состоящие в гражданском браке;<span style='background-color:#7FFFD4'> 
* лица с доходом в диапазоне  <span style='background-color:#7FFFD4'> 0 - 30000 руб.
* лица, берущие кредиты на операции с автомобилями или на образование.<span style='background-color:#7FFFD4'> 

