# Исследование надежности заемщиков

---
## Цель проекта

<div style="border:solid orange 2px; padding: 5px">
<div class="alert alert-info"> <b>Провести исследование на основе предоставленных данных и выяснить, как влияют на оценку надежности кредитуемого различные значения в критериях:</b></div>

- __*количество детей*__
- __*семейное положение*__
- __*уровень дохода*__
- __*цель кредита*__

---
## Описание проекта

__*Заказчик — кредитный отдел банка. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.*__

---
### *Описание данных*

__*Для исследования получен csv-файл `data.csv`*__

- __*`children` — количество детей в семье*__
- __*`days_employed` — общий трудовой стаж в днях*__
- __*`dob_years` — возраст клиента в годах*__
- __*`education` — уровень образования клиента*__
- __*`education_id` — идентификатор уровня образования*__
- __*`family_status` — семейное положение*__
- __*`family_status_id` — идентификатор семейного положения*__
- __*`gender` — пол клиента*__
- __*`income_type` — тип занятости*__
- __*`debt` — имел ли задолженность по возврату кредитов*__
- __*`total_income` — ежемесячный доход*__
- __*`purpose` — цель получения кредита*__

---
## Ход исследования

1. __*Изучение общей информации о данных*__
2. __*Предобработка данных*__
3. __*Проведение исследования по поставленным целям*__

---
## Изучение общей информации о данных

__*Считаем данные из имеющегося csv-файла data.csv.*__

In [1]:
#  Импортируем библиотеку pandas
import pandas as pd
from nltk.stem import SnowballStemmer
from collections import Counter

snow_stem_rus = SnowballStemmer(language='russian')
#  Используем блок try - except для обработки исключений и гарантированного доступа к файлу.
#  Считаем данные из csv-файла в датафрейм и сохраним его в переменной 'data'.
try:
    data = pd.read_csv('datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

__*Выведем первые 20 строчек DataFrame `data` на экран, для ознакомления с DF. (сокр. 'DF' далее по тексту)*__

In [2]:
#  Метод head() позволит отобразить первые 20 строк нашего DF.
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


__*Выведем основную информацию о DF, для получения первичных сведений об имеющихся данных.*__

In [3]:
#  Вывод осуществим с помощью метода `info()`
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### *Выводы после изучения общей информации о данных*

<div style="border:solid green 2px; padding: 5px">

__*После изучения общей информации о предоставленных данных были обнаружены следующие проблемы:*__
* __*Наличие отрицательных значения в столбце `days_employed`*__
* __*Наличие неявных дубликатов в столбце `education`*__
* __*Пропущены значения в столбцах `days_employed` и `total_income`*__

__*При предобработке данных необходимо учесть и устранить перечисленные выше проблемы.*__

---
## Предобработка данных

---
### *Удаление пропусков*

__*При первичном ознакомлении с данными было обнаружено, что в нескольких столбцах имеются пропущенные значения. Убедимся в этом и выведем количество пропущенных значений для каждого столбца.*__

In [4]:
data.isna().sum()
#  Используем два метода: первый метод - isna() возвращает нам DF со значениями True or False в зависимости от наличия или отсутствия пропуска соответственно.
#  Второй метод sum() вернет нам количество пропущенных значений в каждом столбце, сложив их по правилам булевой логики (True = 1, False = 0).

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

__*Проанализируем характер возникновения пропусков, для этого выведем строки с пропущенными значениями.*__

In [5]:
#  Для ознакомления выведем первые 10 строк с пропущенными значениями в столбце 'days_employed'
data[(data['total_income'].isna())].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


__*Отметим, что пропуски носят системный характер, имеется факт наличия одновременного пропуска в двух столбцах `days_employed` и `total_income`,также можно отметить отсутствие какой-либо закономерной связи с определенным значением из других столбцов.*__

__*Подтвердилось, что в двух столбцах есть пропущенные значения. Один из столбцов с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнять пропуски в этом столбце будем медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` будет заполнен медианным доходом среди всех записей с тем же типом.*__

In [6]:
data.loc[data['total_income'].isna(), 'total_income'] = data.loc[data['total_income'].isna(), 'income_type'].apply(
    lambda x: data.loc[data['income_type'] == x, 'total_income'].median())
#  data.loc[data['total_income'].isna(), 'total_income'] - для отсутствующих значений столбца 'total_income' присвоим
#  медианное значение для данного типа занятости ('income_type').
#  Для решения была использована функция lambda, которой передается тип занятости соответственного пропущенного значения 'total_income' в данной строке,
#  обратно возвращается подсчитанное медианное значение.

__*Аналогично заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.*__

In [7]:
data.loc[data['days_employed'].isna(), 'days_employed'] = data.loc[
    data['days_employed'].isna(), 'income_type'].apply(
    lambda x: data.loc[data['income_type'] == x, 'days_employed'].median())

__*Убедимся, что все пропуски заполнены. Для этого ещё раз выведем количество пропущенных значений для каждого столбца.*__

In [8]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

---
### *Обработка аномальных значений*

__*В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке, таким артефактом является отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: заменим все отрицательные значения положительными.*__

In [9]:
data['days_employed'] = data['days_employed'].abs()
#  Метод abs() возвращает модуль числа

__*Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.*__

In [10]:
data.groupby('income_type')['days_employed'].median()
#  Метод median() вернет медианное значение по столбцу 'days_employed'

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

__*У двух типов (безработные и пенсионеры) получились аномально большие значения. Данный столбец не понадобится нам для исследования, поэтому оставим их как есть.*__

__*Выведем перечень уникальных значений столбца `children`.*__

In [11]:
#  Метод unique() вернет список уникальных значений столбца 'children'
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

__*В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из DF `data`.*__

In [12]:
#  Удаление осуществляем с помощью логической индексации. Оставим строки, где значение в столбе 'children' не равно -1 или 20, чтобы учесть оба этих условия, используем логический оператор & (and)
data = data[(data['children'] != -1) & (data['children'] != 20)]

__*Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.*__

In [13]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

---
### *Изменение типов данных*

__*Заменим вещественный тип данных в столбце `total_income` на целочисленный.*__

In [14]:
data['total_income'] = data['total_income'].astype(int)
#  Используем метод astype() с указанным параметром int(integer - целые числа)

---
### *Обработка дубликатов*

__*Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.*__

In [15]:
#  Строковый метод lower() преобразует тип данных str к нижнему регистру, применим его к каждому значению в столбце 'education'
data['education'] = data['education'].str.lower()

__*Выведем на экран количество строк-дубликатов в данных.*__

In [16]:
data.duplicated().sum()
#  Метод duplicated() возвращает значения True or False в зависимости от того, является ли строка дубликатом, далее метод sum() суммируя булевы значения выводит общее количество дубликатов.

71

__*Такие строки присутствуют, удалим их.*__

In [17]:
data = data.drop_duplicates()
# Метод drop_duplicates() удаляет строки со значением True(которые являются дубликатами), возвращая обратно DF очищенный от дубликатов.

---
### *Категоризация данных*

__*Для проведения категоризации данных создадим в датафрейме `data` столбец `total_income_category` с категориями:*__

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


__*Напишем собственную функцию с именем `categorize_income()`.*__

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

__*Используем данную функция для создания нового столбца `total_income_category` в DF `data`.*__

In [19]:
#  Используя метод apply() применим данную функцию к каждой строке столбца 'total_income'
data['total_income_category'] = data['total_income'].apply(categorize_income)

__*Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.*__

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

__*Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:*__

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

__*Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.*__

__*Изучив данные в столбце `purpose` определили, что подстроки помогут нам правильно определить категорию.*__

__*Для успешной фильтрации прежде всего нам нужно найти ключевые для классификации слова в значениях столбца 'purpose' и взять их в получившейся форме после стемминга:*__

In [21]:
purpose_unique = data.purpose.unique().tolist()  # загружаем все уникальные значения столбца purpose в список purpose_unique
stemmed_prp_unique_words = []
for frase in purpose_unique:  # frase по очереди примет значение каждой отдельной строки purpose_unique
    for word in frase.split():  # word по очереди примет значение каждого отдельного слова строки frase
        stemmed_prp_unique_words.append(snow_stem_rus.stem(word))
    # к word применяется стемминг, полученная строка сгружается в пустой список stemmed_prp_unique_words.
Counter(stemmed_prp_unique_words)
#выводим словарь, в котором ключи - уникальные слова, встречающееся в столбце purpose, а значения - соответствующее количество раз, сколько данные слова встретились.

Counter({'покупк': 10,
         'жил': 9,
         'приобретен': 1,
         'автомобил': 8,
         'дополнительн': 2,
         'образован': 9,
         'сыгра': 1,
         'свадьб': 3,
         'операц': 4,
         'с': 5,
         'на': 4,
         'проведен': 1,
         'для': 2,
         'сем': 1,
         'недвижим': 10,
         'коммерческ': 2,
         'строительств': 3,
         'собствен': 1,
         'подержа': 2,
         'сво': 4,
         'со': 1,
         'автомоб': 1,
         'заня': 2,
         'сделк': 2,
         'получен': 3,
         'высш': 3,
         'профильн': 1,
         'сдач': 1,
         'ремонт': 1})

__*Основы ключевых слов для каждого класса purpose:*__

- операции с недвижимостью: 'недвижим', 'жил'
- операции с автомобилями: 'автомобил', 'автомоб'
- проведение свадьбы: 'свадьб'
- получение образования: 'образован'

In [22]:
def categorize_purpose(goal):
    if 'жил' in goal or 'недвижим' in goal:
        for i in goal.split():
            n = snow_stem_rus.stem(i)
            if n == 'жил' or n == 'недвижим':
                return 'операции с недвижимостью'
    elif 'автомоб' in goal:
        for i in goal.split():
            n = snow_stem_rus.stem(i)
            if n == 'автомоб' or n == 'автомобил':
                return 'операции с автомобилем'
    elif 'свадьб' in goal:
        for i in goal.split():
            if snow_stem_rus.stem(i) == 'свадьб':
                return 'проведение свадьбы'
    elif 'образован' in goal:
        for i in goal.split():
            if snow_stem_rus.stem(i) == 'образован':
                return 'получение образования'
    return 'Нет значений'

#  Используем собственную функцию с именем `categorize_purpose()`.

In [23]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
#  Используя  метод apply() применим данную функцию к каждой строке столбца 'purpose'.

In [24]:
data.purpose_category.unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

---
### *Выводы после предобработки данных*

<div style="border:solid green 2px; padding: 5px">

__*Все проблемы, которые были обнаружены на этапе изучения общей информации о данных были устранены.*__

__*Отметим, что для обработки пропущенных значений в столбцах `days_employed` и `total_income`, был выбран способ заполнения пропусков медианным значением, т.к. данный способ позволяет исключить влияние выбросов(при их наличии) на среднее значение(при варианте исп. среднего значения).*__

__*А также были выполнены следующие шаги:*__
* __*Для удобной работы со значениями преобразован тип данных в столбце `total_income`.*__
* __*Из DataFrame удалены явные дубликаты.*__
* __*Произведена категоризация данных, в DF `data` добавлены столбцы `total_income_category` и `purpose_category`, которые отражают категорию дохода и категорию цели взятия кредита.*__

__*Рекомендация: пропуски в данных носят системный характер и, вероятнее всего, вызваны техническими проблемами на этапе сохранения или обработки собираемой исходной информации. Данный момент необходимо уточнить у технических специалистов, которые обслуживают систему по сбору данных.*__

__*Данные подготовлены и готовы к дальнейшему исследованию.*__

---
## Исследование данных для ответа на поставленные вопросы исследования

### *Определим, имеется ли зависимость между количеством детей и возвратом кредита в срок.*

In [25]:
data_group_children = data.groupby('children').agg({'debt': ('sum', 'count')})
#  Группируем данные по столбцу 'children' и применяем к столбцу 'debt' два метода - sum и count и присвоим получившийся DF к переменной 'data_group_children'
#  Это позволяет нам получить данные по количеству неблагонадежных занимателей (sum) к общему количеству кредитуемых в данной категории (count)

#  Добавим новый столбец 'debtors_percent' в наш DF, который будет отражать процент неблагонадежных заемщиков в каждой из категорий.
#  Для этого поделим количество неблагонадежных занимателей (sum) на общеее количество кредитуемых в данной категории (count) и выведем значение в процентах.
data_group_children['debtors_percent'] = data.groupby('children')['debt'].mean() * 100
#  Для того, чтобы проанлизировать данные, выведем таблицу на экран.
data_group_children

Unnamed: 0_level_0,debt,debt,debtors_percent
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,7.543822
1,444,4808,9.234609
2,194,2052,9.454191
3,27,330,8.181818
4,4,41,9.756098
5,0,9,0.0


#### *Выводы по исследованию зависимости между количеством детей и возвратом кредита в срок:*

<div style="border:solid green 2px; padding: 5px">

1. __*С увеличением количества детей количество имеющихся у нас данных для анализа стремительно падает, вследствие чего увеличивается погрешность.*__
2. __*Из полученных данных наиболее достоверно мы можем констатировать, что имеется разница в 1.69 % между двумя первыми категориями: отсутствие детей и наличие одного ребенка(заемщики не имеющие детей на 1.69 % благонадежнее). Это две наибольшие по объему имеющихся данных группы, где погрешность будет сравнительно минимальная.*__
3. __*С увеличением количества детей процент неблагонадежности заёмщиков увеличивается планомерно (по параболе).*__
4. __*Имеется резкое уменьшение числа неблагонадежных заёмщиков в группе, где число детей равняется 3, это может быть связано с большим значением стандартного отклонения, которое возникло из-за малого объёма данных в этой группе.*__
5. __*Из-за малого количества доступных данных по последним двум категориям их значения 'debtors_percent' с трудом можно называть достоверными.*__

---
### Определим, имеется ли зависимость между семейным положением и возвратом кредита в срок.

In [26]:
data_group_familiy_status = data.groupby('family_status').agg({'debt': ('sum', 'count')})
#  Группируем данные по столбцу 'family_status' и применяем к столбцу 'debt' два метода - sum и count и присвоим получившийся DF к переменной 'data_group_familiy_status'
#  Это позволяет нам получить данные по количеству неблагонадежных занимателей (sum) к общему количеству кредитуемых в данной категории (count)

#  Добавим новый столбец 'debtors_percent' в наш DF, который будет отражать процент неблагонадежных заемщиков в каждой из категорий.
#  Для этого поделим количество неблагонадежных занимателей (sum) на общеее количество кредитуемых в данной категории (count) и выведем значение в процентах.
data_group_familiy_status['debtors_percent'] = data_group_familiy_status['debt']['sum'] / \
                                               data_group_familiy_status['debt']['count'] * 100

#  Для того, чтобы более наглядно проанлизировать данные, произведем сортировку по столбцу 'debtors_percent', применив метод sort_values() к DF 'data_group_familiy_status', выведем таблицу на экран.
data_group_familiy_status.sort_values(by='debtors_percent')

Unnamed: 0_level_0,debt,debt,debtors_percent
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,63,951,6.624606
в разводе,84,1189,7.06476
женат / замужем,927,12261,7.560558
гражданский брак,385,4134,9.313014
Не женат / не замужем,273,2796,9.763948


__*Видна явная зависимость, что люди, которые официально заключали брачный союз, являются более благонадёжными заёмщиками.*__
__*Для наглядности создадим две новые категории и посчитаем среднее значение для данных категорий: 1 - человек был в браке, 2 - человек в браке не был.*__
__*В первую категорию попадут значения из категорий: `вдовец / вдова`, `в разводе`, `женат / замужем`, во вторую: `гражданский брак`, `Не женат / не замужем`*__

In [27]:
 # Найдем среднее для первых трех категорий, после этого присвоим полученное переменной 'avg_value_marriage'
avg_value_marriage = (data_group_familiy_status.loc['вдовец / вдова', 'debtors_percent'][0] +
                      data_group_familiy_status.loc[
                          'в разводе', 'debtors_percent'][0] + data_group_familiy_status.loc[
                          'женат / замужем', 'debtors_percent'][0]) / 3
#  Найдем среднее для последний двух категорий, после этого присвоим полученное переменной 'avg_value_nonmarriage'
avg_value_nonmarriage = (data_group_familiy_status.loc['гражданский брак', 'debtors_percent'][0] + \
                         data_group_familiy_status.loc[
                             'Не женат / не замужем', 'debtors_percent'][0]) / 2
# Создадим словарь, где ключом будет наименование столбца, назовем его 'debtors_percents', значением будет кортеж, включащий в себя найденные два средних значения для выделенных нами двух групп.
d = {'debtors_percents': (avg_value_marriage, avg_value_nonmarriage)}
#  Создадим DF 'data_comparison_mariage', передав параметр в параметр data созданный нами словарь, и зададим параметр 'index' равный кортежу из двух наименований определенных нами групп.
data_comparison_mariage = pd.DataFrame(data=d, index=('marriage', 'non_mariage'), )
#  Выведем DF на экран и проанализируем полученные данные.
data_comparison_mariage

Unnamed: 0,debtors_percents
marriage,7.083308
non_mariage,9.538481


#### *Выводы по исследованию зависимости между семейным положением и возвратом кредита в срок:*

<div style="border:solid green 2px; padding: 5px">

1. __*Количество данных в данном случае распределено более равномерно, чем в предыдущем исследовании, где был значительный перекос. Также можно отметить наличие группы, которая сильно преобладает по количеству исходных данных над другими группами.*__
2. __*Обнаруженная зависимость: люди, официально заключавшие брак на 2.455 % более благонадёжные заёмщики.*__

---
### *Определим, имеется ли зависимость между уровнем дохода и возвратом кредита в срок.*

In [28]:
data_group_total_income = data.groupby('total_income_category').agg({'debt': ('sum', 'count')})
#  Группируем данные по столбцу 'total_income_category' и применяем к столбцу 'debt' два метода - sum и count и присвоим получившийся DF к переменной 'data_group_total_income'
#  Это позволяет нам получить данные по количеству неблагонадежных занимателей (sum) к общему количеству кредитуемых в данной категории (count)

#  Добавим новый столбец 'debtors_percent' в наш DF, который будет отражать процент неблагонадежных заемщиков в каждой из категорий.
#  Для этого поделим количество неблагонадежных занимателей (sum) на общеее количество кредитуемых в данной категории (count) и выведем значение в процентах.
data_group_total_income['debtors_percent'] = data_group_total_income['debt']['sum'] / \
                                             data_group_total_income['debt']['count'] * 100

#  Для того, чтобы более наглядно проанлизировать данные по их доступному объему, произведем сортировку по столбцу count, применив метод sort_values() к DF 'data_group_familiy_status', параментр ascending установим на сортировку по убыванию, выведем таблицу на экран.
data_group_total_income.sort_values(by=('debt', 'count'), ascending=False)

Unnamed: 0_level_0,debt,debt,debtors_percent
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
C,1353,15921,8.49821
B,354,5014,7.060231
D,21,349,6.017192
A,2,25,8.0
E,2,22,9.090909


#### *Выводы по исследованию зависимости между уровнем дохода и возвратом кредита в срок:*

<div style="border:solid green 2px; padding: 5px">

1. __*Количество данных в данном случае распределено неравномерно. Отметим наличие двух групп(`C`, `B`), которые сильно преобладают по количеству исходных данных над другими группами.*__
2. __*Подтверждается зависимость: чем выше платежеспособность человека, тем менее вероятна задолженность по кредиту. Установленная разница равна 1.437 %.*__
3. __*В категории `D` отражён низкий процент должников, что может быть связано с малым количеством данных, для более достоверного анализа необходим больший объем данных.*__

---
### *Проверим, как разные цели кредита влияют на его возврат в срок.*

In [29]:
data_group_purpose = data.groupby('purpose_category').agg({'debt': ('sum', 'count')})
#  Группируем данные по столбцу 'purpose_category' и применяем к столбцу 'debt' два метода - sum и count и присвоим получившийся DF к переменной 'data_group_purpose'
#  Это позволяет нам получить данные по количеству неблагонадежных занимателей (sum) к общему количеству кредитуемых в данной категории (count)

#  Добавим новый столбец 'debtors_percent' в наш DF, который будет отражать процент неблагонадежных заемщиков в каждой из категорий.
#  Для этого поделим количество неблагонадежных занимателей (sum) на общеее количество кредитуемых в данной категории (count) и выведем значение в процентах.
data_group_purpose['debtors_percent'] = data_group_purpose['debt']['sum'] / \
                                        data_group_purpose['debt']['count'] * 100

#  Для того, чтобы более наглядно проанлизировать данные по их доступному объему, произведем сортировку по столбцу count, применив метод sort_values() к DF 'data_group_purpose', параментр ascending установим на сортировку по убыванию, выведем таблицу на экран.
data_group_purpose.sort_values(by='debtors_percent')

Unnamed: 0_level_0,debt,debt,debtors_percent
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,780,10751,7.255139
проведение свадьбы,183,2313,7.911803
получение образования,369,3988,9.252758
операции с автомобилем,400,4279,9.347978


#### *Выводы по оценке того, как разные цели кредита влияют на его возврат в срок:*

<div style="border:solid green 2px; padding: 5px">

1. __*После проведения группировки по цели взятия кредита, получили наиболее равномерную картину распределения данных по категориям.*__
2. __*Имеется категория, которая преобладает над остальными, принадлежность к этой категории так же говорит о самом низком проценте людей с имеющейся задолженностью.*__
3. __*Обнаружена следующая зависимость: что с падением важности цели кредита, повышается процент людей, имеющих задолженность по кредиту.*__
4. __*При прямом сравнении двух групп: первая - с наибольшим приоритетом важности для человека(операции с недвижимостью), вторая - операции с автомобилем(что скорее является уже элементом роскоши) заметна разница надежности кредитуемых на 2.09 %.*__

---
## Общий вывод по исследованию

<div style="border:solid orange 2px; padding: 5px">
    
<div class="alert alert-info"> <b>При проведении исследования по определенным критериям (количество детей, семейное положение, уровень дохода и цель кредита), было установлено, как различные значения в данных критериях влияют на надежность кредитуемого:</b></div>

- __*Кредитуемые, не имеющие детей на 1.69 % благонадежнее, чем те, у кого есть хотя бы один ребенок. Для дальнейшего исследования будет полезно проверить гипотезу уменьшения надежности кредитуемого с ростом количества детей. На основании предоставленных банком данных проверить данную гипотезу невозможно из-за малого количества данных в некоторых категориях.*__
- __*Люди, когда-либо официально заключавшие брак на 2.455 % более надёжные заёмщики.*__
- __*Чем выше платежеспособность человека, тем менее вероятна задолженность по кредиту. Установленная разница между двумя соседними категориями по ежемесячному заработку равняется 1.437 %.*__
- __*Со снижением целевой важности кредита, снижается надежность кредитуемых. При прямом сравнении двух групп: первая - с наибольшим приоритетом важности для человека(операции с недвижимостью), вторая - операции с автомобилем(что скорее является уже элементом роскоши) заметна разница надежности кредитуемых на 2.09 %.*__