# Проект

# Исследование надежности заемщиков


<h5>Описание проекта</h5>

<p>Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.</p>

<h5>Проведем исследовательский анализ данных и ответим на вопросы:</h5>
<ul>
    <li>Есть ли зависимость между количеством детей и возвратом кредита в срок?</li>
    <li>Есть ли зависимость между семейным положением и возвратом кредита в срок?</li>
    <li>Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</li>
    <li>Как разные цели кредита влияют на его возврат в срок?</li>
    <li>Какие возможные причины появления пропусков в исходных данных.</li>
    <li>Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных в этом проекте?</li>
</ul>

<h5>Описание данных</h5>
<ul>
    <li>children — количество детей в семье</li>
    <li>days_employed — общий трудовой стаж в днях</li>
    <li>dob_years — возраст клиента в годах</li>
    <li>education — уровень образования клиента</li>
    <li>education_id — идентификатор уровня образования</li>
    <li>family_status — семейное положение</li>
    <li>family_status_id — идентификатор семейного положения</li>
    <li>gender — пол клиента</li>
    <li>income_type — тип занятости</li>
    <li>debt — имел ли задолженность по возврату кредитов</li>
    <li>total_income — ежемесячный доход</li>
    <li>purpose — цель получения кредита</li>
    <li>Name — название игры</li>
</ul>



<a id='step_0'></a><h3>План работ</h3>


[1. Открываем файл с данными и изучаем общую информацию](#step_1)      
[2. Предобработка данных](#step_2)  
[2.1 Удаление пропусков](#step_2.1)  
[2.2 Обработка аномальных значений](#step_2.2)  
[2.3 Удаление пропусков (продолжение)](#step_2.3)   
[2.4 Изменение типов данных](#step_2.4)   
[2.5 Обработка дубликатов](#step_2.5)   
[2.6 Категоризация данных](#step_2.6)   
[3. Исследовательский анализ данных и ответы на вопросы проекта](#step_3)      
[3.1. Есть ли зависимость между количеством детей и возвратом кредита в срок?](#step_3.1)   
[3.2. Есть ли зависимость между семейным положением и возвратом кредита в срок?](#step_3.2)  
[3.3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#step_3.3)    
[3.4. Как разные цели кредита влияют на его возврат в срок?](#step_3.4)  
[3.5. Возможные причины появления пропусков в исходных данных.](#step_3.5)  
[3.6. Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных в этом проекте.](#step_3.6)   
[4. Общий вывод.](#step_4)      

<a id='step_1'></a><h3>1. Открываем файл с данными и изучаем общую информацию</h3>

[К плану работ](#step_0)

In [1]:
# Импортируем библиотеку pandas. 
import pandas as pd
# Считываем данные из csv-файла в датафрейм и сохраняем в переменную `data`
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [2]:
# Выводим первые 20 строчек датафрейма `data` на экран
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# Выводим основную информацию о датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<a id='step_2'></a><h3>2. Предобработка данных</h3>

[К плану работ](#step_0)

<a id='step_2.1'></a><h3>2.1 Удаление пропусков</h3>

[К плану работ](#step_0)

In [4]:
# Выводим количество пропущенных значений для каждого столбца.
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Мы видим, что в двух столбцах есть пропущенные значения. Один из них — `days_employed`. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнять пропуски в этом столбце будем медианным значением по каждому типу из столбца `income_type`. 

In [5]:
# заполняем пропуски медианным значением по типу занятости, организовав цикл
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

<a id='step_2.2'></a><h3>2.2 Обработка аномальных значений</h3>

[К плану работ](#step_0)

В данных встречаются аномалии - отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: заменим все отрицательные значения положительными.

In [6]:
# замена отрицательных значений
data['days_employed'] = data['days_employed'].abs()

In [7]:
# Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получили аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть.

In [8]:
# Выведем перечень уникальных значений столбца `children'
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

-1 и 20 явно аномальные значения, удалим строки с такими значениями из данных

In [9]:
# удаление аномальных значений количества детей
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [10]:
# проверим
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

<a id='step_2.3'></a><h3>2.3 Удаление пропусков (продолжение)</h3>

[К плану работ](#step_0)

In [11]:
# Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type` в цикле
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [12]:
# проверим пропуски еще раз
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

<a id='step_2.4'></a><h3>2.4 Изменение типов данных</h3>

[К плану работ](#step_0)

In [13]:
# Заменим вещественный тип данных в столбце `total_income` на целочисленный
data['total_income'] = data['total_income'].astype(int)

<a id='step_2.5'></a><h3>2.5 Обработка дубликатов</h3>

[К плану работ](#step_0)

Неявные дубликаты в столбце `education` - одни и те же значения, но записанные с использованием заглавных и строчных букв. Приведем их к нижнему регистру

In [14]:
# приведение значений к нижнему регистру
data['education'] = data['education'].str.lower()

In [15]:
# проверим дубликаты
data.duplicated().sum()

71

In [16]:
# удалим дубликаты
data = data.drop_duplicates()

<a id='step_2.6'></a><h3>2.6 Категоризация данных</h3>

[К плану работ](#step_0) 

На основании диапазонов, указанных ниже, создадим столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [17]:
# напишем функцию для этого
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
# применим эту функцию к столбцу total_income
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [19]:
# выведем на экран перечень уникальных целей взятия кредита из столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создаим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [20]:
# функция категоризации целей
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
# применим функцию категоризации целей к столбцу 'purpose'
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

#### Вывод:

Данные готовы к анализу

<a id='step_3'></a><h3>3 Исследовательский анализ данных и ответы на вопросы проекта</h3>

[К плану работ](#step_0)

<a id='step_3.1'></a><h3>3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?</h3>

[К плану работ](#step_0) 

In [22]:
# группируем таблицу по столбцу 'children', считаем суммц и количество просрочек
data_group_children = data.groupby('children').agg({'debt': ['sum', 'count']})
# переименовываем столбцы
data_group_children['sum'] = data_group_children['debt']['sum']
data_group_children['count'] = data_group_children['debt']['count']
# сортируем значения по столбцу sum
data_group_children.sort_values('sum') 

Unnamed: 0_level_0,debt,debt,sum,count
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1,Unnamed: 4_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
5,0,9,0,9
4,4,41,4,41
3,27,330,27,330
2,194,2052,194,2052
1,444,4808,444,4808
0,1063,14091,1063,14091


сгруппировав данные датафрейма по столбцу 'children' мы получили таблицу data_group_children. В ней видно что суммарно количество просроченных кредитов линейно и обратно пропорционально зависит от количества детей - **чем меньше детей тем больше просрочек**

In [23]:
#посчитаем процент невозврата в отдельном столбце
data_group_children['relation_dept_percent'] = data_group_children['debt']['sum'] / data_group_children['debt']['count']*100
# сортируем данные конверсии просрочек
data_group_children.sort_values('relation_dept_percent')

Unnamed: 0_level_0,debt,debt,sum,count,relation_dept_percent
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
5,0,9,0,9,0.0
0,1063,14091,1063,14091,7.543822
3,27,330,27,330,8.181818
1,444,4808,444,4808,9.234609
2,194,2052,194,2052,9.454191
4,4,41,4,41,9.756098


Однако если посчитать конверсию от просрочек к общему количеству выданных кредитов - столбец таблицы data_group_children, который называется 'relation_dept_percent', то получается что **"чемпионами" по невозврату кредитов становятся люди с 4-мя детьми** (9,8% случаев практически каждый 10-ый).   
Люди **с 5-ю детьми реже всех берут кредиты**, но зато **среди них не бывает посрочек вообще**.   
Люди **без детей просрачивают кредиты в 7,5% случаев**.   
Люди с 3-мя детьми просрачивают в 8,2% случаев.   
Люди с 1-м ребенком просрачивают в 9,2% случаев, а с 2-мя детьми в 9,5% случаев.   
Таким образом **линейной зависимости от количества детей в конверсии возврата кредита от количества детей нет**. 

In [24]:
data_group_children_sum = data_group_children['debt']['sum'].sum()
data_group_children_count = data_group_children['debt']['count'].sum()
data_group_children['mean_dept_children_sum'] = data_group_children['debt']['sum'] / data_group_children_sum
data_group_children['mean_dept_children_count'] = data_group_children['debt']['count'] / data_group_children_count

data_group_children ['attention_mean'] = data_group_children['mean_dept_children_sum'] / data_group_children['mean_dept_children_count']*100
#
data_group_children.sort_values('attention_mean')

Unnamed: 0_level_0,debt,debt,sum,count,relation_dept_percent,mean_dept_children_sum,mean_dept_children_count,attention_mean
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
5,0,9,0,9,0.0,0.0,0.000422,0.0
0,1063,14091,1063,14091,7.543822,0.613741,0.660588,92.908356
3,27,330,27,330,8.181818,0.015589,0.01547,100.765799
1,444,4808,444,4808,9.234609,0.256351,0.2254,113.731781
2,194,2052,194,2052,9.454191,0.112009,0.096198,116.436114
4,4,41,4,41,9.756098,0.002309,0.001922,120.15434


если определить некое среднее арифметическое суммы невернувшихся кредитов к сумме выданных кредитов в процентах столбец 'attention_mean', то расположение значений в индексном столбце не изменится. Просто значения будут располагаться выше и ниже средней "ватерлинии". Таким образом предыдуший вывод еще раз подтвержден. Исследование по медианному значению не информативно, поэтому рассчитывать его не будем.

**Вывод:**
*чем меньше детей тем больше люди берут кредиты - это обратно пропорциональная зависимость. Однако наличие детей сказывается на возврате кредита в срок: самые ответственные - люди с 5-ю детьми - они всегда возвращают деньги в срок, хотя для однозначного вывода у нас слишком мало данных (9 наблюдений). В семьях с 4-мя детьми максимальный процент невозврата, люди безответственно подходят к возврату кредитных платежей в срок, семьи с 2-мя детьми ситуация чуть получше, но не на много. Еще лучше обстоит дело в семьях с 1-м ребенком. Из клиентов с невозвратами кредитов у бездетных ситуация лучше всех. Получается что только люди с 5-ю детьми всегда возвращают кредиты, Семьи с 4-мя детьми просрачивают кредиты на 27% чаще чем семьи без детей - столбец 'attention_mean', семьи с 2-мя детьми на 23% чаще, с 1-м ребенком на 20% и 3-мя детьми на 7% чаще не возвращают кредиты в срок по сравнению с бездетными*   

я лично знаю 2 категории с 5-ю детьмя - это "бедные и глупые" - у них просто "так получилось", доход маленький и поэтому им банки не дают кредиты. Вторая категоря "расчетливые и богатые", для них дети - это лучшие инвестиции, но, им кредиты просто не нужны. Если взять в среднем 25000 дохода на человека в семье, то на семью с 5-ю детьми с учетом родителей надо 175000 рублей минимум, кроме того надо добавить кредитный платеж, то это уже получается доход весьма умного человека, а он не попадает в категорию "бедные и глупые". Поэтому выдача кредитов людям с 5-ю детьми имеет очень малую долю.  Также в большей степени влияет то, что в популяции не так много семей с 5-ю детьми.

<a id='step_3.2'></a><h3>3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?</h3>

[К плану работ](#step_0) 

In [25]:
# группируем данные по столбцу семейного положения, считаем сумму и количество просрочек
data_group_family_st = data.groupby('family_status').agg({'debt': ['sum', 'count']})
# переименовываем ячейки
data_group_family_st.columns = ['sum', 'count']
# сортируем данные по столбцу суммы просрочек
data_group_family_st.sort_values('sum')

Unnamed: 0_level_0,sum,count
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
вдовец / вдова,63,951
в разводе,84,1189
Не женат / не замужем,273,2796
гражданский брак,385,4134
женат / замужем,927,12261


Аналогичным образом сгруппировав данные датафрейма по столбцу 'family_status' мы получили таблицу data_group_family_st. В ней видно что суммарно количество просроченных кредитов линейно зависит от степени вовлеченности человека в семейную жизнь - **чем более одинок человек, тем меньше просрочек в суммарном выражении**, видимо это связано с потребностями не только человека самого, но и его партнера, детей и семьи в целом.  
Также можно отметить что в популяции у нас чаще всего встречаются замужние люди, а разведенных и вдовцов значительно меньше.

In [26]:
# считаем сумму просрочек кредитов
data_group_family_st_sum = data_group_family_st['sum'].sum()
# считаем количество просрочек кредитов
data_group_family_st_count = data_group_family_st['count'].sum()
# считаем среднюю сумму просрочек кредитов
data_group_family_st['mean_dept_family_st_sum'] = data_group_family_st['sum'] / data_group_family_st_sum
# считаем среднее количество просрочек кредитов
data_group_family_st['mean_dept_family_st_count'] = data_group_family_st['count'] / data_group_family_st_count
# относительный процент суммы невозврата
data_group_family_st['attention_mean_fam_percent'] = (data_group_family_st['mean_dept_family_st_sum'] 
/ data_group_family_st['mean_dept_family_st_count'])*100
# выводим получившуюся таблицу на экран
display(data_group_family_st.sort_values('attention_mean_fam_percent'))


Unnamed: 0_level_0,sum,count,mean_dept_family_st_sum,mean_dept_family_st_count,attention_mean_fam_percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
вдовец / вдова,63,951,0.036374,0.044583,81.58745
в разводе,84,1189,0.048499,0.05574,87.008315
женат / замужем,927,12261,0.535219,0.574797,93.114469
гражданский брак,385,4134,0.222286,0.193802,114.697403
Не женат / не замужем,273,2796,0.157621,0.131077,120.251031


Однако **процент невозврата кредита** распределяется по-другому: **от большего к меньшему** холостые 9,8%, люди в гражданском браке 9,3%, женатые 7,6%, в разводе 7,1% и вдовы/вдовцы 6,6%. Таки образом одинокие люди после брака кредиты отдают лучше, а одинокие люди до брака отдают кредиты хуже всего. Люди в гражданском браке отдают кредиты хуже чем в официальном браке

#### Вывод:
Вдовцы и вдовы меньше всего имеют просрочек по кhедитам на 28% меньше чем холостые, на 22% меньше чем люди в гражданском браке, на 11% меньше чем женатые и на 5% меньше чем люди в разводе   
В целом можно сказать, что **заемщики, которые оформляли отношения официально платят лучше.**

<a id='step_3.3'></a><h3>3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</h3>

[К плану работ](#step_0)  

In [27]:
# группируем данные по столбцу уровень дохода, считаем сумму и количество
data_income_category = data.groupby('total_income_category').agg({'debt': ['sum', 'count']})
data_income_category 
# переименовываем ячейки
data_income_category.columns = ['sum', 'count']
# создаем столбец с уровнями дохода
data_income_category['income_low_limit'] = [1000001, 1000000,  200000, 50000,  30000]
# сортируем данные по столбцу sum
data_income_category.sort_values('sum')

Unnamed: 0_level_0,sum,count,income_low_limit
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,25,1000001
E,2,22,30000
D,21,349,50000
B,354,5014,1000000
C,1353,15921,200000


Сгруппировав таблицу методом groupby() и agg() по столбцу 'total_income_category', мы добавили столбец с лимитом кредита. Лимит макимального дохода неограничен, поэтому его обозначили значением 1000001. Отсортировав данные в полученной таблице data_group_total_income_category по столбцу 'sum' количество просроченных кредитов, получили что максимальное количество взятых кредитов и невозвращенных находится в средней ценовой категории от 50 тыс рублей до 200 тыс. дохода, люди с доходом от 200000 тыс. до 1 млн. получают в 3 с лишним раза реже кредиты и имеют просрочек в почти 5 раз реже. Уровень дохода от 30 тыс. до 50 тыс. дает возможность получить кредит в 45 с лишним раз реже чем категория "С" от 50 тыс до 200 тыс дохода. Отдают эти кредиты в 64 с лишним раз чаще чем категоря С. Максимальные минимальные уровни доходов получают кредиты очень редко, возвратов тоже соответственно мало, поэтому этими категориями можно пренебречь. Посмотрим что нам покажут процентные соотношения количества невозвратов к кол-ву выданных кредитов.

In [28]:
data_income_category['relation_dept_tot'] = data_income_category['sum'] / data_income_category['count']*100
data_income_category.set_index('income_low_limit',inplace=True)
data_income_category.sort_values('relation_dept_tot')

Unnamed: 0_level_0,sum,count,relation_dept_tot
income_low_limit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
50000,21,349,6.017192
1000000,354,5014,7.060231
1000001,2,25,8.0
200000,1353,15921,8.49821
30000,2,22,9.090909


Заменим индексный столбец 'total_income_category' на столбец с числовыми значениями лимитов 'income_low_limit' и отсортируем по столбцу 'relation_dept_tot' (соотношение просроченных к выданным в %%).  И получаем, что максимальный уровень дохода от 1 млн рублей имеет максимальный процент просрочек 9,1%. А суммы от 200К до 1 млн - минимальный процент по просрочкам 6%. Самая часто выдаваемая категория дохода при которой люди берут кредит от 50 тыс до 200 тыс, она же вторая по проценту невозвратов. Заемщики с низким уровнем дохода до 50-ти тыс имеют процент просрочек до 8%. Посмотрим на соотношение к среднему арифметическому в каждой категории доходов.

In [29]:
# кол-во просроченных кредитов
data_income_category_count = data_income_category['count'].sum()
# сумма просроченных кредитов
data_income_category_sum = data_income_category['sum'].sum()
# средняя сумма просрочки
data_income_category['mean_income_category_sum'] = data_income_category['sum'] / data_income_category_sum
#среднее кол-во просрочек
data_income_category['mean_income_category_count'] = data_income_category['count'] 
/ data_income_category_count
#процент просрочки
data_income_category['attention_mean_tot_inc_percent'] = (data_income_category['mean_income_category_sum'] 
/ data_income_category['mean_income_category_count'])*100
# сортируем данные по проценту и выводим на экран
print(data_income_category.sort_values('attention_mean_tot_inc_percent'))
data_income_category['relation_sum_percent'] = 100 * data_income_category['mean_income_category_count'] 
/ data_income_category_sum 
# сортируем данные по 'relation_sum_percent' и выводим на экран
data_income_category.sort_values('relation_sum_percent')

                   sum  count  relation_dept_tot  mean_income_category_sum  \
income_low_limit                                                             
50000               21    349           6.017192                  0.012125   
1000000            354   5014           7.060231                  0.204388   
1000001              2     25           8.000000                  0.001155   
200000            1353  15921           8.498210                  0.781178   
30000                2     22           9.090909                  0.001155   

                  mean_income_category_count  attention_mean_tot_inc_percent  
income_low_limit                                                              
50000                                    349                        0.003474  
1000000                                 5014                        0.004076  
1000001                                   25                        0.004619  
200000                                 15921              

Unnamed: 0_level_0,sum,count,relation_dept_tot,mean_income_category_sum,mean_income_category_count,attention_mean_tot_inc_percent,relation_sum_percent
income_low_limit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
30000,2,22,9.090909,0.001155,22,0.005249,2200
1000001,2,25,8.0,0.001155,25,0.004619,2500
50000,21,349,6.017192,0.012125,349,0.003474,34900
1000000,354,5014,7.060231,0.204388,5014,0.004076,501400
200000,1353,15921,8.49821,0.781178,15921,0.004907,1592100


В результате мы выяснили что расположение в индексном столбце 'income_low_limit' значений не изменилось в первой распечатанной таблице. категориями с максимальным и минимальным уровнем дохода пренебрегаем в силу немногочисленности наблюдений в них, смотрим вторую таблицу, отсортированнуб по количеству суммарных наблюдений(relation_total_sum_percent). В среднем  люди с доходом от 50К до 200К просрачивают на 30,5% больше возврат кредитов чем заемщики с уровнем дохода в категории от 30К до 50К, они максимально часто берут кредиты, из-за повышенной частоты выдачи кредитов эта категория несет максимальную угрозу банку, их просрачивают на 17% больше чем кредиты от 200 тыс до 1 млн, которые идут на твором месте по частоте просрочек кредитов. 

#### Вывод: 
**процент невозвратов кредитов людей с уровнем дохода 50К до 200К(первое место) и с уровнем дохода от 200 тыс до 1 млн(второе место) в первых двух строчках по невозврату. Люди с уровнем дохода от 30К до 50К - лучше всех отдают кредиты. В силу немногочисленностью наблюдений в категориях с минимальным и максимальным доходом этими данными пренебрегаем** 
Группа от 30 до 50 имеет самую низкую долю просрочки, но и заемщиков в ней менее чем 2% от всей выборки. Возможно тут стоит поискать точку роста.

<a id='step_3.4'></a><h3>3.4 Как разные цели кредита влияют на его возврат в срок?</h3>

[К плану работ](#step_0) 

In [30]:
# группируем таблицу по столбцу категория цели
data_group_purpose_category = data.groupby('purpose_category').agg({'debt': ['sum', 'count']})
# переименовываем ячейки
data_group_purpose_category.columns = ['sum', 'count']
# соритруем по столбцу sum
data_group_purpose_category.sort_values('sum')

Unnamed: 0_level_0,sum,count
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
проведение свадьбы,183,2313
получение образования,369,3988
операции с автомобилем,400,4279
операции с недвижимостью,780,10751


сгруппировав таблицу 'data'  по столбцу 'purpose_category' и отсортировал по количеству просроченных кредитов в полученной таблице data_group_purpose_category столбце 'sum' - мы получили что в количественном выражении лидируют кредиты с целью "операции с недвижимостю", далее идут кредиты "операции с автомобилем", "получение образования" и кредиты "проведение свадьбы". Количество просрочек расположилось аналогичным образом. Судя по всему чем дороже кредит тем чаще его и берут и просрачивают в количественном соотношении.

In [31]:
# Соотношение количества просрочек к кол-ву выданных кредитов
data_group_purpose_category['relation_dept_pur'] = data_group_purpose_category['sum'] / data_group_purpose_category['count']*100
# выводим на экран
data_group_purpose_category.sort_values('relation_dept_pur')

Unnamed: 0_level_0,sum,count,relation_dept_pur
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,780,10751,7.255139
проведение свадьбы,183,2313,7.911803
получение образования,369,3988,9.252758
операции с автомобилем,400,4279,9.347978


Соотношение количества просрочек к кол-ву выданных кредитов в процентном соотношении расположило значения в индексном столбце целей кредита другим образом: чаще всего не возвращают кредиты на автомобили 9,3%, далее идут кредиты на образование менее 9,3%, следом "проведение свадьбы" -7,9%, кредиты на "операции с недвижимостью" просрачивают реже всего - около 7,3%

#### Вывод: 
самые дисциплинированные заемщики, приобретающие недвижимость, самые недисциплинированные - люди, берущие кредит в банке на автомобиль и для оплаты образования. На проведение свадьбы кредит берут реже, не отдают в 8% случаев.  
**Кредиты на недвижимость выплачивают лучше всего.**


<a id='step_3.5'></a><h3>3.5 Возможные причины появления пропусков в исходных данных.</h3>

[К плану работ](#step_0) 

*Ответ: скорее всего это были сбои в копировании данных, также, возможно,  люди часто не заполняют строки если это ноль, иногда это просто "человеческий фактор"* 

<a id='step_3.6'></a><h3>3.6 Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных в этом проекте.</h3>

[К плану работ](#step_0)  

*Ответ: потому что среднее mean значение может измениться при аномалии в данных - например одно значение в несколько раз превышает все остальные. Также Медиана более устойчива к выбросам.* 

<a id='step_4'></a><h3>4 Общий вывод.</h3>

[К плану работ](#step_0)  

Люди без детей чаще всего берут кредиты и лучше их отдают. Семьи с разным количеством детей по разному отдают кредиты и количество детей влияет нелинейно на этот параметр.

Чем глубже человек в отношенях, тем больше он берет кредитов, возвращают же кредиты лучше всех овдовевшие люди, хуже всех - холостые.

Больше всех имеют просрочку люди с доходом 50К до 200К. Люди с доходом от 30К до 50К лучше всех возвращают кредиты

Лучше всех отдаются кредиты связанные с покупкой недвижимости, хуже всех с покупкой автомобиля.

Чтобы банк сразу одобрил кредит человеку надо быть без детей, овдовевшим с доходом от 30К до 50К и цель должна быть - покупка недвижимости :-)) именно эти люди будут имееть минимальный процент невозвратов кредита (хотя этот вывод маловероятен с таким уровнем дохода не покупают недвижимость).

Если в банк пришел не женатый человек с уровнем дохода от 50К до 200К с детьми и заявил цель "покупка автомобиля" - к нему надо присмотреться, вероятность невозврата кредита в этом случае максимальна.

Для более корректной оценки ситуации с возвратами кредитов данных должно быть больше, потому что в случае с максимальным и минимальным уровнем дохода мы вынуждены были пренебречь этими категориями также как и в случае с 5-ю детьми. Эти категории слишком малочисленны для данного анализа, однако в зависимости от быстроты получения следующей просрочки в дальнейших наблюдениях по этим категориям будут зависеть выводы исследования если в категории с 5-ю детьми следующим наблюдением будет просрочка, то они попадут в топ просрочек по кредиту, если же следующая просрочка в данной категории будеть 1000-м наблюдением, то нет. Вывод - данных не достоточно для оценик таких категорий заемщиков.
Рекомендации заказчику по работе с данными, установить ограничения или проверку вводимых данных, чтобы в будущем иметь меньше проблем при анализе.