# Исследование надежности заемщиков


Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Описание данных
children — количество детей в семье
days_employed — общий трудовой стаж в днях
dob_years — возраст клиента в годах
education — уровень образования клиента
education_id — идентификатор уровня образования
family_status — семейное положение
family_status_id — идентификатор семейного положения
gender — пол клиента
income_type — тип занятости
debt — имел ли задолженность по возврату кредитов
total_income — ежемесячный доход
purpose — цель получения кредита

## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
print(data.head())
data.info()

   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   среднее             1   
3         3    4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose total_income_category          purpose_category  
0               покупка жилья                   

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
# общая доля просроченных займов :
share_debt = f"{(data['debt'].sum()/ data['debt'].count()):.2%}"
share_debt

'8.12%'

In [23]:
# создаем функцию func_pivot с параметром meaning :
def func_pivot(meaning):
    # создаем сводную таблицу data_pivot с переменной meaning в роли index, со значением из колонки debt 
    # и применяемыми функциями  count,sum,mean
    # убираем мультииндекс :
    data_pivot = data.pivot_table(index=meaning, 
                                  values='debt',
                                  aggfunc=['count','sum','mean']).reset_index() 
    # заменяем названия колонок  в сводной таблице :
    data_pivot = data_pivot.rename(columns={'sum':'overdue', 
                       'count':'number_of_borrowers',
                       'mean':'share_overdue',
                       'debt': ' '})
    # меняем формат колонки share_overdue  на проценты с 2 знаками после запятой с помощью метода format() : 
    data_pivot['share_overdue', ' '] = data_pivot['share_overdue', ' '].apply('{:.2%}'.format)
    # создаем столбец share_borrowers с показателями доли займов по каждой категории от общего количества :
    data_pivot['share_borrowers'] = data_pivot['number_of_borrowers', ' ']/data_pivot['number_of_borrowers', ' '].sum()
    data_pivot['share_borrowers'] = data_pivot['share_borrowers'].apply('{:.2%}'.format)
    
    # возвращаем сводную таблицу data_pivot :
    return data_pivot 

In [24]:
#  создаем новый датафрейм pivot_debt_children ,использовав функцию func_pivot к колонке children :
pivot_debt_children = func_pivot(data['children']) 
# убираем строку со значением 5 в колонке children, так как из малого количества данных является малоинформативным.
pivot_debt_children = pivot_debt_children[pivot_debt_children['children'] != 5]
# выводим pivot_debt_children : 
pivot_debt_children

Unnamed: 0,children,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,0.0,14091.0,1063.0,7.54%,66.06%
1.0,1.0,4808.0,444.0,9.23%,22.54%
2.0,2.0,2052.0,194.0,9.45%,9.62%
3.0,3.0,330.0,27.0,8.18%,1.55%
4.0,4.0,41.0,4.0,9.76%,0.19%


In [25]:
# создаем функцию children_num, которая категоризирует заёмщиков в зависимости от наличия/ отсутствия детей :
def children_num(num): 
    if num != 0:
        return 'есть дети'
    return 'детей нет'

# создаем новую колонку children_category с помощью функции children_num :
data['children_category'] = data['children'].apply(children_num)


In [26]:
#создаем new_pivot_debt_children при помощи функции func_pivot , применив к  колонке children_category
new_pivot_debt_children = func_pivot(data['children_category']) 
# выводим new_pivot_debt_children
new_pivot_debt_children   

Unnamed: 0,children_category,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,детей нет,14091.0,1063.0,7.54%,66.06%
1.0,есть дети,7240.0,669.0,9.24%,33.94%


**Вывод:** 

**1)Применив функцию `func_pivot` колонке `children_category`** мы выяснили, что доля заёмщиков, имеющих просроченную задолженность:

у тех, у кого **есть дети** - **9.24%**;

у тех, у кого **нет детей** - **7.54%**.                                                                                                                                                                                                                

**Таким образом, заёмщики у которых есть дети, имеют просроченную задолженность чаще на 1,7 п.п., что на 22,5% больше аналогичного показателя у заещиков, не имеющих детей.**

**2)Применив функцию `func_pivot` колонке `children`** мы выяснили, что  процент заёмщиков, вышедших на просроченную задолженность, у которых имеются дети (от 1 до 4) варьируется от 8.18% (3 детей) до 9.76%(4 детей). 

Однако у категорий заёмщиков с 3 и 4 детьми малое количество выданных займов(в общем  371 займ и  1,7% от общего количества) 

А в наибольших категориях с 1 и 2 детьми (в общем  6 860 займов и 32% от общего количества) процент заёмщиков, вышедших на просроченную задолженность, составляет **9.23% и 9.45%**(соответсвенно) и имеют **разницу** всего в **0.22%**

**Таким образом, разница показателя доли просрочки у заёмщиков, вышедших на просроченную задолженность, имеющих детей в зависимости от количества детей - малозначительна.** 

**Наиболее значительна разница между заёмщиками,  у которых есть дети и у которых детей нет.** 





#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [27]:
# создаем pivot_debt_family с помощью функции func_pivot
pivot_debt_family = func_pivot(data['family_status'])
# выводим pivot_debt_family
pivot_debt_family

Unnamed: 0,family_status,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,Не женат / не замужем,2796.0,273.0,9.76%,13.11%
1.0,в разводе,1189.0,84.0,7.06%,5.57%
2.0,вдовец / вдова,951.0,63.0,6.62%,4.46%
3.0,гражданский брак,4134.0,385.0,9.31%,19.38%
4.0,женат / замужем,12261.0,927.0,7.56%,57.48%


In [28]:
# создаем функцию, которая разделяет на категории в браке/ не в браке.
def family_func(marriage): 
    if marriage != 'женат / замужем':
        return 'не в браке'
    return 'в браке'

# создаем новую колонку family_marriage , используя функцию family_func
data['family_marriage'] = data['family_status'].apply(family_func)

In [29]:
# создаем pnew_pivot_debt_family с помощью функции func_pivot
new_pivot_debt_family = func_pivot(data['family_marriage'])
# выводим new_pivot_debt_family
new_pivot_debt_family

Unnamed: 0,family_marriage,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,в браке,12261.0,927.0,7.56%,57.48%
1.0,не в браке,9070.0,805.0,8.88%,42.52%


**Вывод:** 

**1)Применив функцию `func_pivot` колонке `family_marriage`** мы выяснили, что доля заёмщиков, имеющих просроченную задолженность:

**в официальном браке - 7.56%;**

**не в браке - 8.88%.**

Разница в абсолютном значении составляет **1.32 п.п** (в процентном 17.5 %). Т.е те , кто **не в браке, выходят на просрочку на 17.5 % чаще, чем те, кто в браке.**

**1)Применив функцию `func_pivot` колонке `family_status`** получили данные , что 

**наибольшая** доля заёмщиков, имеющих просроченную задолженность, имеется у категорий:

**Не женат / не замужем - 9.76%;**

**гражданский брак - 9.31%.**

Данные категории составляют около 32.5 % от общего количества займов.


**наименьшая**  доля заёмщиков, имеющих просроченную задолженность, имеется у категорий:

**в разводе - 7.06%;**

**вдовец / вдова - 6.62%**

Данные категории составляют примерно  10 % от общего количества займов.


Таким образом, можно сделать вывод, что внутри группы заёмщиков, не находящихся в официальном браке,**разница** между минимальным(вдовец / вдова - 6.62%) и максимальным(Не женат / не замужем - 9.76%) значением составляет **3.14%**. В среднем по данной группе показатель просроченности займов - 8.88%, что на 1.32 п.п. больше заёмщиков , находящихся в официальном браке.











#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [30]:
# создаем total_income_category, использовав функцию func_pivot :
pivot_debt_income = func_pivot(data['total_income_category'])
# выводим pivot_debt_income , где в колонке total_income_category
# 0–30000 — 'E';
# 30001–50000 — 'D';
# 50001–200000 — 'C';
# 200001–1000000 — 'B';
# 1000001 и выше — 'A' :
pivot_debt_income                               

Unnamed: 0,total_income_category,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,A,25.0,2.0,8.00%,0.12%
1.0,B,5014.0,354.0,7.06%,23.51%
2.0,C,15921.0,1353.0,8.50%,74.64%
3.0,D,349.0,21.0,6.02%,1.64%
4.0,E,22.0,2.0,9.09%,0.10%


In [31]:
# для того, чтобы посмотреть показатели внутри категорий С (50 000 - 200 000 ) и D (200 000 - 1 000 000),создаем новую функцию:
# 0-50 000 - G ;
# 50 001-100 000 - F;
# 100 001-150 000 - E;
# 150 001-200 000 - D;
# 200 001-500 000 -C;
# 500 001 - 1 000 000 - B;
# свыше 1 000 001 - A :

def new_categorize_income(income):
    try:
        if 0 <= income <= 50000:
            return 'G'
        elif 50001 <= income <= 100000:
            return 'F'
        elif 100001 <= income <= 150000:
            return 'E'
        elif 150001 <= income <= 200000:
            return 'D'
        elif 200001 <= income <= 500000:
            return 'C'
        elif 500001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass
# создаем колонку new_total_income_category с помощью функции :
data['new_total_income_category'] = data['total_income'].apply(new_categorize_income)    

In [32]:
# создаем new_pivot_debt_income с помощью func_pivot :
new_pivot_debt_income = func_pivot(data['new_total_income_category'])
# выводим new_pivot_debt_income :
new_pivot_debt_income

Unnamed: 0,new_total_income_category,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,A,25.0,2.0,8.00%,0.12%
1.0,B,197.0,12.0,6.09%,0.92%
2.0,C,4817.0,342.0,7.10%,22.58%
3.0,D,4738.0,403.0,8.51%,22.21%
4.0,E,7110.0,619.0,8.71%,33.33%
5.0,F,4073.0,331.0,8.13%,19.09%
6.0,G,371.0,23.0,6.20%,1.74%


**Вывод:** 

Категоризовав уровень дохода:

`0-50 000 - G ;`

`50 001-100 000 - F;`

`100 001-150 000 - E;`

`150 001-200 000 - D;`

`200 001-500 000 -C;`

`500 001 - 1 000 000 - B;`

`свыше 1 000 001 - A ,`

можно сделать вывод , что **бОльшая доля просрочников** была у заёмщиков с уровнем дохода **от 50 001 до 200 000** руб.(категории D,E,F) - в среднем **8.5 %** . 

**Наибольшая доля у категории E(100 001-150 000) - 8.71%**

У заёмщиков с доходом **свыше 200 001 р уровень просроченной задолженности снижается**. Чем выше доход , тем ниже просроченная задолженность(в категории С (200 001-500 000) - **7.1%** ; в категории В (500 001 - 1 000 000) - **6.09%(минимальный показатель)**. Категория А( свыше 1 000 000) малоинформативна, т.к. мало данных - всего 0,12% от общего числа займов.

У заёмщиков с доходом **до 50 000** руб   уровень просроенной задолженности - **6.2%**  и также ниже чем в диапазоне от 50 001 до 200 000 руб.



#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [33]:
# создаем pivot_debt_purpose , исользовав функцию func_pivot к колонке purpose_category :
pivot_debt_purpose = func_pivot(data['purpose_category'])
# выводим pivot_debt_purpose :
pivot_debt_purpose

Unnamed: 0,purpose_category,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,
0.0,операции с автомобилем,4279.0,400.0,9.35%,20.06%
1.0,операции с недвижимостью,10751.0,780.0,7.26%,50.40%
2.0,получение образования,3988.0,369.0,9.25%,18.70%
3.0,проведение свадьбы,2313.0,183.0,7.91%,10.84%


In [34]:
# создаем функцию new_func_pivot с параметрами meaning_1,meaning_2 :
def new_func_pivot(meaning_1,meaning_2):
    # создаем сводную таблицу data_pivot с meaning_1,meaning_2 в роли index, со значением из колонки debt 
    # и применяемыми функциями  count,sum,mean
    # убираем мультииндекс :
    data_pivot = data.pivot_table(index=[meaning_1,meaning_2], 
                                  values='debt',
                                  aggfunc=['count','sum','mean']).reset_index() 
    # заменяем названия колонок  в сводной таблице :
    data_pivot = data_pivot.rename(columns={'sum':'overdue', 
                       'count':'number_of_borrowers',
                       'mean':'share_overdue',
                       'debt': ' '})
    # меняем формат колонки share_overdue  на проценты с 2 знаками после запятой с помощью метода format() : 
    data_pivot['share_overdue', ' '] = data_pivot['share_overdue', ' '].apply('{:.2%}'.format)
    # создаем столбец share_borrowers с показателями доли займов по каждой категории от общего количества :
    data_pivot['share_borrowers'] = data_pivot['number_of_borrowers', ' ']/data_pivot['number_of_borrowers', ' '].sum()
    data_pivot['share_borrowers'] = data_pivot['share_borrowers'].apply('{:.2%}'.format)
    
    # возвращаем сводную таблицу data_pivot :
    return data_pivot 


# чтобы посмотреть внутри категорий, создаем new_pivot_debt_purpose , исользовав функцию func_pivot к колонке  purpose_category и purpose 
new_pivot_debt_purpose = new_func_pivot(data['purpose_category'],data['purpose'])
# выводим new_pivot_debt_purpose
new_pivot_debt_purpose

Unnamed: 0,purpose_category,purpose,number_of_borrowers,overdue,share_overdue,share_borrowers
,,,,,,
0.0,операции с автомобилем,автомобили,476.0,44.0,9.24%,2.23%
1.0,операции с автомобилем,автомобиль,491.0,41.0,8.35%,2.30%
2.0,операции с автомобилем,на покупку автомобиля,469.0,44.0,9.38%,2.20%
3.0,операции с автомобилем,на покупку подержанного автомобиля,471.0,35.0,7.43%,2.21%
4.0,операции с автомобилем,на покупку своего автомобиля,504.0,46.0,9.13%,2.36%
5.0,операции с автомобилем,приобретение автомобиля,459.0,42.0,9.15%,2.15%
6.0,операции с автомобилем,свой автомобиль,473.0,47.0,9.94%,2.22%
7.0,операции с автомобилем,сделка с автомобилем,455.0,50.0,10.99%,2.13%
8.0,операции с автомобилем,сделка с подержанным автомобилем,481.0,51.0,10.60%,2.25%


**Вывод:** 


**Наибольшая доля просроченных займов с целями:  операции с автомобилем - 9.35% и  получение образования - 9.25%** (возможно объяснить поломкой и приход в негодность транспортного средства, а также дополнительными в этом случае расходами - в случае с  целью "операции с автомобилями" ; смена места работы в т.ч. в связи с переквалификацией, нахождение в статусе "безработный" - с  целью "получение образования")

**Наименьшая доля  просроченных займов с целями: операции с недвижимостью - 7.26%**(возможно объяснить наличием залога по некоторым типам операций) и **проведение свадьбы -7.91%**. 
Наиболее низкий показатель внутри цели "операции с недвижимостью" - покупка своего жилья - 5.49% и ремонт жилья  - 5.79%.




#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* 

**Возможные причины появления пропусков в исходных данных :**


1) Человеческий фактор;

2) Фактическое отстутствие этих данных;

3) Тех. сбой при внесении данных в таблицу;

4) Несоответствие типов при внесении новых данных.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 

**Медиана, в отличии от среднего значения, корректно характеризует данные, когда некоторые значения сильно выделяются среди большинства.**

### Шаг 4: общий вывод.

**Общий вывод.**

Средний показатель доли просроченных займов составляет **8.12%**

**Наибольшие показатели доли просроченных займов :**


1) у заёмщиков, у которых `есть дети`(9.24%)

2) находящихся `не в браке` (8.88%). Больше всего просрочки в подгруппе `Не женат / не замужем` (9.76%)

3) с `уровнем дохода от 50 001 руб. до 200 000 руб.`(8.5%)

4) с целью займа - `операции с автомобилем` (9.35%)



**Наименьшие показатели доли просроченных займов :**


1) у заёмщиков, у которых `детей нет`(7.54%)

2) находящихся `в браке` (7.56%)

3) с `уровнем дохода от 200 001 руб.до 1 000 000 руб`(7.06%)

4) с целью займа - `операции с недвижимостью` (7.26%)







