# Исследование надежности заемщиков


**Краткое описание проекта**

**Заказчик:** кредитный отдел банка. 
**Цель**
Проверить гипотезу о том, что влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 

**Входные данные от банка** 
Статистика о платёжеспособности клиентов. Хранится в датасете: data.csv

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Откроем таблицу и изучим общую информацию о предоставленных данных

In [1]:
# импортируем библиотеку pandas
import pandas as pd

# считываем csv-файл датасета в перемнную data
try:
    data = pd.read_csv('data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [2]:
# рассмотрим данные датасета (первые 20 строчек)
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# посмотрим основную информацию по датасету
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**По итогу у нас есть следующее описание данных датасета**
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

**Выводы**

В каждой строке таблицы — данные о клиентах, но они обезличены. Условно колонки подразделяются на информацию о семье, работе, образовании, доходе. Отдельно стоит отметить наличие информации по задолжностям и о целях кредитования

Предварительно можно утверждать, что данных достаточно для проверки гипотезы. Названия колонок соответствуют правильной стилистике, но встречаются пропуски в данных (колонки `days_employed` и `total_income`)

Для анализа данных необходимо провести их предобработку

## Предобработка данных

### Удаление пропусков

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — `days_employed` - характеризующий опыт работы. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполним пропуски в этом столбце медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` заполним медианным доходом среди всех записей с тем же типом.

Предполагаем, что возможными причинами возникновения пропусков в данном случае могут быть:
- ошибки в выгрузке датасета;
- ошибки при заполнении данных при оформлении кредитов;
- отсутствие данных у клиентов, оформивших кредит для получения образования;
- отсутствие данных у определенной категории госслужащих в соответствие с законодательством;
- отсутствие данных у клиентов, у которых отсутствует "белый" доход и стаж;
- возможно связано с условиями на некоторые кредиты, где нет необходимости подтверждать и указывать данные по доходам и опыту.

In [5]:
# Рассмотрим типы занятости, указанные в датасете, и запишем в отдельную переменную
income_type = data['income_type'].unique()
income_type

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [6]:
# определим медианные значения для каждого типа занятости через цикл, используя список income_type, и 
# пропущенные значения в столбце total_income заполним медианным доходом среди всех записей в соответствие 
# с типом занятости из столбца income_type
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Медианное значение гораздо точнее показывает средние показатели из всей выборки, и на них не влияют значения, которые сильно выделяются в меньшую или большую сторону

### Обработка аномальных значений

In [7]:
# проверим факт наличия отрицательных значений в столбце 'days_employed'
data.sort_values(by='days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,-18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью
4299,0,-17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
7329,0,-16593.472817,60,высшее,0,женат / замужем,0,F,сотрудник,0,124697.846781,заняться высшим образованием
17838,0,-16264.699501,59,среднее,1,женат / замужем,0,F,сотрудник,0,51238.967133,на покупку автомобиля
16825,0,-16119.687737,64,среднее,1,женат / замужем,0,F,сотрудник,0,91527.685995,покупка жилой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,172357.950966,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,142594.396847,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,172357.950966,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,142594.396847,строительство жилой недвижимости


В столбце `days_employed` имеются аномальные значения - отрицательные данные. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.

In [8]:
# заменяем все отрицательные значения положительными с помощью метода abs() в столбце days_employed
data['days_employed'] = data['days_employed'].abs()
# проверяем минимальные значения в столбце 
data.sort_values(by='days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
17437,1,24.141633,31,среднее,1,женат / замужем,0,F,сотрудник,1,166952.415427,высшее образование
8336,0,24.240695,32,высшее,0,Не женат / не замужем,4,M,сотрудник,0,124115.373655,получение дополнительного образования
6157,2,30.195337,47,среднее,1,гражданский брак,1,M,компаньон,0,231461.185606,свадьба
9683,0,33.520665,43,среднее,1,Не женат / не замужем,4,M,сотрудник,1,128555.897209,приобретение автомобиля
2127,1,34.701045,31,высшее,0,женат / замужем,0,F,компаньон,0,90557.994311,получение образования
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,172357.950966,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,142594.396847,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,172357.950966,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,142594.396847,строительство жилой недвижимости


Для каждого типа занятости выведим медианное значение трудового стажа `days_employed` в днях.

In [9]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится нам для исследования.

Выведим перечень уникальных значений столбца `children`.

In [10]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`

In [11]:
# удаляем строки с аномальными значениями в столбце children в датафрейме data
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведим перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [12]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.

In [13]:
# определим медианные значения для каждого типа занятости через цикл, используя список 
# income_type, и пропущенные значения в столбце days_employed заполним медианным доходом среди всех 
# записей в соответствие с типом занятости из столбца income_type
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Посмотрим, что все пропуски заполнены

In [14]:
# Выводим количество пропущенных значений для каждого столбца
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [15]:
# меняем тип данных с вещественного на целочисленный в столбце total_income
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [16]:
# меняем регистр символом в столбце education на нижний
data['education'] = data['education'].str.lower()

Выведим на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [17]:
# находим количество дубликатов в датафрейме data
print(data.duplicated().sum())

71


In [18]:
# удаляем явные дубликаты
data = data.drop_duplicates()

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используем собственную функцию с именем `categorize_income()` и метод `apply()`.

In [19]:
# создаем функцию categorize_income()
def categorize_income(row):
#  возвращает категорию по значению столбца total_income в следующих диапазонах:
#     0–30000 — 'E';
#     30001–50000 — 'D';
#     50001–200000 — 'C';
#     200001–1000000 — 'B';
#     1000001 и выше — 'A'.
    try:
        total_income = row['total_income']
        if 0 <= total_income <= 30000:
            return 'E'
        elif 30001 <= total_income <= 50000:
            return 'D'
        elif 50001 <= total_income <= 200000:
            return 'C'
        elif 200001 <= total_income <= 1000000:
            return 'B'
        return'A'
    except:
        pass

In [20]:
# проверим работу функции
row_values = [220000]
row_columns = ['total_income']
row = pd.Series(data=row_values, index=row_columns) 
categorize_income(row) 

'B'

In [21]:
# применяем функцию categorize_income к датафрейму data методом apply()
data['total_income_category'] = data.apply(categorize_income,axis=1)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B


Выведим на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [22]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучим данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.

In [23]:
# создаем функцию categorize_purpose()
def categorize_purpose(row):
#  возвращает категорию по части значения столбца purpose в следующих параметрах:
#     если в строке есть отрывок 'авто', то возвращает 'операции с автомобилем';
#     если в строке есть отрывки 'жил' или 'недвиж', то возвращает 'операции с недвижимостью';
#     если в строке есть отрывок 'свад', то возвращает 'проведение свадьбы';
#     если в строке есть отрывок 'образов', то возвращает 'получение образования';
    try:
        purpose = row['purpose']
        if 'авто' in purpose:
            return 'операции с автомобилем'
        elif ('жил' in purpose) or ('недвиж' in purpose):
            return 'операции с недвижимостью'
        elif 'свад' in purpose:
            return 'проведение свадьбы'
        elif 'образов' in purpose:
            return 'получение образования'
        return''
    except:
        return 'нет категории'

In [24]:
# проверим работу функции
row_values = ['операции со своей недвижимостью']
row_columns = ['purpose']
row = pd.Series(data=row_values, index=row_columns) 
categorize_purpose(row) 

'операции с недвижимостью'

In [25]:
# применяем функцию categorize_purpose к датафрейму data методом apply()
data['purpose_category'] = data.apply(categorize_purpose,axis=1)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


## Исследуйте данные и ответьте на вопросы

**Проверим есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [26]:
# проверим уникальные значения столбца debt
print(data['debt'].unique())

[0 1]


Видим, что в столбце `debt` всё соответствует описанию, т.е. если значение равно `1` то имелась задолженность по возврату кредитов и `0` если её не было

In [27]:
#вычислим общую долю возникновения задолжностей при возврате кредитов в %
print(data['debt'].sum()/
      data['debt'].count()*100)

8.119638085415593


Для анализа данных создадим функцию формирования сводной таблицы где в качестве столбцов будут: 'Всего кредитополучателей', 'Всего должников', 'Доля должников'. Это поможет для анализа возникновения  задолжностей по кредитам в зависимости от категории клиентов

In [28]:
def create_pivot(column):
    try:
        df = data.pivot_table(index=[column],
                              aggfunc={'gender': len, 'debt': ['sum', 'mean']})
        df.columns = ['share_of_debtors', 'total_debtors', 'total_borrowers']
        df['share_of_debtors'] = df['share_of_debtors']*100
        return df
    except:
        print('проверьте данные')

**Теперь ответим на вопрос: есть ли зависимость между количеством детей и возвратом кредита в срок?**

Используем функцию create_pivot для подсчета количества клиентов, количества должников и доли должников в зависимости от количества детей

In [29]:
# применяем функцию create_pivot к столбцу 'children'
create_pivot('children')

Unnamed: 0_level_0,share_of_debtors,total_debtors,total_borrowers
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,7.543822,1063.0,14091
1,9.234609,444.0,4808
2,9.454191,194.0,2052
3,8.181818,27.0,330
4,9.756098,4.0,41
5,0.0,0.0,9


**Вывод:** 
Можно сделать вывод, что есть незначительная зависимость между количеством детей и возвратом кредита в срок. Согласно полученных данных после анализа можно сказать, что при наличии детей независимо от их количества процент возникновения задолжностей при возврате кредита примерно одинаков `(9.2% c 1 ребенком и 9.4% c 2 детьми)`, но при этом доля возникновения задолжностей у клиентов без детей чуть ниже `(7.5%)`, чем у клиентов с детьми.

Данные по клиентам с 3-5 детьми можно не учитывать, т.к. их доля составляет всего 1,77% от всей выборки

**Проверим есть ли зависимость между семейным положением и возвратом кредита в срок?**

Для начала попробуем узнать значения индикаторов family_status_id по значению столбца family_status 

In [30]:
data.groupby('family_status')['family_status_id'].mean()

family_status
Не женат / не замужем    4
в разводе                3
вдовец / вдова           2
гражданский брак         1
женат / замужем          0
Name: family_status_id, dtype: int64

Соответственно получаем описание значений столбца `family_status_id`:
- `0` - женат / замужем
- `1` - гражданский брак
- `2` - вдовец / вдова
- `3` - в разводе
- `4` - Не женат / не замужем

Используем функцию create_pivot для подсчета количества клиентов, количества должников и доли должников в зависимости от семейного положения

In [31]:
# применяем функцию create_pivot к столбцу 'family_status'
create_pivot('family_status')

Unnamed: 0_level_0,share_of_debtors,total_debtors,total_borrowers
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,9.763948,273.0,2796
в разводе,7.06476,84.0,1189
вдовец / вдова,6.624606,63.0,951
гражданский брак,9.313014,385.0,4134
женат / замужем,7.560558,927.0,12261


**Вывод:** Можно сделать вывод, что так же как и в предыдущем вопросе, присутствует незначительная зависимость между категориями семейного положения и наличием задолжностей в процессе возврата кредита. Доля более дисциплинорованных клиентов находятся в категориях `в разводе (7%)`, `вдовец / вдова(6.6%)`, `женат / замужем(7.5%)`. Чуть больше доля возникновения задолжностей при возврате кредитов в категориях клиентов `гражданский брак (9.2%)`, `Не женат / не замужем (9.7%)`

**Проверим есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

У нас есть следующие категории клиентов по уровню дохода:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

Используем функцию create_pivot для подсчета количества клиентов, количества должников и доли должников в зависимости от уровня дохода

In [32]:
# применяем функцию create_pivot к столбцу 'total_income_category'
create_pivot('total_income_category')

Unnamed: 0_level_0,share_of_debtors,total_debtors,total_borrowers
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,8.0,2.0,25
B,7.060231,354.0,5014
C,8.49821,1353.0,15921
D,6.017192,21.0,349
E,9.090909,2.0,22


**Вывод:** Можно сделать вывод, что присутствует небольшая зависимость между категориями доходности клиентов и наличием задолжностей в процессе возврата кредита. То есть в общем количестве  клиентов с бОльшим доходом меньше случаев возникновения задолжностей при возврате кредитов на `1.4%`

**Проверим как разные цели кредита влияют на его возврат в срок?**

Сгруппируем количество клиентов по целям кредитования и вычислим долю клиентов по каждой группе У нас есть следующие категории в зависимости от целей кредитования:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Используем функцию create_pivot для подсчета количества клиентов, количества должников и доли должников в зависимости от целей кредитования

In [33]:
# применяем функцию create_pivot к столбцу 'purpose_category'
create_pivot('purpose_category')

Unnamed: 0_level_0,share_of_debtors,total_debtors,total_borrowers
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,9.347978,400.0,4279
операции с недвижимостью,7.255139,780.0,10751
получение образования,9.252758,369.0,3988
проведение свадьбы,7.911803,183.0,2313


**Вывод:** Есть определенная, но небольшая зависимость возникновения задолжностей при вовзрате кредитов в зависимости от целей кредитования. Так наименее всего появляются задолжности при кредитовании, связанных с недвижимостью `7.3%`. Возможно это связано с более ответственным отношением клиентов при оформлении и закрытии задолжности при ипотечном кредитовании. Маленький процент возникновения задолжностей при кредитовании для проведении свадеб `7.8%` вполне может быть связан с тем, что значительная часть или полностью кредит закрывается после свадьбы с подарочных денежных средств.

Больше доля возникновения задолжностей при кредитованиях, связанных с автомобилями `9.3%` и с образованием `9.2%`.

## Общий вывод.

По итогам исследования мы можем сделать следующие выводы:
- наличие 1 и более ребенка у клиента немного негативно сказывается на возникновении задолжностей при возврате кредита в отличие от клиентов без детей (примерно на `1.7-1.9%`) независимо от их количества;
- клиенты, имеющие или имевшие зарегистрированные семейнные отношения чуть более дисплинированы при возврате кредита, чем остальные клиенты (примерно на `1.7-3,1%`)
- чем больше доход у клиента, тем чуть меньше рисков при возврат кредита для банка (на `1.4%`);
- чуть лучше ситуация при возврате кредитов, связанных с недвижимостью и проведением свадеб (и возможно подобных мероприятий типа юбилеев, миланов и т.д.), чем при кредитовании, связанных с автомобилями и образованием (примерно на `1.5-2%`)

Почти во всех случаях зависимость незначительная и не сильно отличается от средней доли возникновения задолжностей в `8.1%`. В некоторых категориях указанных пунктов отличается от средней доли до 2% в большую или меньшую сторону. 

По имеющимся данным можно сделать вывод, что: 
- наилучшим кредитором для банка является: *бездетный вдовец с доходом от 200 000 руб., которому лучше одобрять кредиты, связанных с недвижимостью или проведеним свадьбы*
- наиболее рискованным клиентом будет: *человек с доходом менее 200 000 руб., с двумя и более детьми, несостоящий или несостоявший в официальных отношениях, которому нежелательно одобрять кредит, связанный с автомобилями или образованием

Но есть пара моментов по результатам исследования:

При проверке вышеуказанных пунктов не всегда хватало данных по некоторым категориям, из-за чего их исключили из формирования выводов. К примеру в случаях, когда у клиентов более 3 детей или клиенты с доходами категорий А, D, E.
Также в некоторых столбцах (`общий трудовой стаж в днях` и `ежемесячный доход`) присутствовали пропуски данных примерно 10%.

Из данных одной выборки сложно сделать выводы обо всех клиентах одного или нескольких банков. Возмжно сложно судить, делать выводы и принимать решения из выборки в 21 тыс. строк.