# Исследование надежности заемщиков

**Заказчик** — кредитный отдел банка.

**Цель исследования** — влияние семейного положения и количества детей клиента на факт погашения кредита в срок:

- [Есть ли зависимость между количеством детей и возвратом кредита в срок?](#3.1)
- [Есть ли зависимость между семейным положением и возвратом кредита в срок?](#3.2)
- [Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#3.3)
- [Как разные цели кредита влияют на его возврат в срок?](#3.4)

**Входные данные от банка** — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных**

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

**Ход исследования**

Данные заемщиках получены из файла `data.csv`, содержащего информацию в соответствии с приведенным выше описанием. О качестве данных ничего не известно, поэтому перед проверкой гипотез понадобится обзор данных. 

В рамках проекта данные необходимо проверить на ошибки и оценить их влияние на исследование, а на этапе предобработки — провести поиск возможности исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. [Обзор данных](#one).
 2. [Предобработка данных](#two).
 3. [Исследование данных с целью ответа на поставленые вопросы](#three).
 
    [Итоги исследования](#four)


## 1 Обзор данных банка <a id='one'></a>

In [1]:
import pandas as pd # импорт библиотеки pandas

In [2]:
data = pd.read_csv('datasets/data.csv') # чтение файла с данными и сохранение в датафрейм data

In [3]:
data.head(20) # вывод первых 20 строчек датафрейма data на экран

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info() # вывод основной информации о датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов. Тип данных в столбцах — float64(2), int64(5), object(5).

Количество значений в столбцах `days_employed` и `total_income` отличается от остальных. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные заемщике. В данных, в том числе, указаны сведения об образовании, семейном положении, уровне доходов, поле, возрасте заемщика, а также  цели получения кредита и наличия задолженности по возврату кредитов.

В названиях колонок нарушений стиля не обнаружено.

Предварительно можно утверждать, что данных достаточно для влияние семейного положения и количества детей клиента на факт погашения кредита в срок. При этом встречаются пропуски в данных.

Необходимо провести предобработку данных.

## 2 Предобработка данных <a id='two'></a>
Исключение пропусков, проверка данных на дубликаты.

### 2.1 Удаление пропусков

In [5]:
data.isna().sum() # вывод количества пропущенных значений для каждого столбца

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца income_type, что позволит уменьшить влияние выбросов в данных. Например, у человека с типом занятости сотрудник пропуск в столбце total_income должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [6]:
for i, j in data.groupby('income_type')['total_income'].median().items(): # определяем тип занятости и медианное значение дохода по данному типу
    data.loc[(data['total_income'].isna()) & (data['income_type'] == i), 'total_income'] = j # проверяем наличие пропуска в данных с доходом для опредленного типа и заполняем медианным значением 

### 2.2 Обработка аномальных значений

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными.

In [7]:
data['days_employed'] = data['days_employed'].abs() # замена отрицательных значений на положительные

In [8]:
data['days_employed'] 

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях:

In [9]:
data.groupby('income_type')['days_employed'].median() # медианное значение трудового стажа для каждого типа занятости

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Можно предположить, что это связано с отсутствием актуальных данных с работы заемщиков этих категорий. Так как пенсионер априори имеет достаточное количество трудовых дней для выхода на пенсию, это значение и так должно быть большим, но более адекватным. Скорее всего большое значение трудового стажа некорректно было выгружено в таблицу. Судя по тому, что безработному вряд ли дали бы кредит и количество дней стажа также аномально большое, можно предположить, что это тоже безработный пенсионер. Исправить такие значения сложно, поэтому оставим их как есть. Проверим количество пенсионеров и безработных.

In [10]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

В данных есть 4 малочисленные группы, которые можно было бы удалить или отнести к многочисленным группам, например, безработных к пенсионерам. Однако ввиду того, что заказчиком не поставлено задания исследования влияния вида деятельности заемщиков на возврат кредита, оставим данные как есть.

Поочередное использование метода value_counts() к столбцам датафрейма показало, что есть дополнительные артефакты, например, в столбце с указанием пола заемщика:

In [11]:
data['gender'].value_counts() # определим есть ли артефакты в столбце с указанием пола заемщика

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [12]:
data.loc[data['gender'] == 'XNA', :] # найдем строку датафрейма с единственным артефактом в столбце с указанием пола заемщика 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


Как видно, у одного из заемщиков неправильно указан пол, при этом другими уникальными характеристиками заемщик не обладает, поэтому данную строку можно исключить из выборки. 

In [13]:
data.drop(index=[10701], inplace=True) # удалим строку с полом XNA из выборки
data = data.reset_index(drop=True) # восстановим порядок индексов
data['gender'].value_counts() # проверим, что строка удалена правильно

F    14236
M     7288
Name: gender, dtype: int64

Выведем перечень уникальных значений столбца `children`:

In [14]:
data['children'].unique() # перечень уникальных значений

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`:

In [15]:
data = data[(data['children'] != -1) & (data['children'] != 20)] # применим условия для исключения необходимых данных

In [16]:
data['children'].unique() # проверка отсутствия артефактов

array([1, 0, 3, 2, 4, 5], dtype=int64)

### 2.3 Удаление пропусков (продолжение)

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`:

In [17]:
for i, j in data.groupby('income_type')['days_employed'].median().items(): # определяем тип занятости и медианное значение трудового стажа по данному типу
    data.loc[(data['days_employed'].isna()) & (data['income_type'] == i), 'days_employed'] = j # проверяем наличие пропуска в данных с трудовым стажем для опредленного типа и заполняем медианным значением 

In [18]:
data.isna().sum() # проверка на наличие пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### 2.4 Изменение типов данных

In [19]:
data['total_income'] = data['total_income'].astype('int64') # заменим вещественный тип данных в столбце total_income на целочисленный

Для удобства восприятия данных можно оставить целое количество дней трудового стажа

In [20]:
data['days_employed'] = data['days_employed'].astype('int64')

In [21]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21401 entries, 0 to 21523
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21401 non-null  int64 
 1   days_employed     21401 non-null  int64 
 2   dob_years         21401 non-null  int64 
 3   education         21401 non-null  object
 4   education_id      21401 non-null  int64 
 5   family_status     21401 non-null  object
 6   family_status_id  21401 non-null  int64 
 7   gender            21401 non-null  object
 8   income_type       21401 non-null  object
 9   debt              21401 non-null  int64 
 10  total_income      21401 non-null  int64 
 11  purpose           21401 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


### 2.5 Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [22]:
data['education'] = data['education'].str.lower() # переход к нижнему регистру

In [23]:
data.duplicated().sum() # вывод количества строк-дубликатов в данных

71

In [24]:
data = data.drop_duplicates().reset_index(drop=True) # удаление явных дубликатов и сброс индексов

### 2.6 Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


*Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.*

In [25]:
# создадим функцию categorize_income()
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [26]:
data['total_income_category'] = data['total_income'].apply(categorize_income) # применим функцию методом apply()

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`:

In [27]:
data['purpose'].unique() # перечень уникальных целей взятия кредита

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

*Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.*

In [28]:
def categorize_purpose(row): # создадим функцию categorize_purpose()
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [29]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose) # применим функцию методом apply()

Разброс в возрасте заемщиков слишком велик, для удобства применения данных о возрасте заемщиков в оценке их влияния на возврат кредита, выполним их категоризацию.

In [30]:
def categorize_age(age): # проведем категоризацию возраста заемщиков
    try:
        if 18 <= age <= 24:
            return 'до 24 лет'
        elif 24 < age <= 35:
            return '25-35 лет'
        elif 35 < age <= 65:
            return '36-65 лет'
        elif age > 65:
            return 'после 65 лет'
        return 'возраст не задан'
    except:
        return 'возраст не задан'
    
data['age_category'] = data['dob_years'].apply(categorize_age) # применим функцию методом apply()

Оценим количество детей заемщиков.

In [31]:
data['children'].value_counts() # определим число уникальных значений в столбце с указанием количества детей заемщиков

0    14090
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

Как видно, больше всего бездетных заемщиков, а в случае наличия трех и более детей их количество значительно снижается, есть смысл ввести дополнительную категоризацию.

In [32]:
def categorize_children(children): # проведем категоризацию по количеству детей заемщиков
    try:
        if children < 1:
            return '0_бездетные'
        elif children == 1:
            return '1_один_ребенок'
        elif children == 2:
            return '2_два_ребенка'
        elif children >= 3:
            return '3_многодетные'
    except:
        pass

data['children_category'] = data['children'].apply(categorize_children) # применим функцию методом apply()

Для увеличения разнообразия оценки влияния дохода заемщиков, к категоризации дохода заемщиков, выполненной в первой части проекта, можно добавить категоризацию по квантилям.

In [33]:
#Определим первый, второй и третий квантили по данным с доходами заемщиков:
data['total_income'].quantile([.25, .5, .75])

0.25    107503.00
0.50    142594.00
0.75    195836.75
Name: total_income, dtype: float64

In [34]:
def categorize_income_quantile(income): # проведем категоризацию по доходу заемщиков по квантилям:
    try:
        if income < 107503:
            return 'Q1: до 107,5 тыс'
        if 107503 <= income < 142594:
            return 'Q2: 107,5 - 142,6 тыс'
        if 142594 <= income < 195836.75:
            return 'Q3: 142,6 - 195,8 тыс'
        if income >= 195836.75:
            return 'Q4: более 195,8 тыс'
    except:
        pass
    
data['income_category_quantile'] =  data['total_income'].apply(categorize_income_quantile) # применим функцию методом apply()

In [35]:
# проверим, все ли данные категоризированы
cat_list = ['total_income_category', 'purpose_category', 'age_category', 'children_category', 'income_category_quantile']
for i in cat_list:
    print(data[i].isna().sum())

0
0
0
0
0


In [36]:
data.head(10) # выведем на экран 10 строк датафрейма

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,age_category,children_category,income_category_quantile
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,36-65 лет,1_один_ребенок,"Q4: более 195,8 тыс"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,36-65 лет,1_один_ребенок,"Q2: 107,5 - 142,6 тыс"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,25-35 лет,0_бездетные,"Q3: 142,6 - 195,8 тыс"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,25-35 лет,3_многодетные,"Q4: более 195,8 тыс"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,36-65 лет,0_бездетные,"Q3: 142,6 - 195,8 тыс"
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,25-35 лет,0_бездетные,"Q4: более 195,8 тыс"
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,36-65 лет,0_бездетные,"Q4: более 195,8 тыс"
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,36-65 лет,0_бездетные,"Q2: 107,5 - 142,6 тыс"
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,25-35 лет,2_два_ребенка,"Q1: до 107,5 тыс"
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,36-65 лет,0_бездетные,"Q3: 142,6 - 195,8 тыс"


## 3 Исследование данных <a id='three'></a>

### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок? <a id='3.1'></a>

In [37]:
data.groupby('children').agg({'debt': ['sum', 'count']}) # определим зависимость между количеством детей и возвратом кредита в срок

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,sum,count
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,1063,14090
1,444,4808
2,194,2052
3,27,330
4,4,41
5,0,9


Очевидна зависимость между числом детей и количеством оформленных кредитов: с увеличением количества детей у заемщиков количество оформляемых кредитов падает. Подавляющее число кредитов берут бездетные заемщики. Как видно из полученных результатов, группировка по количеству детей заемщиков говорит о наличии исследуемой зависимости, причем с увеличением количества детей у заемщиков, количество невозвратов кредитов в срок снижается. Однако снижается и количество взятых кредитов, т.е. в количественном отношении размер отдельных групп заемщиков с разным количеством детей отличается. Поэтому определим количество невозвращенных в срок кредитов относительно общего количества взятых кредитов каждой из групп заемщиков.

In [38]:
# напишем функцию для построения сводных таблиц, принимающую в качестве аргументов индекс и логическое значение для сортировки по доле задолжников:
def pivot(index, sort=False):
    # создадим сводную таблицу, избавимся от мультииндекса, переименуем столбцы и, в случае необходимости, выполним сортировку:
    piv = data.pivot_table(index=index, values='debt', aggfunc=['sum', 'count', lambda x: f'{x.sum() / x.count():.1%}'])
    piv.columns = ['Количество должников', 'Всего кредитополучателей', 'Процент должников']
    if sort == True:
        return piv.sort_values(by='Процент должников') # сортировка по доле задолжников
    return piv

In [39]:
pivot(['children'], True) # проверим относительное количество должников в зависимости от количества детей

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,0,9,0.0%
0,1063,14090,7.5%
3,27,330,8.2%
1,444,4808,9.2%
2,194,2052,9.5%
4,4,41,9.8%


Картина поменялась: процент невозвратов кредитов в срок растет с увеличением количества детей, спад для случая заемщиков с 3 детьми и отсутствие невозвратов в срок у заемщиков с 5 детьми может объясняться недостаточным количеством данных в выборке. Проверим данную тенденцию, но с учетом проведенной группировки по количеству детей заемщиков:

In [40]:
pivot(['children_category'], True) # проверим относительное количество должников в зависимости от количества детей

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0_бездетные,1063,14090,7.5%
3_многодетные,31,380,8.2%
1_один_ребенок,444,4808,9.2%
2_два_ребенка,194,2052,9.5%


Предыдущие выводы подходят и под данный результат. Проверим, как картина изменится, если добавить разделение заемщиков по полу.

In [41]:
pivot(['children_category', 'gender']) # проверим относительное количество должников в зависимости от количества детей

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
children_category,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0_бездетные,F,592,9520,6.2%
0_бездетные,M,471,4570,10.3%
1_один_ребенок,F,245,3085,7.9%
1_один_ребенок,M,199,1723,11.5%
2_два_ребенка,F,134,1256,10.7%
2_два_ребенка,M,60,796,7.5%
3_многодетные,F,18,231,7.8%
3_многодетные,M,13,149,8.7%


Невооруженным глазом видно, что женщины значительно чаще мужчин берут кредиты, наибольшая разница - для бездетных: больше, чем в два раза; для случая с одним ребенком: почти 45%; для двух и более детей: больше 35%. Бездетные женщины платят по счетам в срок значительно чаще, относительная разница между случаем с отсутствием детей и случаем с двумя детьми для женщин почти 60%! А вот мужчины, наоборот, с одним ребенком и без детей чаще не выплачивают кредит в срок. Дополнительно проверим как влияет возраст.

In [42]:
pivot(['age_category', 'children_category']) # проверим относительное количество должников в зависимости от количества детей и возраста заемщика

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
age_category,children_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
25-35 лет,0_бездетные,286,2665,10.7%
25-35 лет,1_один_ребенок,198,1825,10.8%
25-35 лет,2_два_ребенка,108,1001,10.8%
25-35 лет,3_многодетные,15,182,8.2%
36-65 лет,0_бездетные,674,10038,6.7%
36-65 лет,1_один_ребенок,222,2746,8.1%
36-65 лет,2_два_ребенка,82,1009,8.1%
36-65 лет,3_многодетные,16,194,8.2%
возраст не задан,0_бездетные,5,69,7.2%
возраст не задан,1_один_ребенок,3,16,18.8%


Прослеживается общий тренд снижения количества взятых кредитов при увеличении количества детей по каждой из возрастных категорий, наибольшее количество заемщиков среди бездетных людей 36-65 лет, данная категория также имеет низкий процент невозвращаемых кредитов (6,7%), для возрастной категории 25-35 лет этот процент увеличивается более чем на 35%. В остальном данных для корректных выводов недостаточно. Проверим влияние семейного статуса и детей на возврат кредита.

In [43]:
pivot(['family_status', 'children_category'])  # проверим относительное количество должников в зависимости от количества детей и семейного статуса заемщика

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
family_status,children_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,0_бездетные,210,2262,9.3%
Не женат / не замужем,1_один_ребенок,52,449,11.6%
Не женат / не замужем,2_два_ребенка,9,75,12.0%
Не женат / не замужем,3_многодетные,2,10,20.0%
в разводе,0_бездетные,55,784,7.0%
в разводе,1_один_ребенок,21,312,6.7%
в разводе,2_два_ребенка,7,81,8.6%
в разводе,3_многодетные,1,12,8.3%
вдовец / вдова,0_бездетные,53,847,6.3%
вдовец / вдова,1_один_ребенок,7,77,9.1%


Тут также заметен общий тренд влияния количества детей, выводы по перекрестному влиянию с семейным статусом сделать невозможно ввиду узости полученных категорий. Влияние именно семейного статуса на количество должников рассмотрим в следующем пункте.

**Вывод:** 

В целом исследование показывает очевидную зависимость между числом детей и количеством оформленных кредитов: с увеличением количества детей у заемщиков, количество оформляемых кредитов падает. Подавляющее число кредитов берут бездетные заемщики.

Процент должников по кредитам растет с увеличением количества детей, небольшой спад для случая многодетных заемщиков может объясняться недостаточным количеством данных в выборке. Во всяком случае относительно заемщиков без детей наличие 1-2 детей приводит к увеличению невозвратов кредитов в срок на 20% (в случае многодетных заемщиков - практически на 10%).

Женщины значительно чаще мужчин берут кредиты, наибольшая разница - для бездетных: больше, чем в два раза; для случая с одним ребенком: почти 45%; для двух и более детей: больше 35%. Бездетные женщины и женщины с одним ребенком платят по кредиту в срок относительно мужчин этих же категорий более чем на 30% чаще. Наличие детей у женщин приводит к снижению процента выплаченных кредитов в срок: разница между бездетной женщиной и женщиной с двумя детьми составляет практически 60%. Наоборот, мужчины без детей или с одним ребенком чаще не выплачивают кредит в срок (прирост в процентном отношении от 15 до 35% относительно других групп). 

Учет возрастных категорий позволяет сделать вывод, что наибольшее количество заемщиков среди бездетных людей 36-65 лет, данная категория также имеет низкий процент невозвращаемых кредитов (6,7%), для возрастной категории 25-35 лет этот процент увеличивается более чем на 35%.

### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок? <a id='3.2'></a>

In [44]:
pivot('family_status', True) # проверим относительное количество должников в зависимости от семейного статуса заемщика

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,63,951,6.6%
в разводе,84,1189,7.1%
женат / замужем,927,12261,7.6%
гражданский брак,385,4133,9.3%
Не женат / не замужем,273,2796,9.8%


Подавляющее число кредитов берут люди, состоящие в браке (40% от общей выборки). Чаще всего не возвращают кредит в срок заемщики категории "не женат / не замужем" и состоящие в гражданском браке: более чем в 9% случаев, реже всего - вдовцы и вдовы: 6,6%, относительная разница между этими категориями составляет примерно 30%. Относительно категории "вдовец / вдова" заемщики, состоящие в браке, отдают кредит в срок реже примерно на 13%, находящиеся в разводе - на 7%. Выясним зависит ли это от пола заемщика:

In [45]:
pivot(['gender', 'family_status']) # проверим относительное количество должников в зависимости от семейного статуса и пола заемщика

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
gender,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,Не женат / не замужем,118,1723,6.8%
F,в разводе,61,931,6.6%
F,вдовец / вдова,52,896,5.8%
F,гражданский брак,232,2832,8.2%
F,женат / замужем,526,7710,6.8%
M,Не женат / не замужем,155,1073,14.4%
M,в разводе,23,258,8.9%
M,вдовец / вдова,11,55,20.0%
M,гражданский брак,153,1301,11.8%
M,женат / замужем,401,4551,8.8%


Для женщин-вдов также меньше всего невозвратов кредитов в срок: 5,8%, а больше всего - у состоящих в гражданском браке: 8,2% (относительная разница 30%). Остальные три категории расположились посередине. Для мужчин кардинально изменяется вывод для категории "вдовец" - кредит не возвращается в срок в 20% случаев, однако нужно отметить, что выборка для этой категории крайне мала. Не женатые мужчины и состоящие в гражданском браке чаще не отдают кредит в срок по отношению к находящимся в разводе или женатым - почти на 40% и 25% соответственно. Выясним меняется ли эта картина с возрастом:

In [46]:
pivot(['age_category', 'family_status']) # проверим относительное количество должников в зависимости от семейного статуса и возраста заемщика

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
age_category,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
25-35 лет,Не женат / не замужем,122,1013,12.0%
25-35 лет,в разводе,21,214,9.8%
25-35 лет,вдовец / вдова,2,19,10.5%
25-35 лет,гражданский брак,130,1167,11.1%
25-35 лет,женат / замужем,332,3260,10.2%
36-65 лет,Не женат / не замужем,107,1332,8.0%
36-65 лет,в разводе,57,911,6.3%
36-65 лет,вдовец / вдова,52,787,6.6%
36-65 лет,гражданский брак,227,2623,8.7%
36-65 лет,женат / замужем,551,8334,6.6%


Основная масса заемщиков - люди от 36 до 65 лет, состоящие в браке. Выводы по данной категории коррелируют с уже сделанными выше, остальные группы малочисленны.

**Вывод:** 

Исследование показывает, что большинство заемщиков состоят в браке (40% от общей выборки), при этом основная масса - люди от 36 до 65 лет. Вдовы самые ответственные по взятым кредитным обязательствам, просрочка только в 5,8% процентах случаев, для вдовцов все наоборот (просрочка в каждом пятом случае), однако нужно отметить, что выборка для этой категории крайне мала.

Чаще всего не возвращают кредит в срок заемщики категории "не женат / не замужем" и состоящие в гражданском браке: более чем в 9% случаев. Так, наибольший процент невозвратов кредитов в срок у женщин, состоящих в гражданском браке – 8,2% (относительная разница со вдовами практически 30%), у мужчин этот показатель также велик - 11,8%. Остальные три категории для женщин («в разводе», «не замужем» и «замужем») расположились в диапазоне 6,6%-6,8% невозврата кредитов в срок. Неженатые мужчины чаще не отдают кредит в срок (14,4% случаев) по отношению к находящимся в разводе (8,9% случаев) или женатым (8,8% случаев) - почти на 40%.

### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок? <a id='3.3'></a>

In [47]:
pivot('total_income_category', True) # проверим относительное количество должников в зависимости от уровня дохода заемщика

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,21,349,6.0%
B,354,5013,7.1%
A,2,25,8.0%
C,1353,15921,8.5%
E,2,22,9.1%


Наибольшее количество кредитов берут люди с доходом от 50.000 до 200.000 (категория С), вторая по количеству кредитов категория - от 200.000 до 100.0000 (категория В), т.е. кредиты в основном берут люди с достатком выше среднего. Процент заемщиков с доходом более 1.000.000 (категория А) и менее 30.000 (категория Е) крайне низок. Достаточно мала выборка и для категории D. Исходя из данных по категориям В и С, можно сделать вывод, что люди с большим достатком чаще возвращают кредиты в срок (более чем на 15%). Сравним с категоризацией по квантилям:

In [48]:
pivot('income_category_quantile', True) # проверим относительное количество должников в зависимости от уровня дохода заемщика

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
income_category_quantile,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Q4: более 195,8 тыс",381,5333,7.1%
"Q1: до 107,5 тыс",427,5333,8.0%
"Q3: 142,6 - 195,8 тыс",542,6280,8.6%
"Q2: 107,5 - 142,6 тыс",382,4384,8.7%


Наименьший процент невозврата кредита 7,1% у категории Q4, что логично, но далее - у Q1 (8,0%): более чем на 10% больше невозвратов кредитов в срок относительно Q4, а наибольший процент невозврата оказался во втором и третьем квантилях: 8,7% и 8,6% соответственно, т.е. у людей с доходом от 107,5 до 195,8 тыс. Проверим, влияет ли дополнительно уровень образования заемщика:

In [49]:
pivot(['total_income_category', 'education']) # проверим относительное количество должников в зависимости от уровней дохода и образования заемщика 

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
total_income_category,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,высшее,1,18,5.6%
A,среднее,1,7,14.3%
B,высшее,83,1853,4.5%
B,начальное,4,40,10.0%
B,неоконченное высшее,27,216,12.5%
B,среднее,240,2902,8.3%
B,ученая степень,0,2,0.0%
C,высшее,193,3325,5.8%
C,начальное,27,227,11.9%
C,неоконченное высшее,41,521,7.9%


На основе данных наиболее многочисленных категорий B и С, можно отметить снижение уровня дохода со снижением уровня образования заемщиков: если для категории В относительная разница между категориями с высшим и средним уровнем образования менее 40%, то для категории С эта разница составляет более 70%. Независимо от категории дохода, люди без высшего образования гораздо чаще не возвращают кредит в срок.

**Вывод:** 

Исследование показывает, что кредиты в основном берут люди с достатком выше среднего, наибольшее количество кредитов берут люди с доходом от 50.000 до 200.000 (категория С): почти 74,6%, вторая по количеству кредитов категория - от 200.000 до 100.0000 (категория В): 23,5%. Процент заемщиков с доходом более 1.000.000 (категория А) и менее 30.000 (категория Е) крайне низок. Достаточно мала выборка и для категории D. Исходя из данных по категориям В и С, можно сделать вывод, что люди с большим достатком чаще возвращают кредиты в срок (более чем на 15%).

При этом категоризация уровня дохода заемщиков по квантилям показывает, что наименьший процент невозврата кредита 7,1% у категории Q4, что логично, но далее - у Q1 (8,0%): более чем на 10% больше невозвратов кредитов в срок относительно Q4, а наибольший процент невозврата оказался во втором и третьем квантилях: 8,7% и 8,6% соответственно, т.е. у людей с доходом от 107,5 до 195,8 тыс.

На основе данных наиболее многочисленных категорий B и С, можно отметить снижение уровня дохода со снижением уровня образования заемщиков: если для категории В относительная разница между категориями с высшим и средним уровнем образования менее 40%, то для категории С эта разница составляет более 70%. Независимо от категории дохода, люди без высшего образования гораздо чаще не возвращают кредит в срок.

### 3.4 Как разные цели кредита влияют на его возврат в срок? <a id='3.4'></a>

In [50]:
pivot('purpose_category', True) # проверим как разные цели кредита влияют на его возврат в срок

Unnamed: 0_level_0,Количество должников,Всего кредитополучателей,Процент должников
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,780,10750,7.3%
проведение свадьбы,183,2313,7.9%
операции с автомобилем,400,4279,9.3%
получение образования,369,3988,9.3%


Дополнительно проверим влияние пола заемщика на взятие кредитов в указанных категориях.

In [51]:
pivot(['gender', 'purpose_category']) # проверим как разные цели кредита влияют на его возврат в срок при различиях в поле заемщиков

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество должников,Всего кредитополучателей,Процент должников
gender,purpose_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,операции с автомобилем,232,2843,8.2%
F,операции с недвижимостью,444,7046,6.3%
F,получение образования,206,2649,7.8%
F,проведение свадьбы,107,1554,6.9%
M,операции с автомобилем,168,1436,11.7%
M,операции с недвижимостью,336,3704,9.1%
M,получение образования,163,1339,12.2%
M,проведение свадьбы,76,759,10.0%


**Вывод:** 

Результаты показывают, что наибольшее количество кредитов заемщики берут на проведение операций с недвижимостью, причем это не зависит от пола заемщика. Для этой же категории, в общем случае, и меньше всего невозвратов кредитов в срок среди заемщиков - 7,3%, чуть больше относительно нее процент невозвратов кредитов, взятых на проведение свадьбы - относительная разница менее 10%. Наибольший процент невозвратов кредитов в срок у категорий на получение образования и операций с автомобилем - по 9,3%, увеличение процента относительно операций с недвижимостью составляет больше 20%. 
Мужчины в большем числе случаев не отдают кредит в срок, причем наибольший процент невозвратов кредитов в срок, взятых на получение образования и операции с автомобилями (12,2% и 11,7% соответственно), эти же категории относительно просрочек выделяются и у женщин, только в обратном порядке (операции с автомобилями - 8,2%, получение образования - 7,8%). Далее подтверждается общий тренд и для мужчин, и для женщин - наименьший процент невозвратов кредитов в срок в категории "операции с недвижимостью": 9,1% и 6,1% соответственно (мужчины имеют просрочку на 30% чаще).

### 3.5 Возможные причины появления пропусков в исходных данных

Пропуски в исходных данных были обнаружены в столбцах с уровнем дохода и трудовым стажем. Важно отметить человеческий и технический факторы. Клиенты могли не предоставить данные. Возможно, эту информацию не требуют в некоторых случаях. Среди наиболее вероятных причин появления пропусков также можно выделить отсутствие официального заработка и подтвержденного трудового стажа (отсутствие официального трудоустройства и зарплата "в конвертах"). Часть данных возможно была пропущена при заполнении анкет или пропуски связаны с ошибками при заполнении и выгрузке соответствующих данных, объединении таблиц.

Пропуски данных заполняют характерными для них значениями. При выделении в данных категорий, точность определения характерного значения для категориальной группы увеличивается. Для оценки типичных значений выборки зачастую используются среднее арифметическое или медиана. Однако только медиана корректно характеризует данные, в которых присутствуют выбросы (отдельные значения сильно выделяются на фоне остальных) и снижает погрешность при заполнении пропусков. К такому случаю как раз относятся данные с доходом заемщиков (з/п категории А) и данные с трудовым стажем заемщиков (аномалии в данных у пенсионеров и безработных).

## Итоги исследования <a id='four'></a>

В ходе проекта была проведена предобработка данных, включающая:
* поиск и удаление пропусков в столбцах с информацией о трудовом стаже **`days_employed`** и доходе **`total_income`** заемщиков;
* обработку артефактов с отрицательным количеством дней трудового стажа в столбце **`days_employed`** и аномальными значениями в столбцах с количеством детей **`children`**, указанием пола **`gender`** заемщиков;
* замену вещественного типа данных в столбце **`total_income`** на целочисленный с помощью метода **`astype()`**;
* обработку дубликатов в данных с учетом неявных дубликатов в столбце с информацией об уровне образования **`education`** заемщиков;
* категоризацию данных для столбцов с информацией о доходе **`total_income`**, цели взятия кредита **`purpose`**, трудовом стаже **`days_employed`**, возрасте **`dob_years`**, количестве детей **`children`** заемщиков;
* создание `словарей` для уровня образования и семейного статуса, к которым можно обращаться по идентификатору.

В целом исследование показывает очевидную зависимость между числом детей и количеством оформленных кредитов: с увеличением количества детей у заемщиков, количество оформляемых кредитов падает. Подавляющее число кредитов берут бездетные заемщики.

Процент должников по кредитам растет с увеличением количества детей, небольшой спад для случая многодетных заемщиков может объясняться недостаточным количеством данных в выборке. Относительно заемщиков без детей, наличие 1-2 детей приводит к увеличению невозвратов кредитов в срок на 20%.

Женщины значительно чаще мужчин берут кредиты (разница для бездетных больше, чем в два раза; с одним ребенком - почти на 45%; с двумя и более детьми - больше 35%). Бездетные женщины и женщины с одним ребенком платят по кредиту в срок относительно мужчин этих же категорий более чем на 30% чаще. Наличие детей у женщин приводит к снижению процента выплаченных кредитов в срок: разница между бездетной женщиной и женщиной с двумя детьми составляет практически 60%. Наоборот, мужчины без детей или с одним ребенком чаще не выплачивают кредит в срок (прирост в процентном отношении от 15 до 35% относительно других групп). 
Учет возрастных категорий позволяет сделать вывод, что наибольшее количество заемщиков среди бездетных людей 36-65 лет, данная категория также имеет низкий процент невозвращаемых кредитов (6,7%), для возрастной категории 25-35 лет этот процент увеличивается более чем на 35%.

Относительно семейного статуса можно сделать вывод, что большинство заемщиков состоят в браке (40% от общей выборки), при этом основная масса - люди от 36 до 65 лет. Вдовы - самые ответственные по взятым кредитным обязательствам, просрочка только в 5,8% процентах случаев, для вдовцов все наоборот (просрочка в каждом пятом случае), однако нужно отметить, что выборка для этой категории крайне мала.

Чаще всего не возвращают кредит в срок заемщики категории "не женат / не замужем" и состоящие в гражданском браке: более чем в 9% случаев. Так, наибольший процент невозвратов кредитов в срок у женщин, состоящих в гражданском браке – 8,2% (относительная разница со вдовами практически 30%), у мужчин этот показатель также велик - 11,8%. Остальные три категории для женщин («в разводе», «не замужем» и «замужем») расположились в диапазоне 6,6%-6,8% невозврата кредитов в срок. Неженатые мужчины чаще не отдают кредит в срок (14,4% случаев) по отношению к находящимся в разводе (8,9% случаев) или женатым (8,8% случаев) - почти на 40%.

Кредиты в основном берут люди с достатком выше среднего, наибольшее количество кредитов берут люди с доходом от 50.000 до 200.000 (категория С): почти 74,6%, вторая по количеству кредитов категория - от 200.000 до 100.0000 (категория В): 23,5%. Процент заемщиков с доходом более 1.000.000 (категория А) и менее 30.000 (категория Е) крайне низок. Достаточно мала выборка и для категории D. Исходя из данных по категориям В и С, можно сделать вывод, что люди с большим достатком чаще возвращают кредиты в срок (более чем на 15%).
При этом категоризация уровня дохода заемщиков по квантилям показывает, что наименьший процент невозврата кредита 7,1% у категории Q4, что логично, но далее - у Q1 (8,0%): более чем на 10% больше невозвратов кредитов в срок относительно Q4, а наибольший процент невозврата оказался во втором и третьем квантилях: 8,7% и 8,5% соответственно, т.е. у людей с доходом от 107,5 до 195,8 тыс.

На основе данных наиболее многочисленных категорий B и С, можно отметить снижение уровня дохода со снижением уровня образования заемщиков: если для категории В относительная разница между категориями с высшим и средним уровнем образования менее 40%, то для категории С эта разница составляет более 70%. Независимо от категории дохода, люди без высшего образования гораздо чаще не возвращают кредит в срок. При этом, в подавляющем большинстве случаев заемщиками являются люди с трудовым стажем менее 10 лет. Они же, в основном, и чаще других не отдают кредиты в срок.

В части целей взятия кредита наибольшее количество кредитов заемщики берут на проведение операций с недвижимостью, причем это не зависит от пола заемщика. Для этой же категории, в общем случае, и меньше всего невозвратов кредитов в срок среди заемщиков - 7,3%, чуть больше относительно нее процент невозвратов кредитов, взятых на проведение свадьбы - относительная разница менее 10%. Наибольший процент невозвратов кредитов в срок у категорий на получение образования и операций с автомобилем - по 9,3%, увеличение процента относительно операций с недвижимостью составляет больше 20%. Мужчины в большем числе случаев не отдают кредит в срок, причем наибольший процент невозвратов кредитов в срок, взятых на получение образования и операции с автомобилями (12,2% и 11,7% соответственно), эти же категории относительно просрочек выделяются и у женщин, только в обратном порядке (операции с автомобилями - 8,2%, получение образования - 7,8%). Далее подтверждается общий тренд и для мужчин, и для женщин - наименьший процент невозвратов кредитов в срок в категории "операции с недвижимостью": 9,1% и 6,1% соответственно (мужчины имеют просрочку на 30% чаще).

В качестве рекомендаций банку:
* бездетные заемщики в возрасте 35-65 лет со средним или выше среднего доходом, состоящие в официальном браке, имеющие высшее образование и стаж работы более 10 лет являются самыми добросовестными плательщиками. Если ими берется кредит на операции с недвижимостью, то риск невозврата кредита в срок минимален;
* заемщики до 35 лет без высшего образования и доходом ниже среднего, не состоящие в официальных отношениях и имеющие на иждивении детей относятся к группе риска по невозврату кредитов в срок. Если ими берется кредит на получение образования или операции с автомобилями, то риск дополнительно возрастает;
* необходимо исследовать другие признаки, рассчитать другие метрики (отношение дохода к сумме выплат и др.); 
* в анкете сделать поля о доходе и стаже обязательными к заполнению, добавить автопроверку на формат вводимых пользователем данных.