# Проект - "Исследование надежности заемщиков".

## 1 Описание проекта.

**Общая информация о заказчике и данных:** Заказчик — кредитный отдел банка. 

Входные данные от банка — статистика о платёжеспособности клиентов.
**Цель проекта** — Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


**Задачи:** Ответить на вопросы: 
1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

**План проекта:**
1. Описание проекта. 
2. Загрузка данных и изучение общей информации.
3. Предобработка данных.
4. Исследование данных.
5. Общий вывод.

## 2 Загрузка данных и изучение общей информации. 

Импортируем необходимые библиотеки, выведем основную информацию о датафрейме, проверим данные на дубликаты и пропуски. 

In [1]:
# Импортируем необходимые библиотеки.

import pandas as pd

In [2]:
try:
    data = pd.read_csv('/datasets/data.csv') # прочитаем файл и сохраним результат в датафрейме data
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [3]:
data.head(10) # выведем первые 10 строк таблицы на экран 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Перед нами таблица содержашая 12 столбцов:
- `children` — количество детей в семье;
- `days_employed` — общий трудовой стаж в днях;
- `dob_years` — возраст клиента в годах;
- `education` — уровень образования клиента;
- `education_id` — идентификатор уровня образования;
- `family_status` — семейное положение;
- `family_status_id` — идентификатор семейного положения;
- `gender` — пол клиента;
- `income_type` — тип занятости;
- `debt` — имел ли задолженность по возврату кредитов;
- `total_income` — ежемесячный доход;
- `purpose` — цель получения кредита.

Все названия в нижнем змеином регистре, нет необходимости делать изменения. Столбец `days_employed` — общий трудовой стаж в днях, содержит отрицательные значения, нужно устранить эти аномалии. 

In [4]:
data.info()  # выведем основную информацию о датафрейме с помощью метода info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Всего 21 525 строк. Столбцы `education`, `family_status`, `gender`, `income_type` и `purpose` имееют тип - **object**, остальные столбцы - числовой. Нужно замените тип данных в столбце `total_income` на целочисленный.

In [23]:
print(f"Уникальные значения столбца - количество детей в семье: {data['children'].unique()}")
print(f"Уникальные значения столбца - возраст клиента в годах: {data['dob_years'].unique()}")
print(f"Уникальные значения столбца - уровень образования клиента: {data['education'].unique()}")
print(f"Уникальные значения столбца - пол клиента: {data['gender'].unique()}")
print(f"Уникальные значения столбца - цель получения кредита: {data['purpose'].unique()}")

Уникальные значения столбца - количество детей в семье: [1 0 3 2 4 5]
Уникальные значения столбца - возраст клиента в годах: [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
Уникальные значения столбца - уровень образования клиента: ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
Уникальные значения столбца - пол клиента: ['F' 'M']
Уникальные значения столбца - цель получения кредита: ['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижим

- В столбце `children` есть два аномальных значения (-1 и 20). Нужно удалите строки, в которых встречаются такие аномальные значения из датафрейма data.

- В столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв - нужно их привести к нижнему регистру.

- В столбце `gender` есть непонятное значение - `XNA`, посмотрим сколько таких значений в данных. 

In [8]:
data.query('gender=="XNA"') # выведем строки с заданным значением "XNA" 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,-2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


In [15]:
data.duplicated().sum() # выведем количество дубликатов

54

**Вывод:** 
- Датасет содержит данные о клиентах банка. Всего  21 525 строк и 12 столбцов. Все названия в нижнем змеином регистре, нет необходимости делать изменения. 
- Нужно замените тип данных в столбце `total_income` на целочисленный и удалите строки, в которых встречаются аномальные значения и дубликаты. 
- В столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв - нужно их привести к нижнему регистру.
- Нужно удалить аномальные значения в столбцах `children`  и `gender` и удалить дубликаты. 

## 3 Предобработка данных. 

### 3.1 Обработка аномальных значений. 

В данных встречаються артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке - это отрицательное количество дней трудового стажа в столбце `days_employed`. Заменим все отрицательные значения положительными с помощью метода abs().

In [10]:
data['days_employed'] = data['days_employed'].abs()

 Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [11]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Эти данные не понадобится для исследования поэтому оставим их как есть.

Удалим строки, в которых встречаются аномальные значения.

In [12]:
data = data[(data['children'] != -1) & (data['children'] != 20) & (data['gender'] != "XNA")]

### 3.2 Удаление пропусков.

In [13]:
# найдем процент пропущеных значений в каждом столбце
pd.DataFrame(round((data.isna().mean()*100),2)).style.background_gradient('coolwarm')

Unnamed: 0,0
children,0.0
days_employed,10.1
dob_years,0.0
education,0.0
education_id,0.0
family_status,0.0
family_status_id,0.0
gender,0.0
income_type,0.0
debt,0.0


В двух столбцах есть пропущенные значения: `total_income` — хранит данные о доходах и `days_employed`— общий трудовой стаж в днях. 

На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости сотрудник пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [14]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.

In [19]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [21]:
data.isna().sum() # проверим количество пропущенных значений для каждого столбца

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### 3.3 Изменение типов данных.

Замените тип данных в столбце `total_income` на целочисленный с помощью метода astype().

In [22]:
data['total_income'] = data['total_income'].astype(int)

### 3.4 Обработка дубликатов.

In [24]:
data['education'] = data['education'].str.lower() # приведем к нижнему регистру значения столбца education

In [26]:
data = data.drop_duplicates()  # удалим дубликаты 

### 3.5 Категоризация данных. 

На основании диапазонов, указанных ниже, создаем в датафрейме `data` столбец `total_income_category` с категориями:

- 0 – 30 000 — `'E'`;
- 30 001 – 50 000 — `'D'`;
- 50 001 – 200 000 — `'C'`;
- 200 001 – 1 000 000 — `'B'`;
- 1 000 001 и выше — `'A'`.

In [28]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [29]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

На основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

In [30]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [31]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

In [32]:
data.head(10) # выведем 10 строк таблицы после предобработки 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


## 4 Исследование данных. 

### 4.1 Есть ли зависимость между количеством детей и возвратом кредита в срок? 

Для этого сгруппируем нужные столбцы. 

In [43]:
grouped_debt_and_children=data.groupby('children').agg({'debt':['mean','count']})
grouped_debt_and_children.columns=['% невозврата','количество заемщиков']
grouped_debt_and_children.style.format({'%невозврата':'{:.2%}'})

Unnamed: 0_level_0,% невозврата,количество заемщиков
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.075444,14090
1,0.092346,4808
2,0.094542,2052
3,0.081818,330
4,0.097561,41
5,0.0,9


- Наиболее надежные заемщики - заемщики без детей (срядняя доля просрочек - 0,075). 
- Наименее надежные -  заемщики с детьми, средняя доля просрочки с 1 ребенком - 0,092, с 2 детьми - 0,094. 
- Показатели средней доли просрочки у заемщиков с тремя, четрымя и 5 детьми - 0,081, 0,097 и 0 соответственно, но тут эти показатели я предлгаю не учитывать, т.к. в выборке их колличество относительно маленькое: 330, 41, 9 соответсвтенно. Против 14091, 4808 и 2052.

### 4.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [45]:
grouped_debt_and_family = data.groupby('family_status').agg({'debt':['mean','count']})
grouped_debt_and_family.columns=['% невозврата','количество заемщиков']
grouped_debt_and_family.style.format({'%невозврата':'{:.2%}'})

Unnamed: 0_level_0,% невозврата,количество заемщиков
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,0.097639,2796
в разводе,0.070648,1189
вдовец / вдова,0.066246,951
гражданский брак,0.093153,4133
женат / замужем,0.075606,12261


Наименьшая доля просрочек (0,066) с семейным статусом - вдовец/вдова, ближе к ним люди в разводе (0,070) и женатые/ замужние (0,075). Для банка наиболее надежные заемщики, те кто хоть раз был женат/замужем. Наиболяя доля просрочек (0,097) у не женатых и не замужних.

### 4.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [46]:
grouped_debt_and_category = data.groupby('total_income_category').agg({'debt':['mean','count']})
grouped_debt_and_category.columns=['% невозврата','количество заемщиков']
grouped_debt_and_category.style.format({'%невозврата':'{:.2%}'})

Unnamed: 0_level_0,% невозврата,количество заемщиков
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0.08,25
B,0.070616,5013
C,0.084982,15921
D,0.060172,349
E,0.090909,22


- Наиболее надежные заемщики для банка (доля просрочек 0,060) - заемщики из категории D (уровень дохода 30 001–50 000).
- Наименее надежные заемщики для банка (доля просрочек 0,090) - заемщики из категории Е (уровень дохода 0–30 000),  но по этим категориям выборка маленькая - 349 и 22 соответственно, поэтому рекомендую провести дополнительное исследование с большеми данными, это же косается для категории А (от 1 000 001), всего 25 случаев. 
- Среди категорий С (50 001–200 000) и В (200 001–1 000 000) наиболее надженые заемщики в категории B - доля 0,070. В категрии C - 0,084.

### 4.4 Как разные цели кредита влияют на его возврат в срок?

In [48]:
grouped_debt_and_purpose = data.groupby('purpose_category').agg({'debt':['mean','count']})
grouped_debt_and_purpose.columns=['% невозврата','количество заемщиков']
grouped_debt_and_purpose.style.format({'%невозврата':'{:.2%}'})

Unnamed: 0_level_0,% невозврата,количество заемщиков
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,0.09348,4279
операции с недвижимостью,0.072558,10750
получение образования,0.092528,3988
проведение свадьбы,0.079118,2313


Наиболее надежные заемщики для банка - люди, которые берут кредиты с целью соверщения операций с недвижимостью (доля просрочек 0,072) и для проведения свадьбы (0,092). Наименее надежные замещики - те, кто берут кредиты на оперции связанные с автомобилями (0,093) и для получения оброзования (0,092).

## 5 Общий вывод. 

Было проведено исследование, чтобы выявить влияние разных факторов на факт погашения кредита в срок. Входные данные - статистика о платежеспособности клиентов. Результаты исследования будут учтены при построение модели кредитного скоринга - специальной системы, которая оценивает способность потенциального заемщика вернуть кредит банку.

Перед проведением исследования были поставлены несколько гипотез:

1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

**В результате удалось выявить зависимости:**

**1. Гипотеза 1 частично подтверждена** - для более точных выводов необходимо больше данных по клиентам с 3,4,5 детьми. 
- Доля просрочек у заемщиков без детей - 0,075. 
- Доля просрочек у заемщиков с 1 ребенком - 0,092. 
- Доля просрочек у заемщиков с 2 детьми - 0,094.

Рекомендация: провести дополнительное исследование на большей выборке данных.

**2. Гипотеза 2 подтверждена.**
- Наименьшая доля просрочек (0,066) с семейным статусом - вдовец/вдова, ближе к ним люди в разводе (0,070) и женатые/ замужние (0,075). Для банка наиболее надежные заемщики, те кто хоть раз был женат/замужем. Наиболяя доля просрочек (0,097) у не женатых и не замужних.

**3. Гипотеза 3 частично подтвержена** - для более точных выводов необходимо больше данных по клиентам с уровнем дохода категории D (от 30 001 до 50 000), А (от 1 000 001), Е (до 30 000).

- Среди категорий С (50 001–200 000) и В (200 001–1 000 000) наиболее надженые заемщики в категории B - доля 0,070. В категрии C - 0,084.

Рекомендация: провести дополнительное исследование на большей выборке данных.

**4. Гипотеза 4 подтверждена.** 
- Наиболее надежные заемщики для банка - люди, которые берут кредиты с целью соверщения операций с недвижимостью (доля просрочек 0,072) и для проведения свадьбы (0,092). 
- Наименее надежные замещики - те, кто берут кредиты на оперции связанные с автомобилями (0,093) и для получения оброзования (0,092).

**Общие рекомендации:**

Можно использовать зависимости из второй и четвертой гипотезы (семейное положение и цели кредита). Необходимо собрать более полную выборку для повторной проверки первой и третьей гипотез.

**Рекомедации кредитному отделу:** 

1. Если считать, что любая разница между группами есть повод для «разделения» классов, то можно сделал такой вывод: кредитополучатели без детей являются более ответственными, чем клиенты, у которых есть дети. Видимо, наличие ребенка накладывает на клиента дополнительные финансовое бремя (обязательства) и клиенты либо менее ответственно относятся к своим кредитным обязательствам, либо не имеют возможности в срок оплачивать обязательства.


2. Кредитному отделу следует с осторожностью относиться к клиентам, которые не состоят или не состояли в браке. Согласно данным такие клиенты менее ответственные. Получается, что узаконенные отношения ведут к более ответственному отношению к своим обязательствам. Ну вроде как совпадает со здравым смыслом - семейные люди более скрупулёзно берегут свой семейное спокойствие и несут за него ответственность.


3. Для ответа на вопрос - есть ли зависимость между уровнем дохода и возвратом кредита в срок? мой вывод таков: выборка по заемщикам, как с наименьшим доходом, так и с наибольшим крайне недостаточна для формирования однозначных выводов. Можно думать, что E-категория самая низкооплачиваемая не может корректно распоряжаться деньгами и «влезает» в кредиты, но тогда неясно почему у А-категории также достаточно высокий процент задолженности. В общем вывод по группам неочевиден, мало данных.


4. Всё подтверждается и цифрами, и здравым смыслом: Машины люди покупают в кредит гораздо дорогие, нежели могут соответствовать им своим доходом (ну кому не хочется красивую иномарку). А вот рисковать ипотечным жильём люди не хотят. Интересно конечно, что с образованием не так - как правило такие кредиты берут люди мотивированные, имеющие цель впереди, да и суммы таких кредитов судя по рынку онлайн образования не так велики. 