# Кредитный рейтинг

## Оглавление

[1 Загрузка данных](#1-загрузка-данных)

[2 Оценка полноты данных](#2-оценка-полноты-данных)

[3. Замена пропусков](#3-замена-пропусков)

[4. Приведение типов](#4-приведение-типов)

[5. Обработка дубликатов](#5-обработка-дубликатов)

[6. Категоризация данных ](#6-категоризация-данных)

[7. Проверка гипетез](#7-проверка-гипетез)

[8. Вывод](#8-вывод)

## 1. Загрузка данных

Импортируем модули и загружаем датасет. Знакомимся с данными на примере первых 20 строк датасета.

In [21]:
import pandas as pd
from matplotlib import pyplot as plt

try:
    data = pd.read_csv(r"C:\Users\yka\Documents\Practicum\DS_Practicum\Credit_Scoring\source\data.csv")
except:
    data = pd.read_csv("/datasets/data.csv")

data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Знакомимся с методанными датасета для приведения к верным типам данных.

In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# 2. Оценка полноты данных

In [23]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В данных есть пропуски. Подозрительно то, что пропуски только в двух столбцах и их одинаковое количество.

In [24]:
len(data[(data["days_employed"].isna()) & (data["total_income"].isna())])

2174

Люди, у которых нет информации о стаже работы не имеют также и информации о совокупных доходах. Рассмотрим подробнее корреляции между строками, в которых отсутствует информация о стаже и доходах.

In [25]:
data[data["days_employed"].isna()].corr()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
children,1.0,,-0.152431,-0.033552,-0.036475,-0.005732,
days_employed,,,,,,,
dob_years,-0.152431,,1.0,0.091549,-0.066621,-0.052709,
education_id,-0.033552,,0.091549,1.0,-0.016376,0.054495,
family_status_id,-0.036475,,-0.066621,-0.016376,1.0,0.005102,
debt,-0.005732,,-0.052709,0.054495,0.005102,1.0,
total_income,,,,,,,


Проверка связи между колонками с пропусками в колонках `days_employed` и `total_income` показала, что корелляция пропусков в этой колонке с другими атрибутами данных низкая. Следовательно, можно сделать вывод, что пропуски допущены случайно.

# 3. Замена пропусков

Пропуски в `total_income` заменим пропущенными медианными значениями для соответствующих пропущенным столбцам типов занятости.

In [26]:
median_income_by_type = data.groupby("income_type")["total_income"].median()

for type_key in median_income_by_type.keys():
    data.loc[(data["total_income"].isna()) & (data["income_type"] == type_key), "total_income"] = median_income_by_type[type_key]
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

Нормализуем данные в `days_employed`.

In [27]:
data["days_employed"] = abs(data["days_employed"])
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Рассмотрим для каждого типа занятости медианное значение трудового стажа `days_employed` в днях.

In [28]:
days_employed_by_type = data.groupby("income_type")["days_employed"].median()
days_employed_by_type

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

Изучим перечень уникальных значений столбца `children`.

In [29]:
data["children"].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

Удалим в столбце children аномальные значения -1 и 20 (будем считать, что это выброс).

In [30]:
data = data.drop(data[(data["children"] == -1) | (data["children"] == 20)].index)
data["children"].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Т.к. пропуски в столбце `days_employed` случайны, заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type` для сохранения более типичных значений для каждого из классов заёмщиков.

In [31]:
days_employed_by_type = data.groupby("income_type")["days_employed"].median()

for income_type in days_employed_by_type.keys():
    data.loc[(data["days_employed"].isna()) & (data["income_type"] == income_type), "days_employed"] = days_employed_by_type[income_type]

data["days_employed"].isna().sum()

0

# 4. Приведение типов

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [32]:
data["total_income"] = data["total_income"].astype("int")
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  int32  
 11  purpose           21402 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0+ MB


# 5. Обработка дубликатов 

Заменим неявные дубликаты в столбце `education` приведя их к нижнему регистру.

In [33]:
data["education"] = data["education"].str.lower()

Посчитаем явные дубликаты.

In [34]:
data.duplicated().sum()

71

Удалим явные дубликаты.

In [35]:
data = data.drop_duplicates()
data.duplicated().sum()

0

# 6. Категоризация данных 

Классифицируем заёмщиков по уровням доходов:

- 0–30000 — 'E'
- 30001–50000 — 'D'
- 50001–200000 — 'C'
- 200001–1000000 — 'B'
- 1000001 и выше — 'A'

In [36]:
def categorize_income(income):
    if income <= 30000:
        return 'E'
    elif income > 30000 and income <= 50000:
        return 'D'
    elif income > 50000 and income <= 200000:
        return 'C'
    elif income > 200000 and income <= 1000000:
        return 'B'
    else:
        return 'A'

data["total_income_category"] = data["total_income"].apply(categorize_income)
data["total_income_category"]

0        B
1        C
2        C
3        B
4        C
        ..
21520    B
21521    C
21522    C
21523    B
21524    C
Name: total_income_category, Length: 21331, dtype: object

Рассмотрим перечень уникальных целей взятия кредита из столбца `purpose`.

In [37]:
data["purpose"].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создайдим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- 'операции с автомобилем'
- 'операции с недвижимостью'
- 'проведение свадьбы'
- 'получение образования'

In [38]:
def categorize_purpose(purpose):
    if "авто" in purpose:
        return "операции с автомобилем"
    elif "жил" in purpose or "недвиж" in purpose:
        return "операции с недвижимостью"
    elif "свадьб" in purpose:
        return "проведение свадьбы"
    elif "образов" in purpose:
        return "получение образования"
    else:
        return None

data["purpose_category"] = data["purpose"].astype("string").apply(categorize_purpose)

# 7. Проверка гипетез

Сформулируем вопросы соответствующие проверяемым гипотезам:
- Есть ли зависимость между количеством детей `children` и возвратом кредита `debt` в срок?
- Есть ли зависимость между семейным положением `family_status_id` и возвратом кредита `debt` в срок ?
- Есть ли зависимость между уровнем дохода `total_income_category` и возвратом кредита `debt` в срок?
- Как разные цели кредита `purpose_category` влияют на его возврат `debt` в срок?

Для вывода о влиянии количества детей на просрочку долга посчитаем средние значения для заёмщиков с разным количеством детей.

In [39]:
pd.pivot_table(data, values="debt", index="children", aggfunc=["count", "mean"])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,0.075438
1,4808,0.092346
2,2052,0.094542
3,330,0.081818
4,41,0.097561
5,9,0.0


Вывод: чем **больше детей** у заёмщика тем более он **склонен к просрочке**. Отклонения этой логики для 3 и 5 значений, вероятно, обусловлены меньшей выборкой таких заёмщиков. Вывод можно объяснить большим количеством незапланированных трат на детей, которые находятся на иждевении соответствующих заёмщиков.

In [40]:
100 - (data[data["children"] == 0]["debt"].mean() / data[data["children"] != 0]["debt"].mean()) * 100

18.359830438048476

Вероятность выплаты долга заёмщиком с детьми на 18% ниже, чем заёмщиком без детей

Для вывода о влиянии семейного положения на просрочку долга посчитаем средние значения для заёмщиков с разными семейными положениями.

In [41]:
pd.pivot_table(data, values="debt", index="family_status", aggfunc=["count", "mean"])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2796,0.097639
в разводе,1189,0.070648
вдовец / вдова,951,0.066246
гражданский брак,4134,0.09313
женат / замужем,12261,0.075606


In [42]:
(0.097639 - 0.066246) * 100

3.1393000000000004

Можно сделать вывод, что в разных категориях заёмщиков по семейному положению разная вероятность выплаты долга, однако **влияние семейного положения незначительно** т.к. наибольшая разница между категориями достигает немногим более 3%.

Также можно заметить, что категории заёмщиков, которые были в отношениях и по какой-то причине перестали в них состоять немного более платёжеспособные. Для анализа причин этого замечания недостаточно информации.

Для вывода о влиянии класса доходов на просрочку долга посчитаем средние значения для заёмщиков с разными классами доходов.

In [43]:
pd.pivot_table(data, values="debt", index="total_income_category", aggfunc=["count", "mean"])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,25,0.08
B,5014,0.070602
C,15921,0.084982
D,349,0.060172
E,22,0.090909


In [44]:
data["debt"].mean()

0.08119638085415593

Сравнение платёжеспособности заёмщиков с разными классами доходов со средней платёжеспособностью заёмщиков позволяет сделать вывод, что заёмщики с **классом доходов E менее платёжеспособны**, чем остальные. При этом **самыми платёжеспособными являются заёмщики класса D, B**. 

Вероятно, информация недостаточно достоверная т.к. выборки для заёмщиков с калассами A, D, E значительно меньше остальных.

Для вывода о влиянии цели займа на просрочку долга посчитаем средние значения для заёмщиков с разными целямт займа.

In [45]:
pd.pivot_table(data, values="debt", index="purpose_category", aggfunc=["count", "mean"])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4279,0.09348
операции с недвижимостью,10751,0.072551
получение образования,3988,0.092528
проведение свадьбы,2313,0.079118


In [46]:
(0.093480 - 0.072551) * 100

2.092899999999999

Разница между платёжеспособностью клиентов по целям займов незначительна и колеблется в пределах 2%.

Наиболее вероятны выплаты в срок по займам на операции с недвижимостью.

Наименнее вероятны выплаты в срок по займам на операции с автомобилем.

[Оценка полноты данных](#gaps)

Т.к. количество пропусков в столбцах `days_employed` и `total_income` было одинаковым, целессообразно было проверить, не пропущены ли данные в одинаковых строках. Проверка показала, что пропуски были в одинаковых строках. Анализ корреляций для строк с пропусками показал, что пропуски случайны и не зависят от других атрибутов данных.

Данные в количественных переменных были заполнены медианными значениями соответствующих категорий с целью сохранения особенностей в категориях заёмщиков.

# 8. Вывод

Наиболее **значимые различия** в факторе наличия и отсутствия детей. Заёмщики **без детей платёжеспособнее на 18%** по отношению к заёмщикам с детьми.

Другие категории влияют на платёжеспособность клиентов в меньшей степени.

Категории заёмщиков, которые **были в отношениях** и по какой-то причине перестали в них состоять немного **более платёжеспособны**.

Сравнение платёжеспособности заёмщиков с разными классами доходов со средней платёжеспособностью заёмщиков позволяет сделать вывод, что заёмщики с **классом доходов E менее платёжеспособны**, чем остальные. При этом **самыми платёжеспособными являются заёмщики класса D, B**. 

Разница между платёжеспособностью клиентов по целям займов незначительна и колеблется в пределах 2%.
**Наиболее платёжеспособны** заёмщики **с целью операций с недвижимостью**.
**Наименее платёжеспособны** заёмщики **с целью операций с автомобилем**.