# Проектная работа: Исследование надёжности заёмщиков 

## Описание проекта

Заказчик — кредитный отдел банка. Задача состоит в том, чтобы разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

### Шаг 1. Открытие таблицы и изучение общей информации о данных

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv("data.csv")
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Данные содержат `12` столбцов:

- `children` - количество детей в семье;
- `days_employed` - общий трудовой стаж в днях;
- `dob_years` - возраст клиента в годах;
- `education` - уровень образования клиента;
- `education_id` - идентификатор уровня образования;
- `family_status` - семейное положение;
- `family_status_id` - идентификатор семейного положения;
- `gender` - пол клиента;
- `income_type` - тип занятости;
- `debt` - имел ли задолженность по возврату кредитов;
- `total_income` - ежемесячный доход;
- `purpose` - цель получения кредита;

Наименования столбцов указаны в соответствии со змеиным регистром, необходимости их переименовывать нет. 

In [3]:
df.shape

(21525, 12)

Количество строк в данных равняется `21525`.

In [4]:
df.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

В данных присутствуют столбцы с разными типами данных: `int64` (целые числа), `float64` (числа с плавающей точкой), а также `object` (строковый тип данных). 

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропущенные значения присутствуют только в двух стоблцах таблицы, а именно: в `days_employed` и `total_income`.

### Выводы:
<hr>

Входные данные от банка выглядят немного сырыми. С первого взгляда на таблицу бросается в глаза столбец `days_employed`, так как содержит отрицательные данные. Помимо этого, дни рассчитываются в целых числах. Соответственно, необходимо поменять тип данных в столбце на `int64`. Также в столбце `education` данные заполнены с использованием разного регистра, необходимо столбец привести в единому регистру. В стоблец `total_income` следует округлить до двух знаков после запятой. Таким образом, при белгом взгляде на данные становится очевидным необходимость предварительной обработки.

### Шаг 2. Предобработка данных

Приведем данные с столбцах `education` и `family_status` к нижнему регистру, это поможет позднее выявить дубликаты в данных.

In [6]:
df["education"] = df["education"].str.lower()
df["education"].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [7]:
df["family_status"] = df["family_status"].str.lower()
df["family_status"].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

Трудовой стаж в днях не может быть отрицательным, поэтому все отрицательные значения в `days_employed` нужно конвертировать в положительные.

In [8]:
df["days_employed"] = abs(df["days_employed"])
print(df[df["days_employed"] <= 0])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


В столбце `days_employed` есть аномально высокие значения. Например, свыше 300 тыс. дней, что означает, что человек имеет трудовой стаж примерно в 800 лет. Значит, при вводе данных произошла ошибка. Предполагаем, что запятая, которая должна разделять целую и дробную части, была проставлена некорректно. Распределение тудового стажа в столбце `days_employed` имеет оргомный пробел начиная примерно с 19 тыс. дней, поэтому все, что свыше этой отметки, поделим на 1 тыс. Трудовой стаж в 19 тыс. дней выглядит более правдоподобным, в годовом исчислении примерно равняется 52 годам.   

In [9]:
# df.loc[df.days_employed >= 19000, "days_employed"] = df["days_employed"] / 1000
df.loc[df["days_employed"] >= 19000, "days_employed"] = df["days_employed"] / 1000
print(df[df["days_employed"] >= 19000])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


В столбце `children` также выявлены ошибки в данных, которые, по нашему мнению, возникли в процессе ввода значений.

In [10]:
df.loc[df["children"] == 20, 'children'] = 2
df.loc[df["children"] == -1, 'children'] = 1
df.children.unique()

array([1, 0, 3, 2, 4, 5])

В столбце `gender` есть строчка со значением `XNA`, в ней пол клиента не определен. Учитывая объем данных, эту строку можно удалить из таблицы, не искажая результаты анализа.

In [11]:
df = df[(df["gender"] != "XNA")]
print(df[df["gender"] == "XNA"])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


В столбцах `days_employed` и `total_income` есть пропущенные значения. Для их заполнения посчитаны медианные значения, потому что медиана более устойчива к выбросам в данных, чем арифметическое среднее. В расчете медианы по столбцу `days_employed` данные сгрупированы по `education_id` (уровню образования) и `family_status_id` (семейному положению), а по столбцу `total_income` - по `education_id` (уровню образования) и `gender` (полу). Более детальная группировка приводит к тому, что пропущенные данные не заполняются.

In [12]:
df['days_employed'] = df.groupby(["education_id", 
                                  "family_status_id"])["days_employed"].apply(lambda x: x.fillna(x.median()))
df['total_income'] = df.groupby(["education_id", "gender"])["total_income"].apply(lambda x: x.fillna(x.median()))
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

В столбце `dob_years` (возраст клиента) есть нулевые значения. Видимо, эта группа клиентов не хотела указывать свой возраст и оставила указанное поле пустым. Поменяем нули в этих строчках на `np.nan`, а затем заменим их на медианные значения в зависимости от пола клиента.

In [13]:
df.loc[df["dob_years"] == 0, "dob_years"] = np.nan
df['dob_years'] = df.groupby("gender")["dob_years"].apply(lambda x: x.fillna(x.median()))
df["dob_years"].unique()

array([42., 36., 33., 32., 53., 27., 43., 50., 35., 41., 40., 65., 54.,
       56., 26., 48., 24., 21., 57., 67., 28., 63., 62., 47., 34., 68.,
       25., 31., 30., 20., 49., 37., 45., 61., 64., 44., 52., 46., 23.,
       38., 39., 51., 59., 29., 60., 55., 58., 71., 22., 73., 66., 69.,
       19., 72., 70., 74., 75.])

В столбце `days_employed` установим тип данных `int64`, а в столбце `total_income` оставим `float64`, но округлим до двух знаком после запятой.

In [14]:
df["days_employed"] = df["days_employed"].astype("int").round()
df["total_income"] = df["total_income"].astype("float").round(2)
df[["days_employed", "total_income"]].dtypes

days_employed      int64
total_income     float64
dtype: object

С помощью метода `drop_duplicates()` удалим все дубликаты из данных и сбросим индексацию благодаря методу `reset_index()` с атрибутом `drop = True`.

In [15]:
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum()

0

Создадим два отдельных словаря для столбцов `education` и `family_status`, в них будут храниться соответствующие значения из `education_id` и `family_status_id`.

In [16]:
education_dict = df.pivot_table(index = "education", values = "education_id")
education_dict["education"] = education_dict.index
education_dict = education_dict[["education", "education_id"]].reset_index(drop = True)
education_dict

Unnamed: 0,education,education_id
0,высшее,0
1,начальное,3
2,неоконченное высшее,2
3,среднее,1
4,ученая степень,4


In [17]:
family_status_dict = df.pivot_table(index = "family_status", values = "family_status_id")
family_status_dict["family_status"] = family_status_dict.index
family_status_dict = family_status_dict[["family_status", "family_status_id"]].reset_index(drop = True)
family_status_dict

Unnamed: 0,family_status,family_status_id
0,в разводе,3
1,вдовец / вдова,2
2,гражданский брак,1
3,женат / замужем,0
4,не женат / не замужем,4


Так как мы создали соответствующие словари, то столбцы `education` и `family_status` можно удалить из таблицы с помощью метода `drop()`. В случае необходимости можно обратиться к словарям для соотнесения идентификатора уровню образования или семейному положению.

In [18]:
df = df.drop(["education", "family_status"], axis = 1)
df.columns

Index(['children', 'days_employed', 'dob_years', 'education_id',
       'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
       'purpose'],
      dtype='object')

Создадим отдельный столбец, в котором категоризируем клиентов банка в зависимости от `total_income` (ежемесячного дохода). Данный столбец поможет позднее для ответа на вопросы исследования.

In [19]:
def total_income_category(total_income):
    if total_income <= 30000:
        return "E"
    elif 30001 <= total_income <= 50000:
        return "D"
    elif 50001 <= total_income <= 200000:
        return "C"
    elif 200001 <= total_income <= 1000000:
        return "B"
    return "A"

df["total_income_category"] = df["total_income"].apply(total_income_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42.0,0,0,F,сотрудник,0,253875.64,покупка жилья,B
1,1,4024,36.0,1,0,F,сотрудник,0,112080.01,приобретение автомобиля,C
2,0,5623,33.0,1,0,M,сотрудник,0,145885.95,покупка жилья,C
3,3,4124,32.0,1,0,M,сотрудник,0,267628.55,дополнительное образование,B
4,0,340,53.0,1,1,F,пенсионер,0,158616.08,сыграть свадьбу,C


Категоризацию клиентов банка можно выполнить также и в зависимости от `purpose` (целей получения кредита).

In [20]:
def purpose_category(purpose):
    
    accomodation = ["покупка жилья", "операции с жильем", "покупка жилья для семьи", "покупка недвижимости",
               "покупка коммерческой недвижимости", "покупка жилой недвижимости", 
                "строительство собственной недвижимости", "недвижимость", "строительство недвижимости",
               "операции с коммерческой недвижимостью", "строительство жилой недвижимости", "жилье", 
               "операции со своей недвижимостью", "операции с недвижимостью", "покупка жилья для сдачи",
               "покупка своего жилья", "ремонт жилью"]
    
    education = ["высшее образование", "дополнительное образование", "заняться высшим образованием", 
            "заняться образованием", "образование", "получение высшего образования", 
             "получение дополнительного образования", "получение образования", 
            "профильное образование"]
    
    marriage = ["на проведение свадьбы", "свадьба", "сыграть свадьбу"]
    
    automobile = ["автомобили", "автомобиль", "на покупку автомобиля", "на покупку подержанного автомобиля", 
              "на покупку своего автомобиля", "приобретение автомобиля", "свой автомобиль",
             "сделка с автомобилем", "сделка с подержанным автомобилем"]
    
    
    if purpose in automobile:
        return "операции с автомобилем"
    elif purpose in accomodation:
        return "операции с недвижимостью"
    elif purpose in marriage:
        return "проведение свадьбы"
    elif purpose in education:
        return "получение образования"

df["purpose_category"] = df["purpose"].apply(purpose_category)
df["purpose_category"].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

### Шаг 3. Ответы на вопросы

- Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [21]:
child_ptable = df.groupby("children").agg({"debt" : ["count", "sum", lambda x: 
                                                     str(round(x.mean() * 100, 2)) + "%"]})
child_ptable = child_ptable.rename(columns = {"<lambda_0>" : "mean"})
child_ptable

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14090,1063,7.54%
1,4855,445,9.17%
2,2128,202,9.49%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.0%


В целом, задолженность по кредитам меньше у тех клиентов, у которых нет детей. С появлением детей задолженность по кредитом в среднем растет на 1.5%. Стоит отметить, что чем больше детей, тем меньше наблюдений, поэтому сложно говорить о репрезентативности данных.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [22]:
family_ptable = df.groupby("family_status_id").agg({"debt" : ["count", "sum", lambda x:
                                                    str(round(x.mean() * 100, 2)) + "%"]})
family_ptable = family_ptable.rename(columns = {"<lambda_0>" : "mean"})
family_ptable

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,12339,931,7.55%
1,4150,388,9.35%
2,959,63,6.57%
3,1195,85,7.11%
4,2810,274,9.75%


Клиенты, состоящие в разводе, в среднем меньше имеют задолженность по кредитам. Примерно на таком же уровне находится задлженность женатых / замужних клиентов. Наименьшую задолженность по кредитам имеют состоящие в гражданском браке. 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [23]:
total_income_ptable = df.groupby("total_income_category").agg({"debt" : ["count", "sum", lambda x:
                                                    str(round(x.mean() * 100, 2)) + "%"]})
total_income_ptable = total_income_ptable.rename(columns = {"<lambda_0>" : "mean"})
total_income_ptable

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,8.0%
B,5209,364,6.99%
C,15847,1352,8.53%
D,350,21,6.0%
E,22,2,9.09%


В разрезе по уровню доходов количество наблюдений в категориях `A`, `D` и `E` небольшое, из-за чего сложно делать какие-то выводы. Наибольшое количество клиентов имеют ежемесячные доходы от 50001 до 200000, они же продемонстрировали существенный уровень задолженности по кредитам. Категория на ступеньку выше имеет меньше задолженности по кредитам благодаря тому, что ежемесячные доходы данной категории клиентов выше.

- Как разные цели кредита влияют на его возврат в срок?

In [24]:
purpose_ptable = df.groupby("purpose_category").agg({"debt" : ["count", "sum", lambda x:
                                                    str(round(x.mean() * 100, 2)) + "%"]})
purpose_ptable = purpose_ptable.rename(columns = {"<lambda_0>" : "mean"})
purpose_ptable

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4306,403,9.36%
операции с недвижимостью,10810,782,7.23%
получение образования,4013,370,9.22%
проведение свадьбы,2324,186,8.0%


Клиенты, которые берут кредит для операций с недвижимостью, в среднем имеют меньше задолженности. Зачастую кредит под залог недвижимости берется на длительный срок, ежемесячные платежи относительно низкие. Поэтому процент задолженности в данной категории наименьший. На проведение свадьбы обычно требуется меньше денег, соответственно, резмер кредита под данную цель может быть небольшим, из-за чего его проще возвращать банку. Кредит на образование обычно берут студенты, которые после обучения испытывают трудности с поиском работы для начинающих специалистов. В связи с этим могут быть задолженности.

### Шаг 4. Общий вывод 

Таким образом, мы проанализировали входные данные от банка, выделили разные категории клиентов и вычислили процент задолженности по ним. Данные расчеты могут быть бэнчмарком для банка при установлении разных риск-метрик для тех или иных категорий клиентов (например, PD - probability of default). 