# <span style="color: crimson">Исследование надёжности заёмщиков</span>

---
**<span style="color: crimson">Заказчик</span>**: кредитный отдел банка.  
**<span style="color: crimson">Цель анализа</span>**: выявить факторы влияющие на факт погашения кредита в срок колонка  debt.   
**<span style="color: crimson">Датасет</span>**: входные данные от банка — статистика о платёжеспособности клиентов.

---

<b>Описание данных</b>

* <span style="color: red">children</span> — количество детей в семье 
* <span style="color: red">days_employed</span> — общий трудовой стаж в днях
* <span style="color: red">dob_years</span> — возраст клиента в годах
* <span style="color: red">education</span> — уровень образования клиента
* <span style="color: red">education_id</span> — идентификатор уровня образования
* <span style="color: red">family_status</span> — семейное положение
* <span style="color: red">family_status_id</span> — идентификатор семейного положения
* <span style="color: red">gender</span> — пол клиента
* <span style="color: red">income_type</span> — тип занятости
* <span style="color: red">debt</span> — имел ли задолженность по возврату кредитов
* <span style="color: red">total_income</span> — ежемесячный доход
* <span style="color: red">purpose</span> — цель получения кредита

## Импорт библиотек:

In [1]:
!pip install pandas 
!pip install nltk
!pip install spacy
!python -m spacy download ru_core_news_md

Collecting ru-core-news-md==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.1.0/ru_core_news_md-3.1.0-py3-none-any.whl (42.7 MB)
     --------------------------------------- 42.7/42.7 MB 19.2 MB/s eta 0:00:00
[+] Download and installation successful
You can now load the package via spacy.load('ru_core_news_md')


In [2]:
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
import re
import spacy
import ru_core_news_md

<b>Импорт библиотек</b>

## <span style="color: crimson">Этап 1</span> Изучение данных

In [3]:
df = pd.read_csv('./datasets/data.csv')

In [4]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [5]:
df.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<span style="color: crimson"><b>Аномалии:</b></span>

Пропуски в столбцах  <span style="color: crimson"><b>days_employed, days_employed, total_income</b></span>:      

In [7]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


<span style="color: crimson"><b>Аномалии:</b></span>

* В столбце <span style="color: crimson"><b>days_employed</b></span> отрицательные значения.
* В столбце <span style="color: crimson"><b>children</b></span> минимальное значение равно -1, максимальное значение равно 20.
* В столбце <span style="color: crimson"><b>total_income</b></span> десятичные дроби.
* В столбце <span style="color: crimson"><b>dob_years</b></span> минимальное значение равно 0.

**Взглянем на количество дубликатов по каждому объекту**.

Вдруг в одной из числовых столбцов попадется повторяющееся значение, тогда простым value_counts из за большого числа уникальных объектов, мы можем этого не заметить.

In [8]:
for i in df.columns:
    display(df[i][df[i].duplicated()].value_counts(dropna=False).to_frame())
    print('--------------',end='')

Unnamed: 0,children
0,14148
1,4817
2,2054
3,329
20,75
-1,46
4,40
5,8


--------------

Unnamed: 0,days_employed
,2173


--------------

Unnamed: 0,dob_years
35,616
40,608
41,606
34,602
38,597
42,596
33,580
39,572
31,559
36,554


--------------

Unnamed: 0,education
среднее,13749
высшее,4717
СРЕДНЕЕ,771
Среднее,710
неоконченное высшее,667
ВЫСШЕЕ,273
Высшее,267
начальное,249
Неоконченное высшее,46
НЕОКОНЧЕННОЕ ВЫСШЕЕ,28


--------------

Unnamed: 0,education_id
1,15232
0,5259
2,743
3,281
4,5


--------------

Unnamed: 0,family_status
женат / замужем,12379
гражданский брак,4176
Не женат / не замужем,2812
в разводе,1194
вдовец / вдова,959


--------------

Unnamed: 0,family_status_id
0,12379
1,4176
4,2812
3,1194
2,959


--------------

Unnamed: 0,gender
F,14235
M,7287


--------------

Unnamed: 0,income_type
сотрудник,11118
компаньон,5084
пенсионер,3855
госслужащий,1458
безработный,1
предприниматель,1


--------------

Unnamed: 0,debt
0,19783
1,1740


--------------

Unnamed: 0,total_income
,2173


--------------

Unnamed: 0,purpose
свадьба,796
на проведение свадьбы,776
сыграть свадьбу,773
операции с недвижимостью,675
покупка коммерческой недвижимости,663
операции с жильем,652
покупка жилья для сдачи,652
операции с коммерческой недвижимостью,650
покупка жилья,646
жилье,646


--------------

<span style="color: crimson"><b>Аномалии:</b></span>

* В столбце <span style="color: crimson"><b>education</b></span> одинаковые названия написаны разным регистром.
* В столбце <span style="color: crimson"><b>purpose</b></span> множество одинаковых по смыслу, но разных по описанию целей кредита.
* В столбце <span style="color: crimson"><b>income_type</b></span> столбцы предприниматель и безработный представлены в двух  экземплярах (дубликат + оригинал).

Мы выявили множество аномалий, однако они могут быть представлены в единственном числе, так что взглянем на уникальные значения:

In [9]:
# Уникальные значения, каждого параметра
for i in df.columns:
    print('--------------')
    print('||'+i.upper()+'||')
    print()
    print(df[i].unique())
    print('--------------')

--------------
||CHILDREN||

[ 1  0  3  2 -1  4 20  5]
--------------
--------------
||DAYS_EMPLOYED||

[-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]
--------------
--------------
||DOB_YEARS||

[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
--------------
--------------
||EDUCATION||

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
--------------
--------------
||EDUCATION_ID||

[0 1 2 3 4]
--------------
--------------
||FAMILY_STATUS||

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
--------------
--------------
||FAMILY_STATUS_ID||

[0 1 2 3 4]
--------------
--------------
||GENDER||

['F' 'M' 

<span style="color: crimson"><b>Аномалии:</b></span>

* В столбце <span style="color: crimson"><b>gender</b></span> значение равно XNA.

---

### <center><span style="color: crimson"><b>Вывод</b></span></center>

<span style="color: crimson"><b>Аномалии в параметрах</b></span>:
* <span style="color: red"><b>children</b></span> - количество детей в семье
    1. Имеют отрицательный параметр -1.
    2. Максимально значение слишком велико 20 (Во первых по беглому поиску в Google это самая большая семья в России, но их целых 75. Во вторых нет детей в диапазоне от 5 до 20).
    <hr>
* <span style="color: red"><b>days_employed</b></span> -  общий трудовой стаж в днях
    1. Имеются отрицательные значения.
    2. Максимально значения слишком велико 401755 (1100 лет).
    <hr>
* <span style="color: red"><b>dob_years</b></span> -  возраст клиента в годах
    1. Наименьшее значение равно 0.    
    <hr>
* <span style="color: red"><b>education</b></span> - уровень образования клиента
    1. Одинаковые названия написаны разным регистром.
    <hr>
* <span style="color: red"><b>purpose</b></span> - цель получения кредита
    1. Разные формулировки одинаковой цели кредита.
    <hr>
* <span style="color: red"><b>gender</b></span> - пол
    1. Пола XNA не существует
    <hr>

## <span style="color: crimson">Этап 2</span> Предобработка данных

### 1. Обработка артефактов

####  <span style="color: red">children</span>: Максимально значение слишком велико 20|Имеют отрицательный парамент -1

In [10]:
df[(df['children']==-1) | (df['children']==20)]['children'].shape[0]

123

Так как значений, где chidren = -1 или 20 всего 123 их можно просто удалить.

In [11]:
df.drop(df[df['children']==-1].index,inplace=True)
df.drop(df[df['children']==20].index,inplace=True)

#### <span style="color: red">days_employed</span> Имеют отрицательные значения.|Максимально значения слишком велико 401755 (1100 лет).

In [12]:
df[df['days_employed']>90*365].describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,3431.0,3431.0,3431.0,3431.0,3431.0,3431.0,3431.0
mean,0.090061,365025.901401,59.135238,0.914602,0.982512,0.053046,137195.052955
std,0.325393,21087.468233,7.565251,0.517895,1.315189,0.224157,80341.532004
min,0.0,328728.720605,0.0,0.0,0.0,0.0,20667.263793
25%,0.0,346649.346146,56.0,1.0,0.0,0.0,82881.443465
50%,0.0,365286.62265,60.0,1.0,0.0,0.0,118480.837408
75%,0.0,383292.7911,64.0,1.0,2.0,0.0,169758.741755
max,4.0,401755.400475,74.0,4.0,4.0,1.0,735103.270167


In [13]:
df['days_employed']=df['days_employed'].abs()

# Заменим значения которые больше 100 лет на nan
df.loc[df['days_employed']>100*365, 'days_employed'] = np.nan

#### <span style="color: red">dob_years</span> Наименьшее значение равно 0.    

In [14]:
df.loc[df['dob_years']==0, 'dob_years'] = np.nan

#### <span style="color: red">education</span>  Одинаковые названия написаны заглавными и прописными буквами.

In [15]:
df['education'] = df['education'].str.lower()

#### <span style="color: red">gender</span> Пола XNA не существует.

In [16]:
df[df['gender']=='XNA'].shape[0]

1

Так как значение, где gender = XNA единственное, то его можно просто удалить.

In [17]:
df.drop(df[df['gender']=='XNA'].index,inplace=True)

### 2. Обработка дубликатов

In [18]:
df[df['total_income'].duplicated() & df['total_income'].notnull()].shape[0]

0

In [19]:
df[df['days_employed'].duplicated() & df['days_employed'].notnull()].shape[0]

0

<center><span style="color: crimson"><b>Вывод</b></span></center>

<b>Дубликаты стоит искать по параметрам days_employed и total_incom, т.к. у нас нет идентификатора пользователя, а это весьма уникальные параметры:</b>  

1. Если исключить строки где неизвестно чему равен total_income,    и искать дубликаты то параметру total_income, то в таблице нет дубликатов.  
2. Если исключить строки где неизвестно чему равен days_employed, и искать дубликаты то параметру, то в таблице нет дубликатов.


### 3. Обработка пропусков

In [20]:
missing_values_count = df.isnull().sum()
missing_values_count.to_frame()

Unnamed: 0,0
children,0
days_employed,5593
dob_years,100
education,0
education_id,0
family_status,0
family_status_id,0
gender,0
income_type,0
debt,0


In [21]:
total_missing = missing_values_count.sum()
total_cells = np.product(df.shape)


missing = total_missing/total_cells
print('Процент пропусков: {:.1%}'.format(missing))

Процент пропусков: 3.1%


In [22]:
print('Процент потери данных: {:.1%}'.format(missing_values_count.max()/df.shape[0]))

Процент потери данных: 26.1%


Процент пропущенных значений равен **3%**,но при их удалении мы потеряем **26%** пользователей наша задача не требует удаление пропусков (везде, кроме целевого параметра), поэтому пропустим этот шаг. 

<center><span style="color: crimson"><b>Вывод</b></span></center>
Мы исправили аномалии в параметрах (некоторые были заменены на nan), как и с остальными переменными. И это уменьшило среднюю продолжительность трудового статуса на 61000 дней.

### 4. Замена типа данных

In [23]:
df.dtypes

children              int64
days_employed       float64
dob_years           float64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

**Нужно поменять тип:**
* **<span style="color: blue">gender</span>** — category
* **<span style="color: blue">debt</span>** — bool

In [24]:
df['gender'].unique()

array(['F', 'M'], dtype=object)

In [25]:
df['debt'] = df['debt'].astype('bool')
df['gender'] = df['gender'].astype('category')

In [26]:
df.dtypes

children               int64
days_employed        float64
dob_years            float64
education             object
education_id           int64
family_status         object
family_status_id       int64
gender              category
income_type           object
debt                    bool
total_income         float64
purpose               object
dtype: object

<center><span style="color: crimson"><b>Вывод</b></span></center>

Параметры **debt** и **gender** присвоен тип bool(занимает меньше памяти и быстрее обрабатывается):
<pre>
<b><span style="color: blue">dept</span></b> - bool: 
      0 - False
      1 - True
      
<b><span style="color: blue">gender</span></b> - category:
</pre>

### 5. Лемматизация

<pre>
Нужно исправить столбец  purpose,чтобы весь столбец имел одинаковые формулировки:
    1. Лемматизировать столбец purpose.
    2. Найти ключевые слова.
    3. Присвоить слова ключи столбцу создать столбец purpose_id и присвоить целям id
</pre>

In [27]:
%%time

# Стоп слова
stop = stopwords.words('russian')
stop.append('\n')

nlp = spacy.load("ru_core_news_md")

def clear_text(sentence):
    # Удаление знаков препинания    
    sentence = re.sub(r"[^а-яА-Я]", ' ', sentence)
    
    # Лемматизация
    nlp_sentence = nlp(sentence)
    doc = [token.lemma_ for token in nlp_sentence]
    
    # Удаление стоп слов
    doc = [w for w in doc if w not in stop]
    
    # Удаление пробелов
    doc = " ".join(doc).split() 
    
    return " ".join(doc)

df['purpose'] = df['purpose'].apply(clear_text)

CPU times: total: 1min 26s
Wall time: 1min 26s


Слова приведены к своим леммам.

### 6. Категоризация данных

In [28]:
words = [row.split(' ')  for row in df['purpose']]
alls = []

for i in words:
    alls+=i


for i in set(alls):
    print(i)

сдача
высокий
профильный
ремонт
недвижимость
проведение
покупка
заняться
образование
строительство
получение
подержанного
операция
коммерческий
жилой
собственный
сделка
свадьба
автомобиль
подержанным
жильё
свой
приобретение
семья
сыграть
дополнительный


**Ключевые слова для созданий категорий**: свадьба,образование, автомобиль, недвижимость + жилье.

In [29]:
def category(data):
    if "свадьба" in data:
        return "подготовка к свадьбе"
    elif "образование" in data:
        return "получение образования"
    elif "автомобиль" in data:
        return "на автомобиль"
    elif ("недвижимость" in data) or ("жильё" in data):
        return "на недвижимость"
    else:
        return "нет категории"


df["purpose_category"] = df["purpose"].apply(category)

In [30]:
df[df['purpose_category']=='нет категории'].shape[0]

0

К каждой строке добавлен purpose_category с целью кредита разбитой на категории.

## <span style="color: crimson">Этап 3</span> Ответьте на вопросы

### <span style="color: red">Е</span>сть ли зависимость между наличием детей и возвратом кредита в срок?

In [31]:
debt_family = (
    pd.crosstab(
        values=df.debt,
        columns=df.children,
        index=df.debt,
        aggfunc="count",
        normalize="columns",
    )
    .applymap(lambda x: "{0:.1%}".format(x))
    .T
)

debt_family["Кол-во клиентов"] = pd.pivot_table(
    data=df, columns=df.children, index=df.debt, aggfunc="count"
)["days_employed"].T.sum(axis=1)
debt_family

debt,False,True,Кол-во клиентов
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,92.5%,7.5%,9555.0
1,90.8%,9.2%,4090.0
2,90.6%,9.4%,1834.0
3,91.8%,8.2%,288.0
4,90.2%,9.8%,33.0
5,100.0%,0.0%,8.0


### <center><span style="color: crimson"><b>Вывод</b></span></center>
Кол-во детей не сильно влияет на задолженности (5 детей, всего лишь у 8 семей, так, что она не репрезентативна), а вот их отсутствие увеличивает шанс своевременного погашения кредита.

### <span style="color: red">Е</span>сть ли зависимость между семейным положением и возвратом кредита в срок?

In [32]:
debt_family = (
    pd.crosstab(
        values=df.debt,
        columns=df.family_status,
        index=df.debt,
        aggfunc="count",
        normalize="columns",
    )
    .applymap(lambda x: "{0:.1%}".format(x))
    .T
)

debt_family["Кол-во клиентов"] = pd.pivot_table(
    data=df, columns=df.family_status, index=df.debt, aggfunc="count"
)["days_employed"].T.sum(axis=1)
debt_family


debt,False,True,Кол-во клиентов
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,90.2%,9.8%,2204
в разводе,92.9%,7.1%,881
вдовец / вдова,93.4%,6.6%,378
гражданский брак,90.7%,9.3%,3142
женат / замужем,92.5%,7.5%,9203


### <center><span style="color: crimson"><b>Вывод</b></span></center>
Если пренебречь погрешностью, вплоть до 2.5% (что очень плохая идея), т.к. у нас нет возможности получить доп. данные, то:  

**Наименьшее**: число задолжностей имеют статусы: (вдовец / вдова) и (в разводе).  
**Наибольшее**: число задолжностей имеют статусы: (Не женат / не замужем) и (гражданский брак).

### <span style="color: red">Е</span>сть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [33]:
list_quart = df.groupby(pd.qcut(df["total_income"], [0, 0.25, 0.5, 0.75, 1.0]))["debt"]

debt_income = list_quart.mean().to_frame().applymap(lambda x: "{0:.1%}".format(x))
debt_income["Кол-во клиентов"] = list_quart.count()
debt_income

Unnamed: 0_level_0,debt,Кол-во клиентов
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1
"(20667.263, 102999.996]",8.0%,4810
"(102999.996, 145017.938]",8.7%,4810
"(145017.938, 203435.068]",8.8%,4809
"(203435.068, 2265604.029]",7.0%,4810


### <center><span style="color: crimson"><b>Вывод</b></span></center>

Т.к мы имеем равное расправление по группам (разделение происходило по квартилям), у нас не маленькие выборки (к примеру в медицинской практике работают со значительно меньшими группами) и по формуле погрешность измерений при 95% доверительном интервале около 0.8, то можно предположить, что наилучшие клиенты те у кого уровнем дохода 203435-2265604 руб.

### <span style="color: red">К</span>ак разные цели кредита влияют на его возврат в срок?

In [34]:
pd.crosstab(
    values=df.debt,
    columns=df.purpose_category,
    index=df.debt,
    aggfunc="count",
    normalize="columns",
).applymap(lambda x: "{0:.1%}".format(x))

purpose_category,на автомобиль,на недвижимость,подготовка к свадьбе,получение образования
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
False,90.7%,92.8%,92.2%,90.8%
True,9.3%,7.2%,7.8%,9.2%


### <center><span style="color: crimson"><b>Вывод</b></span></center>

Из представленных данных можно предположить, что наш идеальный клиент, тот кто берет кредит на недвижимость или свадьбу (но свадьба может быть косвенным признаком изменившегося семейного положения клиента).

## <span style="color: crimson">Этап 4</span> Результаты исследований

### <span style="color: red">Р</span>екомендации банку:
1. Советую пересмотреть валидацию формы заполняемую на получение кредита:
(Это поможет избавиться от пропусков и аномалий)
2. Добавить пользователям уникальный идентификатор (это, даст нам уверенность в отсутствии дубликатов, кроме того при неоднократном получении кредита можно проверить, как на шанс погашения влияет сам человек).  
3. Параметр цели кредита стоит разделить на категории, чтобы они не повторялись и не приходилось проводить лемматизацию.
4. Стоит указывать сумму кредита, это поможет провести дополнительный анализ.
5. Увеличить кол-во клиентов для анализа.


### <span style="color: red">Р</span>езультат исследования, на погашения кредита: 
Все параметры в той или иной мере влияют на результат, но велик шанс погрешности из-за маленькой выборки (для такого низкого процента различий между категориями.)  

**Наилучший клиенты имеют следующие параметры:**
1. Отсутствие детей.
2. Семейный статус (вдовец / вдова) и (в разводе).
3. Заработная плата находится в диапазоне 203435-2265604 руб.
4. Цель кредита  (на недвижимость) и (подготовка к свадьбе)