<h1>Исследование надежности заемщиков<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта,-данных,-выводы-и-рекомендации" data-toc-modified-id="Описание-проекта,-данных,-выводы-и-рекомендации-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта, данных, выводы и рекомендации</a></span></li><li><span><a href="#Загрузка-данных,-изучение-общей-информации" data-toc-modified-id="Загрузка-данных,-изучение-общей-информации-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Загрузка данных, изучение общей информации</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Исследовательский-анализ-данных" data-toc-modified-id="Исследовательский-анализ-данных-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Исследовательский анализ данных</a></span><ul class="toc-item"><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Категоризация данных</a></span></li><li><span><a href="#Зависимость-между-количеством-детей-у-клиента-и-возвратом-кредита-в-срок" data-toc-modified-id="Зависимость-между-количеством-детей-у-клиента-и-возвратом-кредита-в-срок-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Зависимость между количеством детей у клиента и возвратом кредита в срок</a></span></li><li><span><a href="#Исследуем-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок" data-toc-modified-id="Исследуем-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Исследуем зависимость между семейным положением и возвратом кредита в срок</a></span></li><li><span><a href="#Исследуем-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок" data-toc-modified-id="Исследуем-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Исследуем зависимость между уровнем дохода и возвратом кредита в срок</a></span></li><li><span><a href="#Исследуем-как-разные-цели-кредита-влияют-на-его-возврат-в-срок" data-toc-modified-id="Исследуем-как-разные-цели-кредита-влияют-на-его-возврат-в-срок-4.5"><span class="toc-item-num">4.5&nbsp;&nbsp;</span>Исследуем как разные цели кредита влияют на его возврат в срок</a></span></li><li><span><a href="#Исследуем-как-образование-клиента-влияет-на-возврат-кредита-в-срок" data-toc-modified-id="Исследуем-как-образование-клиента-влияет-на-возврат-кредита-в-срок-4.6"><span class="toc-item-num">4.6&nbsp;&nbsp;</span>Исследуем как образование клиента влияет на возврат кредита в срок</a></span></li></ul></li></ul></div>

## Описание проекта, данных, выводы и рекомендации

**Задача проекта:** 
На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение, образование, количество детей и уровень дохода клиента на факт возврата кредита в срок.

Датасет содержит следующие данные о клиентах банка:

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

**Вывод:**


| Критерий  | Чаще кредитуются | Наименьшее количество должников | Наибольшее количество должников |
| :-------------------- | :---------------------: |:---------------------------:|:---------------------------:|
| **Количество детей** |семьи без детей | семьи без детей | семьи с 1 и 2 детьми |
|  |  |  |  |
| **Семейное положение** | в браке  | вдовцы | холостые |
|  |  |  |  |
| **Уровень дохода** | 50-200 тыс.руб.  | 200-1000 тыс.руб.  | 50-200 тыс.руб. |
|  |  |  |  |
| **Цели кредитования** | Недвижимость  | Недвижимость  | Автомобиль |
|  |  |  |  |
| **Образование** | Среднее | Ученая степень  | Начальное |
|  |  |  |  |

Самыми перспективными клиентами по кредитованию для Банка являются: состоящие в браке, без детей, со средним (50-200 тыс.руб.) и высоким (200-1000 тыс.руб.) уровнем дохода, имеющие среднее и высшее образование, берущие кредит на недвижимость.

## Загрузка данных, изучение общей информации

In [2]:
# загружаем необходимые библиотеки
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import random
import numpy as np

In [3]:
import warnings

warnings.filterwarnings("ignore")

In [4]:
data = pd.read_csv('C:/users/data.csv')

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.6+ MB


## Предобработка данных

In [6]:
# посмотрим процент пропусков
(data.isna().sum()/len(data))*100

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

На сумму дохода `total_income` сильнее всего влияет тип занятости, поэтому заполним пропуски в этом столбце медианным значением по каждому типу из столбца `income_type`.

In [7]:
for value in data['income_type'].unique():
    data.loc[(data['income_type'] == value) & (data['total_income'].isna()), 'total_income'] =\
    data.loc[(data['income_type'] == value), 'total_income'].median()

In [8]:
# посмотрим на уникальные значения дней трудового стажа
data['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [9]:
# уберем в стаже минус
data['days_employed'] = data['days_employed'].abs()

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`

In [10]:
for value in data['income_type'].unique():
    data.loc[(data['income_type'] == value) & (data['days_employed'].isna()), 'days_employed'] =\
    data.loc[(data['income_type'] == value), 'days_employed'].median()

In [11]:
# выведем перечень уникальных значений столбца `children`
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [12]:
# удалим строки, в которых встречаются аномальные значения (-1 и 20 детей) из датафрейма
data = data[(data['children'] != -1) & (data['children'] != 20)]

Изменим тип данных в столбце `total_income` и `days_employed` на целочисленный.

In [13]:
data[['total_income','days_employed']] = data[['total_income','days_employed']].astype('int')

In [14]:
# посмотрим уникальные значения в столце `education`
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [15]:
# приведем всё в нижнему регистру
data['education'] = data['education'].str.lower()

In [16]:
# проверим на полные дубликаты
data.duplicated().sum()

71

У нас 71 строка с дубликатами в датафрейме из 21525. Удалим их.

In [17]:
data = data.drop_duplicates()

In [18]:
# столбец с меткой о задолженности заменяем на более читаемый
data['debt_text'] = data['debt'].apply(lambda x: 'должник' if x == 1 else 'не должник')

## Исследовательский анализ данных

### Категоризация данных

Создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


In [19]:
# создадим функцию categorize_income()
def categorize_income(row):
    income = row['total_income']
    if income <= 30000:
        return 'E'
    if income <= 50000:
        return 'D'
    if income <= 200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'

In [20]:
# применим функцию методом apply()
data['total_income_category'] = data.apply(categorize_income, axis = 1)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`

In [21]:
data.value_counts('purpose')

purpose
свадьба                                   790
на проведение свадьбы                     763
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          620
покупка своего жилья                      619
строительство недвижимости                619
покупка недвижимости                      616
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образовани

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.


In [22]:
# создадим функцию categorize_purpose()
def categorize_purpose(row):
    purpose = row['purpose']
    if 'образ' in purpose:
        return 'получение образования'
    if 'свад' in purpose: 
        return 'проведение свадьбы'
    if 'авто' in purpose:
        return 'операции с автомобилем'
    return 'операции с недвижимостью'

In [23]:
# применим функцию методом apply()
data['purpose_category'] = data.apply(categorize_purpose, axis = 1)

### Зависимость между количеством детей у клиента и возвратом кредита в срок

In [92]:
fig1 = px.histogram(data.groupby(['children', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'children', y = 'debt', color='debt_text', text_auto='.2f', \
                    title = "Количество детей",\
                    barnorm='percent', nbins=6, barmode='stack', color_discrete_sequence = ['#3B7080','#FCEC52'],\
                    labels={'debt_text':'Критерий'})
fig1.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig1.update_xaxes(title_text = 'Количество детей')
fig1.update_yaxes(title_text = 'Доля, %')

fig2 = px.histogram(data.groupby(['children', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'children', y = 'debt', color='debt_text', text_auto='.2f', \
                    nbins=6, barmode='stack', color_discrete_sequence = ['#FCEC52', '#3B7080'],\
                    labels={'debt_text':'Критерий'})
fig2.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig2.update_xaxes(title_text = 'Количество детей')
fig2.update_yaxes(title_text = 'Количество клиентов')


fig1.show()
fig2.show()

![newplot%20%2815%29.png](attachment:newplot%20%2815%29.png)

![newplot%20%2817%29.png](attachment:newplot%20%2817%29.png)

**Вывод:**  Наибольшее количество кредитов выдано семьям без детей, эти же кредиты лучше выплачиваются, процент должников в этих семьях составляет -7,54%. Хуже всего выплачиваются кредиты в семьях с 4-мя детьми, но здесь выдано не существенное количество кредитов. В семьях с 1м и 2мя детьми наибольший процент должников. 

### Исследуем зависимость между семейным положением и возвратом кредита в срок

In [93]:
fig1 = px.histogram(data.groupby(['family_status', 'debt_text'], as_index=False)['debt'].count().sort_values(by='debt', ascending=False), \
                    x = 'family_status', y = 'debt', color='debt_text', text_auto='.2f', \
                    title = 'Семейное положение',\
                    barnorm='percent', nbins=6, barmode='stack', color_discrete_sequence = ['#F5EE9E', '#F06543'],\
                    labels={'debt_text':'Критерий'})
fig1.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig1.update_xaxes(title_text = ' ')
fig1.update_yaxes(title_text = 'Доля, %')

fig2 = px.histogram(data.groupby(['family_status', 'debt_text'], as_index=False)['debt'].count().sort_values(by='debt', ascending=False), \
                    x = 'family_status', y = 'debt', color='debt_text', text_auto='.2f', \
                    nbins=6, barmode='stack', color_discrete_sequence = ['#F06543','#F5EE9E'],\
                    labels={'debt_text':'Критерий'})
fig2.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig2.update_xaxes(title_text = ' ')
fig2.update_yaxes(title_text = 'Количество клиентов')


fig1.show()
fig2.show()

![newplot%20%2818%29.png](attachment:newplot%20%2818%29.png)

![newplot%20%2819%29.png](attachment:newplot%20%2819%29.png)

**Вывод:** Женатые(замужние) клиенты лучше всего берут берут кредиты и хорошо их выплачивают. Хуже всего выплачивают кредиты холостые клиенты, среди них наивысший процент должников. На втором месте по количеству должников - люди в гражданском браке.

### Исследуем зависимость между уровнем дохода и возвратом кредита в срок

In [94]:
fig1 = px.histogram(data.groupby(['total_income_category', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'total_income_category', y = 'debt', color='debt_text', text_auto='.2f', \
                    title = "Уровень дохода клиента",\
                    barnorm='percent', nbins=5, barmode='stack', color_discrete_sequence = ['#9BBEC7', '#E2C391'],\
                    labels={'debt_text':'Критерий'})
fig1.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig1.update_xaxes(title_text = 'Категория дохода')
fig1.update_yaxes(title_text = 'Доля, %')

fig2 = px.histogram(data.groupby(['total_income_category', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'total_income_category', y = 'debt', color='debt_text', text_auto='.2f', \
                    nbins=5, barmode='stack', color_discrete_sequence = ['#E2C391','#9BBEC7'],\
                    labels={'debt_text':'Критерий'})
fig2.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig2.update_xaxes(title_text = 'Категория дохода')
fig2.update_yaxes(title_text = 'Количество клиентов')


fig1.show()
fig2.show()

![newplot%20%2820%29.png](attachment:newplot%20%2820%29.png)

![newplot%20%2821%29.png](attachment:newplot%20%2821%29.png)

Категории:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

**Вывод:** Выявленные значения показывают нам, что конверсия по кредитованию в категориях 'A', 'D' и 'E' крайне мала. Использовать эти данные для оценки зависимости уровня дохода и возврата кредита в срок не целесообразно. 
Данные говорят нам о том, что клиенты с заработной платой 50-200тр/мес являются самыми активными в кредитовании, но и задолженностей у них больше, чем у клиентов с зп 200-1000тр/мес. На самом деле, эти две категории довольно схожи в плане задолженности и активность их в совокупности для банка хорошая.

### Исследуем как разные цели кредита влияют на его возврат в срок

In [95]:
fig1 = px.histogram(data.groupby(['purpose_category', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    y = 'purpose_category', x = 'debt', color='debt_text', text_auto='.2f', \
                    title = "Цели кредитования",\
                    orientation="h", barnorm='percent', barmode='stack', color_discrete_sequence = ['#696D7D', '#8FC0A9'],\
                    labels={'debt_text':'Критерий'})
fig1.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig1.update_xaxes(title_text = 'Доля, %')
fig1.update_yaxes(title_text = '')

fig2 = px.histogram(data.groupby(['purpose_category', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    y = 'purpose_category', x = 'debt', color='debt_text', text_auto='.2f', \
                    orientation="h", barmode='stack', color_discrete_sequence = ['#8FC0A9','#696D7D'],\
                    labels={'debt_text':'Критерий'})
fig2.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig2.update_xaxes(title_text = 'Количество клиентов')
fig2.update_yaxes(title_text = ' ')


fig1.show()
fig2.show()

![newplot%20%2822%29.png](attachment:newplot%20%2822%29.png)

![newplot%20%2823%29.png](attachment:newplot%20%2823%29.png)

**Вывод:** Лучше всего кредитуется недвижимость и должников среди этих клиентов меньше всего. Хуже всего по долгам обстоят дела с автомобилями и кредиты на эти цели востребованны. 

### Исследуем как образование клиента влияет на возврат кредита в срок

In [96]:
fig1 = px.histogram(data.groupby(['education', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'education', y = 'debt', color='debt_text', text_auto='.2f', \
                    title = "Образование клиента",\
                    barnorm='percent', barmode='group', color_discrete_sequence = ['#F6C5AF','#D36060'],\
                    labels={'debt_text':'Критерий'})
fig1.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig1.update_xaxes(title_text = '')
fig1.update_yaxes(title_text = 'Доля, %')

fig2 = px.histogram(data.groupby(['education', 'debt_text'], as_index=False)['debt'].count().\
                    sort_values(by='debt', ascending=False), \
                    x = 'education', y = 'debt', color='debt_text', text_auto='.2f', \
                    barmode='group', color_discrete_sequence = ['#D36060', '#F6C5AF'],\
                    labels={'debt_text':'Критерий'})
fig2.update_layout(plot_bgcolor='rgba(0,0,0,0)')
fig2.update_xaxes(title_text = '')
fig2.update_yaxes(title_text = 'Количество клиентов')


fig1.show()
fig2.show()

![newplot%20%2824%29.png](attachment:newplot%20%2824%29.png)

![newplot%20%2825%29.png](attachment:newplot%20%2825%29.png)

**Вывод:** Клиенты со средним образованием чаще всего кредитуются и доля должников среди них не самая высокая. Хуже всего кредитуют клиентов с начальным образованием, они и чаще всего задерживают сроки погашения. Клиенты с ученой степенью мало кредитуются и среди них нет вообще должников.

**Итоговый вывод:** 


| Критерий  | Чаще кредитуются | Наименьшее количество должников | Наибольшее количество должников |
| :-------------------- | :---------------------: |:---------------------------:|:---------------------------:|
| **Количество детей** |семьи без детей | семьи без детей | семьи с 1 и 2 детьми |
|  |  |  |  |
| **Семейное положение** | в браке  | вдовцы | холостые |
|  |  |  |  |
| **Уровень дохода** | 50-200 тыс.руб.  | 200-1000 тыс.руб.  | 50-200 тыс.руб. |
|  |  |  |  |
| **Цели кредитования** | Недвижимость  | Недвижимость  | Автомобиль |
|  |  |  |  |
| **Образование** | Среднее | Ученая степень  | Начальное |
|  |  |  |  |

Самыми перспективными клиентами по кредитованию для Банка являются: состоящие в браке, без детей, со средним (50-200 тыс.руб.) и высоким (200-1000 тыс.руб.) уровнем дохода, имеющие среднее и высшее образование, берущие кредит на недвижимость.