# Исследование надежности заемщиков


**Описание проекта**   
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.  
**Описание данных**    
*children* — количество детей в семье  
*days_employed* — общий трудовой стаж в днях  
*dob_years* — возраст клиента в годах  
*education* — уровень образования клиента  
*education_id* — идентификатор уровня образования  
*family_status* — семейное положение  
*family_status_id* — идентификатор семейного положения  
*gender* — пол клиента  
*income_type* — тип занятости  
*debt* — имел ли задолженность по возврату кредитов  
*total_income* — ежемесячный доход  
*purpose* — цель получения кредита  

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [3]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [4]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [6]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [7]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [8]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [9]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [10]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [11]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [12]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [13]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [14]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [15]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [16]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [17]:
data.duplicated().sum()

71

In [18]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [19]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [20]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['total_income_category'] = data['total_income'].apply(categorize_income)


**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [21]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [22]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [23]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Смотрим, какое количество заемщиков имеют больше трёх детей.
Есть предположение, что для выводов будет удобнее объединить 3-4-5 детей в одну группу, т.к. семьи в РФ с тремя и более детьми считаются многодетными

In [24]:

data.groupby('children')['debt'].count()

children
0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: debt, dtype: int64

Смысл объединить есть, т.к. очень немногочисленные категории 4,5 детей. Сформируем новый столбец с категориями по числу детей:

In [25]:
#функция, присваивающая категории
def categorize_children(row):
    if row == 0:
        return 'нет детей'
    elif row == 1:
        return '1 ребенок'
    elif row == 2:
        return '2 ребенка '
    elif row >= 3:
        return '3 и более ребенка'


In [26]:
#создаем новый столбец
data['children_category'] = data['children'].apply(categorize_children)

In [27]:
#создаем сводную таблицу для оценки зависимости
correlation_children_debt = data.pivot_table(index = ['children_category'], \
values = 'debt', aggfunc = {'count', 'sum'})

In [28]:
#переименуем столбцы сводной таблицы, выводящие значения по 'count' и 'sum'
correlation_children_debt = correlation_children_debt.rename(
    columns={
        'count':'amount of credits',
        'sum':'amount of debts'
    }
)

In [29]:
#добавим столбец в сводную таблицу с процентом задолженности по кредитам
correlation_children_debt['correlation'] = (
    correlation_children_debt['amount of debts'] /
    correlation_children_debt['amount of credits']
).apply(lambda x: format(x, '.2%'))

In [30]:
display(correlation_children_debt)

Unnamed: 0_level_0,amount of credits,amount of debts,correlation
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1 ребенок,4808,444,9.23%
2 ребенка,2052,194,9.45%
3 и более ребенка,380,31,8.16%
нет детей,14091,1063,7.54%


**Вывод:**
Зависимость между количеством детей и возвратом кредита срок незначительная, отличия между категориями около 1%.
Заёмщики, у которых нет детей, допускают меньшую просрочку по возврату кредита по сравнению с остальными категориями.
Можно предположить, что у многодетных заёмщиков процент невозвратов меньше, чем у заёмщиков с 1 или 2 детьми, т.к они получают поддержку от государства, тогда как семьи с 1 или 2 детьми несут финансовую нагрузку сами.


#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Посмотрим, какие есть статусы гражданского состояния заёмщиков в нашем датасете

In [31]:
display(data['family_status'].unique())

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

Создадим сводную таблицу по образу и подобию таблицы из предыдущего задания

In [32]:
correlation_status_debt = data.pivot_table(
    index=['family_status'],
    values='debt',
    aggfunc={'count', 'sum'}
)
correlation_status_debt = correlation_status_debt.rename(
    columns={'count':'amount of credits', 'sum':'amount of debts'}
)
correlation_status_debt['correlation'] = (
    correlation_status_debt['amount of debts'] /
    correlation_status_debt['amount of credits']
).apply(lambda x: format(x, '.2%'))

display(correlation_status_debt.sort_values(by='correlation', ascending=False))

Unnamed: 0_level_0,amount of credits,amount of debts,correlation
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.76%
гражданский брак,4134,385,9.31%
женат / замужем,12261,927,7.56%
в разводе,1189,84,7.06%
вдовец / вдова,951,63,6.62%


**Вывод:**
Люди, не состоящие в браке, или состоящие в незарегистрированном браке, имеют бОльшую долю невозвратов.
Заёмщика, состоящие или состоявшие в браке, имеют меньший процент невозврата. Возможно это связано с более стабильной финансовой ситуацией, чувством ответственности и т.д.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Создадим ещё одну сводную таблицу.

In [33]:
correlation_incom_debt = data.pivot_table(
    index=['total_income_category'],
    values='debt',
    aggfunc={'count', 'sum'}
)
correlation_incom_debt = correlation_incom_debt.rename(
    columns={'count':'amount of credits', 'sum':'amount of debts'}
)
correlation_incom_debt['correlation'] = (
    correlation_incom_debt['amount of debts'] /
    correlation_incom_debt['amount of credits']
).apply(lambda x: format(x, '.2%'))

display(correlation_incom_debt.sort_values(by='correlation', ascending=False))

Unnamed: 0_level_0,amount of credits,amount of debts,correlation
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,22,2,9.09%
C,15921,1353,8.50%
A,25,2,8.00%
B,5014,354,7.06%
D,349,21,6.02%


**Вывод:**   
Зависимость уровня дохода заёмщика и возврата кредита в срок нелинейная. Больший доход не гарантирует возврата кредита в срок.  
"Группа риска" в данном случае - люди с доходом менее 30 тысяч рублей.  
Самая надёжная группа - заёмщики с доходом 30-50 тысяч.  

А вот категория С, доход от 50 до 200 тысяч, занимает второе место по невозвратам. Можно предположить, что как раз эта категория получает имеет "серый доход", потеря "чёрной" части которого на экономических спадах может привести к проблемам с обслуживанием кредита. Здесь интересно было бы увидеть данные, заявлен подтвержденный доход или нет.  


#### 3.4 Как разные цели кредита влияют на его возврат в срок?

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [34]:
correlation_purpose_debt = data.pivot_table(
    index=['purpose_category'],
    values='debt',
    aggfunc={'count', 'sum'}
)
correlation_purpose_debt = correlation_purpose_debt.rename(
    columns={'count':'amount of credits', 'sum':'amount of debts'}
)
correlation_purpose_debt['correlation'] = (
    correlation_purpose_debt['amount of debts'] /
    correlation_purpose_debt['amount of credits']
).apply(lambda x: format(x, '.2%'))

display(correlation_purpose_debt.sort_values(by='correlation', ascending=False))

Unnamed: 0_level_0,amount of credits,amount of debts,correlation
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4279,400,9.35%
получение образования,3988,369,9.25%
проведение свадьбы,2313,183,7.91%
операции с недвижимостью,10751,780,7.26%


In [35]:
amount_purpose = data.pivot_table(index = ['purpose_category'], values = 'debt', aggfunc = {'count', 'sum'})

**Вывод:**  
Кредит на операции с недвижимостью будет возвращен в срок с большей вероятностью. Чаще всего это кредиты на большую сумму, заёмщики готовятся заранее к получению жилищных кредитов и заранее просчитывают риски.  
Кредит на проведение свадьбы так же имеет более высокую вероятность возврата, видимо, молодожены не хотят начинать семейную жизнь с долгов.  
Автокредиты имеют бОльшую долю невозвратов, возможно это связано с тем, что заёмщик покупает автомобиль, обслуживание которого ему не по карману (кредит, страховки, ТО и т.д.).  
Кредит на образование так же имеет риски не быть возвращенным в срок, скорее всего связано с нестабильным финансовым положением заёмщмка после окончания обучения.  

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

Число пропусков в 'total_income' и 'days_employed' было одинаковым, возможно одно значение завязано на другом технологически.  

Причинами могут быть:  
-технические сбои при выгрузке информации;  

-сбои при заполнении информации, скажем, при заполнении значений онлайн: заполнение данных полей не было обязательным и заёмщики их просто не заполнили;  

-ошибки при переносе данных из анкеты в датасет вручную;  

-или, предположим, в одной итерации таблицы не было предусмотрено указанных столбцов, в другой итерации эти столбцы со значениями появились, при их объединении двух таблиц часть значений в столбцах осталась пропущенной.  



#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Медиана лучше отражает выборку, когда распределение имеет сдвиг или имеет выбросы значений

### Шаг 4: общий вывод.

В ходе исследование были проверены гипотезы о влиянии на факт погашения кредита в срок:  
-семейного положения заёмщика,  
-количества детей заёмщика,  
-уровня дохода заёмщика,  
-цели кредита.  

По результатам исследование однозначной взаимосвязи указанных факторов с фактом погашения кредита в срок не выявлено.  

На основе полученных данных можно составить портрет заёмщика, который допустит просрочку по кредиту с наибольшей вероятностью при совпадении нескольких факторов:  
-не состоящий или состоящий в гражданском браке;  
-имеющий 2-х детей;  
-с доходом менее 30 тысяч;  
-заявленная цель кредита - операции с автомобилем, оплата образования.  

Наиболее надёжный заемщик:  
вдовец без детей с доходом от 30 до 50 тысяч, покупающий недвижимость в кредит.  
