# Исследование надежности заемщиков

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.<br>

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Изучим общую информацию о данных

Импортируйте библиотеку pandas.

In [19]:
import pandas as pd # импортируем библиотеку pandas

In [20]:
data = pd.read_csv('data.csv') # читаем csv-файл

Выведем первые 20 строчек датафрейма `data` на экран.

In [21]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведем основную информацию о датафрейме с помощью метода `info()`.

In [22]:
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Описание данных**

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

## Предобработка данных

### Удаление пропусков

Выведем количество пропущенных значений для каждого столбца. Используем комбинацию двух методов.

In [23]:
data.isna().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаемна следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [24]:
#data['total_income'] = (data.groupby('income_type')['total_income'].transform(lambda g: g.fillna(g.median())))
for g in data['income_type'].unique():
    data.loc[(data['income_type'] == g) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == g), 'total_income'].median()

### Обработка аномальных значений

В данных есть артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом является отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.

In [25]:
data['days_employed'] = data['days_employed'].abs() 

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [26]:
ave_age_days_employed = data.groupby(['income_type']).agg({'days_employed':'median'}) 
print(ave_age_days_employed)

                 days_employed
income_type                   
безработный      366413.652744
в декрете          3296.759962
госслужащий        2689.368353
компаньон          1547.382223
пенсионер        365213.306266
предприниматель     520.848083
сотрудник          1574.202821
студент             578.751554


У двух типов (безработные и пенсионеры) получаются аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится нам для исследования.

Выведем перечень уникальных значений столбца `children`.

In [27]:
print(data['children'].unique())

[ 1  0  3  2 -1  4 20  5]


В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [28]:
data = data[~data['children'].isin((-1,20))] 

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [29]:
print(data['children'].unique()) 

[1 0 3 2 4 5]


**Продолжаем удаление пропусков**

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.

In [30]:
#data['days_employed'] = (data.groupby('income_type')['days_employed'].transform(lambda g: g.fillna(g.median())))
for g in data['income_type'].unique():
    data.loc[(data['days_employed'] == g) & (data['income_type'].isna()), 'income_type'] = \
    data.loc[(data['days_employed'] == g), 'income_type'].median()

Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.

In [31]:
data.isna().sum() 

children               0
days_employed       2162
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [32]:
data['total_income'] = data['total_income'].astype('int') 

### Обработка дубликатов

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [41]:
data['education'] = data['education'].str.lower() 

Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [34]:
data.duplicated().sum() 

71

In [42]:
data = data.drop_duplicates() # удалим дубликаты

### Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [43]:
# создадим функцию categorize_income()
def categorize_income(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000: 
        return 'B'
    return 'A'

In [44]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [45]:
print(data['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [46]:
# создаем функцию categorize_purpose()
def categorize_purpose(row):    
    if 'авто' in row:
        return 'операции с автомобилем'
    elif ('недвиж' in row) or ('жиль' in row):
        return 'операции с недвижимостью'
    elif 'свадьб' in row:
        return 'проведение свадьбы'
    else:
        return 'получение образования'  

In [47]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследование данных

Посмотрим сколько детей разных возрастов есть в таблице, где 0 - это отсутствие детей

In [48]:
data['children'].value_counts()

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

По данным приведенной таблицы видно, что многодетных семей не так много, имеет смысл объеденить их в одну категорию

In [49]:
def children_category (children):
    if children >= 3:
        return 'Много детей'
    if children == 1:
        return '1 ребенок'
    if children == 2:
        return '2 ребенка'    
    return 'Нет детей'

In [52]:
# вызовем функцию
data['category_children'] = data['children'].apply(children_category)

In [53]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,category_children
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,1 ребенок
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,1 ребенок
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,Нет детей
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,Много детей
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,Нет детей


Построим сводную таблицу по категориям детей

In [54]:
data_pivot = data.groupby('category_children').agg({'debt': ['count', 'sum']})
data_pivot['conversion'] = (data_pivot['debt']['sum']/data_pivot['debt']['count'])*100
print(data_pivot.sort_values(by='conversion'))

                    debt       conversion
                   count   sum           
category_children                        
Нет детей          14091  1063   7.543822
Много детей          380    31   8.157895
1 ребенок           4808   444   9.234609
2 ребенка           2052   194   9.454191


**Вывод:** Из полученных данных можно сделать вывод, что заемщики без детей чаще возвращают кредиты вовремя, чем люди с детьми. 

#### 3.2 Проверим есть ли зависимость между семейным положением и возвратом кредита в срок.

In [56]:
data_pivot = data.groupby('family_status').agg({'debt': ['count', 'sum']})
data_pivot['conversion_family_status'] = (data_pivot['debt']['sum']/data_pivot['debt']['count'])*100
print(data_pivot.sort_values(by='conversion_family_status'))

                        debt      conversion_family_status
                       count  sum                         
family_status                                             
вдовец / вдова           951   63                 6.624606
в разводе               1189   84                 7.064760
женат / замужем        12261  927                 7.560558
гражданский брак        4134  385                 9.313014
Не женат / не замужем   2796  273                 9.763948


**Вывод:** Овдовевшие и разведенные заемщики чаще всего возвращают кредиты вовремя. Люди находящиеся в браке и в гражданском в том числе имеют наименьшую вероятность вовремя погасить кредит. 

#### 3.3 Проверим есть ли зависимость между уровнем дохода и возвратом кредита в срок.

In [57]:
data_pivot = data.groupby('total_income_category').agg({'debt': ['count', 'sum']})
data_pivot['conversion_income'] = (data_pivot['debt']['sum']/data_pivot['debt']['count'])*100
print(data_pivot.sort_values(by='conversion_income'))

# 0–30000 — 'E';
# 30001–50000 — 'D';
# 50001–200000 — 'C';
# 200001–1000000 — 'B';
# 1000001 и выше — 'A'

                        debt       conversion_income
                       count   sum                  
total_income_category                               
D                        349    21          6.017192
B                       5014   354          7.060231
A                         25     2          8.000000
C                      15921  1353          8.498210
E                         22     2          9.090909


**Вывод:** Исходя из данных сводной таблицы видно, что чаще берут кредит люди двух категорий, люди с доходом 200001–1000000 и те чей доход 50001–200000. Люди первой категории чаще и своевременней выплачивают кредит. Тогда как вторая категория пренебрегает этим и входит в группу опасных заемщиков.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [58]:
data_pivot = data.groupby('purpose_category').agg({'debt': ['count', 'sum']})
data_pivot['conversion_purpose_category'] = (data_pivot['debt']['sum']/data_pivot['debt']['count'])*100
print(data_pivot.sort_values(by='conversion_purpose_category'))

                           debt      conversion_purpose_category
                          count  sum                            
purpose_category                                                
операции с недвижимостью  10751  780                    7.255139
проведение свадьбы         2313  183                    7.911803
получение образования      3988  369                    9.252758
операции с автомобилем     4279  400                    9.347978


**Вывод:** Выгоднее всего давать кредит на операции с недвижимостью и проведение свадеб. 

#### 3.5 Посмотрим на возможные причины появления пропусков в исходных данных.

- Пользователь намеренно не указал данные;
- При выгрузке файла произошел сбой;
- Система сбора информации работала некорректно.

### Шаг 4: общий вывод.

Самым лучшим заемщиком станет тот человек, чей доход 30000-40000, который не состоит в браке или овдовел, не имеющий детей и преобретающий кредит на операции с недвижимостью. 

**Детально по категориям:**
  **Зависимость между количеством детей и возвратом кредита в срок.**
   - Нет детей - 7.54%
   - Много детей - 8.16%
   - 1 ребенок - 9.23%
   - 2 ребенка - 9.45%

Разница между минимальным и максимальным значением - 1.91% 

Возврат кредита связан с количеством детей, те семьи где есть дети реже отдают кредит в срок, думаю это связано с финансовой нагрузкой на семью.

 **Зависимость между семейным положением и возвратом кредита в срок.**
  - вдовец / вдова - 6.62%
  - в разводе - 7.06%
  - женат / замужем - 7.56%
  - гражданский брак - 9.31%
  - не женат / не замужем - 9.76%
  
Разница между минимальным и максимальным значением - 3,14% 

Люди ранее состоявшие в браки и потерявшие супругов,имеют более высокий уровень ответственности и они дисциплинированнее, следовательно и долги стараются закрывать вовремя. 

 **Зависимость между уровнем дохода и возвратом кредита в срок.**
  - От 30001 до 50000 - 6.02%
  - От 200001 до 1000000 - 7,06%
  - От 1000001 и выше - 8.0%
  - От 50001 до 200000 - 8.5%
  - От 0 до 30000 - 9,09%
  
Разница между минимальным и максимальным значением - 3,07% 

Люди с низуим доходом (от 30 до 50 тыс. руб) имеют меньше просрочек по кредитам( доля просрочек- 6,02%). Это можно обьяснить тем, что кредит для них ценен и это крайняя мера. Имея низкий доход, они взяли кредит на то, что действительно важно и не хотели бы в будующем испортить кредитную историю.

И у людей с высоким доходом (от 200 тыс. до 1 мил. руб.)(доля 7,06%). Это можно объяснить тем, что они понимают ценность денег.

 **Зависимость по цели кредита**
  - операции с недвижимостью - 7.25%
  - проведение свадьбы - 7.91%
  - получение образования - 9.25%
  - операции с автомобилем - 9.35%
  
Разница между минимальным и максимальным значением - 2,1%

Больше всего просрочек у кредитов на автомобиль и образование. Это можно бъяснить тем, что на рынке автокредитования создаются очень привлекательные предложения и человек порой берет кредит не оценевая аддекватно свои возможности.

Кредит на недвижимось имет меньше всего просрочек. Человек, выбирая ипотеку, хорошо просчитывает свои возможности, так как срок платежа очень большой. 