# Исследование надежности заемщиков

**Краткое описание:** Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

**Цель проекта:** Увидеть зависимости между семейным положением, количеством детей клиента и фактом погашения кредита в срок. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данные**
- ```children``` — количество детей в семье
- ```days_employed``` — общий трудовой стаж в днях
- ```dob_years``` — возраст клиента в годах
- ```education``` — уровень образования клиента
- ```education_id``` — идентификатор уровня образования
- ```family_status``` — семейное положение
- ```family_status_id``` — идентификатор семейного положения
- ```gender``` — пол клиента
- ```income_type``` — тип занятости
- ```debt``` — имел ли задолженность по возврату кредитов
- ```total_income``` — ежемесячный доход
- ```purpose``` — цель получения кредита

**План работы**
1. Изучить данные
2. Предобработать данные
3. Проанализировать данные
4. Оформить выводы

## Изучение общей информации о данных

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('.\datasets\data.csv')

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
income_with_na_in_total = data[data['total_income'].isna()]['income_type'].unique()
income_with_na_in_total

array(['пенсионер', 'госслужащий', 'компаньон', 'сотрудник',
       'предприниматель'], dtype=object)

In [7]:
for income in income_with_na_in_total:
    median_for_income = data[data['income_type'] == income]['total_income'].median()
    data.loc[data['income_type'] == income, 'total_income'] = data.loc[data['income_type'] == income, 'total_income'].fillna(median_for_income)

### Обработка аномальных значений

In [8]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [9]:
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [10]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [11]:
data = data[~(data['children'] == -1) & ~(data['children'] == 20)]

In [12]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

In [13]:
income_with_na_in_days = data[data['days_employed'].isna()]['income_type'].unique()
income_with_na_in_days

array(['пенсионер', 'госслужащий', 'компаньон', 'сотрудник',
       'предприниматель'], dtype=object)

In [14]:
for income in income_with_na_in_days:
    median_for_income = data[data['income_type'] == income]['days_employed'].median()
    data.loc[data['income_type'] == income, 'days_employed'] = data.loc[data['income_type'] == income, 'days_employed'].fillna(median_for_income)

In [15]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

In [16]:
data['total_income'] = data['total_income'].astype('int')

### Обработка дубликатов

In [17]:
data['education'] = data['education'].str.lower()

In [18]:
data.duplicated().sum()

71

In [19]:
data = data.drop_duplicates()

### Категоризация данных

In [20]:
def categorize_income(total_income):
    try:
        if total_income <= 30000:
            return 'E'
        elif 30000 < total_income <= 50000:
            return 'D'
        elif 50000 < total_income <= 200000:
            return 'C'
        elif 200000 < total_income <= 1000000:
            return 'B'
        else:
            return 'A'
    except:
        pass

In [21]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [22]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [23]:
def categorize_purpose(purpose):
    try:
        if 'образован' in purpose:
            return 'получение образования'
        elif 'авто' in purpose:
            return 'операции с автомобилем'
        elif 'жиль' in purpose or 'недвиж' in purpose:
            return 'операции с недвижимостью'
        elif 'свадьб' in purpose:
            return 'проведение свадьбы'
    except:
        return 'нет категории'

In [24]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Шаг 3. Исследуем данные

In [25]:
def create_table_for_analysis(data, column):
    return data.pivot_table(index=column, values='debt', aggfunc=['count', 'sum', 'mean'])

Создадим функцию для создания сводной таблицы, которая отображает количество заемщиков, поделенных на группы выбранной колонки, которые имели задолженность, количество всех заемщиков и среднее количество должников для каждой группы.

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [26]:
create_table_for_analysis(data, 'children')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


Выше мы получили таблицу, содержащую следующие данные:
- 1 столбец - количество заемщиков, разгруппированных по количеству имеющихся детей;
- 2 столбец - количество заемщиков, которые имели задолженность;
- 3 столбец - вероятность возникновения задолжности в зависимости от количества детей в семье.

**Вывод:** поделим данные на 2 группы по количеству имеющихся данных
- данные о семьях, которые имеют от 1 до 3 детей включительно;
- данные о семьях, которые имеют от 4 до 5 детей включительно.

Не будем включать во внимание семьи с 5ю детьми, так как данных имеется очень мало.

Можно увидеть тенденцию в обеих группах, что чем больше детей, тем больше вероятность того, что у заемщика появится задолжность по возврату кредита. Но в данном анализе мы не включали сторонние факты, такие как семейный статус.

Также мы видим, что люди, которые не имеют детей чаще берут кредиты.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [27]:
create_table_for_analysis(data, 'family_status')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


Выше мы получили таблицу, содержащую следующие данные:
- 1 столбец - количество заемщиков, разгруппированных по семейному статусу;
- 2 столбец - количество заемщиков, которые имели задолженность;
- 3 столбец - вероятность возникновения задолжности в зависимости от семейного статуса.

**Вывод:** по полученным данным можно сделать вывод, что люди, которые имеют более свободный семейный статус(Не женат / не замужем или гражданский брак) имеют большую вероятность заиметь задолженность по кредиту.

Меньше всего кредитов берут вдовцы / вдовы, а больше всего кредит берут люди женатые / замужние.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [28]:
create_table_for_analysis(data, 'total_income_category')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172
E,22,2,0.090909


Выше мы получили таблицу, содержащую следующие данные:
- 1 столбец - количество заемщиков, разгруппированных по доходу;
- 2 столбец - количество заемщиков, которые имели задолженность;
- 3 столбец - вероятность возникновения задолжности в зависимости от дохода.

**Вывод:** зависимость не была выявлена, так как количество данных очень разное для всех групп, а корреляция примерно в одном диапозоне, за исключением данных по группе D и E. Люди имеющие очень маленький доход чаще не могут вернуть долг вовремя, а люди имеющие доход ниже среднего имеют самую лучшую вероятность вернуть долг во время, но данных по этим группам очень мало, поэтому выводы сделать сложно.

По полученным данным можно увидеть, что меньше всего кредиты берут в группах A и E, то есть в граничащих группах, больше всего кредитов берут люди, входящие в средний класс, то есть группа С.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [29]:
create_table_for_analysis(data, 'purpose_category')

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4279,400,0.09348
операции с недвижимостью,10751,780,0.072551
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118


Выше мы получили таблицу, содержащую следующие данные:
- 1 столбец - количество заемщиков, разгруппированных по цели, для чего взят кредит;
- 2 столбец - количество заемщиков, которые имели задолженность;
- 3 столбец - вероятность возникновения задолжности в зависимости от того, для чего взят кредит.

**Вывод:** люди, которые берут кредит на операции с автомобилем или на получение образования, имеют большую вероятность не вернуть долг во время, чем люди, которые берут кредит на операции с недвижимостью или на проведение свадьбы.

Чаще всего кредиты берут для оперций с недвижимостью.

#### 3.5 Приведем возможные причины появления пропусков в исходных данных.

*Ответ:*
- поля days_employed и total_income не обязательны для ввода и некоторые люди не вписывали эти данные по своим причинам;
- если эти данные автоматически берутся из системы, возможно по вводным данным не было найдено сведений из полей days_employed и total_income.

Так как в данных нет связи между полями где имеются пропуски, можно сделать вывод что данные отсуствуют не по ошибке системы, а потому что реально отсутствуют такие данные.

#### 3.6 Объясним, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* в данных по количеству дней стажа или зарплаты могут имется большие выбросы, именно поэтому предпочтительнее использовать медианное значение.

### Шаг 4: Общий вывод.

От заказчика были полученны данные с *статистикой о платёжеспособности клиентов*, данные были не подобающего для анализа состояния, поэтому после изучения данных мы приступили к их предобработке.

Во время предобработки данных были выполнены следующие действия:
- пропущенные данные в опыте работы и зарплате заемщиков были заполнены медианным значением в зависимости от типа занятости заемщика;
- были обработаны аномальные значения в данных;
- обработаны дубликаты в данных;
- типы данных были преведены к соответсвущим типам данных для столбцов;
- данные по зарплате заемщиков и их цели для взятия кредита были поделены на категории.

**Что было выявлено:**
- чем больше детей, тем больше вероятность того, что у заемщика появится задолжность по возврату кредита;
- чем более свободный семейный статус имеет заемщик, тем больше вероятность того, что у заемщика появится задолжность по возврату кредита;
- зависимость от уровня дохода не была выявлена;
- кредит на операции с недвижимостью или кредит на проведение свадьбы имеет меньший риск не возврата заемных средст вовремя, чем кредит на операции с автомобилем или на получение образования.

**Рекомендации:**
- улучшить форму данных заемщика, а конкретно:
 - установить, что поля ```children```, ```days_employed```, ```dob_years```, ```education```, ```education_id```, ```family_status```, ```family_status_id```, ```gender```, ```income_type```, ```total_income```, ```purpose``` обязательны к заполнению;
 - установить ограничения по типу вводимых данных (пример: если в поле необходимо ввести данные о зарплате, то в это поле можно вводить только неотрицательные числа);
- при построении модели кредитного скоринга обращать внимание на количество детей у заемщика, его семейный статус и цель, для чего берется кредит, и также учитывать выявленные закономерности.