# Исследование надежности заемщиков.



Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.


Цель исследования - ответить на следующие вопросы:
 - Есть ли зависимость между количеством детей и возвратом кредита в срок?
 - Есть ли зависимость между семейным положением и возвратом кредита в срок?
 - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
 - Как разные цели кредита влияют на его возврат в срок?
 
 Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Обзор данных

In [1505]:
import pandas as pd  # импорт библиотеки pandas

In [1506]:
df = pd.read_csv('***')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [None]:
df.info() # получение общей информации о данных в таблице df

В таблице 12 столбцов. Тип данных в столбцах — целые и вещественные числа, а также строки.

Согласно документации к данным:

* `children` — количество детей в семье

* `days_employed` — общий трудовой стаж в днях

* `dob_years` — возраст клиента в годах

* `education` — уровень образования клиента

* `education_id` — идентификатор уровня образования

* `family_status` — семейное положение

* `family_status_id` — идентификатор семейного положения

* `gender` — пол клиента

* `income_type` — тип занятости

* `debt` — имел ли задолженность по возврату кредитов

* `total_income` — ежемесячный доход

* `purpose` — цель получения кредита

Нарушений стиля в названий столбцов нет, но количество значений в столбцах различается. 

Значит, в данных есть пропуски.

Также по первым пяти строкам таблицы можно сделать вывод, что в столбце `days_employed` присутствуют некорректные значения,
в столбце `education` - запись в разных регистрах.

### Шаг 2.1 Заполнение пропусков

In [1508]:
print((df.isna().sum() / df.shape[0]))  # доля пропущенных значений

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64


In [1509]:
df.query('total_income == "Nan"').head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Видим, что пропущенные значения есть только в `days_employed` и `total_income` и составляют 10%. Эта доля слишком большая, чтобы просто удалить пропущенные строки.

Между пропущенными значениями и категориями клиентов нет связи, пропуски могли появиться в результате ошибки при выгрузке данных - возможно,  нули заменились на пропуск (нулевой стаж и соответвенно нулевой доход) либо по иным причинам - повреждение данных, также клиент мог просто не указать это в анкете. 


Так как мы не знаем истинных причин, то заполняем пропуски медианным значением - в отличие от среднего, медиана корректно характеризует данные, когда некоторые значения сильно выделяются среди большинства.

In [1510]:
days_employed_median = df['days_employed'].median()  # находим медианные значения для days_employed
total_income_median = df['total_income'].median()    # и total_income

df['days_employed'] = df['days_employed'].fillna(days_employed_median)  # заполняем пропуски медианным значением
df['total_income'] = df['total_income'].fillna(total_income_median)
df.isna().sum()  # проверяем таблицу на отсутивие пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Шаг 2.2 Проверка данных на аномалии и исправления.

Исправляем аномалии в столбце `days_employed`. Чтобы увидеть разброс значений, сортируем столбец по убыванию:

In [1511]:
df['days_employed'].sort_values(ascending=False) # сортируем столбец days_employed по убыванию

6954     401755.400475
10006    401715.811749
7664     401675.093434
2156     401674.466633
7794     401663.850046
             ...      
16825    -16119.687737
17838    -16264.699501
7329     -16593.472817
4299     -17615.563266
16335    -18388.949901
Name: days_employed, Length: 21525, dtype: float64

Видим, что присутствуют некорректные значения:

    1. Отрицательные - количество дней не можем быть отрицательным;
    2. Слишком большие значения - 401675 дней - это больше 1000 лет.
    
  
Для начала преобразуем отрицательные значения в положительные:  

In [1512]:
df['days_employed'] = (df['days_employed']*df['days_employed'])**0.5  # избавляемся от отрицательных значений в days_employed

Далее разбираемся со слишком большими значениями.
Такие значения, скорее всего, могли возникнуть из-за технической ошибки при выгрузке данных, либо вместо дней были указаны часы.

Предположим, стаж не может быть больше, чем 55 лет, то есть примерно 20000 дней.

Проверяем, есть ли связь между типом занятости и слишком большим значением `days_employed`:

In [1513]:
df.loc[df['days_employed'] > 20000, 'income_type'].unique()

array(['пенсионер', 'безработный'], dtype=object)


Видим, что некорректные данные представлены в категориях "пенсионер" и "безработный".

По логике, для пенсионеров должен быть характерен большой стаж, но точно не 1000 лет. 
Приведем данные в такой вид, чтобы они попадали в диапазон оставшихся - поделим на 50.

Присваеваем новые значения трудового стажа этим категориям.

In [1514]:
df.loc[((df['income_type'] == 'пенсионер') & (df['days_employed'] > 20075)) | ((df['income_type'] == 'безработный') & (df['days_employed'] > 20075)), 'days_employed'] = df['days_employed'] / 50


In [1515]:
df['days_employed'].sort_values(ascending=False)

16335    18388.949901
4299     17615.563266
7329     16593.472817
17838    16264.699501
16825    16119.687737
             ...     
2127        34.701045
9683        33.520665
6157        30.195337
8336        24.240695
17437       24.141633
Name: days_employed, Length: 21525, dtype: float64

Максимальное значение стажа теперь - 18388 дней, что соответвует приимерно 50.3 годам.

Извлекаем уникальные значения столбца `children`:

In [1516]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Заменяем некорректные отрицательные значения на положительные:

In [1517]:
df.loc[df['children'] < 0, 'children'] = 1
df['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5])

У нас осталось еще одно подозрительное значение - 20 детей. Строк с таким значением - 76, что выглядит неправдоподобно - многодетные семьи, конечно, существуют, но маловероятно что сразу в 76 семьях будет ровно по 20 детей. Скорее всего это ошибка в данных. 

In [1518]:
len(df.query('children == 20'))

76

Посмотрим на эти строки:

In [1519]:
df.query('children == 20').head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля


Как видно, такое значение не привязано к какой-то отдельно категории клиентов. Предположим, такая ошибка могла возникнуть при неверной записи данных - возможно, записанное как 2.0 превратилось в 20.

Исходя из этого предположения, избавимся от этих значений:

In [1520]:
df.loc[df['children'] == 20, 'children'] = 2
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

Далее проверим на аномалии столбец, содержащий возраст клиента:

In [1521]:
df['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [1522]:
len(df.query('dob_years == 0'))

101

В 101 строке видим значение, равное нулю - возможно клиент просто не указал свой возраст. Заменим нули медианным значением:

In [1523]:
df.loc[df['dob_years'] == 0, 'dob_years'] = df['dob_years'].median().astype('int')
df['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

То же смотрим и в столбце с полом:

In [1524]:
df['gender'].sort_values().unique()

array(['F', 'M', 'XNA'], dtype=object)

In [1525]:
df.query('gender == "XNA"')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


Всего одна строка с неизвестным полом, возможно клиент не захотел указывать свой пол. Одна строка не повлияет на результат, поэтому можно от неё избавиться, заменив, например, на F:

In [1526]:
df.loc[df['gender'] == 'XNA', 'gender'] = 'F'
df['gender'].sort_values().unique()

array(['F', 'M'], dtype=object)

### Шаг 2.3. Изменение типов данных.

Заменяем вещественный тип данных в столбцах `total_income` и `days_employed` на целочисленный:

In [1527]:
df['days_employed'] = df['days_employed'].astype('int') # меняем вещественный тип данных в 
df['total_income'] = df['total_income'].astype('int')   # столбцах total_income и days_employed

### Шаг 2.4. Удаление дубликатов.

Сначала проверим таблицу на наличие явных дубликатов:

In [1528]:
df.duplicated().sum()  # подсчитываем явные дубликаты

55

Поскольку в таблице отстутсвуют уинкальные идентификаторы пользователей, имеет смысл не удалять полные дубликаты - это могут быть разные клиенты, но с одинаковыми данными.

Затем обработаем неявные дубликаты:

In [1529]:
df['education'].unique()  # ищем уникальные значения в столбце education
df['education'] = df['education'].str.lower() # приводим  все значения к нижнему регистру
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,6805,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Далее проверим наличие неявных дубликатов в столбце `purpose`:

In [1530]:
df['purpose'].sort_values().unique() # ищем неявные дубликаты в purpose

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

Как видно из данного списка, в `purpose` достаточно большое количество неявных дубликатов, устраним их позже с помощью функции в шаге 2.7.



Итак, мы обнаружили следующие проблемы в данных:

 - пропущенные значения,
 - явные и неявные дубликаты
 - аномалии
 
Устранили дубликаты и аномалии, заменили пропущенные значения медианой. 

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создаём новый датафрейм-"словарь" со столбцами `education_id` и `education`:

In [1531]:
education_dict = df[['education_id', 'education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
display(education_dict)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Создаём новый датафрейм-"словарь" со столбцами `family_status_id` и `family_status`:


In [1532]:
family_status_dict = df[['family_status_id', 'family_status']]
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
display(family_status_dict)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Удаляем из исходного датафрейма столбцы `education` и `family_status`:

In [1533]:
df = df.drop(columns =['education', 'family_status'], axis=1)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,6805,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

Создаём функцию, которая на основании данных из столбца `total_income` сформирует новый столбец `total_income_category` с категориями дохода:

* `0–30000` — 'E';
* `30001–50000` — 'D';
* `50001–200000` — 'C';
* `200001–1000000` — 'B';
* `1000001` и выше — 'A'.

In [1534]:
def income_category_define(income): 
    if income <= 30000:  
        return 'E'
    if income <= 50000:
        return 'D'
    if income <= 200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'    

Применяем функцию к столбцу `total_income`:

In [1535]:
df['total_income_category'] = df['total_income'].apply(income_category_define)
df['total_income_category'].value_counts()

C    16087
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

### Шаг 2.7. Категоризация целей кредита.

Создаём функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`:

In [1536]:
def purpose_category_correct(purpose):  # код функции
    if 'авто' in purpose: 
        return 'операции с автомобилем'
    if 'образ' in purpose:
        return 'получение образования'
    if 'свад' in purpose:
        return 'проведение свадьбы'
    return 'операции с недвижимостью'

Применяем функцию к столбцу `purpose`:

In [1537]:
df['purpose_category'] = df['purpose'].apply(purpose_category_correct)
df['purpose_category'].value_counts()

операции с недвижимостью    10840
операции с автомобилем       4315
получение образования        4022
проведение свадьбы           2348
Name: purpose_category, dtype: int64

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Чтобы проследить зависимость, создадим сводную таблицу с группировкой по значениям столбца `children`:

In [1538]:
children_pivot = df.pivot_table(columns='children', values='debt')    # вычисляем долю клиентов с задолженностью
children_pivot = children_pivot.transpose().sort_values(by='children')  # сортируем таблицу по убыванию 
children_pivot['debt'] *= 100   # получаем долю должников в процентах
children_pivot

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,7.512898
1,9.146968
2,9.479118
3,8.181818
4,9.756098
5,0.0


##### Вывод 1:

По полученным значениям можно увидеть, что должников меньше среди клиентов без детей - **7.51%**.

Среди клиентов с 1 и более ребенком доля имеющих задолженность в среднем больше **9%**. 

Число клиентов с 5 детьми слишком мало, но можно предположить, что при увеличении числа доля должников будет также больше **9%**.


##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

Чтобы проследить зависимость, создадим сводную таблицу с группировкой по значениям столбца `family_status_id`:

In [1542]:
family_pivot = df.pivot_table(columns='family_status_id', values='debt')
family_pivot = family_pivot.transpose()
family_pivot['debt'] *= 100
family_pivot

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,7.520194
1,9.288963
2,6.5625
3,7.112971
4,9.740491


Объединим таблицы `family_pivot` и `family_status_dict` по общему столбцу `family_status_id` и отсортируем по убыванию:

In [1543]:
family_status_dict.merge(family_pivot, on='family_status_id', how='left').sort_values(by='debt', ascending=False) 

Unnamed: 0,family_status_id,family_status,debt
4,4,Не женат / не замужем,9.740491
1,1,гражданский брак,9.288963
0,0,женат / замужем,7.520194
3,3,в разводе,7.112971
2,2,вдовец / вдова,6.5625


##### Вывод 2:

В полученной таблице можно проследить зависимость семейного положения и доли клиентов с задолженностью:

 - Чаще всего просрочку по кредиту допускают не состоящие в официальном браке клиенты - из категорий `"Не женат / не замужем"` и `"гражданский брак"` - **9.74%** и **9.28%** соответвенно.
 
 - Более платёжеспособными клиентами являются состоящие или состоявшие в браке в прошлом - категории `"женат / замужем"`, `"в разводе"` и `"вдовец / вдова"` - **7.52%**, **7.11%** и **6.56%** соответстенно.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Чтобы проследить зависимость, создадим сводную таблицу с группировкой по значениям столбца `total_income_category`:

In [1544]:
income_pivot = df.pivot_table(columns='total_income_category', values='debt')
income_pivot = income_pivot.transpose().sort_values(by='debt', ascending=False)
income_pivot['debt'] *= 100
income_pivot

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
E,9.090909
C,8.454031
A,8.0
B,7.062091
D,6.0


##### Вывод 3:

По полученным данным прямая зависимость не отслеживается; 

- При этом самой платежеспособной категорией является `"D"` - с доходом от 30 до 50 тыс. руб. - всего **6%** должников;

- Самая большая доля должников - в категории `"Е"` с доходом до 30 тыс. руб. - **9.09%** клиентов имеют задолженность.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

Чтобы проследить зависимость, создадим сводную таблицу с группировкой по значениям столбца `purpose_category`:

In [1545]:
purpose_pivot = df.pivot_table(columns='purpose_category', values='debt')
purpose_pivot = purpose_pivot.transpose().sort_values(by='debt', ascending=False)
purpose_pivot['debt'] *= 100
purpose_pivot

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,9.339513
получение образования,9.199403
проведение свадьбы,7.921635
операции с недвижимостью,7.214022


##### Вывод 4:

В полученной таблице можно увидеть влияние цели кредита на возврат в срок:
    
   - Чаще всего просрочка по кредиту происходит в категориях `"операции с автомобилем"` и `"получение образования"` - **9.33%** и  **9.20%** соответственно;
   - В категориях `"проведение свадьбы"` и `"операции с недвижимостью"` доля клиентов с задолженностью меньше - **7.92%** и **7.21%** соответственно. 

## Общий вывод:

Мы ответили на 4 вопроса и установили:

1. Отсутсвие детей в семье положиельно сказывается на возврате кредита в срок;
2. Нет прямой зависимости между между уровнем дохода и возвратом кредита - самой платежеспособной категорией является `"D"` - с доходом от 30 до 50 тыс. руб.;

3. Более платёжеспособными клиентами являются состоящие или состоявшие в браке в прошлом - категории `"женат / замужем"`, `"в разводе"` и `"вдовец / вдова"`;
4. В категориях `"проведение свадьбы"` и `"операции с недвижимостью"` доля клиентов с задолженностью меньше.
