# Исследование надежности заемщиков


На основе статистики о платёжеспособности клиентов необходимо исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок.

**Описание данных**

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Откроем таблицу и изучим общую информацию о данных

**Импортируем библиотеку pandas. Считаем данные из csv-файла в датафрейм и сохраним в переменную `data`.**

In [131]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Выведем первые 20 строчек датафрейма `data` на экран.**

In [132]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Выведем основную информацию о датафрейме с помощью метода `info()`.**

In [133]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Выведем количество пропущенных значений для каждого столбца. Используем комбинацию двух методов.**

In [134]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [135]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.**

In [136]:
data['days_employed'] = data['days_employed'].abs()

**Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.**

In [137]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения.

**Выведем перечень уникальных значений столбца `children`.**

In [138]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [139]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [140]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [141]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведем количество пропущенных значений для каждого столбца с помощью двух методов.**

In [142]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [143]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру. Проверим остальные столбцы.**

In [144]:
data['education'] = data['education'].str.lower()

**Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.**

In [145]:
data.duplicated().sum()

71

In [146]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используем собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [147]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [148]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [149]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучим данные в столбце `purpose` и определим, какие подстроки помогут вам правильно определить категорию.**

In [150]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [151]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Исследуем данные

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [152]:
data_pivot_children_with_dept = data.pivot_table(index = 'children', values = 'debt', aggfunc = ['count', 'sum'])
data_pivot_children_with_dept['ratio'] = (1 - data_pivot_children_with_dept['sum']['debt'] / data_pivot_children_with_dept['count']['debt']) * 100
data_pivot_children_with_dept.sort_values(by = 'ratio', ascending = False)

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
5,9,0,100.0
0,14091,1063,92.456178
3,330,27,91.818182
1,4808,444,90.765391
2,2052,194,90.545809
4,41,4,90.243902


**Вывод:** Для исследования зависимости между количеством детей и возвратом кредита в срок были вычислены значения в процентах вероятности возрата кредита в срок в зависимости от количества детей. В результате было получено, что 100 % заемщиков с 5 детьми возращают кредит в срок; 92,5 % заемщиков без детей возращают кредит в срок; 91,8 % заемщиков с 3 детьми возращают кредит в срок; 90,7 % заемщиков с 1 ребенком возращают кредит в срок; 90,5 % заемщиков с двумя детьми возращают кредит в срок; 90,2 % заемщиков с 4 детьми возращают кредит в срок. Для определения зависимости необходимо учесть, что выборки могут быть несбалансированы, поэтому рассмотрим самые многочисленные выборки для заемщиков без детей, с 1 ребенком и 2 детьми. Для данных выборок видна зависимость: чем меньше детей у заемщика, тем больше вероятность что он вернет кредит в срок.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [153]:
data_pivot_family_sts_with_dept = data.pivot_table(index = 'family_status', values = 'debt', aggfunc = ['count', 'sum'])
data_pivot_family_sts_with_dept['ratio'] = (1 - data_pivot_family_sts_with_dept['sum']['debt'] / data_pivot_family_sts_with_dept['count']['debt']) * 100
data_pivot_family_sts_with_dept.sort_values(by = 'ratio', ascending = False)

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
вдовец / вдова,951,63,93.375394
в разводе,1189,84,92.93524
женат / замужем,12261,927,92.439442
гражданский брак,4134,385,90.686986
Не женат / не замужем,2796,273,90.236052


**Вывод:** Для исследования зависимости между семейным положением и возвратом кредита в срок были вычислены значения в процентах вероятности возрата кредита в срок в зависимости от семейного положения. В результате было получено, что 93,4 % заемщиков из категории "вдовец / вдова" возращают кредит в срок; 92,9 % заемщиков из категории "в разводе" возращают кредит в срок; 92,4 % заемщиков из категории "женат / замужем" возращают кредит в срок; 90,7 % заемщиков из категории "гражданский брак" возращают кредит в срок; 90,2 % заемщиков из категории "Не женат / не замужем" возращают кредит в срок. Веротность возрата кредита в срок выше у заемщиков в категориях "вдовец / вдова", "в разводе", "женат / замужем", чем в категориях "гражданский брак" и "Не женат / не замужем". Заемщики, состоящие на данный момент в браке или когда-либо в нем состоявшие, чаще возращают кредит в срок.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [154]:
data_pivot_total_inc_with_dept = data.pivot_table(index = 'total_income_category', values = 'debt', aggfunc = ['count', 'sum'])
data_pivot_total_inc_with_dept['ratio'] = (1 - data_pivot_total_inc_with_dept['sum']['debt'] / data_pivot_total_inc_with_dept['count']['debt']) * 100
data_pivot_total_inc_with_dept.sort_values(by = 'ratio', ascending = False)

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,349,21,93.982808
B,5014,354,92.939769
A,25,2,92.0
C,15921,1353,91.50179
E,22,2,90.909091


**Вывод:** Для исследования зависимости между уровнем дохода и возвратом кредита в срок были вычислены значения в процентах вероятности возрата кредита в срок в зависимости от уровня дохода. В результате было получено, что 94,0 % заемщкиов из категории "D" возращают кредит в срок; 92,9 % заемщиков из категории "B" возращают кредит в срок; 92,0 % заемщиков из категории "A" возращают кредит в срок; 91,5 % заемщиков из категории "C" возращают кредит в срок; 90,9 % заемщиков из категории "E" возращают кредит в срок. Для определения зависимости необходимо учесть, что выборки могут быть несбалансированы, поэтому рассмотрим самые многочисленные выборки для заемщиков из категории "B" и "C". Для данных выборок видна зависимость: чем выше уровень дохода у заемщика, тем больше вероятность что он вернет кредит в срок. ("A" - максимальный уровень дохода, "E" - минимальный уровень дохода)

####  Как разные цели кредита влияют на его возврат в срок?

In [155]:
data_pivot_purpose_with_dept = data.pivot_table(index = 'purpose_category', values = 'debt', aggfunc = ['count', 'sum'])
data_pivot_purpose_with_dept['ratio'] = (1 - data_pivot_purpose_with_dept['sum']['debt'] / data_pivot_purpose_with_dept['count']['debt']) * 100
data_pivot_purpose_with_dept.sort_values(by = 'ratio', ascending = False)

Unnamed: 0_level_0,count,sum,ratio
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,10751,780,92.744861
проведение свадьбы,2313,183,92.088197
получение образования,3988,369,90.747242
операции с автомобилем,4279,400,90.652022


**Вывод:** Для исследования зависимости между целями кредита и возвратом кредита в срок были вычислены значения в процентах вероятности возрата кредита в срок в зависимости от цели кредита. В результате было получено, что 92,7 % заемщиков с целью кредита "операции с недвижимостью" возращают кредит в срок; 92,1 % заемщиков с целью кредита "проведение свадьбы" возращают кредит в срок; 90,75 % заемщиков с целью кредита "получение образования" возращают кредит в срок; 90,65 % заемщиков с целью кредита "операции с автомобилем" возращают кредит в срок. Максимальная вероятность возрата кредита в срок получена у заемщиков с целью кредита "операции с недвижимостью", а минимальная у заемщиков с целью кредита "операции с автомобилем".

#### Приведем возможные причины появления пропусков в исходных данных.

Пропуски могут быть полностью случайными, примерами причины появления таких пропусков может быть нерабочее оборудование, при котором не произошла запись данных, или человеческий фактор. Пропуски могут быть случайными, например, когда пользователь не указал какие-либо данные о себе (более молодые пользователи чаще оставляет почту, чем пожилые). Пропуски могут быть неслучайными, когда пользователь не записал данные по причине, которую мы можем выявить (если есть графа стаж работы, то безработный пользователь в нее может ничего не написать). Также необходимо учитывать при обработке пропусков, где датасет обрабатывался до того, как попал к нам на обработку (обработка данных в программе разработчика, промежуточная обработка)


####  Объясним, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Пропуски в количественных переменных заполняют характерными значениями: средним и медианой, которые оценивают значения в центре выборки. Среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства, поэтому лучше заполнять пропуски медианным значением для количественных переменных.

### Общий вывод.

В данном проекте был исследован датасет с статистикой о платёжеспособности клиентов. Данный датасет был предобработан: были заполнены пропущенные значения, были обработаны аномальные значения, были изменены типы данных, были найдены и удалены дубликаты, были сформированы новые столбцы с категориями данных. На основе обработанного датасета были сформулированы выводы о зависимости возврата кредита в срок от количества детей, семейного положения, уровня дохода и целей кредита:

1) Чем меньше детей у заемщика, тем больше вероятность что он вернет кредит в срок. 

2) Чем выше уровень дохода у заемщика, тем больше вероятность что он вернет кредит в срок.

3) Заемщики, состоящие на данный момент в браке или когда-либо в нем состоявшие, чаще возращают кредит в срок.

4) Наибольшие вероятности возрата кредита в срок получена у заемщиков с целью кредита "операции с недвижимостью" и "проведение свадьбы", а наименьшие у заемщиков с целью кредита "операции с автомобилем" и "получение образования".