# Исследование надежности заемщиков


<b> Задача:</b>
На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок
<b>Описапние проекта</b>
На основе данных кредитного отдела банка исследовал влияние семейного положения и
количества детей на факт погашения кредита в срок. Была получена информация о
данных. Определены и обработаны пропуски. Заменены типы данных на соответствующие
хранящимся данным. Удалены дубликаты. Категоризованы данные. Один датафрейм декомпозирован на три.


## шаг. Откроем таблицу и изучим общую информацию о данных

**Импортируем библиотеку pandas и считаем данные из csv-файла.**

In [59]:
# загрузим необходимые библиотеки
import pandas as pd
# прочитаем файл данных
data = pd.read_csv('/datasets/data.csv')

**Выведем первые 20 строчек датафрейма `data` на экран.**

In [60]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Выведем основную информацию о датафрейме с помощью метода `info()`.**

In [61]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## шаг. Предобработка данных

### Удаление пропусков

**Выведем количество пропущенных значений для каждого столбца.**

In [62]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**В столбцах есть пропущенные значения. Один из них — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`.**

In [63]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.**

In [64]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [65]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [66]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [67]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [68]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [69]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Убедимся, что все пропуски заполнены.**

In [70]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [71]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Обработем неявные дубликаты в столбце `education`.**

In [72]:
data['education'] = data['education'].str.lower()

**Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.**

In [73]:
data.duplicated().sum()

71

In [74]:
data = data.drop_duplicates()

### Категоризация данных

**На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [75]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [76]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [77]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.


In [78]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [79]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## шаг. Исследуем данные

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [80]:
# рассчитаем долю не возврата кредита в зависимости от количества детей:
display(data.pivot_table(index=['children'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,444,4808,0.092346
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


**Вывод:** При анализе данных выяснилось, максимальный % (9,76) не возврата кредита у клиентов с 4 детьми (хотя таких случаев всего 41). Минимальный % (7,54) не возврата кредита у клиентов без детей. При количестве одного и двух детей процент невозврата практически одинаковый (9,23 и 9,45 соответственно), хотя количество случаев при 1 ребенке более чем в 2 раза превышает,чем при 2 детях. У клиентов с 5 детьми отсутствуют случаи не возврата кредита в срок, хотя количество таких случаев не большое - всего 9.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [81]:
# рассчитаем долю не возврата кредита в зависимости от семейного положения:
display(data.pivot_table(index=['family_status'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,273,2796,0.097639
в разводе,84,1189,0.070648
вдовец / вдова,63,951,0.066246
гражданский брак,385,4134,0.09313
женат / замужем,927,12261,0.075606


**Вывод:** При анализе данных выявлено, максимальный % не возврата кредита у клиентов с семейным положением "Не женат / не замужем" и "гражданский брак" (9,76 и 9,31 соответственно). У клиентов с семейным положением "вдовец / вдова" и "в разводе" самый низкий % не возврата (6,62 и 7,06 соответственно).

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [82]:
# рассчитаем долю не возврата кредита в зависимости от уровня дохода:
display(data.pivot_table(index=['total_income_category'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,354,5014,0.070602
C,1353,15921,0.084982
D,21,349,0.060172
E,2,22,0.090909


**Вывод:** При анализе данных выявлено, что больше клиентов в группах В и С, их количество в разы превышает суммарное количество клиентов категорий А, D, E, поэтому сравнивать % невозврата между этими группами некорректно. 
Процент невозврата кредитов у клиентов категории B (200001–1000000) 70%, это меньше процента невозврата самой многочисленной категорит С (50 001–200 000) 85%. Хотя клиентов категории С почти в 3 раза больше, чем в категории В, что возможно тоже влияет на более высокий показатель невозврата (85%). Можно отметить, что клиенты с доходом 50 001–200 000 чаще,чем клиенты других категорий, берут кредиты.  

### Как разные цели кредита влияют на его возврат в срок?

In [83]:
# рассчитаем долю не возврата кредита в зависимости от цели кредита:
display(data.pivot_table(index=['purpose_category'], values='debt', aggfunc=['sum','count','mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,400,4279,0.09348
операции с недвижимостью,780,10751,0.072551
получение образования,369,3988,0.092528
проведение свадьбы,183,2313,0.079118


**Вывод:** При анализе данных выявлено, максимальный % не возврата кредита у клиентов с целью кредита "операции с автомобилем" и "получение образования" (9,34 и 9,25 соответственно). Более низкий % не возврата у клиентов с целью кредита "операции с недвижимостью" и "проведение свадьбы" (7,25 и 7,91 соответственно).

### Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*  Исходя из одинакового количества пропусков с столбцах 'days_employed' и 'total_income' можно предположить, 
 что возможная причина пропусков, это отсутствие трудового стажа заемщика (например безработный), и соответственно, отсутствие ежемесячного дохода или не желание клиента указывать свой реальный доход, в том числе из-за зарплат в конвертах или боязни получить отказ в кредите из-за слишком низкого уровня дохода. Т.к. число пропусков столбцов одинаковое, можно отбросить другие предположения о неполном вводе данных оператором, вероятность пропуска сразу 2х ячеек при вводе мало вероятна.

### Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* Медианное значение корректнее применять, т.к. некоторые значения сильно выделяются среди остального большинства.
Для примера рассмотрим значения столбца 'days_employed'. Минимальное значение столбца 24, максимальное 401755. При таком разбросе значений среднее значение может быть не совсем объективным отражением данных, так как на него могут влиять выбросы (очень большие или очень маленькие значения в наборе данных). Тоже самое и для другого столбца 'total_income' - максимум в 109 раз больше минимума, поэтому среднее значение показало бы не совсем корректное значение для заполнения пропусков. Медиана позволяет нивелировать экстремальные значения и более корректно определить значния для заполнения и последующего их анализа. В решении задачи был применен метод медианы по категории, что еще более приблизило данные с пропусками к реальным значениям, т.к. медиана по разным категориям клиенов тоже довольно сильно отличалась.

## шаг: общий вывод.

При проведении исследования предоставленой банком статистики о платёжеспособности клиентов были выявлены зависимости между семейным положением клиента и количеством детей, влияющие на факт погашения кредита в срок. Максимальный процент не возврата кредита у клиентов с семейным положением "Не женат / не замужем" и "гражданский брак" (9,76 и 9,31 соответственно), а также у клиентов с 4 детьми (9.76). Клиенты, входящие в данные категории являются клиентами с максимальной степенью риска не возврата кредита. Надежнее выдавать кредиты клиентам с отсутствием детей и семейным положением "вдовец / вдова" или "в разводе", данные категории с большей вероятностью смогут погасить кредиты в установленные сроки.   
Также следует учитывать цель кредита, "операции с недвижимостью" или "проведение свадьбы" более предпочтительны, у них процент невозврата кредита меньше. При цели кредита "операции с автомобилем" и "получение образования" нужно проявлять осторожность, т.к. риск не возврата у них максимален.
Анализ уровней дохода показал, что наибольшее число кредитов берут клиенты категории доходов С (50 001–200 000), но процент невозврата кредита у них выше, чем у категории B (200001–1000000). 