# Исследование надежности заемщиков

На основе данных от кредитного отдела банка о платежеспособности клиентов, провести статистический анализ и выявить влияют ли на возврат кредита, такие факторы как: наличие детей, семейное положение, доход, цели кредита. Необходимо собрать портрет надежного заемщика.

**Цель проекта:**

Проведение статистического анализа данных о заемщиках для определения влияния таких факторов, как наличие детей, семейное положение, уровень дохода и цели кредита, на возврат кредита в срок. 

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

In [4]:
# импортируйте библиотеку pandas

import pandas as pd

In [5]:
# Функция общей информации датафрейма

def info(df):
    display(df.head(5))
    print()
    print('-' * 150)
    print()
    print('Общая информация:')
    display(df.info())
    print()
    print('-' * 150)
    print()
    display(df.describe())
    print()
    print('-' * 150)
    print()
    print('Количество пропусков для каждого столбца:')
    display(df.isnull().sum())

In [6]:
# Создаем функцию для сортировки доходов по категориям

def categorize_income(income):
    if 0 <= income <= 30000:
        return 'E'
    elif 30001 <= income <= 50000:
        return 'D'
    elif 50001 <= income <= 200000:
        return 'C'
    elif 200001 <= income <= 1000000:
        return 'B'
    elif income >= 1000001:
        return 'A'

In [7]:
# создайте функцию для группировки целей для оформления кредита

def categorize_purpose(category):
    if 'автомобил' in category:
        return 'операции с автомобилем'
    elif ('недвижимост' in category) or ('жиль' in category):
        return 'операции с недвижимостью'
    elif 'свадьб' in category:
        return 'проведение свадьбы'
    elif 'образован' in category:
        return 'получение образования'

## Открываем файл с данными и изучаем общую информацию

In [9]:
try:
    data = pd.read_csv('data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [11]:
info(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу



------------------------------------------------------------------------------------------------------------------------------------------------------

Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


None


------------------------------------------------------------------------------------------------------------------------------------------------------



Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0



------------------------------------------------------------------------------------------------------------------------------------------------------

Количество пропусков для каждого столбца:


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Вывод:**

* У столбца с доходами есть пропуски - заменим их медианами;

* Столбец с трудовым стажем имеет вещественный тип данных с отрицательбными значениями - округлим до целочисленного и возьмем модуль;

* Стоит обработать выбросы с большим количеством дней стажа;

* 20 детей сильно выбивается из среднего значения - проверить верность данных; а также исправить количество -1 ребенок;

Предполагаю, что в колонке с количеством детей отрицательное значение можно исправить на положительное, и возможно 20 детей это тоже опечатка, которую можно исправить на 2. В колонке с трудовым стажем достаточно много непонятного: во-первых, разобраться с отрицательными значениями, но вопрос с рекордсменами трудящимися более 100 лет остается, попробую сопоставить с возрастом, а возможно это всего несколько ошибок дают смещение - разберусь с отрицательными, и буду смотреть по медиане, если она адекватная найду рекордсменов и подправлю их.

## Предобработка данных

### Удаление пропусков

Заполним пропуски в столбце в доходами медианами

In [16]:
for d in data['income_type'].unique():
    data.loc[(data['income_type'] == d) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == d), 'total_income'].median()

In [17]:
# Проверим

data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Обработка аномальных значений

Возьмем значения в столбце "трудовой стаж" по модулю, чтобы убрать отрицательные значения

In [20]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведите медианное значение трудового стажа days_employed в днях

In [22]:
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Размышляя логически, мы можем посчитать максимальное количество дней, которое человек работал. Допустим, человек устроился в 18 лет и проработал до 80, тогда 22630 дней. Округлим до 23000 дней.

In [24]:
print((data.loc[data['days_employed'] > 15000, 'days_employed']))

4        340266.072047
18       400281.136913
24       338551.952911
25       363548.489348
30       335581.668515
             ...      
21505    338904.866406
21508    386497.714078
21509    362161.054124
21518    373995.710838
21521    343937.404131
Name: days_employed, Length: 3458, dtype: float64


In [25]:
count = data.loc[data['days_employed'] > 23500].shape[0]
print(f'Количество строк: {count}')

Количество строк: 3445


In [26]:
# Удалим эти строки

data = data[data['days_employed'] <= 23500]

Рассмотрим столбец с количеством детей: отрицательные значения и значение 20 аномальны для нас. Поэтому -1 возьмем по модулю, а 20 удалим

In [28]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [29]:
data = data[data['children'] != 20]

In [30]:
data['children'] = data['children'].abs()

In [31]:
# Проверим

data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков

Заполним пропуски в столбце days_employed медианными значениями по каждому типу занятости income_type.

In [34]:
for k in data['income_type'].unique():
    data.loc[(data['income_type'] == k) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == k), 'days_employed'].median()

In [35]:
# Проверим

data.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

Заменим вещественный тип данных в столбце total_income на целочисленный, чтобы удобней было анализировать ежемесечный доход.

In [37]:
data['total_income'] = data['total_income'].astype('int')

### Обработка дубликатов

Для начала приведем все к нижнему регистру

In [39]:
data['education'] = data['education'].str.lower()

In [40]:
data.duplicated().sum()

0

### Категориальные данные

На основе следующих диапазонов по доходу создадим следующие категории:

* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

Также выделим основные направления для оформления кредита:

* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [42]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [43]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'операции с жильем', 'образование',
       'на проведение свадьбы', 'покупка жилья для семьи',
       'покупка недвижимости', 'покупка коммерческой недвижимости',
       'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку своего автомобиля',
       'на покупку подержанного автомобиля', 'сыграть свадьбу', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'получение образования',
       'сделка с подержанным автомобилем', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'операции с коммерческой недвижимостью', 'свой автомобиль',
       'сделка с автомобилем', 'профильное образование',
       'высшее образование', 'на покупку автомобиля',
      

In [44]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследовательский анализ данных

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для анализа данного вопроса создадим сводную талицу с засимостью количества детей и наличием просрочек по кредиту, а также найдем процент должников

In [80]:
children_debt = pd.pivot_table(data, index=['children'], values='debt', aggfunc=['count','sum','mean'])
children_debt.columns = ['count', 'sum', 'mean']
display(children_debt.iloc[0:5])

Unnamed: 0_level_0,count,sum,mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,9556,785,0.082147
1,4127,397,0.096196
2,1834,175,0.09542
3,288,21,0.072917
4,33,3,0.090909


**Вывод:**

Процент невозврата кредита: 

* Для заемщиков без детей процент невозврата кредита составляет примерно 8.2% (0.082147).

* Для заемщиков с одним ребенком процент невозврата увеличивается до 9.6% (0.096196).

* Для заемщиков с двумя детьми процент невозврата остается на уровне 9.5% (0.095420).

* Для заемщиков с тремя детьми процент невозврата снижается до 7.3% (0.072917).

* Для заемщиков с четырьмя детьми процент невозврата составляет 9.1% (0.090909).

Существует определенная зависимость между количеством детей и возвратом кредита в срок. В частности, заемщики с детьми, как правило, имеют более высокий процент невозврата кредита, чем те, у кого детей нет. Однако, наличие трех детей может быть связано с меньшим риском невозврата по сравнению с заемщиками, имеющими одного или двух детей.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [90]:
family_df = data[['family_status','family_status_id']]
family_df = family_df.drop_duplicates().reset_index(drop=True)
fam_status_debt = data.pivot_table(index=['family_status_id'], columns=['debt'], aggfunc='count')['days_employed']
fam_status_debt['%_debt'] = round((fam_status_debt[1] / (fam_status_debt[0] + fam_status_debt[1])) * 100, 2)
data_fam = family_df.merge(fam_status_debt, on='family_status_id', how='left').drop('family_status_id', axis = 1)
data_fam = data_fam.set_index('family_status')
display(data_fam)

Unnamed: 0_level_0,0,1,%_debt
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
женат / замужем,8483,745,8.07
гражданский брак,2841,307,9.75
в разводе,820,64,7.24
Не женат / не замужем,1965,241,10.92
вдовец / вдова,356,24,6.32


**Вывод:**

Процент невозврата кредита:

* Для заемщиков, состоящих в браке, процент невозврата кредита составляет примерно 8.1% (0.080733).

* Для заемщиков в гражданском браке этот процент немного выше — 9.8% (0.097522).

* Для тех, кто в разводе, процент невозврата составляет 7.2% (0.072398).

* Для заемщиков, не состоящих в браке, процент невозврата значительно выше — 10.9% (0.109248).

* Для вдовцов/вдов процент невозврата составляет 6.3% (0.063158), что является самым низким показателем среди всех категорий.

Существует определенная зависимость между семейным положением и возвратом кредита в срок. Заемщики, состоящие в браке или вдовцы/вдовы, как правило, имеют более низкий процент невозврата кредита, в то время как заемщики, не состоящие в браке, имеют более высокий риск невозврата.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [100]:
income_status_debt = data.pivot_table(index=['total_income_category'], columns=['debt'], aggfunc='count')['days_employed']
income_status_debt['%_debt'] = round((income_status_debt[1] / (income_status_debt[0] + income_status_debt[1]) * 100), 2)

display(income_status_debt.iloc[0:])

debt,0,1,%_debt
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23.0,2.0,8.0
B,4145.0,323.0,7.23
C,10119.0,1042.0,9.34
D,171.0,14.0,7.57
E,7.0,,


**Вывод:**

Процент невозврата кредита:

* Для категории 'A' (доход 1000001 и выше) процент невозврата кредита составляет 8.0% (2 из 25).

* Для категории 'B' (доход 200001–1000000) процент невозврата составляет 7.23% (323 из 4,145).

* Для категории 'C' (доход 50001–200000) процент невозврата составляет 9.34% (1,042 из 10,119), что является самым высоким показателем среди всех категорий.

* Для категории 'D' (доход 30001–50000) процент невозврата составляет 7.57% (14 из 171).

* Для категории 'E' (доход 0–30000) данные о невозврате отсутствуют, так как количество заемщиков слишком мало.

Существует определенная зависимость между уровнем дохода и возвратом кредита в срок. Заемщики с более высоким уровнем дохода, как правило, имеют более низкий процент невозврата кредита, в то время как заемщики с доходом в категории 'C' имеют более высокий риск невозврата.

### Как разные цели кредита влияют на его возврат в срок?

In [107]:
aim_debt = data.pivot_table(index=['purpose_category'], columns=['debt'], aggfunc='count')['days_employed']
aim_debt['%_debt'] = round((aim_debt[1] / (aim_debt[0] + aim_debt[1])) * 100, 2)
display(aim_debt)

debt,0,1,%_debt
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,2846,322,10.16
операции с недвижимостью,7396,635,7.91
получение образования,2642,288,9.83
проведение свадьбы,1581,136,7.92


**Вывод:**

Процент невозврата кредита:

* Для заемщиков, взявших кредит на "операции с автомобилем", процент невозврата составляет 10.16% (322 из 2846), что является самым высоким показателем среди всех категорий.

* Для категории "получение образования" процент невозврата составляет 9.83% (288 из 2642), что также указывает на значительный риск невозврата.

* Для категории "операции с недвижимостью" процент невозврата составляет 7.91% (635 из 7396), что является более низким показателем по сравнению с предыдущими категориями.

* Для категории "проведение свадьбы" процент невозврата составляет 7.92% (136 из 1581), что близко к показателю для операций с недвижимостью.

Существует определенная зависимость между целями кредита и возвратом кредита в срок. Заемщики, которые берут кредиты на "операции с автомобилем" и "получение образования", имеют более высокий риск невозврата, в то время как заемщики, использующие кредиты для "операций с недвижимостью" и "проведения свадьбы", имеют более низкий процент невозврата.

### Приведите возможные причины появления пропусков в исходных данных

**Причины появления пропусков могут быть следующие:**

1. *Неполные данные при сборе информации:* Заемщики могли не предоставить информацию о своем трудовом стаже (days_employed) или ежемесячном доходе (total_income) при заполнении анкеты. Это может быть связано с нежеланием делиться финансовой информацией или отсутствием точных данных.

2. *Ошибки в обработке данных:* Пропуски могут возникнуть в результате ошибок при вводе данных, например, если информация была неправильно скопирована или обработана в процессе загрузки в базу данных.

3. *Разные форматы данных:* Если данные собирались из различных источников, могут возникнуть несоответствия в форматах, что может привести к пропускам. Например, некоторые заемщики могли указать свой доход в разных валютах или в разных единицах измерения.

4. *Отсутствие информации у заемщиков:* Некоторые заемщики могут не иметь официального трудового стажа или фиксированного дохода, что делает невозможным указание этих данных. Это особенно актуально для фрилансеров или людей, работающих неофициально.


### Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных

**Причины выбора заполнения пропусков медиальными значениями:**

1. *Устойчивость к выбросам:* Медиана менее чувствительна к выбросам по сравнению со средним значением. Если в данных есть экстремальные значения, они могут значительно сместить среднее, что приведет к искажению заполненных значений. Медиана, как значение, которое делит данные пополам, остается более стабильной и репрезентативной.

2. *Сохранение распределения:* Заполнение пропусков медианным значением помогает сохранить распределение данных. Это особенно важно, если данные имеют асимметричное распределение. Использование медианы позволяет избежать искажения, которое может произойти при использовании среднего значения.

3. *Сохранение информации:* Заполнение пропусков медианным значением позволяет сохранить количество наблюдений в наборе данных, что может быть критически важным для анализа. Удаление строк с пропусками может привести к потере значительной части данных, что негативно скажется на результатах анализа.

4. *Подходит для различных типов данных:* Медиана может быть использована для заполнения пропусков в различных типах количественных переменных, включая как непрерывные, так и дискретные данные.

## Общий вывод

Проект направлен на анализ данных о платежеспособности клиентов банка с целью выявления факторов, влияющих на возврат кредита. Основные аспекты проекта включают:

**Цели проекта:** Основная цель заключается в проведении статистического анализа данных о заемщиках для определения влияния таких факторов, как наличие детей, семейное положение, уровень дохода и цели кредита, на возврат кредита в срок. Проект также нацелен на создание портрета надежного заемщика.

**Методы анализа:** В процессе анализа были выявлены и обработаны пропуски в данных, такие как замена пропусков в столбце с доходами медианными значениями. Также были предприняты шаги по округлению отрицательных значений трудового стажа и проверке на наличие выбросов. Обработка данных включала исправление аномальных значений, таких как количество детей и трудовой стаж.

**Результаты:** Исследование показало наличие зависимостей между различными факторами и возвратом кредита. Заемщики с детьми имеют более высокий риск невозврата, однако наличие трех детей может снижать этот риск. Семейное положение также влияет на возврат: состоящие в браке заемщики имеют меньший риск невозврата. Уровень дохода и цели кредита также оказались значимыми факторами, влияющими на платежеспособность.

Полученные результаты могут быть использованы для улучшения кредитной политики банка, а также для разработки более точных моделей оценки рисков. Понимание факторов, влияющих на возврат кредита, позволит банку более эффективно управлять кредитными рисками.