# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [32]:
import pandas as pd
from pymystem3 import Mystem
from collections import Counter


data = pd.read_csv('/datasets/data.csv')
data.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [33]:
data.info()
data.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**

In [34]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В наборе данных присутствуют различные типы данных, также в столбце days_employed есть отрицательные значения и имеются пропуски, как и в столбце total_income с ежемесячным доходом. В столбце children есть отрицательные значения, значит ли это, что кого-то сдали в детдом?

In [35]:
#избаваимся от отрицательных значений в children, применив метод abs() для получения абсолютного значения
data['children'] = data['children'].abs()

In [36]:
data['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

In [37]:
#в столбце gender имеется неоднозначное значение XNA, заменим его
data['gender'] = data['gender'].replace('XNA', 'F')
data['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

## Шаг 2. Предобработка данных

### Обработка пропусков

In [38]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [39]:
for word in data['income_type'].unique():
    days_employed_avg = data['days_employed'].loc[(data.income_type == word)].mean()
    data['days_employed'].loc[(data.income_type == word)] = data['days_employed'].fillna(days_employed_avg)

In [40]:
data.isna().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [41]:
for word_t in data['income_type'].unique():
    total_income_avg = data['total_income'].loc[(data.income_type == word_t)].mean()
    data['total_income'].loc[(data.income_type == word_t)] = data['total_income'].fillna(total_income_avg)

In [42]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод**

Пропущенные значения в столбцах days_employed и total_income заменены на средние значения каждого столбца по типу занятости. 
В столбце days_employed положительные значения принадлежат пенсионерам, рассчет их трудового стажа видимо выполнялся по другой формуле.
Вероятно в столбце стажа отрицательные значения - это дни, а положительные - часы. Эту теорию подтверждают примерные вычисления:

8437.673028 / 365 = 23.11691240547945
340266.072047 / 24 / 365 = 38.84315890947489

### Замена типа данных

In [43]:
data['days_employed'] = data['days_employed'].astype('int')

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


**Вывод**

Вещественный тип данных столбца days_employed заменен на целочисленный, так как дни по логике не могут быть не целыми. В данном случае astype переводит значения типа float на тип int.

### Обработка дубликатов

In [44]:
#в столбцах education и family_status есть проблема с регистром, устраним её
data['education'] = data['education'].str.lower()

data['family_status'] = data['family_status'].str.lower()

In [45]:
data.duplicated().sum()

71

In [46]:
data = data.drop_duplicates().reset_index(drop= True)
data.duplicated().sum()

0

**Вывод**

В столбцах с типом образования и семейным положением регистр был приведен к стандартной форме, удалены дубликаты во всей таблице.

### Лемматизация

In [47]:
m = Mystem()

def lemmatize(text):
      lemmas = m.lemmatize(text)
      text = " ".join(lemmas)
      return text

data['lemmas'] = data['purpose'].apply(lemmatize)
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,покупка жилье \n
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,приобретение автомобиль \n
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,покупка жилье \n
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,дополнительный образование \n
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,сыграть свадьба \n


**Вывод**

Были выделены леммы в каждой строке столбца purpose для использования их в дальнейшей категоризации данных

### Категоризация данных

In [48]:
for row in range(len(data)):
    if 'недвижимость' or 'жилье' in data.loc[row, 'lemmas']:
        data.loc[row, 'category'] = 'недвижимость'
    if 'автомобиль' in data.loc[row, 'lemmas']:
        data.loc[row, 'category'] = 'автомобиль'
    if 'образование' in data.loc[row, 'lemmas']:
        data.loc[row, 'category'] = 'образование'
    if 'свадьба' in data.loc[row, 'lemmas']:
        data.loc[row, 'category'] = 'свадьба'

data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,category
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,покупка жилье \n,недвижимость
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,приобретение автомобиль \n,автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,покупка жилье \n,недвижимость
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,дополнительный образование \n,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,сыграть свадьба \n,свадьба


In [49]:
data['category'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: category, dtype: int64

**Вывод**

В наборе данных цели, для которых люди берут кредит, разделились на 4 категории - недвижимость, автомобиль, образование, свадьба. Выяснилось, что наиболее популярны кредиты, связанные с недвижимостью.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [50]:
data.groupby('children').debt.mean().sort_values()

children
5     0.000000
0     0.075438
3     0.081818
1     0.091658
2     0.094542
4     0.097561
20    0.105263
Name: debt, dtype: float64

**Вывод**

Наличие детей является неблагобритным фактором для возвращения кредита точно в срок, чем больше детей - тем больше расходов в семье и больший процент невозврата кредита.


- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [51]:
data.groupby('family_status').debt.mean()

family_status
в разводе                0.071130
вдовец / вдова           0.065693
гражданский брак         0.093471
женат / замужем          0.075452
не женат / не замужем    0.097509
Name: debt, dtype: float64

**Вывод**

Процент невозврата кредита в срок у людей женатых и людей в разводе примерно одинаковый, зато у неженатых людей наиболее высокий процент просрочки кредита, надо быть с ними начеку.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [52]:
qantile_total_income = data['total_income'].quantile([.3, .6])

low_income = data[(data.total_income < qantile_total_income[.3])].debt.mean()

average_income = data[(data.total_income > qantile_total_income[.3]) & (data.total_income < qantile_total_income[.6])].debt.mean()

high_income = data[(data.total_income < qantile_total_income[.6])].debt.mean()

print(low_income, average_income, high_income)

0.0812616532007458 0.0870105655686762 0.084136109384711


**Вывод**

Самая большая доля невозврата кредита в срок у группы со средним уровнем дохода (от 116008 до 162639), что достаточно интересно, потому что люди явно небедные.

- Как разные цели кредита влияют на его возврат в срок?

In [54]:
data.groupby('category').debt.mean().sort_values()

category
недвижимость    0.072334
свадьба         0.080034
образование     0.092200
автомобиль      0.093590
Name: debt, dtype: float64

**Вывод**

Кредиты за автомобиль и образование возвращают гораздо хуже, статистика показывает, что почти 9% кредитов этих категорий не вернули в срок.

## Шаг 4. Общий вывод

Как показало исследование, семейное положение и количество детей клиента оказывают существенное влияние на факт погашения кредита в срок. Идеальный клиент для банка - овдовевший человек без детей со средним уровнем дохода, берущий кредит на недвижимость.