# Исследование надёжности заёмщиков
## (Курс 4: предобработка данных)
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# А. Предобработка данных

## 1. Загрузка данных

### Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

In [2]:
df = pd.read_csv('data.csv')
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [4]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

## 2. Удаление пропущенных значений

В двух столбцах (days_employed и total_income) есть пропущенные значения, причем их количество одинаково. Более того, это одни и те же строки: 

In [5]:
print('Количество строк, где в столбце days_employed пропуск, а в столбце total_income - нет:', end=' ')
print(len(df[(df['days_employed'].isna()) & (~df['total_income'].isna())]))

Количество строк, где в столбце days_employed пропуск, а в столбце total_income - нет: 0


Пропуски в days_employed будут обработаны на следующем этапе. Заполним пропуски в total_income

In [6]:
total_rows = len(df)
empty_rows = len(df[df['total_income'].isna()])
part = empty_rows / total_rows
print(f'Доля пропущенных значений в столбце total_income: {part}')

Доля пропущенных значений в столбце total_income: 0.10099883855981417


10% строк таблицы имеют пропуски в столбце days_employed. Это слишком большая доля, чтобы просто удалить такие строки из датасета. 

Наличие этих пропусков может быть связано вызвано несколькими причинами:
* клиент пожелал не указывать уровень дохода
* клиент не имеет дохода
* сведения об уровне дохода были утеряны

Посмотрим на строки с пропусками и попробуем найти общую причину

In [7]:
df[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Уточнить причину не удается. 

Уровень дохода - количественная переменная. Заполнить пропуски нулями - плохое решение, так как это может сильно исказить данные, ведь такого дохода в датасете нет:

In [8]:
print('Количество строк, где уровень дохода равен нулю', len(df[df['total_income'] == 0]))

Количество строк, где уровень дохода равен нулю 0


Более подходящий вариант избавления от пропусков - заполнить их средним или медианным значением. Но среднее значение зачастую искажает представление о данных (не отражает разброс), медианное значение лучше подходит для такого случая. Причем лучше высчитывать медианное значение не по всем клиентам, а по некоторым группам.

На уровень дохода, как правило, влияет уровень образования и должность. Сгруппируем клиентов по этим показателям, посчитаем медианный доход в каждой группе.

In [9]:
df_grouped_with_median_income = df.groupby(['education_id', 'income_type'])['total_income'].median().reset_index()
print(df_grouped_with_median_income.sort_values(by='total_income'))

    education_id      income_type   total_income
8              1        в декрете   53829.130729
7              1      безработный   59956.991984
6              0          студент   98201.625314
19             3        пенсионер  102598.653164
21             4      госслужащий  111392.231107
11             1        пенсионер  114842.854099
15             2        пенсионер  120136.896353
20             3        сотрудник  125994.910603
12             1        сотрудник  136555.108821
9              1      госслужащий  136652.970357
18             3        компаньон  136798.905143
3              0        пенсионер  144240.768611
17             3      госслужащий  148339.290825
16             2        сотрудник  151308.937846
10             1        компаньон  159070.690289
13             2      госслужащий  160592.345303
5              0        сотрудник  165640.744634
1              0      госслужащий  172511.107016
22             4        пенсионер  177088.845999
14             2    

Медианный доход варьируется от 53829 и до 499163, именно поэтому, если у клиента в поле total_income пропуск, корректнее заполнять его медианным значением по соответсвующей группе, чем медианой по всем данным. В противном случае можно сильно исказить данные. Заполним пропуски соответсвтующими значениями.

In [10]:
def match_salary(row):
    return list(df_grouped_with_median_income[
            (df_grouped_with_median_income['education_id'] == row['education_id']) & 
            (df_grouped_with_median_income['income_type'] == row['income_type'])
        ]['total_income'])[0]

df.loc[df['total_income'].isna(), 'total_income'] = df[df['total_income'].isna()].apply(match_salary, axis=1)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Проверим успешность: в столбце не должно остаться пропусков, а медианный доход по группе поменяться не должен был

In [11]:
print(df.info())
df_grouped_with_median_income2 = df.groupby(['education_id', 'income_type'])['total_income'].median().reset_index()
diff = df_grouped_with_median_income2['total_income'] - df_grouped_with_median_income['total_income']
print('Разница между медианными доходами в старой и новой сгруппированных таблицах:')
print(diff)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None
Разница между медианными доходами в старой и новой сгруппированных таблицах:
0     0.0
1     0.0
2     0.0
3     0.0
4     0.0
5     0.0
6     0.0
7     0.0
8     0.0

Все выполнено корректно


## 3. Артефакты (аномалии)

В данных встречаются артефакты (аномалии) - значения, которые не отражают действительность и появились по какой-то ошибке: отрицательное количество дней трудового стажа в столбце days_employed. 



In [12]:
total_rows = len(df)
neg_rows = len(df[df['days_employed'] < 0])
part = neg_rows / total_rows
print(f'Доля отрицательных значений в столбце days_employed: {part}')

Доля отрицательных значений в столбце days_employed: 0.7389547038327526


Таких значений больше 73%, то есть большинство. Причем все отрицательные значения по модулю меньше положительных. 

In [13]:
df.describe()
print(df[df['days_employed'] < 0]['days_employed'].describe())
print()
print(df[df['days_employed'] >= 0]['days_employed'].describe())

count    15906.000000
mean     -2353.015932
std       2304.243851
min     -18388.949901
25%      -3157.480084
50%      -1630.019381
75%       -756.371964
max        -24.141633
Name: days_employed, dtype: float64

count      3445.000000
mean     365004.309916
std       21075.016396
min      328728.720605
25%      346639.413916
50%      365213.306266
75%      383246.444219
max      401755.400475
Name: days_employed, dtype: float64


Вероятно, это ошибка при записи (лишний минус). Один из вариантов решения проблемы - домножить отрицательные значения на -1, так как тогда мы получим вполне вероятные значения.


In [14]:
df.loc[df['days_employed'] < 0, 'days_employed'] *= -1
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Теперь осталось разобраться с пропусками в этом столбце. Предлагается заполнить их медианным значением days_employed по возрасту.

In [15]:
df_grouped_with_median_days_employed = df.groupby(['dob_years'])['days_employed'].median().reset_index()

def match_days_employed(row):
    return list(df_grouped_with_median_days_employed[
        df_grouped_with_median_days_employed['dob_years'] == row['dob_years']
        ]['days_employed'])[0]

df.loc[df['days_employed'].isna(), 'days_employed'] = df[df['days_employed'].isna()].apply(match_days_employed, axis=1)

df_grouped_with_median_days_employed2 = df.groupby(['dob_years'])['days_employed'].median().reset_index()


diff = df_grouped_with_median_days_employed2['days_employed'] - df_grouped_with_median_days_employed['days_employed']
print('Разница между медианными days_employed в старой и новой сгруппированных таблицах:')
print(diff)

Разница между медианными days_employed в старой и новой сгруппированных таблицах:
0     0.0
1     0.0
2     0.0
3     0.0
4     0.0
5     0.0
6     0.0
7     0.0
8     0.0
9     0.0
10    0.0
11    0.0
12    0.0
13    0.0
14    0.0
15    0.0
16    0.0
17    0.0
18    0.0
19    0.0
20    0.0
21    0.0
22    0.0
23    0.0
24    0.0
25    0.0
26    0.0
27    0.0
28    0.0
29    0.0
30    0.0
31    0.0
32    0.0
33    0.0
34    0.0
35    0.0
36    0.0
37    0.0
38    0.0
39    0.0
40    0.0
41    0.0
42    0.0
43    0.0
44    0.0
45    0.0
46    0.0
47    0.0
48    0.0
49    0.0
50    0.0
51    0.0
52    0.0
53    0.0
54    0.0
55    0.0
56    0.0
57    0.0
Name: days_employed, dtype: float64


Пропусков в этом столбце больше нет. Проверим остальные столбцы на наличие явных аномалий, просмотрев статистику по стобцам

In [16]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,66932.094227,43.29338,0.817236,0.972544,0.080883,165353.7
std,1.381587,138633.515059,12.574584,0.548138,1.420324,0.272661,98148.56
min,-1.0,24.141633,0.0,0.0,0.0,0.0,20667.26
25%,0.0,1007.36882,33.0,1.0,0.0,0.0,107719.3
50%,0.0,2170.569747,42.0,1.0,0.0,0.0,143496.3
75%,1.0,5489.396756,53.0,1.0,1.0,0.0,198149.3
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Видны аномалии в столбце children (количество детей): есть как минимум одно отрицательное значение (-1) и весьма маловероятное (20). Посмотрим, какие значения вообще есть в этом столбце

In [17]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Можно в первом случае домножить на -1, во втором предположить, что была опечатка (20 вместо 2), но аномальных строк немного (около 100), и их лучше отбросить, чтобы не испортить данные догадками

In [18]:
df = df[(df['children'] >= 0) & (df['children'] < 20)]
df['children'].value_counts()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Больше явных аномалий в данных нет

## 4. Преобразование типов
Из вывода информации о таблице выше видно, что тип данных столбца total_income - float64. Числа довольно большие, а значения после запятой не столь важны, но занимают больше места:

In [19]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Заменим вещественный тип на целочисленный и проверим успешность преобразования

In [20]:
df.loc[:,'total_income'] = df['total_income'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  int32  
 11  purpose           21402 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0+ MB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:,'total_income'] = df['total_income'].astype(int)


## 5. Дубликаты
Еще раз взглянем на таблицу и проверим ее на наличие неявных дубликатов.

In [21]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Легко заметить в столбце education дубликаты, связанные с регистром (например, СРЕДНЕЕ и среднее). 

In [22]:
df['education'].value_counts()

среднее                13667
высшее                  4698
СРЕДНЕЕ                  766
Среднее                  703
неоконченное высшее      665
ВЫСШЕЕ                   271
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Не исключено, что и в остальных столбцах схожая ситуация. Приведем все столбцы с типом данных object к нижнему регистру, чтобы избавиться от дубликатов (для всех этих столбцов регистр неважен).

In [23]:
for col in df.columns:
    if df[col].dtype == 'object':
        print('Преобразование столбца', col)
        df[col] = df[col].str.lower()
df.info()

Преобразование столбца education
Преобразование столбца family_status
Преобразование столбца gender
Преобразование столбца income_type
Преобразование столбца purpose
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  int32  
 11  purpose           21402 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col] = df[col].str.lower()


Теперь можно проверить всю таблицу на наличие явных дубликатов (полностью совпадающих строк)

In [24]:
df.duplicated().sum()

71

В таблице 71 дубликат. Избавимся от них, оставив только первое вхождение каждой строки, и проверим корректность решения.

In [25]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

0

Явных дубликатов не осталось

## 6. Декомпозиция таблицы

Чтобы не хранить в основной таблице дублирующуюся информацию и сэкономить место, необходимо создать два новых датафрейма, в которых:
* каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
* каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.
К полученным «словарям» нужно применить цепочку методов drop_duplicates() и reset_index(), чтобы избавиться от дубликатов.

Также необходимо удалить из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. 

In [26]:
df_education = df[['education_id', 'education']].drop_duplicates().reset_index(drop=True)
print(df_education.head(10))

df_family_status = df[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)
print(df_family_status.head(10))

df = df.drop(['education', 'family_status'], axis=1)
df.head(10)

   education_id            education
0             0               высшее
1             1              среднее
2             2  неоконченное высшее
3             3            начальное
4             4       ученая степень
   family_status_id          family_status
0                 0        женат / замужем
1                 1       гражданский брак
2                 2         вдовец / вдова
3                 3              в разводе
4                 4  не женат / не замужем


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,f,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,f,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,m,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,m,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,f,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,0,1,m,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,0,0,f,компаньон,0,240525,операции с жильем
7,0,152.779569,50,1,0,m,сотрудник,0,135823,образование
8,2,6929.865299,35,0,1,f,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,1,0,m,сотрудник,0,144425,покупка жилья для семьи


## 7. Категоризация данных

### 7.1. По доходам

Хранить уровень дохода каждого пользователя для анализа всех данных неудобно. Следует разделить доходы клиентов на категории. Например, исходя из следующих диапазонов: 


* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

На основании этих диапазонов, создадим столбец total_income_category с категориями.

In [27]:
df['total_income'].describe()

count    2.133100e+04
mean     1.654764e+05
std      9.841466e+04
min      2.066700e+04
25%      1.074440e+05
50%      1.437080e+05
75%      1.983050e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [28]:
df_income_category = pd.DataFrame(columns=['income_category_id', 'min', 'max'],
                                 data = [
                                     ['E', 0, 30000],
                                     ['D', 30001, 50000],
                                     ['C', 50001, 200000],
                                     ['B', 2000001, 1000000],
                                     ['A', 1000001, None],
                                 ])

def choose_income_category(income):
    if 0 <= income <= 30000:
        return 'E'
    elif 30001 <= income <= 50000:
        return 'D'
    elif 50001 <= income <= 200000:
        return 'C'
    elif 200001 <= income <= 1000000:
        return 'B'
    elif 1000001  <= income:
        return 'A'
    else:
        raise ValueError('Указан отрицательный доход')
        
df['total_income_category'] = df['total_income'].apply(choose_income_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,f,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,f,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,m,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,m,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,f,пенсионер,0,158616,сыграть свадьбу,C


### 7.2. По целям кредита

В столбце с целями есть записи, которые не являются дубликатами, но имеют один и тот же смысл. Неверно будет обращаться с такими целями, как с разными, поэтому нужно объединить их по смыслу.

In [29]:
df['purpose'].value_counts()

свадьба                                   790
на проведение свадьбы                     763
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          620
строительство недвижимости                619
покупка своего жилья                      619
покупка недвижимости                      616
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образованием      

Для начала проведем лемматизацию этого столбца с помощью библиотеки Импортируем библиотеку Mystem и будем поочередно брать строки из столбца 'purpose', лемматизировать их, и полученные леммы сохраним в списке lemmas. Подсчитаем количество уникальных лемматизированных слов специальным контейнером Counter

In [30]:
from pymystem3 import Mystem

m = Mystem()
lemmas = df['purpose'][:100].apply(m.lemmatize)
lemmas

0                       [покупка,  , жилье, \n]
1             [приобретение,  , автомобиль, \n]
2                       [покупка,  , жилье, \n]
3          [дополнительный,  , образование, \n]
4                     [сыграть,  , свадьба, \n]
                        ...                    
95                             [автомобиль, \n]
96     [покупка,  , жилой,  , недвижимость, \n]
97             [профильный,  , образование, \n]
98    [покупка,  , жилье,  , для,  , сдача, \n]
99                             [автомобиль, \n]
Name: purpose, Length: 100, dtype: object

In [31]:
from collections import Counter, OrderedDict

all_lemmas = []
for text in lemmas:
    all_lemmas.extend(text[:-1])

OrderedDict(Counter(all_lemmas).most_common())

OrderedDict([(' ', 148),
             ('недвижимость', 27),
             ('автомобиль', 26),
             ('покупка', 25),
             ('жилье', 17),
             ('образование', 17),
             ('с', 17),
             ('свадьба', 13),
             ('операция', 12),
             ('на', 11),
             ('коммерческий', 7),
             ('свой', 7),
             ('сделка', 7),
             ('проведение', 6),
             ('строительство', 6),
             ('приобретение', 5),
             ('сыграть', 5),
             ('для', 5),
             ('заниматься', 5),
             ('собственный', 4),
             ('подержанный', 4),
             ('семья', 3),
             ('жилой', 3),
             ('подержать', 3),
             ('получение', 3),
             ('дополнительный', 2),
             ('со', 2),
             ('высокий', 2),
             ('профильный', 2),
             ('сдача', 2)])

По полученным леммам можно выделить следующие категории целей:
* операции с автомобилем
* операции с недвижимостью
* проведение свадьбы
* получение образования

Создадим датафрейм df_purpose, в котором каждой категории цели сопоставим уникальный идентификатор. С помощью функции, которая на основании данных из столбца purpose выбирает нужную категорию цели, сформируем новый столбец purpose_category_id. 

In [32]:
df_purpose = pd.DataFrame(columns=['purpose_id', 'purpose'], 
                          data=[[0, 'операции с автомобилем'],
                                [1, 'операции с недвижимостью'],
                                [2, 'проведение свадьбы'],
                                [3, 'получение образования'],
                                [4, 'другое']])

In [33]:
# слишком долго
# def choose_purpose_category(purpose):
#     lemmas = m.lemmatize(purpose)
#     if 'автомобиль' in lemmas:
#         return list(df_purpose.loc[df_purpose['purpose'] == 'операции с автомобилем', 'purpose_id'])[0]
#     elif ('жилье' in lemmas) or ('жилой' in lemmas) or ('недвижимость' in lemmas):
#         return list(df_purpose.loc[df_purpose['purpose'] == 'операции с недвижимостью', 'purpose_id'])[0]
#     elif 'свадьба' in lemmas:
#         return list(df_purpose.loc[df_purpose['purpose'] == 'проведение свадьбы', 'purpose_id'])[0]
#     elif 'образование' in lemmas:
#         return list(df_purpose.loc[df_purpose['purpose'] == 'получение образования', 'purpose_id'])[0]
#     else:
#         return list(df_purpose.loc[df_purpose['purpose'] == 'другое', 'purpose_id'])[0]

import re
def choose_purpose_category(purpose):
    if re.search('автомоб', purpose):
        return list(df_purpose.loc[df_purpose['purpose'] == 'операции с автомобилем', 'purpose_id'])[0]
    elif re.search('жил', purpose) or re.search('недвижим', purpose):
        return list(df_purpose.loc[df_purpose['purpose'] == 'операции с недвижимостью', 'purpose_id'])[0]
    elif re.search('свадьб', purpose):
        return list(df_purpose.loc[df_purpose['purpose'] == 'проведение свадьбы', 'purpose_id'])[0]
    elif re.search('образов', purpose):
        return list(df_purpose.loc[df_purpose['purpose'] == 'получение образования', 'purpose_id'])[0]
    else:
        return list(df_purpose.loc[df_purpose['purpose'] == 'другое', 'purpose_id'])[0]

df['purpose_category_id'] = df['purpose'].apply(choose_purpose_category)
print(df['purpose_category_id'].value_counts())
df.head()

1    10751
0     4279
3     3988
2     2313
Name: purpose_category_id, dtype: int64


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category_id
0,1,8437.673028,42,0,0,f,сотрудник,0,253875,покупка жилья,B,1
1,1,4024.803754,36,1,0,f,сотрудник,0,112080,приобретение автомобиля,C,0
2,0,5623.42261,33,1,0,m,сотрудник,0,145885,покупка жилья,C,1
3,3,4124.747207,32,1,0,m,сотрудник,0,267628,дополнительное образование,B,3
4,0,340266.072047,53,1,1,f,пенсионер,0,158616,сыграть свадьбу,C,2


Удалим из основной таблицы столбцы, ставшие ненужными 

In [34]:
df = df.drop(['total_income', 'purpose'], axis=1)
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income_category,purpose_category_id
0,1,8437.673028,42,0,0,f,сотрудник,0,B,1
1,1,4024.803754,36,1,0,f,сотрудник,0,C,0
2,0,5623.422610,33,1,0,m,сотрудник,0,C,1
3,3,4124.747207,32,1,0,m,сотрудник,0,B,3
4,0,340266.072047,53,1,1,f,пенсионер,0,C,2
...,...,...,...,...,...,...,...,...,...,...
21326,1,4529.316663,43,1,1,f,компаньон,0,B,1
21327,0,343937.404131,67,1,0,f,пенсионер,0,C,0
21328,1,2113.346888,38,1,1,m,сотрудник,1,C,1
21329,3,3112.481705,38,1,0,m,сотрудник,1,B,0


# Итоги предобработки данных

Из данных были устранены пропущенные значения, дубликаты и аномалии. После категоризации данных и удаления дублирующей информации представление данных о клиентах стало удобнее. 

Таблицу df легко обрабатывать, так как там остались только самые нужные данные: количество детей, дней занятости, возраст, идентификатор семейного положения и образования, пол, тип занятости, наличие/отсутствие долга, категория по доходу и цели кредита, а в таблицах - словарях df_education, df_family_status, df_income_category, df_purpose находятся расшифроки соответствующих значений.

In [35]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income_category,purpose_category_id
0,1,8437.673028,42,0,0,f,сотрудник,0,B,1
1,1,4024.803754,36,1,0,f,сотрудник,0,C,0
2,0,5623.42261,33,1,0,m,сотрудник,0,C,1
3,3,4124.747207,32,1,0,m,сотрудник,0,B,3
4,0,340266.072047,53,1,1,f,пенсионер,0,C,2


In [36]:
df_education

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [37]:
df_family_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [38]:
df_income_category

Unnamed: 0,income_category_id,min,max
0,E,0,30000.0
1,D,30001,50000.0
2,C,50001,200000.0
3,B,2000001,1000000.0
4,A,1000001,


In [39]:
df_purpose

Unnamed: 0,purpose_id,purpose
0,0,операции с автомобилем
1,1,операции с недвижимостью
2,2,проведение свадьбы
3,3,получение образования
4,4,другое


# Б. Ответы на вопросы, поставленные клиентом



## 1. Есть ли зависимость между количеством детей и возвратом кредита в срок?

Посмотрим долю групп клиентов с различным числом детей в общем количестве "должников"

In [40]:
df.groupby('children')['debt'].sum()/df['debt'].count()

children
0    0.049834
1    0.020815
2    0.009095
3    0.001266
4    0.000188
5    0.000000
Name: debt, dtype: float64

Казалось бы, прослеживается линейная зависимость: чем меньше у клиентов детей, тем реже они возвращают кредит в срок. Однако нужно учесть, что в каждой группе различное число клиентов



In [41]:
df.groupby('children')['debt'].count()

children
0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: debt, dtype: int64

Посмотрим долю должников внутри каждой группы

In [42]:
grouped_by_children = df.pivot_table(index=['children'], values=['debt'], aggfunc=['sum', 'count'])
grouped_by_children.columns = ['had_debt_amount', 'total_amount']
grouped_by_children['had_debt_percent'] = grouped_by_children['had_debt_amount'] / grouped_by_children['total_amount']* 100

grouped_by_children.sort_values('had_debt_percent')

Unnamed: 0_level_0,had_debt_amount,total_amount,had_debt_percent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,0,9,0.0
0,1063,14091,7.543822
3,27,330,8.181818
1,444,4808,9.234609
2,194,2052,9.454191
4,4,41,9.756098


По этим данным в группе клиентов, у которых нет детей, наименьшая "концентрация" должников. Однако следующими после них идут не те, у кого 1 ребенок, а те, у кого 3 ребенка, что не позволяет сделать вывод о какой-либо линейной зависимости. При этом из 9 человек с 5 детьми в семье все вернули долг в срок, но для столь малой выборки это не является показателем.

При этом значения в доле должников у всех групп, кроме той, где 5 детей, довольно близки

Таким образом, если у клиентов нет детей, то вероятность того, что он не вернет кредит в срок заметно уменьшается (7.5%). Однако среди тех, у кого есть, нельзя с уверенностью сказать о конкретной зависимости между количеством детей и возвратом кредита в срок.

In [43]:
# # g = sns.catplot("alive", col="deck", col_wrap=4,
# #                 data=grouped_by_children[],
# #                 kind="count", height=3.5, aspect=.8, 
# #                 palette='tab20')
# df1 = 
# grouped_by_children = grouped_by_children.drop(['had_debt_amount', 'total_amount'], axis=1)
# g = sns.catplot(grouped_by_children)

# fig.suptitle('sf')
# plt.show()

## 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
Посмотрим долю должников внутри каждой группы по семейному статусу

In [44]:
from copy import deepcopy

grouped_by_family_status = deepcopy(df_family_status)
grouped_by_family_status['had_debt_percentage'] = df.groupby('family_status_id')['debt'].sum()/df.groupby('family_status_id')['debt'].count() * 100
print(grouped_by_family_status.sort_values(by='had_debt_percentage'))

   family_status_id          family_status  had_debt_percentage
2                 2         вдовец / вдова             6.624606
3                 3              в разводе             7.064760
0                 0        женат / замужем             7.560558
1                 1       гражданский брак             9.313014
4                 4  не женат / не замужем             9.763948


Прослеживается следующая зависимость: чаще всего в должниках остается тот, кто еще не женат / не замужем или живет в гражданском браке (около 9%), реже - тот, кто женат / замужем (7.5%), и реже остальных - тот, кто уже не в браке: в разводе или вдовец / вдова (около 7%). Таким образом, более добросовестные заемщики - те, котороые уже вступали в официальный брак.

## 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Посмотрим долю должников внутри каждой группы по уровню дохода.

In [45]:
grouped_by_income = df.groupby('total_income_category')['debt'].sum()/df.groupby('total_income_category')['debt'].count() * 100
print(grouped_by_income.sort_values())

total_income_category
D    6.017192
B    6.964217
A    8.000000
C    8.546737
E    9.090909
Name: debt, dtype: float64


Люди с самым высоким уровнем дохода находятся в середине списка. С низким и высоким - в начале, а с очень низким и средним - в конце. Таким образом, даже самый высокий доход не говорит о том, что кредит будет погашен в срок, но можно отметить, что люди с очень низким уровнем дохода в 9% случаев имеют долги.

## 4. Как разные цели кредита влияют на его возврат в срок?
Посмотрим долю должников внутри каждой группы по цели кредита

In [46]:
grouped_by_purpose = deepcopy(df_purpose)
grouped_by_purpose['had_debt_percentage'] = df.groupby('purpose_category_id')['debt'].sum()/df.groupby('purpose_category_id')['debt'].count() * 100
print(grouped_by_purpose.sort_values(by='had_debt_percentage'))

   purpose_id                   purpose  had_debt_percentage
1           1  операции с недвижимостью             7.255139
2           2        проведение свадьбы             7.911803
3           3     получение образования             9.252758
0           0    операции с автомобилем             9.347978
4           4                    другое                  NaN


Кредиты, взятые на операции с автомобилем и на образование, не возвращают в срок (около 9% клиентов) чаще, чем кредиты на недвижимость или на свадьбу (около 7.5%)

# Вывод

Между возвратом кредита в срок и каждым из показателей (количество детей, семейное положение, уровень дохода, целью) в отдельности можно проследить некоторую зависимость. Однако для более точного прогнозирования следует рассматривать все критерии в совокупности
