# Исследование надежности заемщиков.

**Цель исследования**
    
Определить как влияет:
- семейное положение,
- количество детей клиента,
- уровень доходов,
- цели кредита

на факт погашения кредита в срок.    
    

**Ход исследования**

 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотезы.

## Обзор данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/datasets/data.csv')

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Итак, в таблице 12 столбцов.**

Описание данных:
* 'children' — количество детей в семье
* 'days_employed' — общий трудовой стаж в днях
* 'dob_years' — возраст клиента в годах
* 'education' — уровень образования клиента
* 'education_id' — идентификатор уровня образования
* 'family_status' — семейное положение
* 'family_status_id' — идентификатор семейного положения
* 'gender' — пол клиента
* 'income_type' — тип занятости
* 'debt' — имел ли задолженность по возврату кредитов
* 'total_income' — ежемесячный доход
* 'purpose' — цель получения кредита

В названиях колонок соблюдены основные требования к стилю:
1. Строчные буквы.
2. Отсутствие пробелов.
3. Использован «змеиный_регистр» (snake_case).


**Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.**

**Выводы**

В каждой строке таблицы — данные о клиенте банка.
Данные делятся на:
* категориальные:

уровень образования клиента, идентификатор уровня образования, семейное положение, идентификатор семейного положения, пол клиента, тип занятости, имел ли задолженность по возврату кредитов, цель получения кредита

* количественные:

количество детей в семье, общий трудовой стаж в днях, возраст клиента в годах, ежемесячный доход


Предварительно можно утверждать, что, данных достаточно для проверки гипотезы. 
При этом надо отметить, что в данных встречаются:
* пропуски
* артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце days_employed

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

### Заполнение пропусков

In [5]:
df.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропущенные значения обнаружены в столбцах:
* 'days_employed' — общий трудовой стаж в днях
* 'total_income' — ежемесячный доход

в одинаковом количестве.

In [6]:
# проверка на совпадение пропущенных значений в строках по столбцам 'days_employed' и 'total_income' 
df[df['days_employed'].isna()].isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Пропущенные значения в строках по столбцам 'days_employed' и 'total_income' совпадают.**

In [7]:
# проверка, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;

share_missing_values = df['days_employed'].isna().sum()/len(df)

print(f'Доля пропущенных значений в каждом из столбцов с пропусками: {share_missing_values:.0%}')

Доля пропущенных значений в каждом из столбцов с пропусками: 10%


Возможные причины появления пропусков в данных:
- технологические - возникают при копировании, считывании, смене формата, сбой во время записи данных
- человеческий фактор - опечатка в тексте, укажут другой порядок величин, перепутают числа или категориальные значения



* 'days_employed' — общий трудовой стаж в днях
* 'total_income' — ежемесячный доход

Это количественные переменные. 

Пропуски в таких переменных заполняют характерными значениями. 

Это значения, характеризующие состояние выборки, — набора данных, выбранных для проведения исследования.

Чтобы примерно оценить типичные значения выборки, годятся среднее арифметическое или медиана.

Среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства.

In [8]:
# обзор среднего значения, медианы, минимума и максимума по столбцу 'total_income'
display(df.agg({'total_income': ['median', 'mean']}))
display(df.agg({'total_income': ['min', 'max']}))

Unnamed: 0,total_income
median,145017.937533
mean,167422.302208


Unnamed: 0,total_income
min,20667.26
max,2265604.0


In [9]:
# обзор среднего значения, медианы, минимума и максимума по столбцу 'days_employed'
display(df.agg({'days_employed': ['median', 'mean']}))
display(df.agg({'days_employed': ['min', 'max']}))

Unnamed: 0,days_employed
median,-1203.369529
mean,63046.497661


Unnamed: 0,days_employed
min,-18388.949901
max,401755.400475


**Количество отрецательных значений в столбце трудового стажа привело к отрицательному значению медианы.**

In [10]:
# сколько отрицательных значений в столбце по трудовому стажу и какую долю они занимают в выборке c непустыми значениями

number_negative_values = df[df['days_employed'] < 0]['days_employed'].count()
share_negative_values = number_negative_values / (len(df) - df['days_employed'].isna().sum())

print('Количество отрицательных значений в столбце по трудовому стажу:', number_negative_values)
print(f'Доля отрицателных значений: {share_negative_values:.0%}')

Количество отрицательных значений в столбце по трудовому стажу: 15906
Доля отрицателных значений: 82%


**Видимо по причине технической ошибки данные в столбце по трудовому стажу преимущественно отрицательные.**

In [11]:
# проверим положительные данные в столбце по трудовому стажу.
df[df['days_employed'] >= 0].agg({'days_employed': ['min', 'max']})

Unnamed: 0,days_employed
min,328728.720605
max,401755.400475


**Возможно данные из положительной области по ошибке увеличены в 100 раз (min max в годах это 900 и 1100 лет соответственно).**

In [12]:
# обзор данных при положительных данных в трудовом стаже
df[df['days_employed'] > 0].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью


In [13]:
# проверим зависимость положительных данных из столбца стажа со средним уровнем образования и пенсионным возрастом.

#print(df['income_type'].unique())
#print(df['education'].unique())

education = ['среднее', 'Среднее', 'СРЕДНЕЕ']
count = 0

for item in education:
    for value in df['education']:
        if item == value:
            count += 1 
            
df_retired = df[df['income_type'] == 'пенсионер']
            
print('Количество клиентов со средним образованием:', count)
print('Количество клиентов пенсионеров:', df_retired['income_type'].count())
print('Количество клиентов пенсионеров с положительными данными в трудовом стаже:', df_retired[df_retired['days_employed'] > 0]['income_type'].count())
print('Количество положительных данных из столбца трудового стажа:', df[df['days_employed'] > 0]['days_employed'].count())

Количество клиентов со средним образованием: 15233
Количество клиентов пенсионеров: 3856
Количество клиентов пенсионеров с положительными данными в трудовом стаже: 3443
Количество положительных данных из столбца трудового стажа: 3445


**Практически все значения из области положительных по столбцу трудового стажа числятся за пенсионерами, кроме двух строк.**

**Найдем их.**

In [14]:
# найдем значения из области положительных по столбцу трудового стажа которые не числятся за пенсионерами.
df[(df['income_type'] != 'пенсионер') & (df['days_employed'] > 0)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,среднее,1,женат / замужем,0,M,безработный,1,59956.991984,покупка жилья для сдачи
14798,0,395302.838654,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.511368,ремонт жилью


**Это безработные.**

In [15]:
# проверим есть ли пенсионеры с отрицательными значениями в трудовом стаже

df[df['days_employed'] < 0].groupby('income_type')['days_employed'].count()

income_type
в декрете              1
госслужащий         1312
компаньон           4577
предприниматель        1
сотрудник          10014
студент                1
Name: days_employed, dtype: int64

**Пенсионеры отсутвтуют**

In [16]:
# проверим, кому принадлежат пропуски по трудовому стажу и доходу

df[df['days_employed'].isna()].groupby('income_type')['income_type'].count()

income_type
госслужащий         147
компаньон           508
пенсионер           413
предприниматель       1
сотрудник          1105
Name: income_type, dtype: int64

In [17]:
# найдем, медианный значения пенсионеров
df[(df['income_type'] == 'пенсионер') & (df['days_employed'] > 0)].median()

children                 0.000000
days_employed       365213.306266
dob_years               60.000000
education_id             1.000000
family_status_id         0.000000
debt                     0.000000
total_income        118514.486412
dtype: float64

In [18]:
# проверим среднее количество трудового стажа в годах по возрастам для пенсионеров и безработных.
df[df['days_employed'] > 0].groupby('dob_years').agg({'days_employed': ['mean', 'count']})

Unnamed: 0_level_0,days_employed,days_employed
Unnamed: 0_level_1,mean,count
dob_years,Unnamed: 1_level_2,Unnamed: 2_level_2
0,362537.515114,17
22,334764.259831,1
26,376872.682465,2
27,362032.797773,3
28,350340.760224,1
31,337524.466835,1
32,339365.593129,3
33,365649.502024,2
34,386022.017215,3
35,359537.595496,1


In [19]:
# найдем, медианные значения трудового стажа из отрицательной области данных.
df[df['days_employed'] < 0].median()

children                 0.000000
days_employed        -1630.019381
dob_years               39.000000
education_id             1.000000
family_status_id         0.000000
debt                     0.000000
total_income        151134.593479
dtype: float64

In [20]:
# проверим среднее количество трудового стажа по возрастам в годах
df[df['days_employed'] < 0].groupby('dob_years')['days_employed'].mean()/365

dob_years
0     -6.028427
19    -1.736104
20    -1.876560
21    -1.943674
22    -2.140758
23    -2.266601
24    -2.812070
25    -2.981935
26    -3.288460
27    -3.720968
28    -3.829241
29    -4.257050
30    -4.646683
31    -4.527994
32    -4.755568
33    -5.119603
34    -5.434861
35    -5.777758
36    -6.226778
37    -5.969684
38    -6.320720
39    -6.593327
40    -6.425437
41    -6.667430
42    -7.652520
43    -6.829175
44    -7.710617
45    -7.647417
46    -7.855102
47    -8.118889
48    -7.940267
49    -8.484773
50    -8.483336
51    -8.357072
52    -8.938986
53    -8.988510
54    -8.164290
55    -9.801479
56    -8.962213
57    -9.414903
58    -8.956514
59   -10.590322
60   -10.383553
61   -11.051142
62    -8.298967
63   -12.016089
64   -11.083179
65   -11.121412
66   -10.684755
67    -9.901584
68   -12.469699
69   -10.344958
70   -12.784051
71    -7.602364
72   -18.092932
73    -9.395084
74   -11.523973
75    -4.599917
Name: days_employed, dtype: float64

**1. Основной массив данных из трудового стажа отрицательный и равен 82% от заполненных данных, т.е. вероятно происходит вычитание из меньшего значения большего.**

**2. Возможно данные в столбце трудового стажа отображают данные о стаже на текущем месте работы (средний стаж в годах = 4,5 года (abs(-1630/365)), а также об этом свидетельствует средний уровень стажа в годах сгруппированный по возрасту (см. series выше)**

**3. Исходя из пункта выше следует, что стаж у пенсионеров и безработных должен отсутствовать.**

In [21]:
# проверим количество клиентов где возраст равнем 0
print(df[df['dob_years'] == 0]['dob_years'].count())

101


1. **Все данные из положительной области по трудовому стажу числятся за пенсионерами и безработными.**
2. **Основной массив данных из трудового стажа отрицательный и равен 82% от заполненных данных, т.е. вероятно происходит вычитание из меньшего значения большего.**
3. **Возможно данные в столбце трудового стажа отображают данные о стаже на текущем месте работы (средний стаж в годах = 4,5 года (abs(-1630/365)), а также об этом свидетельствует средний уровень стажа в годах сгруппированный по возрасту (см. series выше)**
4. **Исходя из пункта выше следует, что стаж у пенсионеров и безработных должен отсутствовать.**
5. **У 101 клиента в ячейке возраст стоит ноль.**

In [22]:
# проверим средние/медианные значения доходов во всех типах занятости
df.groupby('income_type').agg({'total_income': ['median','mean']})

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,median,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,131339.751676,131339.751676
в декрете,53829.130729,53829.130729
госслужащий,150447.935283,170898.309923
компаньон,172357.950966,202417.461462
пенсионер,118514.486412,137127.46569
предприниматель,499163.144947,499163.144947
сотрудник,142594.396847,161380.260488
студент,98201.625314,98201.625314


**Размер медианы месячного дохода пенсионеров, безработных, студентов и декретников не соответствует действительности и в 10 раз больше реальных.**

Данными по безработным (2 клиента), студентам (1 клиент) и декретникам (1 клиент) можно пренебречь, т.к. их незначиельное количество. 

**Заполнение пропусков.** 

In [23]:
# расчет значений медианы по трудовому стажу и месячному доходу за исключением данных по пенсионерам.
df[df['days_employed'] < 0].agg({'days_employed': ['median'], 'total_income': ['median']})

Unnamed: 0,days_employed,total_income
median,-1630.019381,151134.593479


In [24]:
# заполнение пропусков медианным значением
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [25]:
df.isna().sum() # подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Шаг 2.2 Проверка данных на аномалии и исправления.

**В предыдущем разделе были обнаружены артефакты (аномалии) в столбцах:**

**'days_employed'**
1. **Основной массив данных из трудового стажа отрицательный и равен 82% от заполненных данных, т.е. вероятно происходит вычитание из меньшего значения большего.**
2. **Данные в столбце трудового стажа отображают данные о стаже на текущем месте работы (средний стаж в годах = 4,5 года (abs(-1630/365)), а также об этом свидетельствует средний уровень стажа в годах сгруппированный по возрасту**
3. **Исходя из пункта выше следует, что стаж у пенсионеров и безработных должен отсутсвовать.**
**'dob_years'**
1. **У 101 клиента в столбце возраст стоит ноль.**
**'total_income'**
1. **Размер медианы месячного дохода пенсионеров, безработных, студентов и декретников не соответствует действительности и в 10 раз больше реальных.**
Данными по безработным (2 клиента), студентам (1 клиент) и декретникам (1 клиент) можно пренебречь, т.к. их незначиельное количество. 



Исправление данных в столбце 'days_employed' согласно выводов описанных выше

In [26]:
# используется функция fixed_days_employed

def fixed_days_employed(days_employed):
    """
    переводит отрицательные заначения в положительные
    обнуляет положительные значения стажа (для пенсионеров и безработных)
    """
    
    if days_employed < 0:
        return days_employed * -1
    elif days_employed > 0:
        return 0
    return days_employed


df['days_employed'] = df['days_employed'].apply(fixed_days_employed)

Исправление данных в столбце 'dob_years' согласно выводов описанных выше

In [27]:
# медианные и средние значения возраста по видам дохода для замены у клиентов с нулевыми значениями в возрасте
df[df['dob_years'] > 0].groupby('income_type').agg({'dob_years': ['median', 'mean']})

Unnamed: 0_level_0,dob_years,dob_years
Unnamed: 0_level_1,median,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,38.0,38.0
в декрете,39.0,39.0
госслужащий,40.0,40.804542
компаньон,39.0,39.854294
пенсионер,60.0,59.370959
предприниматель,42.5,42.5
сотрудник,39.0,40.01898
студент,22.0,22.0


In [28]:
# количетво клиентов в видам дохода с нулевым значением в колонке возраст
df[df['dob_years'] == 0].groupby('income_type')['dob_years'].count() 

income_type
госслужащий     6
компаньон      20
пенсионер      20
сотрудник      55
Name: dob_years, dtype: int64

In [29]:
# замена нулевых значений в столбце 'dob_years'
# пенсионеры 60 лет
df.loc[(df['dob_years'] == 0) & (df['income_type'] == 'пенсионер'), 'dob_years'] = 60 # пенсионеры 60 лет
# остальные 39 лет
df.loc[df['dob_years'] == 0, 'dob_years'] = 39

In [30]:
# проверка обработки по столбцу 'dob_years' на нулевые значения
df[df['dob_years'] == 0]['dob_years'].count() 

0

Исправление данных в столбце 'total_income' согласно выводов описанных выше

In [31]:
def fixed_total_income(total_income, income_type):
    """
    делит на 10 значения доходов для пенсионеров, безработных, студентов, декретников
    """
    
    if (income_type == 'пенсионер' or
        income_type == 'безработный' or
        income_type == 'в декрете' or
        income_type == 'студент'):
        return total_income / 10
    else:
        return total_income


df['total_income'] = df.apply(lambda x: fixed_total_income(x['total_income'], x['income_type']), axis=1)

In [32]:
# проверка обработки по столбцу 'total_income'
df.groupby('income_type')['total_income'].median()

income_type
безработный         13133.975168
в декрете            5382.913073
госслужащий        151134.000000
компаньон          162401.351555
пенсионер           12874.767557
предприниматель    325148.572474
сотрудник          151134.000000
студент              9820.162531
Name: total_income, dtype: float64

### Шаг 2.3. Изменение типов данных.

In [33]:
# Замена вещественного типа данных в столбце total_income на целочисленный, с помощью метода astype()
df['total_income'] = df['total_income'].astype('int')

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Шаг 2.4. Удаление дубликатов.

In [35]:
# подсчёт явных дубликатов
df.duplicated().sum()

54

In [36]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

In [37]:
# проверка на отсутствие дубликатов
df.duplicated().sum()

0

**Обработка неявных дубликатов.**

In [38]:
# проверка на наличие неявных дубликатов в категориальных столбцах.
print(df['children'].sort_values().unique())
print(df['education'].sort_values().unique())
print(df['education_id'].sort_values().unique())
print(df['family_status'].sort_values().unique())
print(df['family_status_id'].sort_values().unique())
print(df['gender'].sort_values().unique())
print(df['income_type'].sort_values().unique())
print(df['debt'].sort_values().unique())
print(df['purpose'].sort_values().unique())

[-1  0  1  2  3  4  5 20]
['ВЫСШЕЕ' 'Высшее' 'НАЧАЛЬНОЕ' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Начальное'
 'Неоконченное высшее' 'СРЕДНЕЕ' 'Среднее' 'УЧЕНАЯ СТЕПЕНЬ'
 'Ученая степень' 'высшее' 'начальное' 'неоконченное высшее' 'среднее'
 'ученая степень']
[0 1 2 3 4]
['Не женат / не замужем' 'в разводе' 'вдовец / вдова' 'гражданский брак'
 'женат / замужем']
[0 1 2 3 4]
['F' 'M' 'XNA']
['безработный' 'в декрете' 'госслужащий' 'компаньон' 'пенсионер'
 'предприниматель' 'сотрудник' 'студент']
[0 1]
['автомобили' 'автомобиль' 'высшее образование'
 'дополнительное образование' 'жилье' 'заняться высшим образованием'
 'заняться образованием' 'на покупку автомобиля'
 'на покупку подержанного автомобиля' 'на покупку своего автомобиля'
 'на проведение свадьбы' 'недвижимость' 'образование' 'операции с жильем'
 'операции с коммерческой недвижимостью' 'операции с недвижимостью'
 'операции со своей недвижимостью' 'покупка жилой недвижимости'
 'покупка жилья' 'покупка жилья для сдачи' 'покупка жилья для семьи'
 'п

**Столбец 'children'**

In [39]:
# количество клиентов, где количество детей равно -1 или 20
print(df[df['children'] == -1]['children'].count())
print(df[df['children'] == 20]['children'].count())

47
76


**Вероятнее всего имеет место человеческая ошибка ввода данных, поэтому исправим отрицательное значение на положительное, а 20 на 2.**

In [40]:
# замена
df.loc[df['children'] == -1, 'children'] = 1
df.loc[df['children'] == 20, 'children'] = 2

In [41]:
# проверка результатов замены
df['children'].sort_values().unique()

array([0, 1, 2, 3, 4, 5])

**Столбец 'gender'**

In [42]:
# обзор строк, где не указан пол клиента
df[df['gender'] == 'XNA'].loc[:]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10690,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Всего одна строка, что не повлияет на результаты исследования.

**Приведение к одному регистру.**

In [43]:
# Приведение к одному регистру столбцов 'education' и 'family_status'.
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()

In [44]:
# повторная проверка неявных дубликатов в столбцах 'education' и 'family_status'..
print(df['education'].sort_values().unique())
print(df['family_status'].sort_values().unique())

['высшее' 'начальное' 'неоконченное высшее' 'среднее' 'ученая степень']
['в разводе' 'вдовец / вдова' 'гражданский брак' 'женат / замужем'
 'не женат / не замужем']


Неявные дубликаты отсутствуют.

In [45]:
# Обзор неявных дубликатов по столбцу 'purpose'
purposes = df['purpose'].sort_values().unique()
 
for purpose in purposes:
    print(purpose)

автомобили
автомобиль
высшее образование
дополнительное образование
жилье
заняться высшим образованием
заняться образованием
на покупку автомобиля
на покупку подержанного автомобиля
на покупку своего автомобиля
на проведение свадьбы
недвижимость
образование
операции с жильем
операции с коммерческой недвижимостью
операции с недвижимостью
операции со своей недвижимостью
покупка жилой недвижимости
покупка жилья
покупка жилья для сдачи
покупка жилья для семьи
покупка коммерческой недвижимости
покупка недвижимости
покупка своего жилья
получение высшего образования
получение дополнительного образования
получение образования
приобретение автомобиля
профильное образование
ремонт жилью
свадьба
свой автомобиль
сделка с автомобилем
сделка с подержанным автомобилем
строительство жилой недвижимости
строительство недвижимости
строительство собственной недвижимости
сыграть свадьбу


In [46]:
# определение единных стандартов неявных дубликатов по столбцу 'purpose'
purposes = df['purpose'].sort_values().unique()
 
for purpose in purposes:
    if ('автомобил' in purpose and
        'ремонт' not in purpose):
        print('сделка с автомобилем:', purpose)
    elif ('автомобил' in purpose and
        'ремонт' in purpose):
        print('ремонт автомобиля:', purpose)
    elif 'образован' in purpose:
        print('на образование:', purpose)
    elif (('жиль' in purpose or
          'недвижим' in purpose) and
          'ремонт' not in purpose):
        print('операции с недвижимостью:', purpose)
    elif (('жиль' in purpose or
          'недвижим' in purpose) and
          'ремонт' in purpose):
        print('ремонт недвижимости:', purpose)
    elif 'свадьб' in purpose:
        print('сыграть свадьбу:', purpose)
    else:
        print(' :', purpose)
        

сделка с автомобилем: автомобили
сделка с автомобилем: автомобиль
на образование: высшее образование
на образование: дополнительное образование
операции с недвижимостью: жилье
на образование: заняться высшим образованием
на образование: заняться образованием
сделка с автомобилем: на покупку автомобиля
сделка с автомобилем: на покупку подержанного автомобиля
сделка с автомобилем: на покупку своего автомобиля
сыграть свадьбу: на проведение свадьбы
операции с недвижимостью: недвижимость
на образование: образование
операции с недвижимостью: операции с жильем
операции с недвижимостью: операции с коммерческой недвижимостью
операции с недвижимостью: операции с недвижимостью
операции с недвижимостью: операции со своей недвижимостью
операции с недвижимостью: покупка жилой недвижимости
операции с недвижимостью: покупка жилья
операции с недвижимостью: покупка жилья для сдачи
операции с недвижимостью: покупка жилья для семьи
операции с недвижимостью: покупка коммерческой недвижимости
операции с не

In [47]:
# Функция для замены неявных дубликатов для столбца 'purpose'
def replace_purposes(purposes):
    for purpose in purposes:
        try:
            if ('автомобил' in purpose and
                'ремонт' not in purpose):
                df['purpose'] = df['purpose'].replace(purpose, 'сделка с автомобилем')
            elif ('автомобил' in purpose and
                  'ремонт' in purpose):
                df['purpose'] = df['purpose'].replace(purpose, 'ремонт автомобиля')
            elif 'образован' in purpose:
                df['purpose'] = df['purpose'].replace(purpose, 'на образование')
            elif (('жиль' in purpose or
                   'недвижим' in purpose) and
                   'ремонт' not in purpose):
                df['purpose'] = df['purpose'].replace(purpose, 'операции с недвижимостью')                
            elif (('жиль' in purpose or
                   'недвижим' in purpose) and
                   'ремонт' in purpose):
                df['purpose'] = df['purpose'].replace(purpose, 'ремонт недвижимости')
            elif 'свадьб' in purpose:
                df['purpose'] = df['purpose'].replace(purpose, 'сыграть свадьбу')
        except:
            df['purpose'] = df['purpose']



In [48]:
# замена неявных дубликатов для столбца 'purpose'
purposes = df['purpose'].sort_values().unique()
replace_purposes(purposes)

In [49]:
# проверка замены неявных дубликатов для столбца 'purpose'
df['purpose'].sort_values().unique()

array(['на образование', 'операции с недвижимостью',
       'ремонт недвижимости', 'сделка с автомобилем', 'сыграть свадьбу'],
      dtype=object)

In [50]:
# повторный подсчёт явных дубликатов
df.duplicated().sum() 

331

In [51]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

In [52]:
df.duplicated().sum() # проверка на отсутствие дубликатов

0

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Новые датафреймы — это те самые «словари», к которым сможно обращаться по идентификатору.

In [53]:
# создаем два новых датафрейма со столбцами:

# education_id и education — в первом;
education_df = df[['education_id', 'education']]
display(education_df.head())

#family_status_id и family_status — во втором.
family_status_df = df[['family_status_id', 'family_status']]
display(family_status_df.head())

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак


In [54]:
# подсчёт явных дубликатов
education_df.duplicated().sum()
family_status_df.duplicated().sum()

21135

In [55]:
# удаление дубликатов из education_df, family_status_df
education_df = education_df.drop_duplicates().reset_index(drop=True)
family_status_df = family_status_df.drop_duplicates().reset_index(drop=True)

In [56]:
# подсчёт явных дубликатов
education_df.duplicated().sum()
family_status_df.duplicated().sum()

0

In [57]:
# Удаление из исходного датафрейма столбцов education и family_status
df = df.drop(['education', 'family_status'], axis=1)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,сделка с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,на образование
4,0,0.0,53,1,1,F,пенсионер,0,15861,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

In [None]:
# расчет значений столбца total_income_category

def total_income_category(total_income):
    """
    На основании диапазонов, указанных ниже, присваивается категория:
    0–30000 — 'E';
    30001–50000 — 'D';
    50001–200000 — 'C';
    200001–1000000 — 'B';
    1000001 и выше — 'A'.
    """
    try:
        if 0 <= total_income <= 30000:
            return 'E'
        elif 30001 <= total_income <= 50000:
            return 'D'
        elif 50001 <= total_income <= 200000:
            return 'C'
        elif 200001 <= total_income <= 1000000:
            return 'B'
        elif total_income >= 1000001:
            return 'A'
    except:
        return 'Данные не соответствуют положительной области целых чисел'



df['total_income_category'] = df['total_income'].apply(total_income_category)

### Шаг 2.7. Категоризация целей кредита.

**Данная задача была решена в рамках задачи "Обработка неявных дубликатов"**

### Ответы на вопросы.

Ниже приведенные вопросы необходимо рассматривать в плоскости относительных величин показателя наличия задолженности к общему числу клиентов в рамках рассматриваемых категорий.

В данном случае среднее значение является показателем характеризующим долю задолжавших относительно общего числа клиентов в своей категории:
- по количеству детей,
- семейному положению,
- уровню дохода,
- целям кредита.

То есть, чем выше среднее значение, тем ниже кредитная дисциплина.

##### Вопрос 1:

Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [59]:
# вывод основных показателей
df.groupby('children').agg({'debt': ['count', 'sum', 'mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,13843,1061,0.076645
1,4804,445,0.092631
2,2115,202,0.095508
3,329,27,0.082067
4,40,4,0.1
5,9,0,0.0


##### Вывод 1:

Можно сделать вывод, что наличие детей отрицательно влияет на возврат кредитов.

##### Вопрос 2:

Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [60]:
# вывод основных показателей
family_status_debt_indicators = df.groupby('family_status_id').agg({'debt': ['count', 'sum', 'mean']})
family_status_df.merge(family_status_debt_indicators, on='family_status_id', how = 'left')



Unnamed: 0,family_status_id,family_status,"(debt, count)","(debt, sum)","(debt, mean)"
0,0,женат / замужем,12094,929,0.076815
1,1,гражданский брак,4124,388,0.094083
2,2,вдовец / вдова,944,63,0.066737
3,3,в разводе,1193,85,0.071249
4,4,не женат / не замужем,2785,274,0.098384


##### Вывод 2:

Можно сказать, что клиенты в гражданском браке и холостые менее дисциплинированы чем оставшиеся категории.

##### Вопрос 3:

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [61]:
# вывод основных показателей
df.groupby('total_income_category').agg({'debt': ['count', 'sum', 'mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,4488,325,0.072415
C,12713,1180,0.092818
D,294,19,0.064626
E,3620,213,0.05884


##### Вывод 3:

Можно сказать, что рост доходов отрицательно влияет на кредитную дисциплину.

##### Вопрос 4:

Как разные цели кредита влияют на его возврат в срок?

In [62]:
# вывод основных показателей
df_grouped_purpose = df.groupby('purpose').agg({'debt': ['count', 'sum', 'mean']})
df_grouped_purpose

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
на образование,3964,370,0.09334
операции с недвижимостью,9992,746,0.07466
ремонт недвижимости,607,35,0.057661
сделка с автомобилем,4271,402,0.094123
сыграть свадьбу,2306,186,0.080659


##### Вывод 4:

Сортированный список (по убыванию дисциплинированности) наглядно покажет ответ на поставленный вопрос.

In [63]:
# сортировка
df_grouped_purpose['debt']['mean'].sort_values()

purpose
ремонт недвижимости         0.057661
операции с недвижимостью    0.074660
сыграть свадьбу             0.080659
на образование              0.093340
сделка с автомобилем        0.094123
Name: mean, dtype: float64

##### Вопрос 5:

Есть ли зависимость между уровнем образования и возвратом кредита в срок?

In [64]:
# вывод основных показателей
education_debt_indicators = df.groupby('education_id').agg({'debt': ['count', 'sum', 'mean']})
education_df.merge(education_debt_indicators, on='education_id', how = 'left')

Unnamed: 0,education_id,education,"(debt, count)","(debt, sum)","(debt, mean)"
0,0,высшее,5216,278,0.053298
1,1,среднее,14892,1362,0.091459
2,2,неоконченное высшее,744,68,0.091398
3,3,начальное,282,31,0.109929
4,4,ученая степень,6,0,0.0


##### Вывод 5:

Клиенты c высшим образованием более дисциплинированы.

##### Вопрос 6:

Как пол клиента влияет на возврат в срок?

In [65]:
# вывод основных показателей
df_grouped_gender = df[df['gender'] != 'XNA'].groupby('gender').agg({'debt': ['count', 'sum', 'mean']})
df_grouped_gender

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
F,13941,993,0.071229
M,7198,746,0.10364


##### Вывод 6:

Женщины более дисциплинированы.

##### Вопрос 7:

Как разные виды дохода влияют возврат кредита в срок?

In [66]:
# вывод основных показателей
df.groupby('income_type').agg({'debt': ['count', 'sum', 'mean']})

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,2,1,0.5
в декрете,1,1,1.0
госслужащий,1450,86,0.05931
компаньон,5037,376,0.074648
пенсионер,3737,216,0.0578
предприниматель,2,0,0.0
сотрудник,10910,1059,0.097067
студент,1,0,0.0


In [67]:
# для наглядности уберем безработных, декретников, предпринимателя и студента
df_grouped_income_type = df[(df['income_type'] != 'безработный')  &
                       (df['income_type'] != 'в декрете') &
                       (df['income_type'] != 'предприниматель') &
                       (df['income_type'] != 'студент')].groupby('income_type').agg({'debt': ['count', 'sum', 'mean']})
df_grouped_income_type

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
госслужащий,1450,86,0.05931
компаньон,5037,376,0.074648
пенсионер,3737,216,0.0578
сотрудник,10910,1059,0.097067


##### Вывод 7:

Сортированный список (по убыванию дисциплинированности) наглядно покажет ответ на поставленный вопрос.

In [68]:
# сортировка
df_grouped_income_type['debt']['mean'].sort_values()

income_type
пенсионер      0.057800
госслужащий    0.059310
компаньон      0.074648
сотрудник      0.097067
Name: mean, dtype: float64

##### Вопрос 8:

Как образование и пол влияют на возврат кредита в срок?

In [76]:
# создание сводной таблицы
df_pivot = df[df['gender'] != 'XNA'].pivot_table(index='education_id', columns='gender', values='debt', aggfunc=['count','mean'])
education_df.merge(df_pivot, on = 'education_id', how = 'right')

Unnamed: 0,education_id,education,"(count, F)","(count, M)","(mean, F)","(mean, M)"
0,0,высшее,3513,1703,0.047538,0.065179
1,1,среднее,9803,5089,0.078445,0.116526
2,2,неоконченное высшее,460,283,0.08913,0.095406
3,3,начальное,163,119,0.09816,0.12605
4,4,ученая степень,2,4,0.0,0.0


##### Вывод 8:

Наиболее дисциплинированные - женщины с высшим образованием.

## Общий вывод:

Были проверено пять гипотез и установлено:

1. Наличие детей отрицательно влияет на возврат кредитов.
2. Клиенты в гражданском браке и холостые менее дисциплинированы чем оставшиеся категории.
3. Рост доходов отрицательно влияет на кредитную дисциплину.
4. См. выше раздел Вывод 4.
5. Клиенты c высшим образованием более дисциплинированы.
6. Женщины более дисциплинированы.
7. См. выше раздел Вывод 7.
8. Наиболее дисциплинированные - женщины с высшим образованием.
