# Исследование надежности заемщиков.

<a id='study_purpose'>**Цель исследования** — проверить следующие гипотезы:</a>

1. Существует зависимость между количеством детей и возвратом кредита в срок.
2. Существует зависимость между семейным положением и возвратом кредита в срок.
3. Существует зависимость между уровнем дохода и возвратом кредита в срок.
4. Разные цели кредита влияют на его возврат в срок.

**Ход исследования**

Данные  о платёжеспособности клиентов, предоставленные кредитным отделом банка, возьмем из следующего файла:`/datasets/data.csv`. О качестве данных нам ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки  поищем возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.

### Обзор данных

In [1]:
import pandas as pd #импорт библиотеки pandas

In [2]:
df = pd.read_csv('/datasets/data.csv')# таблицу с данными сохраним в df
df.head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
df.info() # общая информация о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов.
Согласно документации к данным:
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

Количество значений в столбцах `days_employed` и `total_income` отличается от общего кол-ва строк. Значит, в данных есть пропущенные значения.

In [4]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Результат обзора данных: 
- Количество значений в столбцах `days_employed` и `total_income` отличается от общего кол-ва строк. Значит, в данных есть пропущенные значения;
- В колонке со стажем есть отрицательные значения ;
- Разный регистр  букв в колонке с уровнем образования `education`;
- Минимальное значение в колонке с возрастом `dob_years`  — 0.

###  Заполнение пропусков

Посчитаем количество пропусков в таблице df.

In [5]:
df.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Стаж клиентов не анализируется при исследовании гипотез,  пропуски в столбце `days_employed` заполним нулем.

В столбцах `days_employed` и `total_income` одинаковое количество пропусков, но все же отдельно проверим, дейстивтельно ли эти пропуски в одних и тех же строках, или в разных.

In [6]:
# посчитем количество строк, в которых пропуски и в столце стажа days_employed, и в стобце дохода total_income
df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())]['children'].count()

2174

Делаем вывод, что если неизветсно о стаже клиента, то и ежемесячный доход клиента не заполнен.
Вычислим, какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

In [7]:
print("Доля пропущенных значений: {:.1%}".format(df['days_employed'].isna().mean()))


Доля пропущенных значений: 10.1%


In [8]:
df.loc[df['days_employed'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [9]:
df.loc[df['days_employed'].isna()].tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля


Судя по выборке первых и последних строк с пропусками между строками нет ничего общего. Можно предположить, что данные вызваны технической ошибкой или ошибкой выгрузки данных. Либо эти люди никогда официально не работали и форма для заполнения данных о клиенте, позволяет оставить эти поля незаполненными. 

В пропусках количественные данные. Пропуски заполним медианным значением, в таком случаем пропуски не исказят данные и исключат влияние аномальных значений, в отличие от способа заполнения пропусков средним.

In [10]:
#df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())
#df['total_income'] = df['total_income'].fillna(df['total_income'].median())
#df.info()

Заполним пропуски в столбце с ежемесячным доходом медианным в категории людей с опредленным типом занятости.

In [11]:
#создадим список с медианными знаечниями для каждой категорий
income_median_by_type = df.groupby('income_type')['total_income'].median().sort_values()
display(income_median_by_type)

income_type
в декрете           53829.130729
студент             98201.625314
пенсионер          118514.486412
безработный        131339.751676
сотрудник          142594.396847
госслужащий        150447.935283
компаньон          172357.950966
предприниматель    499163.144947
Name: total_income, dtype: float64

In [12]:
for category in income_median_by_type.index:
    median = income_median_by_type[category]
    print('Тип занятости - ', category, ', медианное знаечние дохода - ', median)
    print('Было пропусков:', df[df['income_type'] == category]['total_income'].isnull().sum())
    df.loc[df.loc[:, 'income_type']==category, 'total_income'] = df.loc[df.loc[:, 'income_type']==category, 'total_income'].fillna(median)
    print('Стало пропусков:', df[df['income_type'] == category]['total_income'].isnull().sum())

Тип занятости -  в декрете , медианное знаечние дохода -  53829.13072905995
Было пропусков: 0
Стало пропусков: 0
Тип занятости -  студент , медианное знаечние дохода -  98201.62531401133
Было пропусков: 0
Стало пропусков: 0
Тип занятости -  пенсионер , медианное знаечние дохода -  118514.48641164352
Было пропусков: 413
Стало пропусков: 0
Тип занятости -  безработный , медианное знаечние дохода -  131339.7516762103
Было пропусков: 0
Стало пропусков: 0
Тип занятости -  сотрудник , медианное знаечние дохода -  142594.39684740017
Было пропусков: 1105
Стало пропусков: 0
Тип занятости -  госслужащий , медианное знаечние дохода -  150447.9352830068
Было пропусков: 147
Стало пропусков: 0
Тип занятости -  компаньон , медианное знаечние дохода -  172357.95096577113
Было пропусков: 508
Стало пропусков: 0
Тип занятости -  предприниматель , медианное знаечние дохода -  499163.1449470857
Было пропусков: 1
Стало пропусков: 0


In [13]:
#проверим, остались ли пропуски в столбце с ежемесячным доходом
df['total_income'].isnull().sum()

0

###  Проверка данных на аномалии и исправления.

####  Отрицательные значения в стаже

При первом изучении данных заметно, что значения в столбце `days_employed` отрицательные, это аномалия, стаж не может быть меньше 0.

In [14]:
negative_meaning = df[df['days_employed'] > 0]['days_employed'].count()
total_count = df['days_employed'].count()
f'В столбце со стажем days_employed всего {negative_meaning} значений больше нуля из {total_count} строк'

'В столбце со стажем days_employed всего 3445 значений больше нуля из 19351 строк'

Возможно, причина ошибки в том, что при подготовке данных вычли из даты начала трудового стажа дату окончания.
Устраним аномалию, взяв все значения в столбце по модулю.

In [15]:
df['days_employed'] = df['days_employed'].abs()

negative_meaning = df[df['days_employed'] > 0]['days_employed'].count()
total_count = df['days_employed'].count()
f'Теперь в столбце со стажем days_employed  {negative_meaning} значений больше нуля из {total_count} строк'

'Теперь в столбце со стажем days_employed  19351 значений больше нуля из 19351 строк'

В пункте 0.2 выяснили, что в в столбце `days_employed` есть пропуски. В пропусках количественные данные. Пропуски заполним медианным значением, в таком случаем пропуски не исказят данные и исключат влияние аномальных значений, в отличие от способа заполнения пропусков средним.

In [16]:
print('Медианное занчение стажа:', df['days_employed'].median())
print()
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())
df.info()

Медианное занчение стажа: 2194.220566878695

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверим адекватность значений стажа клиентов. Он должен быть меньше возраста.

In [17]:
df.loc[((df['days_employed']/365)> df['dob_years']) & (df['dob_years'] != 0)].sort_values(by='dob_years')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
1242,0,334764.259831,22,Среднее,1,Не женат / не замужем,4,F,пенсионер,0,89368.600062,получение высшего образования
16166,0,364348.197352,26,среднее,1,гражданский брак,1,M,пенсионер,0,80044.196101,автомобиль
19439,0,389397.167577,26,высшее,0,женат / замужем,0,F,пенсионер,0,214963.301941,покупка недвижимости
12753,1,329781.704997,27,среднее,1,женат / замужем,0,F,пенсионер,0,65198.102341,получение образования
13953,0,376824.585817,27,среднее,1,в разводе,3,M,пенсионер,0,97961.993557,операции с жильем
...,...,...,...,...,...,...,...,...,...,...,...,...
1826,0,368375.048770,73,Среднее,1,вдовец / вдова,2,F,пенсионер,0,74284.473064,покупка жилой недвижимости
2557,0,372861.103965,74,среднее,1,женат / замужем,0,F,пенсионер,0,42927.300898,автомобили
3460,0,344623.836105,74,среднее,1,женат / замужем,0,M,пенсионер,0,54754.745517,операции со своей недвижимостью
4895,0,341528.126150,74,высшее,0,женат / замужем,0,F,пенсионер,0,134935.354225,покупка своего жилья


У 3428 клиентов стаж  превышает возраст. Для проверки гипотез стаж клиентов не требуется, поэтому исправлять аномальные значения не будем. Об этой аномалии необходимо будет сообщить владельцам процесса/разработчикам для поиска причины ошибки.

#### Аномальные значения в количестве детей

Проверим, какие значения есть в колонке с количеством детей.

In [18]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Значение -1 будем считать опечаткой и заменим на 1.

In [19]:
df['children'] = df['children'].replace(-1, 1)
df['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5])

Проверим сколько клиентов с 20 детьми. 

In [20]:
df[df['children'] == 20]['gender'].count()

76

Будем счиатать, что 20 - это опечатка, и заменим на 2. Т.к. семьи с 20-ю детьми - это большая редкость, и нет в выборке промежуточных значений между 5 и 20.

In [21]:
df['children'] = df['children'].replace(20, 2)
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

#### Аномалии в значении  гендера

Проверим, какие значения встречаются в колонке `gender`.

In [22]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [23]:
#Посмотрим на строки с гендером 'XNA'
df[df['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


Для проверки гипотез пол клиента не требуется. Если бы гендер был важен для анализа, данную строку пришлось бы удалить. Т.к. случай ошибки единичный, то возможно он вызван каким-то сбое при заполнении формы/передачи данных.

#### Разный регистр букв в колонке с уровнем образования education

In [24]:
#Проверим количество уникальных видов образования и соответсвующих им id
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [25]:
df['education_id'].unique()

array([0, 1, 2, 3, 4])

In [26]:
#приведем значения к одному регистру
df['education'] = df['education'].str.lower()
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Теперь количество уровней образования соответсвует количетсву индексов в `education_id`.

#### Изучение аномалии в возрасте клиентов (столбец `dob_years`)

В пункте 0.2 в резульате работы функции describe видно, что в колонке с возрастом клиентов `dob_years` минимальное значение  равно 0.
Проверим, сколько таких строк.

In [27]:
df[df['dob_years'] == 0]['days_employed'].count()

101

Для проверки гипотез возраст клиентов не требуется, поэтому исправлять аномальные значения не будем. Об этой аномалии необходимо будет сообщить владельцам процесса/разработчикам для поиска причины ошибки.

#### Изменение типов данных. 

Ежемесячный доход `total_income` для удобства воприятия переведем в тип int (избавимся от знаков после запятой). В дальнейшем для проверки гипотез "копейки" в доходе не повляют на результат.

In [28]:
df['total_income'] = df['total_income'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


In [29]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Удаление дубликатов

Проверим датасет на дубликаты.

In [30]:
df.duplicated().sum()

71

In [31]:
#Удалим дубликаты и проверим результат работы функции
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

0

Возможная причина возникновения дублей - отсутствует  проверка на уникальность при импорте данных в базу.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма

Для того чтобы визуально упростить таблицу, а также оптимизирвоать размер файла и время обработки данных, выделим из датафрейма словари: с уровнем образования и с семейным положением.

In [32]:
#Создадим датафрейм содержащий только id и соответсвующую id расшифровку вида образвания
education_type = df[['education_id','education']]
education_type = education_type.drop_duplicates().reset_index(drop=True)
education_type

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [33]:
#Создадим датафрейм содержащий только id и соответсвующую id расшифровку вида образвания
family_status_type = df[['family_status_id','family_status']]
family_status_type = family_status_type.drop_duplicates().reset_index(drop=True)
family_status_type

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


In [34]:
# Удалим столбцы family_status и education
df = df.drop(columns = ['family_status', 'education'], axis = 1) 
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Категоризация дохода

Разделим клиентов по уровню дохода на 5 категорий:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.
    
    Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`.

In [35]:
#для категоризации дохода создадим функцию
def categorize_income (total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'

In [36]:
#категорию клиента по уровню дохода запишем в новый столбец - total_income_category
df['total_income_category'] = df['total_income'].apply(categorize_income)
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Категоризация целей кредита

In [37]:
#Посмотрим, какие есть цели кредита
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Выделим следующие категории целей кредита:
- операции с автомобилем,
- операции с недвижимостью,
- проведение свадьбы,
- получение образования.

In [38]:
#Выделим четыре категории кредита:
estate = ['недвижим', 'жиль']
wedding = ['свадьб']
auto = ['автомоб']
education = ['образова', 'учеб']
#Категорию цели запищем в новый столбец
df['purpose_category'] = 0
#При помощи функции 
def categorize_purpose(list_of_words, category):
    join = '|'.join(list_of_words)
    index = df[df['purpose'].str.lower().str.contains(join)].index.to_list()
    for i in index:
        df.loc[i, 'purpose_category'] = category
    return df


categorize_purpose(wedding, 'проведение свадьбы')
categorize_purpose(estate, 'операции с недвижимостью')
categorize_purpose(auto, 'операции с автомобилем')
categorize_purpose(education, 'получение образования')

#проверим результат и убедимся, что значений None не осталось
df['purpose_category'].isna().sum()


0

In [39]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Ответы на вопросы.

##### Вопрос 1: Существует зависимость между количеством детей и возвратом кредита в срок?

In [40]:
children_pivot = df.pivot_table(index = ['children'], 
                                columns = ['debt'], 
                                values = 'gender', aggfunc='count')
#в столбце ratio посчитаем какой процент клиентов категории имеет долг по кредиту
#для этого разделим количество клиентов с долгом на общее число клиентов этой категории
children_pivot['ratio'] = children_pivot[1] / (children_pivot[0] + children_pivot[1]) * 100

In [41]:
children_pivot.sort_values(by = 'ratio')

debt,0,1,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,7.543822
3,303.0,27.0,8.181818
1,4410.0,445.0,9.165808
2,1926.0,202.0,9.492481
4,37.0,4.0,9.756098
5,9.0,,


##### Вывод 1:

Однозначный вывод о наличии  зависимости между количеством детей и возвратом кредита в срок сделать не получится:

с увеличением количества детей мы видим увеличение количества просроченных задолженностей, но люди с 3 детьми чаще платят в срок чем люди с 1 ребенком. 

Наблюдается зависимость от наличия детей: Бездетные реже просрачивают оплату по кредиту, чем люди с детьми.

##### Вопрос 2: Существует зависимость между семейным положением и возвратом кредита в срок?

In [42]:
family_status_pivot = df.pivot_table(index = ['family_status_id'], 
                                columns = ['debt'], 
                                values = 'gender', aggfunc='count')
#в столбце ratio посчитаем какой процент клиентов категории имеет долг по кредиту
#для этого разделим количество клиентов с долгом на общее число клиентов этой категории
family_status_pivot['ratio'] = family_status_pivot[1] / (family_status_pivot[0] + family_status_pivot[1]) * 100

In [43]:
family_status_pivot = family_status_pivot.merge(family_status_type, on='family_status_id', how='left')
family_status_pivot = family_status_pivot.drop(columns = ['family_status_id']) 

In [44]:
family_status_pivot.sort_values(by = 'ratio')

Unnamed: 0,0,1,ratio,family_status
2,896,63,6.569343,вдовец / вдова
3,1110,85,7.112971,в разводе
0,11408,931,7.545182,женат / замужем
1,3763,388,9.347145,гражданский брак
4,2536,274,9.75089,Не женат / не замужем


##### Вывод 2:

Да, cуществует зависимость между семейным положением и возвратом кредита в срок.  Люди никогда не бывшие в браке имеют больший процент невозвратов в срок. Но те, кто развелись или овдовели, чаще платят в срок, чем люди в браке.

##### Вопрос 3: Существует зависимость между уровнем дохода и возвратом кредита в срок?

In [45]:
income_pivot = df.pivot_table(index = ['total_income_category'], 
                                columns = ['debt'], 
                                values = 'income_type', aggfunc='count')
#в столбце ratio посчитаем какой процент клиентов категории имеет долг по кредиту
#для этого разделим количество клиентов с долгом на общее число клиентов этой категории
income_pivot['ratio'] = income_pivot[1] / (income_pivot[0] + income_pivot[1]) * 100

In [46]:
income_pivot.sort_values(by = 'ratio')

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,329,21,6.0
B,4686,356,7.06069
A,23,2,8.0
C,14655,1360,8.492039
E,20,2,9.090909


##### Вывод 3:

Зависимость между уровнем дохода и возвратом кредита в срок: реже имеют долги люди с доходом от 30 000 до 50 000, чаще имеют долги люди с дохдом ниже 30 000.

##### Вопрос 4 : Как разные цели кредита влияют на его возврат в срок?

In [47]:
purpose_pivot = df.pivot_table(index = ['purpose_category'], 
                                columns = ['debt'], 
                                values = 'purpose', aggfunc='count')
#в столбце ratio посчитаем какой процент клиентов категории имеет долг по кредиту
#для этого разделим количество клиентов с долгом на общее число клиентов этой категории
purpose_pivot['ratio'] = purpose_pivot[1] / (purpose_pivot[0] + purpose_pivot[1]) * 100

In [48]:
purpose_pivot.sort_values(by = 'ratio')

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10029,782,7.233373
проведение свадьбы,2138,186,8.003442
получение образования,3643,370,9.220035
операции с автомобилем,3903,403,9.359034


##### Вывод 4:

В случае, если цель кредита - приобретение недвиимости, то вероятность возникновения долга - меньше.

Чаще имеют задолженность по кредиту, если цель кредита - `операции с автомобилем`.

## Общий вывод:

Для подготвоки ответа на поставленные вопросы провели пердобработку данных:
1. удалили дубликаты (менее 1%);
2. проанализирвоали имеющиеся аномалии в данных:
  1. отрицательные значения стажа взяли по модулю, пропуски заполнили медианой;
  2. исправили аналомалию в количестве детей;
  3. заметили, но не исправляли аномалии в столбце с гендером, возрастом, стажем(больше возраста);
  4. заполниили пропуски в столбце с ежемесячным доходом мединным знаечнием по типу занятости.
3. Поменяли тип данных у ежемесячного дохода - для  наглядности и удобства.
4. Сделали категоризацию для уровня дохода, целей криедита.
5. Сформировали отдельные словари для уровня образования и семейног остатуса для уменьшения обема таблицы и удобства. 
6. После подготовки данных, сделали сводные таблицы (ипользовали функцию) и ответили на все 4 поставленных вопроса. Были выявили закономерности в просрочках по кредитам(где-то ярко выраженные, а где-то нет).

Согласно результатам исследования реже имеют долги по кредитам следующие категории клиентов:</p>
 - Клиенты без детей;
 - Находящиеся или находивщиеся в официальных отношениях;
 -  С уровнем дохода: 
  - 30001–50000 — `'D'`;
  - 50001–200000 — `'C'`;
  - 200001–1000000 — `'B'`;
 - Клиенты, цель кредита которых - операции с недвижимостью.
