# Исследование надежности заемщиков.

Заказчик — кредитный отдел банка. Необходимо установить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — сделать обзор и предобработку данных с целью ответа на вопросы заказчика, с последовательным формированием общего вывода:

* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?


**Ход исследования**

Данные для выполнения задачи будут получены из файла `data.csv`. При обзоре данных будет совершена проверка на возможные ошибки, которые могут помещать исследованию. После будет совершена предобработка данных с целью исправления ошибок, а также необзодимы группировка и сортировка данных для наглядности формируемых выводов исследования. Затем обработанные данные будут проанализированы с целью поиска ответов на вопросы, а на их основе будет сформирован общий вывод.
 
Таким образом, исследование пройдёт в четыре этапа:
 1. [**Обзор данных**](#1)
 2. [**Предобработка данных**](#2)
 3. [**Ответы на вопросы**](#3)
 4. [**Вывод**](#4)





<a id='1'></a>

## Обзор данных

In [1]:
# импортируем библиотеки для работы с данными

import os
import pandas as pd 

pd.options.display.float_format = '{:,.2f}'.format
pd.options.mode.chained_assignment = None
os.chdir('C:\\Users\\dmitr\\GitHub\\Practicum-Data-Analysis\\datasets')

In [2]:
# импортируем файл с данными и выводим общую информацию о таблице

df = pd.read_csv('data.csv')
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Таблица содержит 12 столбцов, содержащих 3 типа данных — `object`, `int` и `float`.

Описание данных согласно документации:
    
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

total_images — число фотографий квартиры в объявлении

Столбцы `days_employed` и `total_income` имеют меньше данных, чем все остальные, что указывает на наличие пропущенных значений, причём количество пропусков идентично, что может указывать на общую причину отсутствия данных. Столбцы `education` и `family` имеют соответствующие столбцы с идентификаторами, что позже позволит вынести значения столбцов в отдельные таблицы и оставить в основном датафрейме лишь идентификаторы, тем самым упростив чтение данных.

In [3]:
# выводим первые 10 строк датафрейма для обзора данных

df.head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,-5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,340266.07,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
5,0,-926.19,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья
6,0,-2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем
7,0,-152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование
8,2,-6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы
9,0,-2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи


Вывод первых 10 строк датафрейма позволил выявить следующее:

1. Столбец `days_employed` помимо пропусков содержит аномальные данные - большинство данных имеют отрицательные значение, а значение в строке с индексом `4` подразумевает, что клиент имеет рабочий стаж около 932 лет (340266 дней стажа / 365 дней в году). Возможна ошибка при выгрузке или неверный формат данных - необходимо выяснить природу аномалий на этапе предобработки данных.
<br>
<br>
2. В столбце `education` содержатся дубликаты - одинаковые значения в разных регистрах.
<br>
<br>
3. Данные из `total_income` представлены в формате `float`, что потенциально не имеет необходимости и лишь затрудняет чтение таблицы из-за количества знаков после запятой. Пропуск в строке с индексом `12` может быть связан с отсутствием дохода у клиента, так как в этой же строке пропущено значение в столбце `days_employed`(трудовой стаж) - если эта гипотеза подтвердится, то пропуски можно будет заменить нулевыми значениями.

<a id='2'></a>

## Предобработка данных

### Заполнение пропусков

Первым этапом предобработки данных станет заполнение пропущенных значений. В столбце `total_income` при первичном обзоре не было выявлено аномальных значений, потому следует начать с него.

In [4]:
# вывод первых 10 строк с пропущенными значениями в столбце

df[df['total_income'].isna()].head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


При обзоре данных было видвинуто предположение, что отсутствие дохода может быть связано с отсутствием трудового стажа у клиента, и как видно из таблицы - все строки с пропусками в столбце `total_income` действительно также содержат пропуски в столбце `days_employed`. Но при этом нет пропусков в столбце `income_type`(занятость клиента), а наличие в нём данных подразумевает минимальный трудовой стаж или доход. Проанализируем уникальные значения столбца `income_type`, другими словами - узнаем, какие есть типы занятости в таблице:

In [5]:
# выводим уникальные значения занятости клиентов

df['income_type'].unique() 

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

В полученном множестве можно увидеть несколько категорий, обычно не подразумевающих наличие дохода: `безработный`, `студент` и `в декрете`. Выведем строки с этими данными в столбце `income_type`, чтобы проверить это предположение:

In [6]:
# выводим строки с типами занятости "безработный", "студент" и "в декрете"

display(
    df[df['income_type'] == 'студент'], 
    df[df['income_type'] == 'безработный'], 
    df[df['income_type'] == 'в декрете']
)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9410,0,-578.75,22,высшее,0,Не женат / не замужем,4,M,студент,0,98201.63,строительство собственной недвижимости


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.47,31,среднее,1,женат / замужем,0,M,безработный,1,59956.99,покупка жилья для сдачи
14798,0,395302.84,45,Высшее,0,гражданский брак,1,F,безработный,0,202722.51,ремонт жилью


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
20845,2,-3296.76,39,СРЕДНЕЕ,1,женат / замужем,0,F,в декрете,1,53829.13,автомобиль


Предположение не оправдалось - клиенты всех трёх категорий имеют как и доход, так и трудовой стаж. Связи с типом занятости и наличием пропусков в столбцах с доходом обнаружить не удалось. Так как все остальные категории занятости подразумевают наличие дохода и стажа работы, мы не можем использовать нулевые значения для заполнения пропусков. Расчитаем долю пропущенных данных в столбце с доходом:

In [7]:
# разделяем количество ячеек с пропусками на общее количество ячеек в столбце
# и умножаем на 100 для нахождения процента пропущенных значений.

na_share = df['total_income'].isna().sum()/len(df['total_income']) * 100
print(f'Процент пропусков составляет около {int(na_share)}%.')

Процент пропусков составляет около 10%.


Для заполнения попробуем использовать среднее или медианое значение.

In [8]:
print(f'''Значения в столбце:

максимальное - {round(df['total_income'].max())} 
минимальное - {round(df['total_income'].min())}
среднее - {round(df['total_income'].mean())}
медианое - {round(df['total_income'].median())}''')

Значения в столбце:

максимальное - 2265604 
минимальное - 20667
среднее - 167422
медианое - 145018


Так как мы видим большую разницу между минимальным и максимальным значением столбца, среднее может отображать неверное представление о доходах клиентов. Потому для заполения пропусков используем медианое значение.

In [9]:
 # заполняем пропуски медианым значением
    
df['total_income'] = (
    df['total_income']
    .fillna(df['total_income'].median())
)

df.isna().sum() # выводим информацию о пропущенных значениях в таблице

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

---
**Вывод**

В столбце `total_income` было пропущенно около 10% значений, которые были заменены на медианые значения (так как есть большая разница между максимальными и минимальными значениями, среднее арифметическое могло быть не показательным). Причину пропусков установить не удалось.

### Проверка данных на аномалии и исправления

В столбце `days_employed` мы обнаружили аномальные данные - отрицательные или слишком большие значения. Попробуем разобраться!

В таблице трудовой стаж клиентов представлен в виде количества дней, несмотря на то, что общепринято считать стаж в годах. Попробуем реализовать это в датафрейме:

1. Предположим, что отрицательные данные корректны, но записаны с неправильным знаком - приведём их к абсолютным значениям.
2. Разделим количество дней стажа на 365, тем самым получив рабочий стаж в количестве лет.
3. Переименуем столбец.

In [10]:
df['days_employed'] = df['days_employed'].abs() / 365 # получаем количество лет стажа
df = df.rename(columns={'days_employed' : 'years_employed'}) # меняем название столбца
df.head(10) # смотрим что получилось

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.12,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,11.03,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,15.41,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,11.3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,932.24,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
5,0,2.54,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья
6,0,7.89,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем
7,0,0.42,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование
8,2,18.99,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы
9,0,6.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи


А получилось следующее - теперь во втором столбце у нас указано количество лет стажа. Из-за наличия пропусков мы пока не можем привести данные к целому числу, но сначала нужно разобраться с аномально большими значениями. Для их поиска предположим, что все клиента банка начали трудовой стаж не раньше достижения 14 лет (минимальный возраст для начала ограниченной трудовой деятельности согласно ТК РФ). Значит при вычитании стажа из возраста результат должен быть не меньше `14` - представим это предположение в виде условия для логической индексации:

In [11]:
# сохраним датафрейм с строками, которые не соответствуют условию нашего предположения, в переменную `employed_anomaly`,
# с её помощью расчитаем долю этих данных в столбце в %, затем выведем результат на экран.

employed_anomaly = df.loc[(df['dob_years'] - df['years_employed']) < 14] 
employed_anomaly_share = round(
    len(employed_anomaly) / len(df['years_employed']) * 100, 2
)

print(f'''Количество строк с аномальными значениями - {len(employed_anomaly)}
Доля значений составляет {employed_anomaly_share} %''')
employed_anomaly.head(10)

Количество строк с аномальными значениями - 3535
Доля значений составляет 16.42 %


Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,932.24,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
18,0,1096.66,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.78,на покупку подержанного автомобиля
24,1,927.54,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.24,операции с коммерческой недвижимостью
25,0,996.02,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.76,покупка недвижимости
30,1,919.4,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.07,операции с коммерческой недвижимостью
35,0,1079.51,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.68,на проведение свадьбы
50,0,969.13,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.73,автомобили
56,0,1014.1,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.04,образование
71,0,926.34,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.7,автомобили
78,0,985.54,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.65,сделка с автомобилем


Получилось около 16% процента аномалий. Можно попробовать ещё лучше - поскольку для расчётов используется столбец `dob_years`, на всякий случай нужно проверить его значения:

In [12]:
df['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Получается, что у 101 клиента вместо возраста указан `0`, что влияет на расчёт аномального стажа. Изучим столбец чуть подробнее - посчитаем среднее и медиану, выберем из них значение для замены нулевых данных.

In [13]:
display(df['dob_years'].median()) # медиана
display(df['dob_years'].mean()) # среднее

42.0

43.29337979094077

Значения не сильно отличаются, но лучше использовать медиану - среднее значение явно тянет в большую сторону из-за преобладания более взрослых клиентов.

In [14]:
# заполним нулевые значения столбца с возрастом медианой и ещё раз проверим аномалии столбца со стажем работы,
# предварительно заново сохранив необхоидимые переменные

df.loc[df['dob_years'] == 0, 'dob_years'] = df['dob_years'].median() 

employed_anomaly = df.loc[(df['dob_years'] - df['years_employed']) < 14] 
employed_anomaly_share = round(len(employed_anomaly) / len(df['years_employed']) * 100, 2)
print(f'''Количество строк с аномальными значениями - {len(employed_anomaly)}
Доля значений составляет {employed_anomaly_share} %''')
employed_anomaly.head(10)

Количество строк с аномальными значениями - 3463
Доля значений составляет 16.09 %


Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,932.24,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
18,0,1096.66,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.78,на покупку подержанного автомобиля
24,1,927.54,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.24,операции с коммерческой недвижимостью
25,0,996.02,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.76,покупка недвижимости
30,1,919.4,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.07,операции с коммерческой недвижимостью
35,0,1079.51,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.68,на проведение свадьбы
50,0,969.13,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.73,автомобили
56,0,1014.1,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.04,образование
71,0,926.34,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.7,автомобили
78,0,985.54,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.65,сделка с автомобилем


Всего в столбце со стажем осталось 16.09% аномальных значений - возможно клиенты ошиблись при предоставлении данных или произошла ошибка при выгрузке. Эти аномальные значения, как и пропущенные, заполним медианой.

In [15]:
df.loc[(
    (df['dob_years'] - df['years_employed']) < 14, 'years_employed'
)] = df['years_employed'].median() # заменяем аномалии медианой

df['years_employed'] = (
    df['years_employed']
    .fillna(
        df['years_employed']
        .median())
) # заполняем пропуски медианой

df.isna().count() # проверяем количество значений в таблице

children            21525
years_employed      21525
dob_years           21525
education           21525
education_id        21525
family_status       21525
family_status_id    21525
gender              21525
income_type         21525
debt                21525
total_income        21525
purpose             21525
dtype: int64

В рамках этого исследования предстоит выяснить связь между наличием детей и возвратом кредита в срок, потому столбец `children` является одним из важнейших источников данных. Подсчитаем значения столбца, чтобы убедиться, что всё в порядке:

In [16]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Потенциально аномальные значения - 20 (многовато) и -1 (маловато). Выведем часть этих строк на экран, а также расчитаем долю этих значений от общих данных:

In [17]:
# сохраним датафрейм со строками с аномально большими значениями в переменную `children_anomaly`,
# с её помощью расчитаем долю этих данных в столбце в %, затем выведем результат на экран.

children_anomaly = df[df['children'] == 20] 
children_anomaly_share = round(len(children_anomaly) / len(df['children']) * 100, 2)

print(f'''Количество строк с аномальными значениями - {len(children_anomaly)}
Доля значений составляет {children_anomaly_share} %''')
children_anomaly.head()

Количество строк с аномальными значениями - 76
Доля значений составляет 0.35 %


Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,2.41,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.87,покупка жилья
720,20,2.34,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.74,покупка недвижимости
1074,20,9.07,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.54,получение образования
2510,20,7.44,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.84,операции с коммерческой недвижимостью
2941,20,5.92,42,среднее,1,женат / замужем,0,F,сотрудник,0,199739.94,на покупку автомобиля


In [18]:
# сделаем тоже самое для отрицательных значений в столбце.

children_anomaly = df[df['children'] < 0] 
children_anomaly_share = round(len(children_anomaly) / len(df['children']) * 100, 2)

print(f'''Количество строк с аномальными значениями - {len(children_anomaly)}
Доля значений составляет {children_anomaly_share} %''')
children_anomaly.head()



Количество строк с аномальными значениями - 47
Доля значений составляет 0.22 %


Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,12.1,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.35,профильное образование
705,-1,2.47,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.9,приобретение автомобиля
742,-1,8.7,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.04,дополнительное образование
800,-1,6.01,54,среднее,1,Не женат / не замужем,4,F,пенсионер,0,86293.72,дополнительное образование
941,-1,6.01,57,Среднее,1,женат / замужем,0,F,пенсионер,0,145017.94,на покупку своего автомобиля


Суммарная доля аномальных значений составляет меньше 1%. В таком случае данные не повлияют на результаты исследования, потому можно их удалить:

In [19]:
df = df[(df['children'] >= 0) & (df['children'] <= 5)] # оставляем только строки с количеством детей от 0 до 5
df['children'].value_counts() # снова считаем значения столбца


0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

---
**Вывод**

В столбце `days_employed` помимо пропусков были обнаружены аномальные значение (слишком большие или отрицательные значения). Они были обработаны следующим образом:

1. Сделано предположение, что отрицательные данные корректны, но записаны с неправильным знаком - значения были умножены на (-1).
2. Данные в столбце выразили в годах стажа вместо дней. Столбцец переименован, данные разделены на 365.
3. Аномально большие значние были выявлены вычитанием стажа работа из возраста клиента с условием, что клиента предположительно начали работать не раньше 14 лет - таким образом доля аномальных значение составила 0.76%. Но при выполнении шага также были обнаружены нулевые значения в данных с возрастом клиентов - после их заполнения медианым значением итоговая доля аномальных значений составила **16.09%**. Возможно клиенты ошиблись при предоставлении данных или произошла ошибка при выгрузке. Аномальные и пропущенные значения заполены медианой.

Также аномальные значения были обнаружены в столбце `children` - `20` и `-1`. Суммарная доля этих значений составила меньше 1% от данных столбца, поэтому они не могут повлиять на результаты исследования и были удалены.

В таблице больше не осталось пропущенных значений, потому можно приступать к следующему шагу предобработки данных.


### Изменение типов данных

Взглянем ещё раз на общую информацию о таблице.

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   years_employed    21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  float64
 11  purpose           21402 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Для целей исследования у нас нет необходимости в данных типа `float`, скорее даже наоборот - знаки после запятой лишь усложняют восприятие информации. Изначально в датасете было два столбца с такими данными, `years_employed` *(бывший `days_employed`)* и `total_income`. Поскольку мы использовали медианое значение для заполнения пропусков, в столбце `dob_years` данные также стали относиться к типу `float`. Привёдем данные из всех трёх столбцов к целым числам.

In [21]:
# меняем тип столбцов и смотрим, что получилось

df[['years_employed', 'dob_years', 'total_income']] = (
    df[['years_employed', 'dob_years', 'total_income']]
    .astype(int)
)

df[['years_employed', 'dob_years', 'total_income']]

Unnamed: 0,years_employed,dob_years,total_income
0,23,42,253875
1,11,36,112080
2,15,33,145885
3,11,32,267628
4,6,53,158616
...,...,...,...
21520,12,43,224791
21521,6,67,155999
21522,5,38,89672
21523,8,38,244093


In [22]:
df.info() # проверяем типы данных

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21402 non-null  int64 
 1   years_employed    21402 non-null  int32 
 2   dob_years         21402 non-null  int32 
 3   education         21402 non-null  object
 4   education_id      21402 non-null  int64 
 5   family_status     21402 non-null  object
 6   family_status_id  21402 non-null  int64 
 7   gender            21402 non-null  object
 8   income_type       21402 non-null  object
 9   debt              21402 non-null  int64 
 10  total_income      21402 non-null  int32 
 11  purpose           21402 non-null  object
dtypes: int32(3), int64(4), object(5)
memory usage: 1.9+ MB


---
**Вывод**

Для целей исследования нет необходимости в данных типа `float`, которые содержались в столбцах `years_employed`, `dob_years` и `total_income`. Для упрощения восприятия информации в таблице, все данные этих столбцов были приведены к формату `int`.

### Удаление дубликатов

Дальше займёмся неявными дубликатами - подробно изучим каждый столбец с типом `object`. При обзоре данных в глаза сразу бросилось наличие в столбце `education` одинаковых данных, записанных в разном регистре. Нужно изучить данные столбца поподробнее.

In [23]:
df['education'].unique() # список уникальных значений столбца

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Грамматических ошибок не обнаружено, потому данные перестанут дублироваться, если привести их к единому регистру.

In [24]:
df['education'] = df['education'].str.lower() # приведём данные столбца к нижнему регистру
print(df['education'].unique()) # посмотрим на новый список уникальных значений

len(df['education'].unique()) == len(df['education_id'].unique())
# сравним количество уникальных значений `education` и `education_id`, 
# для дальнейшего исследования важно, чтобы они были равны 

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


True

Дальше попробуем также сравнить столбцы `family_status` и `family_status_id` - если дубликатов нет, то они также должны быть равны.

In [25]:
len(df['family_status'].unique()) == len(df['family_status_id'].unique()) # если получится True - дубликатов нет

True

Посмотрим значения столбца `gender`:

In [26]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Искали дубликаты, а нашли больше пропущенных значений! Выведем строки с значением `XNA`.  

In [27]:
df[df['gender'] == 'XNA']

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,6,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


В датасете всего одна строка с таким значением - возможна ошибка при выгрузке, или же от клиента не было информации в этой категории. Пол клиента невозможно определить по другим данным из датасета, но для задач исследования эти данные не будут использованны, потому оставим этот столбец в первоначальном виде. Дальше перейдём к `income_type`.

In [28]:
df['income_type'].unique() # посмотрим уникальные значения столбца

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

С этим столбцом всё в порядке, переходим к последнему - `purpose`

In [29]:
df['purpose'].unique() # посмотрим уникальные значения столбца

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Вот тут и собрались все дубликаты. Посмотрим на столбец используя метод подсчёта значений:

In [30]:
df['purpose'].value_counts()

свадьба                                   796
на проведение свадьбы                     772
сыграть свадьбу                           769
операции с недвижимостью                  673
покупка коммерческой недвижимости         661
покупка жилья для сдачи                   651
операции с жильем                         648
операции с коммерческой недвижимостью     646
жилье                                     642
покупка жилья                             641
покупка жилья для семьи                   640
недвижимость                              632
строительство собственной недвижимости    628
операции со своей недвижимостью           626
строительство жилой недвижимости          622
строительство недвижимости                620
покупка своего жилья                      619
покупка недвижимости                      619
ремонт жилью                              609
покупка жилой недвижимости                603
на покупку своего автомобиля              504
заняться высшим образованием      

Данные из столбца можно разделить на четыре типа: `Образование`, `Недвижимость`, `Автомобиль` и `Свадьба`. Несмотря на явно схожие значения, всё же некорректно считать их за дубликаты - кто-то хочет высшее образование, кто-то дополнительное, кто-то хочет новый автомобиль, а не поддержанный - такие детали могут быть важны при необходимости рассмотреть заявки на кредит в индивидуальном порядке. Будет лучше оставить данные в первоначальном виде, а затем применить к ним категоризацию по четырём типам, описанными выше.

В конце проверяем наличие явных дубликатов стандартными методами библиотеки `pandas`:

In [31]:
display(df.duplicated().sum()) # выводим количество дубликатов
round(df.duplicated().sum()/len(df) * 100, 2) # считаем долю в процентах

72

0.34

Задублированных строк получилось меньше половины процента, можно смело удалять.

In [32]:
df = df.drop_duplicates().reset_index(drop=True) # удаляем дубликаты и обновляем индекс строк
df.duplicated().sum() # проверяем

0

---
**Вывод**

Проведена проверка на наличие дубликатов всех столбцов с данными типа `object`. В столбце `education` были исправлены дубликаты, возникшие в связи с записью в разных регистрах. В столбце `purpose` оказалось много схожих данных, по сути не являющихся дубликатами - корректнее будет позднее применить к ним категоризацию, данные оставлены в изначальном виде в информационных целях. В конце была совершена проверка на явные дубликаты, в ходе которой было выявлено 72 задублированные строки (около 0.34% от общих данных), после чего они были удалены.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма

Вернёмся к столбцам `education` и `family_status`. Они уже имеют соответствующие столбцы с идентификаторами, что позволяет нам вынести значения столбцов в отдельные таблицы и оставить в основном датафрейме лишь идентификаторы, тем самым упростив чтение данных, а при необходимости уточнить значение идентификатора - всегда можно будет обратиться к этим таблицам - "словарям".

In [33]:
# создаём две новые таблицы с данными по образованию и семейному статусу клиентов, содержащие соответствующий идентификатор,
# затем удаляем лишние столюцы из изначального датафрейма и смотрим, что получилось. 

education_df = (
    df[['education','education_id']]
    .drop_duplicates()
    .reset_index(drop=True)
) 

family_status_df = (
    df[['family_status','family_status_id']]
    .drop_duplicates()
    .reset_index(drop=True)
)

df = df.drop(columns=['education', 'family_status'])

display(education_df)
display(family_status_df)
df.info()

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21330 non-null  int64 
 1   years_employed    21330 non-null  int32 
 2   dob_years         21330 non-null  int32 
 3   education_id      21330 non-null  int64 
 4   family_status_id  21330 non-null  int64 
 5   gender            21330 non-null  object
 6   income_type       21330 non-null  object
 7   debt              21330 non-null  int64 
 8   total_income      21330 non-null  int32 
 9   purpose           21330 non-null  object
dtypes: int32(3), int64(4), object(3)
memory usage: 1.4+ MB


---
**Вывод**

Для упрощения работы с таблицой для данных по уровню образования и семейным статусом клиентов были созданы отдельные датафреймы ("словари"), в изначальной таблице оставлены только идентификаторы. 

Названия датафреймов для последующих обращений:

`education_df` - сведения об уровнях образования
<br>
`family_status_df` - сведения о семейном статусе

### Категоризация дохода

Для целей исследования необходимо категоризовать доходы клиентов. Добавим в датафрейм дополнительный столбец `total_income_category` со следующими категориями:

* Доход от 0 до 30000 — категория `E`;
* Доход от 30001 до 50000 — категория `D`;
* Доход от 50001 до 200000 — категория `C`;
* Доход от 200001 до 1000000 — категория `B`;
* Доход от 1000001 и выше — категория `A`

In [34]:
def income_category(income): #напишем функцию для присвоения категории в соответствии с уровнем дохода
    
    if 0 < income <= 30000:
        return 'E'
    if 30001 < income <= 50000:
        return 'D'
    if 50001 < income <= 200000:
        return 'C'
    if 200001 < income <= 1000000:
        return 'B'
    if 1000000 < income:
        return 'A'
    
    # проверим работу функции на случайных числах
    
try: 
    income_test_values = [60000, 1000000000, 9800]
    
    for value in income_test_values:
        display(f'Доход составляет {value}, относится к категории {income_category(value)}')    
        
except:
    display('Автор исследования пока что плохо пишет функции :Р')

'Доход составляет 60000, относится к категории C'

'Доход составляет 1000000000, относится к категории A'

'Доход составляет 9800, относится к категории E'

In [35]:
# проверим работу функции на небольшом срезе столбца 'total_income'

try:
    df_test_values = df['total_income'][50:53]  
    
    for value in df_test_values:
        display(f'Доход составляет {value}, относится к категории {income_category(value)}')    
        
except:
    display('Автор исследования функции вроде пишет, но с индексацией слабовато :(')

'Доход составляет 92342, относится к категории C'

'Доход составляет 203199, относится к категории B'

'Доход составляет 52746, относится к категории C'

Функция работает! Применим её к столбцу `total_income` и создадим дополнительный столбец с результатами.

In [36]:
# применяем функцию и сохраняем результат в отдельном столбце

df['income_category'] = df['total_income'].apply(income_category)
df.head(10) # смотрим на обновлённый датафрейм

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,income_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,6,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,2,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,7,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,0,50,1,0,M,сотрудник,0,135823,образование,C
8,2,18,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,5,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


---
**Вывод**

Для выполения целей исследования была написана функция для присваивания категории в зависимости от уровня дохода клиента, которая сохраняет результат в новый столбец `income_category`. 

### Категоризация целей кредита

Вернёмся к столбцу `purpose`:

In [37]:
df['purpose'].value_counts()

свадьба                                   790
на проведение свадьбы                     762
сыграть свадьбу                           760
операции с недвижимостью                  672
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          620
строительство недвижимости                619
покупка своего жилья                      619
покупка недвижимости                      616
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образованием      

Создадим ещё одну функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

* `операции с автомобилем`
* `операции с недвижимостью`
* `проведение свадьбы`
* `получение образования`

Но для начала нужно придумать, как будет осуществлена проверка того, что все данные попали в категории выше. Уникальных значений много, потому довольно легко что-то упустить. Если функция назначения категории будет работать на основе поиска частичных совпадений в строке (например, для категории `операция с автомобилем` будем искать данные, содержащие `'авто'`), то можно будет просто сравнить сумму количества значение во всех категориях c количеством значений в столбце.

In [38]:
category_sum = 0 # создадим счётчик для суммы значений в категориях

category_sum += df['purpose'].str.contains('авто').sum() # ищем данные для категории 'операции с автомобилем'
category_sum += df['purpose'].str.contains('недвижим|жил').sum() # ищем данные для категории 'операции с недвижимостью'
category_sum += df['purpose'].str.contains('свадьб').sum() # ищем данные для категории 'проведение свадьбы'
category_sum += df['purpose'].str.contains('образован').sum() # ищем данные для категории 'получение образования'

print(f"Всего в столбце {df['purpose'].count().sum()} значений.") # вспоминаем, сколько всего данных должно быть в столбце
print(f"Сумма категорий составляет {category_sum} значений.") # выводим сумму категорий

Всего в столбце 21330 значений.
Сумма категорий составляет 21330 значений.


Метод работает, все данные успешно распределяются по категориям. Напишем функцию по аналогии с той, которой мы присваивали категорию дохода:

In [39]:
def purpose_category(purpose): #напишем функцию для присвоения категории в соответствии с целью получения кредита
    
    if 'авто' in purpose:
            return 'операции с автомобилем'
    if 'недвижим' in purpose or 'жил' in purpose:
            return 'операции с недвижимостью'
    if 'свадьб' in purpose:
            return 'проведение свадьбы'
    if 'образован' in purpose:
            return 'получение образования'
    
    
    # проверим работу функции на случайных значениях
    
try: 
    purpose_test_values = ['хочу автомобиль', 'дайте денег на свадьбу!', 'жилья нет никакого :(']
    
    for value in purpose_test_values:
        display(f'Клиента указал "{value}", категория - {purpose_category(value)}')    
        
except:
    display('Автор исследования всё ещё плохо пишет функции :Р')

'Клиента указал "хочу автомобиль", категория - операции с автомобилем'

'Клиента указал "дайте денег на свадьбу!", категория - проведение свадьбы'

'Клиента указал "жилья нет никакого :(", категория - операции с недвижимостью'

In [40]:
# проверим работу функции на небольшом срезе столбца 'total_income'

try:
    df_test_values = df['purpose'][117:120]  
    
    for value in df_test_values:
        display(f'Клиента указал "{value}", категория - {purpose_category(value)}')            
        
except:
    display('Автор исследования функции вроде пишет, но с индексацией слабовато :(')

'Клиента указал "на покупку автомобиля", категория - операции с автомобилем'

'Клиента указал "на проведение свадьбы", категория - проведение свадьбы'

'Клиента указал "покупка коммерческой недвижимости", категория - операции с недвижимостью'

Функция работает исправно, можем использовать её в работе:

In [41]:
df['purpose_category'] = df['purpose'].apply(purpose_category) # применяем функцию и сохраняем результат в отдельном столбце
df.head(10) # смотрим на обновлённый датафрейм

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,income_category,purpose_category
0,1,23,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,11,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,15,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,11,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,6,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,2,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,7,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,0,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,18,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,5,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Всё получилось! Последний шаг - переорганизуем столбцы в датафрейме так, чтобы категория дохода была по соседству с уровнем заработка, а категория цели кредита была рядом с самой целью.

In [42]:
df.columns # выведем список колонок

Index(['children', 'years_employed', 'dob_years', 'education_id',
       'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
       'purpose', 'income_category', 'purpose_category'],
      dtype='object')

In [43]:
df = df.reindex(columns = ['children', 'years_employed', 'dob_years', 'education_id',
       'family_status_id', 'gender', 'income_type', 'debt', 'total_income','income_category',
       'purpose', 'purpose_category']) # получаем датафрейм с новым порядком столбцов
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,income_category,purpose,purpose_category
0,1,23,42,0,0,F,сотрудник,0,253875,B,покупка жилья,операции с недвижимостью
1,1,11,36,1,0,F,сотрудник,0,112080,C,приобретение автомобиля,операции с автомобилем
2,0,15,33,1,0,M,сотрудник,0,145885,C,покупка жилья,операции с недвижимостью
3,3,11,32,1,0,M,сотрудник,0,267628,B,дополнительное образование,получение образования
4,0,6,53,1,1,F,пенсионер,0,158616,C,сыграть свадьбу,проведение свадьбы
5,0,2,27,0,1,M,компаньон,0,255763,B,покупка жилья,операции с недвижимостью
6,0,7,43,0,0,F,компаньон,0,240525,B,операции с жильем,операции с недвижимостью
7,0,0,50,1,0,M,сотрудник,0,135823,C,образование,получение образования
8,2,18,35,0,1,F,сотрудник,0,95856,C,на проведение свадьбы,проведение свадьбы
9,0,5,41,1,0,M,сотрудник,0,144425,C,покупка жилья для семьи,операции с недвижимостью


---
**Вывод**

Для выполения целей исследования была написана функция для присваивания категории в зависимости от целей получения кредита клиентом, которая сохраняет результат в новый столбец `purpose_category`.

Также столбцы таблицы были переорганизованы таким образом, чтобы уровень и категория дохода, а также цель получения кредита и её категория находились по соседству.

На этом предобработка данных завершена.

<a id='3'></a>

## Ответы на вопросы

Все вопросы заказчика связаны с факторами, влияющими на возврат кредита в срок. Согласно документации, показателем для этого может являться данные из столбца `debt` - наличие у клиента задолженностей в прошлом.

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Количество детей в таблице отображено в столбце `children`, а наличие в прошлом долга по кредиту - в столбце `debt`. Создадим на их основе сводную таблицу.

In [44]:
# создаём сводную таблицу, где названия строк соответствуют количеству детей, в столбце '0' - количество клиентов без долга,
# в столбце '1' - количество клиентов с долгом. Также создаём два дополнительных столбца - с процентной долей должников в строке
# от общего числа должников в 'total_debt share' и процентной долей отношения должников к клиентам без задолженностей
# 'debt_share'. Для удобства ограниваем количество знаков после запятой до двух и выводим таблицу на экран, отсортировав 
# по значению столбца 'debt_share'. 

children_debt_pivot = (
    df.pivot_table(index ='children',
                   columns='debt', 
                   values='years_employed', 
                   aggfunc='count', 
                   fill_value=0)
)

children_debt_pivot['debt_share'] = round(
    children_debt_pivot[1] / children_debt_pivot[0] * 100, 2
)

children_debt_pivot['total_debt_share'] = round(
    children_debt_pivot[1] / children_debt_pivot[1].sum() * 100, 2
)

children_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,37,4,10.81,0.23
2,1858,194,10.44,11.2
1,4364,444,10.17,25.64
3,303,27,8.91,1.56
0,13027,1063,8.16,61.37
5,9,0,0.0,0.0


---
**Вывод**

По имеющимся данным сложно объективно оценить зависимость количества детей и возвратом кредита в срок - имеется очень большая разница в количестве заявок по категорим. Процентная доля должников по количеству детей в отношении общего числа должников (столбец `total_debt_share`) растёт пропорционально общему количеству заявок. А вот отношение должников к клиентам без задолженностей (столбец `debt_share`) более показательно - несмотря на значительное меньшее количество заявок, доля должников у клиентов с детьми выше, чем у клиентов без детей. Если не учитывать клиентов с четырьмя детьми (всего 41 заявка), то самая большая доля должников находится среди клиентов с двумя детьми - `10.49%` против `8.13%` у клиентов без детей. Можно сделать вывод, что наличие детей у клиентов увеличивает вероятность появления задолженности по кредиту.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

Создадим такую же сводную таблицу для данных из столбцов `debt` и `family_status_id`. Для наглядности добавим расшифровку идентификатора семейного статуса из ранее созданного датафрейма `family_status_df`.

In [45]:
# создаём сводную таблицу, где названия строк соответствуют семейному положению и соответствующему идентификатору, 
# в столбце '0' - количество клиентов без долга, в столбце '1' - количество клиентов с долгом. Также создаём два дополнительных столбца - с процентной долей должников в строке
# от общего числа должников в 'total_debt share' и процентной долей отношения должников к клиентам без задолженностей
#'debt_share'. Для удобства ограниваем количество знаков после запятой до двух и выводим таблицу на экран, отсортировав 
# по значению столбца 'debt_share'. 

family_debt_pivot = (
    df.pivot_table(index = ['family_status_id'], 
                   columns='debt', values='years_employed', 
                   aggfunc='count')
)

family_debt_pivot = (
    family_status_df
    .merge(family_debt_pivot, 
           on='family_status_id', 
           how = 'left')
)

family_debt_pivot['debt_share'] = round(
    family_debt_pivot[1]/family_debt_pivot[0] * 100, 2
)

family_debt_pivot['total_debt_share'] = round(
    family_debt_pivot[1] / family_debt_pivot[1].sum() * 100, 2
)

family_debt_pivot.sort_values('debt_share', ascending=False)

Unnamed: 0,family_status,family_status_id,0,1,debt_share,total_debt_share
4,Не женат / не замужем,4,2523,273,10.82,15.76
1,гражданский брак,1,3748,385,10.27,22.23
0,женат / замужем,0,11334,927,8.18,53.52
3,в разводе,3,1105,84,7.6,4.85
2,вдовец / вдова,2,888,63,7.09,3.64


---
**Вывод**

По данным из таблицы можно сделать вывод, что клиенты, никогда не состоявшие в браке (в том числе клиенты в гражданском браке) имеют значительно большую долю должников по сравнению с теми, кто состоит в браке на данный момент или в прошлом (развод/овдовение). 

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Сделаем ещё одну сводную таблицу с данными из столбцов `debt` и `income_category`. Принцип разделения на категории дохода:

* Доход от 0 до 30000 — категория `E`;
* Доход от 30001 до 50000 — категория `D`;
* Доход от 50001 до 200000 — категория `C`;
* Доход от 200001 до 1000000 — категория `B`;
* Доход от 1000001 и выше — категория `A`

In [46]:
# создаём сводную таблицу, где названия строк соответствуют категории уровня дохода, в столбце '0' - количество клиентов 
# без долга, в столбце '1' - количество клиентов с долгом. Также создаём два дополнительных столбца - с процентной долей должников в строке
# от общего числа должников в 'total_debt share' и процентной долей отношения должников к клиентам без задолженностей 
#'debt_share'. Для удобства ограниваем количество знаков после запятой до двух и выводим таблицу на экран, отсортировав 
# по значению столбца 'debt_share'. 

income_debt_pivot = df.pivot_table(index='income_category', 
                                   columns='debt', values='years_employed', 
                                   aggfunc='count', fill_value=0)

income_debt_pivot['debt_share'] = round(
    income_debt_pivot[1] / income_debt_pivot[0] * 100, 2
)

income_debt_pivot['total_debt_share'] = round(
    income_debt_pivot[1] / income_debt_pivot[1].sum() * 100, 2
)

income_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E,20,2,10.0,0.12
C,14568,1353,9.29,78.12
A,23,2,8.7,0.12
B,4658,354,7.6,20.44
D,328,21,6.4,1.21


---
**Вывод**

Практически все должники находятся в категориях `C` и `B` - условные "средний доход" и "доход выше среднего". Самая большая доля должников представлена в категории `E`, из чего можно сделать вывод, что клиенты с доходом от 0 до 30000 являются самой рискованной группой заёмщиков из рассмотренных. Но при том, что заявок в этой категории относительно мало, к самой рискованной группе лучше отнести категорию `С` (доход от 50001 до 200000) в виду следующей по величине доле должников по отношению к остальным клиентом в категории и самой большой (78%) долей должников от общего количества клиентов с долгом.

### Как разные цели кредита влияют на его возврат в срок?

Последняя сводная таблица будет состоять из данных столбцов `debt` и `purpose_category`.

In [47]:
# создаём сводную таблицу, где названия строк соответствуют категории уровня дохода, в столбце '0' - количество клиентов 
# без долга, в столбце '1' - количество клиентов с долгом. Также создаём два дополнительных столбца - с процентной долей должников в строке
# от общего числа должников в 'total_debt share' и процентной долей отношения должников к клиентам без задолженностей 
#'debt_share'. Для удобства ограниваем количество знаков после запятой до двух и выводим таблицу на экран, отсортировав 
# по значению столбца 'debt_share'. 

purpose_debt_pivot = df.pivot_table(index='purpose_category', 
                                    columns='debt', 
                                    values='years_employed', 
                                    aggfunc='count')

purpose_debt_pivot['debt_share'] = round(
    purpose_debt_pivot[1] / purpose_debt_pivot[0] * 100, 2
)

purpose_debt_pivot['total_debt_share'] = round(
    purpose_debt_pivot[1] / purpose_debt_pivot[1].sum() * 100, 2
)

purpose_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,3879,400,10.31,23.09
получение образования,3619,369,10.2,21.3
проведение свадьбы,2129,183,8.6,10.57
операции с недвижимостью,9971,780,7.82,45.03


---
**Вывод**

Большинство должников представлены в категории `операции с недвижимостью`, но при этом категория `операции с автомобилем` содержит большую долю должников по сравнению с клиентами без долга внутри категории, что указывает на  потенциально больший риск для банка при работе с этой категорией клиентов. Но в целом можно сказать, что цель получения кредита не сильно влияет на его возврат в срок, сохраняется большой разброс по количеству заявок. Например, процент должников в первых двух категориях сопоставим, что говорит о большом влиянии количества заявок на отражаемые доли клиентов с долгом.

<a id='4'></a>

## Общий вывод:

Целью исследование являлось обзор и предобработка предоставленных заказчиком данных для нахождения ответов на следующие вопросы:

* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

В ходе исследования была проведена большая работа по предобработке данных - обработаны пропущенные и аномальные значения, дробные данные были приведены к целым числам для облегчения восприятия информации, удалены или обработаны явные и неявные дубликаты, часть данных была вынесена в отдельные таблицы с возмонжостью последующего обращения, а к части данных были применены методы категоризации.

Результатом исследования стали следующие выводы:

* Несмотря на значительное меньшее количество заявок, доля должников у клиентов с детьми выше, чем у клиентов без детей. Если не учитывать клиентов с четырьмя детьми (всего 41 заявка), то самая большая доля должников находится среди клиентов с двумя детьми - 10.49% против 8.13% у клиентов без детей. Можно сделать вывод, что наличие детей у клиентов увеличивает вероятность появления задолженности по кредиту.

In [48]:
children_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,37,4,10.81,0.23
2,1858,194,10.44,11.2
1,4364,444,10.17,25.64
3,303,27,8.91,1.56
0,13027,1063,8.16,61.37
5,9,0,0.0,0.0


* Клиенты, никогда не состоявшие в браке (в том числе клиенты в гражданском браке) имеют значительно большую долю должников по сравнению с теми, кто состоит в браке на данный момент или состоял в прошлом (развод/овдовение).

In [49]:
family_debt_pivot.sort_values('debt_share', ascending=False)

Unnamed: 0,family_status,family_status_id,0,1,debt_share,total_debt_share
4,Не женат / не замужем,4,2523,273,10.82,15.76
1,гражданский брак,1,3748,385,10.27,22.23
0,женат / замужем,0,11334,927,8.18,53.52
3,в разводе,3,1105,84,7.6,4.85
2,вдовец / вдова,2,888,63,7.09,3.64


* Большая часть должников (около 78%) находятся в условной категории "средний доход" (доход от 50001 до 200000), и имеет самый высокий процент должников по отношению к остальным клиентам (без учёта категории `E` в виду относительно малого количества заявок).

In [50]:
income_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E,20,2,10.0,0.12
C,14568,1353,9.29,78.12
A,23,2,8.7,0.12
B,4658,354,7.6,20.44
D,328,21,6.4,1.21


* Цель получения кредита не сильно влияет на его возврат в срок, так как клиенты разных категорий со схожим количеством заявок имеет сопоставимые доли должников по отношению к остальным клиентам.

In [51]:
purpose_debt_pivot.sort_values('debt_share', ascending=False)

debt,0,1,debt_share,total_debt_share
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,3879,400,10.31,23.09
получение образования,3619,369,10.2,21.3
проведение свадьбы,2129,183,8.6,10.57
операции с недвижимостью,9971,780,7.82,45.03


Для повышения эффективности подобных исследований заказчику даются следующие рекомендации по сбору данных:

* В данных трудовой стаж клиентов представлен в виде количества дней, несмотря на то, что общепринято считать стаж в годах. При сборе информации в таком виде возможны ошибки ввода или подсчёта, а также усложняется процесс предобработки данных. Рекомендуется трудовой стаж клиентов сразу исчислять в годах.


* При получении данных посредством анкетирования или других подобных способов необходимо сделать все поля обязательными для заполнения, для исключения случаев пропущенных значений. При их обработки аналитики вынуждены делать предположения, использовать средние и медианые значения - всё это может повлиять на точность результатов исследования.


* Текстовые данные необходимо принимать и хранить в одном регистре, для избежания появления дубликатов.


* Необходимо настроить условие для ввода, исключающие введение нулевых или отрицательных значений в таких данных как "возраст клиента".


* Для целей заявки на кредит и уровня дохода можно реализовать категоризацию ещё на этапе получения данных от клиента, избежав необходимости в лишней обработке