# Содержание <a class="anchor" id="begining"></a>


* [Шаг 1. Обзор данных](#chapter1)
* [Шаг 2.1 Проверка данных на аномалии и исправления.](#chapter2)
* [Шаг 2.2 Заполнение пропусков ](#chapter3)
* [Шаг 2.3. Изменение типов данных.](#chapter4)
* [Шаг 2.4. Удаление дубликатов.](#chapter5)
* [Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.](#chapter6)
* [Шаг 2.6. Категоризация дохода.](#chapter7)
* [Шаг 2.7. Категоризация целей кредита.](#chapter8)
* [Шаг 3. Ответы на вопросы.](#chapter9) 
* [Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?](#chapter9)
* [Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?](#chapter10)
*  [Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#chapter11)
* [Вопрос 4: Как разные цели кредита влияют на его возврат в срок?](#chapter12)
* [Вопрос 5: Есть ли зависимость между уровнем  образования и возвратом кредита в срок?](#chapter13)
* [Итоги исследования](#chapter14)






# Исследование надежности заемщиков.


Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

**Цель исследования** - поиск ответов на следующие вопросы:

1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?
5. Есть ли зависимость между уровнем  образованияи возвратом кредита в срок?

**Итоговые выводы будут положены в основу  разработки модели кредитного скоринга**

**Ход исследования**
 
 
 Исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Поиск ответов на поставленные вопросы.

# Шаг 1. Обзор данных <a class="anchor" id="chapter1"></a>

[К содержанию](#begining)

Предварительно ознакомимся с данными из таблицы

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data.csv')

Выведем на экран первые десять строк таблицы:

In [3]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Также ознакомимся с основными характеристиками датафрейма

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Таблица состоит из 12 столбцов. Тип данных во всех столбцах разный: float64(2), int64(5), object(5).

Согласно документации к данным:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита



 Мы видим, что:
 1. В двух столбцах есть пропущенные значения: в `days_employed`  и в `total_income`.
 2. В столбце `days_employed` присутствуют аномальные значения (отрицательное количество дней трудового стажа).
 3. Как минимум в столбце `education` есть дубликаты (неявные), также требуется дополнительная проверка на дубликаты в других столбцах. 

**Выводы**

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных,  аномальные значения и дубликаты.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

# Шаг 2.1 Проверка данных на аномалии и исправления. <a class="anchor" id="chapter2"></a>

[К содержанию](#begining)

Начнем с поиска аномалий и данных с ошибками. Еще раз взглянем на датафрейм

In [5]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Сразу видим, что в стоблце `days_employed` встречаеются ячейки с отрицательным количеством дней трудового стажа. Скорее всего в данные закралась опечатка, в результате которой в перед значениями появился минус. Однако на 100% уверенными в этом мы быть не можем. 


Проверим какова доля аномальных данных в этом столбце:

In [6]:
wrong_days_employed = len(df[df['days_employed'] < 0]) / len(df['days_employed'])
print(f'Доля аномальных значений составляет: {wrong_days_employed:.2%}')

Доля аномальных значений составляет: 73.90%


Почти 74% - это гигантская цифра, удаление такого количества невозможно данных без ущерба для результатов исследования. 

В условиях реального исследования мы бы обратились к владельцам данных, чтобы утоянить, из-за чего возникла подобная ошибка. Уже после этого принималось бы окончательное решение: исправлять данные, или же удалить аномальные значания. Однако сейчас такой возможности нет, да и на гипотезы исследования трудовой стаж никак не влияет. 

Поэтому исправим это недоразумение путем удаления совершенно неуместного здесь "минуса". 

In [7]:
df['days_employed'] = abs(df['days_employed'])
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Как видим, у нас получилось вернуть клиентам их настоящий трудовой стаж... или все-таки не всем?. 

Если присмотреться к строке с 4 индексом, то можно увидеть, что человек настолько сильно отдавал всего себя работе, что умудрился провести на ней около 932 лет! Так как данные в этом стобце не влияют на проверку гипотез исследования, то не будем подробно останавляиваться на природе подобных ошибок. Тем не менее все-таки стоит передать ответственным сотрудникам, что с данными в столбце `days_employed` явно что-то не так. 

Теперь проверим на наличие артефактов другие столбцы, начнем с данных о количестве детей:

In [8]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Помимо очередного отрицательного значения внимание также привлекает неестественно большое количество клиентов с 20 детьми. Это явно нарушает наблюдаемую в таблице закономерность, согласно которой с увеличением количества детей постепенно уменьшается количество клиентов. Возможно, в обеих странностях  виноваты опечатки, из-за которых к значениям добавились лишние символы: "-" и  "0". Однако в рамках учебного проекта выяснить это без общения с владельцами данных не представляется возможным

Проверим насколько много данных с аномальным значением присутсвтует в столбце в процентах:

In [9]:
bad_kids_ratio = (len(df[df['children'] == 20]) + len(df[df['children'] == -1])) / len(df['children'])
print(f'Доля аномальных значений составляет: {bad_kids_ratio:.2%}')

Доля аномальных значений составляет: 0.57%


Так как значения этого столбца критически важны для проверки гипотез, и при этом доля аномальных значений меньше 1%, оптимальным вариантом здесь будет удаление строк с аномальными значениями:

In [10]:
df = df[(df['children'] != 20) & (df['children'] != -1)]
df.reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21397,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21398,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21399,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21400,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


А теперь проверим, что все исправлено корректно:

In [11]:
df['children'].value_counts()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Все исправления успешно выполнены. 

Теперь обратимся к уникальным значениям столбца `dob_years`

In [12]:
df['dob_years'].value_counts()

35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
44    543
29    543
30    536
48    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
57    457
53    457
51    446
59    441
55    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    263
23    252
65    194
22    183
66    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Опять видим  странное значение: несмотря на всю тяжесть экономической ситуации, маловероятно, что банк решит пойти во все тяжкие и начнет выдавать кредиты людям заранее,  еще до их рождения. 

В данной ситуации лучшим решением для  столбцов с количественными переменными будет **замена пропусков медианным значением**. Предпочтение отдано варианту с медианой, т.к. она **корректнее характеризует данные, когда отдельные значения сильно выделяются среди большинства**.

Для этого, сначала расчитаем медианный возраст клиентов:

In [13]:
age_med = df['dob_years'].median()
age_med

42.0

А затем заменим странные значения полученной цифрой:

In [14]:
df.loc[df['dob_years'] == 0, 'dob_years'] = age_med

Проверим результат:

In [15]:
df['dob_years'].value_counts()

42    692
35    614
41    603
40    603
34    597
38    595
33    577
39    572
31    556
36    553
29    543
44    543
48    536
30    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
53    457
57    457
51    446
59    441
55    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    263
23    252
65    194
66    183
22    183
67    167
21    110
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Все отлично! Теперь рассмотрим столбец `debt`

In [16]:
df['debt'].value_counts()

0    19670
1     1732
Name: debt, dtype: int64

Тут все хорошо. Вот бы всегда так! 

Наконец, займемся проверкой столбца `gender`

In [17]:
df['gender'].value_counts()

F      14154
M       7247
XNA        1
Name: gender, dtype: int64

Также наблюдаем здесь аномальное значение, скорее всего природа подобной ошибки связана с некими техническими неисправностями, ошибкой записи т.к. обычно, пол все-таки выбирается из закрытого перечня вариантов.  Пол человека никак не влияет на проверку исходных гипотез исследования, поэтому оставим все как есть, но при этом сообщим ответственным, что в данных присутствует ошибка. 

**Вывод**

Сразу в нескольких столбцах были обнаружены аномальные значения. Однако не все из них критически влияли на потенциальные результаты исследования. В зависимости от степени их важности, количества и имеющейся информации были выбраны различные стратегии исправления ошибок.

# Шаг 2.2 Заполнение пропусков <a class="anchor" id="chapter3"></a> 

[К содержанию](#begining)

Для начала попробуем самостоятельно обнаружить закономерность в появлении пропусков в столбце `total_income`

Для этого выведем на экран первые 10 строк таблицы с пропусками в столбце `total_income`:

In [18]:
df[df['total_income'].isna()==True].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Итак, мы видим пропуски в количественных переменных в столбцах `days_employed` и `total_income`. 

По этой части таблицы бросается в глаза, что **пропуски в столбце `total_income` появляются одновременно с пропусками в столбце `days_employed`.** Проверим, работает ли это "правило" для всей таблицы. Для этого посчитаем количество пропусков в указанных столбцах по отдельности, а затем сверим это число со значением, возникающем при условии их одновременного появления.

In [19]:
print('Количество пропусков в "total_income":', df['total_income'].isna().sum())
print('Количество пропусков в "days_employed":', df['days_employed'].isna().sum())
print('Количество пропусков одновременно в "total_income" + "days_employed":', len(df[(df['total_income'].isna()==True) & (df['days_employed'].isna()==True)]))


Количество пропусков в "total_income": 2162
Количество пропусков в "days_employed": 2162
Количество пропусков одновременно в "total_income" + "days_employed": 2162


Догадка подтвердилась, **пропуски в обоих столбцах действительно напрямую связаны между собой.** 

Для более подробной характеристики значений из обоих столбцов применим метод `describe()`:

In [20]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21402.0,19240.0,21402.0,21402.0,21402.0,21402.0,19240.0
mean,0.47318,67027.691459,43.496449,0.81712,0.973133,0.080927,167448.8
std,0.751837,139130.846446,12.224613,0.548741,1.420536,0.272729,103105.1
min,0.0,24.141633,19.0,0.0,0.0,0.0,20667.26
25%,0.0,927.984311,34.0,1.0,0.0,0.0,103000.1
50%,0.0,2195.251592,42.0,1.0,0.0,0.0,145020.8
75%,1.0,5556.372075,53.0,1.0,1.0,0.0,203444.7
max,5.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Мы видим, что в столбце days_employed минимальное значение равно 24, а не нулю. 
Учитывая вышесказанное, можно предположить, что пропусками в столбце `days_employed` обозначена ситуация, когда **у клиента нет официального трудоустройства** Соответственно, это приводит к тому, что **у банка нет информации о ежемесячном доходе клиента.** Это, в свою очередь, приводит к пропускам в столбце `total_income`. 

Так как количество пропусков в обоих столбцах идентично, можем сразу вычислить какую долю составляют пропущенные значения в каждом из столбцов с пропусками:

In [21]:
null_ratio = df['total_income'].isna().sum() / len(df['total_income'])
print(f'Доля пропущенных значений составляет: {null_ratio:.0%}')

Доля пропущенных значений составляет: 10%


10% - это ощутимая часть данных, поэтому просто удалить  пропуски мы не можем (т.к. это может исказить результаты исследования).

В данной ситуации лучшим решением для  столбцов с количественными переменными будет **замена пропусков медианным значением**. Предпочтение отдано варианту с медианой, т.к. она **корректнее характеризует данные, когда отдельные значения сильно выделяются среди большинства**. В нашем случае в обоих столбцах показатели дохода и трудового стажа довольно сильно варьируются от клиента к клиенту - об этом свидетельствует значение стандартного отклонения из результата применения метода `describe()`.

In [22]:
total_income_med = df['total_income'].median()
days_employed_med = df['days_employed'].median()

Теперь заменим пропуски в обоих столбцах соответствующим медианным значением и еще раз проверим датафрейм на наличие пропусков:

In [23]:
df['total_income'] = df['total_income'].fillna(total_income_med)
df['days_employed'] = df['days_employed'].fillna(days_employed_med)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  float64
 11  purpose           21402 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Как видим, замена пропусков прошла успешно

**Вывод**

В столбцах `total_income` и `days_employed` были обнаружены пропуски, которые могли повлиять на результаты исследования. Они были связаны между собой: пропусками обозначалось отсутствие у клиента  официального трудоустройства, и соответстенно то, что у банка нет информации о его ежемесячном доходе. 

Так как их количество было существенным и составило 10%, было принято решение не удалять строки с пропущенными значениями, а сами пропуски заменить медианным значением по столбцу. 

# Шаг 2.3. Изменение типов данных. <a class="anchor" id="chapter4"></a>

[К содержанию](#begining)

Для более удобного расчета, заменим вещественный тип данных в столбце `total_income` на целочисленный:

In [24]:
df['total_income'] = df['total_income'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  int64  
 11  purpose           21402 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.1+ MB


Изменение типа прошло успешно

# Шаг 2.4. Удаление дубликатов. <a class="anchor" id="chapter5"></a>

[К содержанию](#begining)

Для начала проверим столбец `education` на наличие неявных дубликатов:

In [25]:
df['education'].value_counts()

среднее                13667
высшее                  4698
СРЕДНЕЕ                  766
Среднее                  703
неоконченное высшее      665
ВЫСШЕЕ                   271
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Видим много совпадающих по сути значений, но набранных в разном регистре. Приведем значения столбца к единому регистру, а затем проверим успешность этой операции:

In [26]:
df['education'] = df['education'].str.lower()
df['education'].value_counts()

среднее                15136
высшее                  5237
неоконченное высшее      741
начальное                282
ученая степень             6
Name: education, dtype: int64

Как видим, теперь форма полностью совпадает с содержанием!

Схожим образом проверим и другие, еще не изученные нами столбцы:

In [27]:
df['family_status'].value_counts()

женат / замужем          12302
гражданский брак          4160
Не женат / не замужем     2799
в разводе                 1189
вдовец / вдова             952
Name: family_status, dtype: int64

Здесь все в порядке, двигаемся дальше:

In [28]:
df['income_type'].value_counts()

сотрудник          11050
компаньон           5054
пенсионер           3839
госслужащий         1453
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Кажется, и тут все в норме, но будет ли так же хорош и наш заключительный столбец?

In [29]:
df['purpose'].value_counts()

свадьба                                   796
на проведение свадьбы                     772
сыграть свадьбу                           769
операции с недвижимостью                  673
покупка коммерческой недвижимости         661
покупка жилья для сдачи                   651
операции с жильем                         648
операции с коммерческой недвижимостью     646
жилье                                     642
покупка жилья                             641
покупка жилья для семьи                   640
недвижимость                              632
строительство собственной недвижимости    628
операции со своей недвижимостью           626
строительство жилой недвижимости          622
строительство недвижимости                620
покупка своего жилья                      619
покупка недвижимости                      619
ремонт жилью                              609
покупка жилой недвижимости                603
на покупку своего автомобиля              504
заняться высшим образованием      

Как видим, с регистром здесь проблем нет, однако есть схожие по смыслу значения. Их обработкой займемся на последующих этапах. 

Наконец, проверим датасет на явные дубликаты:

In [30]:
df.duplicated().sum()

72

Попались! Для окончательной победы над дубликатами удалим из таблицы полностью задублированные строки, а затем проверим успешность наших действий: 

In [31]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

0

С дубликатами покончено!

**Вывод**

Таким образом, мы избавились от явных и неявных дубликатов, которые могли исказить итоговые выводы исследования.  

Появление дубликатов в столбце `education` может быть связано с тем, что в анкете присутствует свободная форма для ввода информации об образовании. Для того, чтобы в будущем данные сразу представлены в удобном для анализа формате, возможно, имеет смысл сделать эту форму с выбором уровня образования из закрытого перечня стандартизированных вариантов. 

# Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма. <a class="anchor" id="chapter6"></a>

[К содержанию](#begining)

Для более удобной классификации клиентов по категориям создадим 2 новых датафрейма-словаря (к которым затем мы будем обращаться по идентификатору):

* **education_dic** - каждому уникальному значению из education соответствует уникальное значение education_id;
* **family_status_dic** - каждому уникальному значению из family_status соответствует уникальное значение family_status_id.


In [32]:
education_dic = df[['education', 'education_id']]
education_dic = education_dic.drop_duplicates().reset_index(drop=True)
education_dic

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Как видим,  первая таблица-словарь сфомирована корректно, дубликаты отсутствуют. 

In [33]:
family_status_dic = df[['family_status', 'family_status_id']]
family_status_dic = family_status_dic.drop_duplicates().reset_index(drop=True)
family_status_dic

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


Аналогичным образом вторая таблица-словарь  сфомирована корректно, дубликаты в ней также отсутствуют. 

Так как у нас тепеь есть отдельные словари с идентификаторами значений, необходимость в столбцах с их названиями в основной таблице отпадает. Чтобы не перегружать основную таблицу, удалим из нее столбцы `education` и `family_status`, а затем проверим успешность этой операции:

In [34]:
df.drop(columns=['education'], axis=1, inplace=True)
df.drop(columns=['family_status'], axis=1, inplace=True)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи


Искомых столбцов в датафрейме не обнаружено. Но так и было задумано!

**Вывод**

Таким образом, при создании таблиц-словарей мы избавились от недостатков, свойственных таблицам с большим количеством разных строковых значений. Благодаря чему:
* Упростилась визуальная работа с таблицей.
* Скоратился размер файла и время обработки данных.
* При фильтрации нам больше не приходится набирать длинное название, в котором можно ошибиться.
* Создание новых категорий и изменение старых теперь занимет меньше времени.


# Шаг 2.6. Категоризация дохода. <a class="anchor" id="chapter7"></a>

[К содержанию](#begining)

Для решения задачи по категоризации клиентов по уровню дохода, создадим функцию, которая будет присваивать каждому клиенту определенное значение в зависимости от размера его ежемесячного дохода:

In [35]:
#Функция, определяющая категорию клиента, в зависимости от уровня его дохода, 
#где A - наиболее, а E - наименее состоятельные клиенты:
def income_group(income):
    if income <= 30000:
        return 'E'
    elif 30001 <= income <= 50000:
        return 'D'
    elif 50001 <= income <= 200000:
        return 'C'
    elif 200001 <= income <= 1000000:
        return 'B'
    return 'A'

Теперь создадим в датафрейме новый столбец `total_income_category`, который будет содержать присвоенную клиенту категорию, затем проверим, что каждый клиент был успешно нами "размечен":

In [36]:
df['total_income_category'] = df['total_income'].apply(income_group)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21330 non-null  int64  
 1   days_employed          21330 non-null  float64
 2   dob_years              21330 non-null  int64  
 3   education_id           21330 non-null  int64  
 4   family_status_id       21330 non-null  int64  
 5   gender                 21330 non-null  object 
 6   income_type            21330 non-null  object 
 7   debt                   21330 non-null  int64  
 8   total_income           21330 non-null  int64  
 9   purpose                21330 non-null  object 
 10  total_income_category  21330 non-null  object 
dtypes: float64(1), int64(6), object(4)
memory usage: 1.8+ MB


Как мы видим, в новом столбце отсутствуют пропуски, значит разбивка по категориям прошла успешно. 

**Вывод**

Таким образом, мы успешно категоризовали клиентов по уровню их дохода, что позволит нам в дальнейшим ответить на вопросы, поставленные перед нами в начале исследования.

# Шаг 2.7. Категоризация целей кредита. <a class="anchor" id="chapter8"></a>

[К содержанию](#begining)

Для решения задачи по категоризации клиентов по целям кредита, создадим функцию, которая будет присваивать каждому клиенту определенное значение в зависимости от того, на что он планирует потратить любезно предоставленные ему банком средства:

In [37]:
#Функция, определяющая категорию клиента, в зависимости целей кредита:
def purpose_group(purpose):
    if 'автомобил' in purpose:
        return 'операции с автомобилем'
    elif ('жил' in purpose) or ('недвижимост' in purpose):
        return 'операции с недвижимостью'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'
    elif 'образован' in purpose:
        return 'получение образования'

Теперь проверим, что все сработало корректно:

In [38]:
df['purpose_category'] = df['purpose'].apply(purpose_group)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21330 non-null  int64  
 1   days_employed          21330 non-null  float64
 2   dob_years              21330 non-null  int64  
 3   education_id           21330 non-null  int64  
 4   family_status_id       21330 non-null  int64  
 5   gender                 21330 non-null  object 
 6   income_type            21330 non-null  object 
 7   debt                   21330 non-null  int64  
 8   total_income           21330 non-null  int64  
 9   purpose                21330 non-null  object 
 10  total_income_category  21330 non-null  object 
 11  purpose_category       21330 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


Как мы видим, в новом столбце отсутствуют пропуски, значит разбивка по категориям вновь прошла успешно. 

**Вывод**

Таким образом, мы успешно категоризовали клиентов по целям кредита, что позволит нам в дальнейшим ответить на вопросы, поставленные перед нами в начале исследования.

# Шаг 3.  Ответы на вопросы. <a class="anchor" id="chapter9"></a>


## Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

[К содержанию](#begining)

Для ответа на первый вопрос, сгруппируем датафрейм по солбцу `children` и посчитаем значения в столбце `debt` (где 1 - есть задолжность, 0 - задолжность отсутствует)

Столбец `sum` - количество должников 

Cтолбец `count` - общее количество клиентов в данной группе

In [39]:
children_result = df.groupby('children')
children_result['debt'].agg(['sum', 'count'])


Unnamed: 0_level_0,sum,count
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1063,14090
1,444,4808
2,194,2052
3,27,330
4,4,41
5,0,9


Может показаться, что с увеличением количества детей возрастает вероятность возврата кредита в срок. Однако это обманчивый вывод, т.к. многодетных семей в принципе меньше, соответственно, как кредитов, так и долгов у них также будет меньше в абсолютных цифрах по сравнению с другими клиентами. 

Для корректного вывода необходимо расчитать долю клиентов с долгами отдельно в рамках каждой категории:

In [40]:
# Создадим функцию, которая выводит на экран относительную долю должников в зависимости от количества детей
def children_percent():
    for i in range(6): 
        debt_per = children_result['debt'].sum()[i] / children_result['debt'].count()[i]
        print(f'Доля должников среди клиентов с количеством детей = {i}: {debt_per:.1%}')

In [41]:
#Вызов созданной функции
children_percent()

Доля должников среди клиентов с количеством детей = 0: 7.5%
Доля должников среди клиентов с количеством детей = 1: 9.2%
Доля должников среди клиентов с количеством детей = 2: 9.5%
Доля должников среди клиентов с количеством детей = 3: 8.2%
Доля должников среди клиентов с количеством детей = 4: 9.8%
Доля должников среди клиентов с количеством детей = 5: 0.0%


## Вывод 1:

* В целом, прослеживается слабовыраженная тенденция того, что чем меньше у клиента детей, тем вероятнее возврат вредита в срок. Однако разница между значениями не превышает 2.5%, при этом с увеличением количества детей уменьшается выборочная совокупность клиентов, поэтому выводы становятся все менее релевантными. 


* Например абсолютно все клиенты, которые имеют пятерых детей не имеют долгов. Но при этом таковых всего 9 человек, что не позволяет говорить о том, что многодетная семья - это стопроцентная гарантия возврата кредита в срок. А вот выборка в категории клиентов без детей довольно внушительная, при этом это единственная категория, где доля должников составляет меньше 8%. 


* Таким образом,пожалуй, можно говорить о том, что **отсутствие у клиентов детей** незначительно **повышает вероятность** возврата кредита в срок. При этом **конкретное количество детей не оказывает существенного влияния** на платежеспособность клиентов. 


* Результаты интуитивно понятные: появление ребенка в семье чревато дополнительными расходами, что может негативно повлиять на финансовое положение в семье. При этом отсутствие большой разницы между конкретным количеством детей может объясняться тем, что после появления первого ребенка семья приобретает определенный опыт, в том числе и того, как грамотно распланировать свои расходы на ребенка. В итоге, когда рождается еще один карапуз, то семья уже знает как, на что и в каких количествах тратить свои сбережения, поэтому резкого увеличения уровня задолжности уже не происходит.  

## Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?<a class="anchor" id="chapter10"></a>

[К содержанию](#begining)

Для ответа на поставленный вопрос сформируем сводную таблицу, сгрупированную по столбцу `family_status_id` с указанием общего количества клиентов в каждой категории (столбец `count`) и количества должников (столбец `sum`)

In [42]:
pivot_fam_status = df.pivot_table(index='family_status_id', values='debt', aggfunc=['sum', 'count'])
pivot_fam_status

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,927,12261
1,385,4133
2,63,951
3,84,1189
4,273,2796


Добавим в полученную таблицу новый столбец `debt_percent` - показывающий долю должников в проецнтах от общего количества клиентов

In [43]:
#Создадим функцию, которая возвращает относительную долю должников 
#в процентах от общего количества клиентов в рамках одной категории
def debt_percent(row):
    try:
        percent = (row['sum'] / row['count']) * 100
        return percent
    except:
        return 'У нас нет таких клиентов!'

А теперь затестдрайвим новоиспеченную функцию:

In [44]:
pivot_fam_status['debt_percent'] = debt_percent(pivot_fam_status)
pivot_fam_status

Unnamed: 0_level_0,sum,count,debt_percent
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,927,12261,7.560558
1,385,4133,9.315267
2,63,951,6.624606
3,84,1189,7.06476
4,273,2796,9.763948


Для того, чтобы таблица приобрела более читабельный вид, объединим ее с нашим заранее подготовленным словарем `family_status_dic`:

In [45]:
pivot_fam_status_final = family_status_dic.merge(pivot_fam_status, on='family_status_id', how='right')
pivot_fam_status_final

  pivot_fam_status_final = family_status_dic.merge(pivot_fam_status, on='family_status_id', how='right')


Unnamed: 0,family_status,family_status_id,"(sum, debt)","(count, debt)","(debt_percent, )"
0,женат / замужем,0,927,12261,7.560558
1,гражданский брак,1,385,4133,9.315267
2,вдовец / вдова,2,63,951,6.624606
3,в разводе,3,84,1189,7.06476
4,Не женат / не замужем,4,273,2796,9.763948


Теперь наша таблица пригодна для анализа и выводов

## Вывод 2:

* В целом, разница в долгах между  клиентами с различным семейным положением не так уж и велика и не превышает 3%. Тем не менее можно обнаружить интересную закономерность: наиболее успешными в плане отсутствия долгов клиентами являются те, кто имел (или имеют до сих пор) опыт официальных супружеских отношений. Как можно увидеть из таблицы, меньше всего долгов именно у таких категорий: "женат/замужем", "вдовец/вдова" и "в разводе". 


* Таким образом, **можно сделать вывод, что если клиент когда-либо вступал в брак, то это  незначительно повышает вероятность возврата кредита в срок.** При этом, судя по всему, важен именно факт официальной регистрации отношений, поскольку как мы видим из таблицы, уровень должников в категориях   "гражданский брак" и 	"Не женат / не замужем" примерно одинаковый. 


* Подобный результат можно связать с тем, что вероятнее всего официальный статус супруга накладывает на человека определенную меру ответственности (в отличие от гражданского брака), тем самым дисциплинируя его поведение. Это позитивно сказывается в том числе и на его финансовой дисциплине и умению грамотно планировать свои расходы.

## Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок? <a class="anchor" id="chapter11"></a>

[К содержанию](#begining)

Проделаем те же самые шаги, что и при ответе на предыдущий вопрос. 

Группируем таблицу по категориям дохода (где А - самые, а Е - наименее состоятельные клиенты):

In [46]:
pivot_income_category = df.pivot_table(index='total_income_category', values='debt', aggfunc=['sum', 'count'])
pivot_income_category

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,2,25
B,354,5013
C,1353,15921
D,21,349
E,2,22


Добавляем столбец с процентным соотношением при помощи ранее созданной функции `debt_percent`:

In [47]:
pivot_income_category['debt_percent'] = debt_percent(pivot_income_category)
pivot_income_category

Unnamed: 0_level_0,sum,count,debt_percent
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,8.0
B,354,5013,7.06164
C,1353,15921,8.49821
D,21,349,6.017192
E,2,22,9.090909


## Вывод 3:

* Результаты выглядят противоречиво. С одной стороны, больше всего долгов у людей с низким доходом, однако в лидерах также находится и группа наиболее состоятельных клиентов. Стоит отметить, что выборка по этим  двум категориям не очень репрезентативна, так как подобных клиентов слишком мало.  Поэтому выводы здесь могут быть не вполне корректными. 


* Тем не менее, глядя на данные из таблицы можно сделать вывод, что наименьшая доля задолжностей у людей с доходом чуть выше и чуть ниже среднего. С одной стороны это кажется контринтуитивным, так как  вроде бы должна быть взаимосвязь между тем, сколько у человека денег и вероятностью возврата кредита в срок. Однако **на практике с ростом  дохода масштабируются и потребности человека, соответственно более обеспеченные люди просто берут в кредит бОльшие суммы. При это соотношение суммы кредита к зарплате клиента может оставаться примерно одинаковым для каждой группы.** Это и приводит к подобным неоднозначным, на первый взгляд, показателям. 


* Таким образом, **полученные данные не позволяют говорить о наличии какой-либо существенной взаимосвязи между уровнем достатка клиента и вероятность возврата кредита в срок.** 

## Вопрос 4: Как разные цели кредита влияют на его возврат в срок? <a class="anchor" id="chapter12"></a>

И вновь следуем знакомому алгоритму -

Группировка таблицы:

[К содержанию](#begining)

In [48]:
pivot_purposes = df.pivot_table(index='purpose_category', values='debt', aggfunc=['sum', 'count'])
pivot_purposes

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,400,4279
операции с недвижимостью,780,10751
получение образования,369,3988
проведение свадьбы,183,2312


Добавление столбца с процентами:

In [49]:
pivot_purposes['debt_percent'] = debt_percent(pivot_purposes)
pivot_purposes

Unnamed: 0_level_0,sum,count,debt_percent
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,400,4279,9.347978
операции с недвижимостью,780,10751,7.255139
получение образования,369,3988,9.252758
проведение свадьбы,183,2312,7.915225


## Вывод 4:

Мы видим, что **вероятность вернуть кредит в срок несколько больше у клиентов, которые берут его для операций с недвижимостью, а также на проведение свадьбы.** 

Более низкая задолженность у "свадебных" влиентов косвенно подтверждает один из наших предыдущих выводов о том, что  если клиент когда-либо вступал в брак, то это незначительно повышает вероятность возврата кредита в срок (в силу того, что брак - это дело ответственное, он позитивно влияет в том числе и на финансовую дисциплину человека).

Возможно, более низкая задолженность в категории "операции с недвижимостью" может быть объяснена тем, что  как правило кредиты на такие цели берутся большие, на длительный срок, часто семейными парами (+1 к нашей гипотезе о женатых клиентах), поэтому банки более тщательно рассматривают каждую подобную заявку. Соответственно и заемщики в данной категории более "качественные" (с точки зрения банков). 

## Вопрос 5: Есть ли зависимость между уровнем  образования и возвратом кредита в срок? <a class="anchor" id="chapter13"></a>


Данного вопроса не было в изначальном задании в рамках этого проекта, однако было бы обидно так и не использовать еще один созданный словарь!

Итак, сводная таблица:

[К содержанию](#begining)

In [50]:
education_pivot = df.pivot_table(index='education_id', values='debt', aggfunc=['sum', 'count'])
education_pivot

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
education_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,278,5227
1,1355,15074
2,68,741
3,31,282
4,0,6


Столбец с процентами:

In [51]:
education_pivot['debt_percent'] = debt_percent(education_pivot)
education_pivot

Unnamed: 0_level_0,sum,count,debt_percent
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
education_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,278,5227,5.318538
1,1355,15074,8.988988
2,68,741,9.176788
3,31,282,10.992908
4,0,6,0.0


Объединение со словарем для лучшей наглядности:

In [52]:
education_pivot_final = education_dic.merge(education_pivot, on='education_id', how='left')
education_pivot_final

  education_pivot_final = education_dic.merge(education_pivot, on='education_id', how='left')


Unnamed: 0,education,education_id,"(sum, debt)","(count, debt)","(debt_percent, )"
0,высшее,0,278,5227,5.318538
1,среднее,1,1355,15074,8.988988
2,неоконченное высшее,2,68,741,9.176788
3,начальное,3,31,282,10.992908
4,ученая степень,4,0,6,0.0


В отличие от предыдущих таблиц, здесь разброс в процентах довольно существенный. Прослеждивается четкая тенденция: чем образованнее клиент, тем меньше у него вероятность попасть в кабалу. Люди с начальным образованием почти в 2 раза чаще имеют долги, чем люди с высшим образованием. 

Есть соблазн остановится на этом. Однако **что, если уровень образования  влияет на возврат кредита в срок не сам по себе?** Как правило, **чем выше уровень образования, тем выше заработная плата** и, соответственно, платежеспособность клиента. **Возможно дело все-таки в этом?**

Чтобы прояснить ситуацию окончательно, **сформируем датафрейм только из  должников с соотвествующим уровнем образования, а затем помотрим разбивку по категориям дохода:**

In [53]:
# Получение таблицы клиентов с начальным образованием, и имеющих задолжность по кредиту
check_income_basic_ed = df[(df['education_id'] == 3) & (df['debt'] == 1)]

# Группировка данных клиентов по категории в зависимости, от их дохода
check_income_pivot_basic_ed = check_income_basic_ed.pivot_table(index='total_income_category', values='debt', aggfunc='sum')
check_income_pivot_basic_ed

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
B,4
C,27


In [54]:
# Получение таблицы клиентов с высшим образованием, и имеющих задолжность по кредиту
check_income_high_ed = df[(df['education_id'] == 0) & (df['debt'] == 1)]

# Группировка данных клиентов по категории в зависимости, от их дохода
check_income_pivot_high_ed = check_income_high_ed.pivot_table(index='total_income_category', values='debt', aggfunc='sum')
check_income_pivot_high_ed

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,1
B,83
C,193
D,1


## Вывод 5:

* Мы видим, что среди должников с начальным образованием отсутствуют клиенты из наименее состоятельных категорий, среди них преобладает средний уровень дохода.Среди должников, окончивших вузы, также преобладает средний уровень дохода.


* Таким образом, сравнение двух сводных таблиц показывает, что уровень образования должников не имеет четкой корреляции с уровнем их дохода. Это значит, что  зависимость между уровнем образованияи и вероятностью возврата кредита в срок является самостоятельной метрикой, слабо подверженной влиянию со стороны других переменных.  Поэтому изначальный вывод остается валидным: **клиенты с более высоким уровнем образования чаще возвращают кредит в срок.**


* Вероятно, это может быть связано с более выским уровнем дисциплины, системности в мышлении, а также развитых аналитических способностях среди данной категории клиентов. (т.е. наличием у них все тех качеств, которые необходимы для успешного окончания вуза). 

[К содержанию](#begining)

# Итоги исследования <a class="anchor" id="chapter14"></a>

Работа над данным исследованием включала в себя последовательное выполнение следующих задач.

На **первом этапе** в ходе предварительного обзора в данных были выявлены пропуски, аномальные значения и дубликаты.

На **втором этапе** была проведена предобработка исходного датафрейма, в результате которой были осуществлены следующие действия:

* В нескольких столбцах были обнаружены аномальные значения (отрицательный уровень дохода, завышенное количество детей, некорректно записанный пол сотрудника). Однако не все из них критически влияли на  результаты исследования. В зависимости от степени важности, количества и имеющейся информации были выбраны различные стратегии исправления ошибок.
 
 
* В столбцах `total_income` и `days_employed` были обнаружены пропуски, которые могли повлиять на результаты исследования. Они были связаны между собой: пропусками обозначалось отсутствие у клиента  официального трудоустройства, и сведений о его ежемесячном доходе. Их количество было существенным и составило 10%, поэтому было принято решение не удалять строки с пропущенными значениями, а сами пропуски заменить медианным значением по столбцу.
 
 
* В столбце `education` были обнаружены неявные дубликаты, появившиеся из-за разного регистра. Также в датафрейме присутствовали абсолютно одинаковые строки. В итоге таблица была очищена от всех видов дубликатов.
 
 
* Для упрощения чтения таблицы и более удобной классификации клиентов по категориям были созданы 2 новых датафрейма-словаря: **education_dic** и  **family_status_dic**, соответствующие им столбцы были удалены из исходной таблицы.
 
 
* В датафрейм был добавлен новый столбец `total_income_category`, который содержит категорию клиентов в зависимости от уровня их дохода (от A до E), что позволило нам с большей наглядностью ответить на вопросы, поставленные в начале исследования.


* Также в датафрейм был добавлен столбец purpose_category, который привел к  единообразной категоризации клиентов по целям кредита, что позволило более точно ответить на один из вопросов исследования.


Наконец, на **заключительном этапе**  мы ответили на 5 вопросов, и установили:



1. Отсутствие у клиентов детей незначительно повышает вероятность возврата кредита в срок. При этом конкретное количество детей не оказывает существенного влияния на платежеспособность клиентов. 


2. Если клиент когда-либо вступал в брак, то это  незначительно повышает вероятность возврата кредита в срок. При этом, судя по всему, важен именно факт официальной регистрации отношений, поскольку уровень должников в категориях   "гражданский брак" и "Не женат / не замужем" примерно одинаковый. 


3. Не прослеживается наличие какой-либо существенной взаимосвязи между уровнем достатка клиента и вероятностью возврата кредита в срок.


4. Вероятность вернуть кредит в срок несколько больше у клиентов, которые берут его для операций с недвижимостью, а также на проведение свадьбы.


5. Клиенты с более высоким уровнем образования чаще возвращают кредит в срок.

[К содержанию](#begining)