## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться:
- влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.
- существует ли зависимость между уровнем дохода и возвратом кредита в срок.
- как разные цели кредита влияют на его возврат в срок.

Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Разделы
- <a href='#Изучим данные, предоставленные кредитным отделом'>Этап изучения данных</a>

 - <a href='#Рассмотрим полученную информацию подробнее'>Рассмотрим полученную информацию подробнее</a>
 - <a href='#Наглядно рассмотрим первые 15 строк таблицы'>Наглядно рассмотрим первые 15 строк таблицы</a>
 - <a href='#Проверим уникальные значения в столбце с образованием'>Проверим уникальные значения в столбце с образованием</a>
 - <a href='#Проверим уникальные значения в столбце с детьми'>Проверим уникальные значения в столбце с детьми</a>
 - <a href='#Проверим уникальные значения в столбце с возрастом'>Проверим уникальные значения в столбце с возрастом</a>
 - <a href='#Проверим уникальные значения в столбце с семейным положением'>Проверим уникальные значения в столбце с семейным положением</a> 
 - <a href='#Проверим уникальные значения в столбце с типом занятости'>Проверим уникальные значения в столбце с типом занятости</a> 
 - <a href='#Проверим уникальные значения в столбце с целью кредита'>Проверим уникальные значения в столбце с целью кредита</a>
 - <a href='#Сформируем сводную таблицу где наглядно посмотрим на количество пропусков'>Сформируем сводную таблицу где наглядно посмотрим на количество пропусков</a> 
 - <a href='#Вывод1'>Вывод</a> 
- <a href='#Предобработка данных'>Предобработка</a>
    - <a href='#Уберём лишние группы в столбце занятости'>Уберём лишние группы в столбце занятости</a>
    - <a href='#Заменим значения в столбце семейного статуса со слешем на более простые'>Заменим значения в столбце семейного статуса со слешем на более простые</a>
    - <a href='#Уберём нулевые значения в столбце возраста'>Уберём нулевые значения в столбце возраста</a>
    - <a href='#Добавим столбец, где сгруппируем возраст по трём категориям'>Добавим столбец, где сгруппируем возраст по трём категориям</a>
    - <a href='#Приведём к общему регистру слова в столбце образования'>Приведём к общему регистру слова в столбце образования</a>
    - <a href='#Устраним аномалию в столбце с детьми'>Устраним аномалию в столбце с детьми</a>
    - <a href='#Возвращаемся к пропускам'>Возвращаемся к пропускам</a> 
    - <a href='#Переведём столбцы дохода и стажа в числовой тип'>Переведём столбцы дохода и стажа в числовой тип</a>
    - <a href='#Сформируем таблицу, чтобы посмотреть на max стажа по каждой возрастной группе'>Сформируем таблицу, чтобы посмотреть на max стажа по каждой возрастной группе</a>
    - <a href='#Заменим аномально высокие значения стажа'>Заменим аномально высокие значения стажа</a>
    - <a href='#Проверим, одни и теже клиенты не указали информацию о стаже и доходе или это разные люди'>Докажем симметрию пропусков в столбцах дохода и стажа</a>
    - <a href='#Сформируем таблицы распространения пропусков в столбце стажа: по возрасту, образованию и типу дохода'>Сформируем таблицы распространения пропусков в столбце стажа: по возрасту, образованию и типу дохода</a>
    - <a href='#Заменим пропущенные значения в столбце дохода'>Заменим пропущенные значения в столбце дохода</a>
    - <a href='#Заменим пропущенные значения в столбце стажа'>Заменим пропущенные значения в столбце стажа</a>
    - <a href='#Лемматизируем'>Лемматизируем значения столбца целей</a>
    - <a href='#Проверим данные на наличие дубликатов. Уберём их'>Проверим данные на наличие дубликатов. Уберём их</a>
    - <a href='#Вывод2'>Вывод</a> 
- <a href='#Категоризация данных'>Категоризация</a>
    - <a href='#Выведем сводную таблицу по задолженности клиентов в разрезе семейного статуса и наличия детей'>Выведем сводную таблицу по задолженности клиентов в разрезе семейного статуса и наличия детей</a>
    - <a href='#Сгруппируем клиентов по уровню дохода'>Сгруппируем клиентов по уровню дохода</a>
    - <a href='#Посмотрим на таблицу количества задолженностей кредитополучателей по целям'>Посмотрим на таблицу количества задолженностей кредитополучателей по целям</a>
    - <a href='#Вывод3'>Вывод</a> 
- <a href='#Ответы для бизнеса'>Ответы для бизнеса</a>
- <a href='#Подведём итоги'>Подведём итоги</a>

### Изучим данные, предоставленные кредитным отделом <a id="Изучим данные, предоставленные кредитным отделом"></a>

In [None]:

#импортируем библиотеку Pandas
import pandas as pd 

# прочитаем файл data.csv и сохраним его в переменной data
data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv') 

#ознакомимся с общей информацией о файле 

data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


#### Рассмотрим полученную информацию подробнее <a id="Рассмотрим полученную информацию подробнее"></a>

Всего в таблице 12 столбцов которые умещают 21 525 анкет о платёжеспособности.

Разберём, какие в базе столбцы и какую информацию они содержат:

- children — количество детей в семье;
- days_employed — общий трудовой стаж в днях;
- dob_years — возраст клиента в годах;
- education — уровень образования клиента;
- education_id — идентификатор уровня образования;
- family_status — семейное положение;
- family_status_id — идентификатор семейного положения;
- gender — пол клиента;
- income_type — тип занятости;
- debt — имел ли задолженность по возврату кредитов;
- total_income — ежемесячный доход;
- purpose — цель получения кредита.

Тип данных у каждого столбца:
- С вещественными данными: общий трудовой стаж в днях, ежемесячный доход;  
- Строковые значения (описание): уровень образования клиента, семейное положение, пол клиента, тип занятости, цель получения кредита; 
- Числовые: количество детей в семье, возраст клиента в годах, идентификатор уровня образования, идентификатор семейного положения, имел ли задолженность по возврату кредитов.

Количество значений в столбцах "трудовой стаж в днях" и "ежемесячный доход" различается. Это говорит о том, что в данных есть пропущенные значения. Более 2 тыс. клиентов воздержадись от указания своего стажа и дохода.

#### Наглядно рассмотрим первые 15 строк таблицы <a id="Наглядно рассмотрим первые 15 строк таблицы"></a>

In [None]:

display(data.head(15)) 


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Сразу бросается в глаза минусовые значения в столбце стажа, строки с NaN, разность в регистре у слов в столбце образования, большое разнообразие формулировок одних и тех же целей кредита.  <a id="Изучим данные, предоставленные кредитным отделом"></a>

#### Проверим уникальные значения в столбце с образованием <a id="Проверим уникальные значения в столбце с образованием"></a>

In [None]:

data['education'].value_counts()


среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Люди со средним образованием заполняют анкеты на получение кредита чаще, чем люди с высшим образованием. А ещё регистр у всех разный, что может затруднить процесс анализа в дальнейщем. Надо исправить.

#### Проверим уникальные значения в столбце с детьми <a id="Проверим уникальные значения в столбце с детьми"></a>

In [None]:

data['children'].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Клиенты без детей вместе с клиентами, которые не указали число детей, стараются получить кредит чаще. Так же присутствует 76 строк с числом детей "20" и 47 строк с "-1". Надо разобраться в этом и поправить.

#### Проверим уникальные значения в столбце с возрастом <a id="Проверим уникальные значения в столбце с возрастом"></a>

In [None]:

data['dob_years'].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Примерный диапазон, когда клиенты чаще всего стремятся взять кредит, уже проясняется – от 30 - 50 лет. Однако, надо понять, почему 101 клиент не указал свой возраст и что с этим делать.

####  Проверим уникальные значения в столбце с семейным положением <a id="Проверим уникальные значения в столбце с семейным положением"></a>

In [None]:

data['family_status'].value_counts()


женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Клиенты, состоящие в семейных отношениях чаще склонны принимать решение на банковский кредит. Менять тут не будем ничего, группировка получится наглядной. Можем только для красоты убрать слеши.

#### Проверим уникальные значения в столбце с типом занятости <a id="Проверим уникальные значения в столбце с типом занятости"></a>

In [None]:

data['income_type'].value_counts()


сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Последние четыре наименования нам ни к чему. Скорее всего не будем их учитывать в дальнейшем рассмотрении.

#### Проверим уникальные значения в столбце с целью кредита <a id="Проверим уникальные значения в столбце с целью кредита"></a>

In [None]:

data['purpose'].value_counts()


свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Очевидно, что расписать можно красиво, но по факту целей всего ничего: образование, недвижимость, свадьба, автомобиль.

#### Сформируем сводную таблицу где наглядно посмотрим на количество пропусков  <a id="Сформируем сводную таблицу где наглядно посмотрим на количество пропусков"></a>

In [None]:

total = data.isnull().sum().sort_values(ascending = False)
percent = (data.isnull().sum() / data.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis = 1, keys = ['Количество пропусков', 'Доля в %'])
missing_data['Тип данных признака'] = data.dtypes
display (missing_data)


Unnamed: 0,Количество пропусков,Доля в %,Тип данных признака
total_income,2174,0.100999,float64
days_employed,2174,0.100999,float64
purpose,0,0.0,object
debt,0,0.0,int64
income_type,0,0.0,object
gender,0,0.0,object
family_status_id,0,0.0,int64
family_status,0,0.0,object
education_id,0,0.0,int64
education,0,0.0,object


Вот мы нашли в столбцах стажа и дохода 2 174 пропусков, что около 10% от всех анкет, не порядок. Такая доля пропусков может говорить нам о том, что некоторые клиенты не пожелали раскрывать свой доход по личным причинам. Процент слишком большой, поэтому мы не будем их удалять а посмотрим далее на характер и возьмём в работу.

#### Вывод <a id="Вывод1"></a>

Как уже отмечено ранее, каждая строка содержит анкету одного клиента с личной информацией: о возрасте, текущей занятости, составе семьи, гендере, доходе, стаже, целях кредита и прошлых задолженностях.

Задачи, которые нужно решать: 
- тип данных (в столбцах с вещественным типом), приведём в целые и абсолютные величины;
- устраним влияние пропусков и нулевых значений, а так же дублей, аномалий и артефактов с столбцах со стажем, доходом, возрастом;
- уберём лишние строки с малочисленным типом занятости;
- уберём разницу регистре у строковых значений; 
- сгруппируем и категоризируем данные для поиска зависимостей;
- cократим число целей. 

Для проверки рабочих гипотез особенно ценны столбцы: семейного положения, количества детей, дохода и задолженности. Данные из столбца о цели кредита позволят узнать самые распрастранённые варианты покупок.


### Предобработка данных <a id="Предобработка данных"></a>

#### Уберём лишние группы в столбце занятости, в которых 1-2 человека (безработный, предприниматель, в декрете, студент)   <a id="Уберём лишние группы в столбце занятости"></a>

In [None]:

data = data.loc[~data['income_type'].isin(['безработный','предприниматель', 'в декрете','студент'])]
data['income_type'].value_counts()


сотрудник      11119
компаньон       5085
пенсионер       3856
госслужащий     1459
Name: income_type, dtype: int64

Именно группа "сотрудники" лидирует по числу аявок на кредит 

#### Заменим значения в столбце семейного статуса со слешем на более простые  <a id="Заменим значения в столбце семейного статуса со слешем на более простые"></a>

In [None]:

def family_status_replace (data,wrong):
    data['family_status'] = data['family_status'].replace(wrong, 'брак') 
    total = data.loc[data.loc[:,'family_status'] == 'wrong']['family_status'].count() 
    return total

family_status_replace(data, 'женат / замужем')


def family_status_replace_2 (data,wrong):
    data['family_status'] = data['family_status'].replace(wrong, 'без пары')
    total = data.loc[data.loc[:,'family_status'] == 'wrong']['family_status'].count()
    return total

family_status_replace_2(data, 'Не женат / не замужем')


def family_status_replace_2 (data,wrong):
    data['family_status'] = data['family_status'].replace(wrong, 'без пары')
    total = data.loc[data.loc[:,'family_status'] == 'wrong']['family_status'].count()
    return total

family_status_replace_2(data, 'Не женат / не замужем')


def family_status_replace_2 (data,wrong):
    data['family_status'] = data['family_status'].replace(wrong, 'вдовствующий')
    total = data.loc[data.loc[:,'family_status'] == 'wrong']['family_status'].count()
    return total

family_status_replace_2(data, 'вдовец / вдова')

#Посмотрим на результат наглядно
data['family_status'].value_counts()


брак                12377
гражданский брак     4175
без пары             2812
в разводе            1195
вдовствующий          960
Name: family_status, dtype: int64

С помощью сводной таблицы посмотрим в каких группах мы будем переводить нули (в столбце возраста) на среднее значения этой группы

In [None]:

age1_pivot = data.pivot_table(index='dob_years', columns=['family_status', 'income_type'], values='education', aggfunc='count')
display(age1_pivot.head(1)) 


family_status,без пары,без пары,без пары,без пары,брак,брак,брак,брак,в разводе,в разводе,в разводе,в разводе,вдовствующий,вдовствующий,вдовствующий,вдовствующий,гражданский брак,гражданский брак,гражданский брак,гражданский брак
income_type,госслужащий,компаньон,пенсионер,сотрудник,госслужащий,компаньон,пенсионер,сотрудник,госслужащий,компаньон,пенсионер,сотрудник,госслужащий,компаньон,пенсионер,сотрудник,госслужащий,компаньон,пенсионер,сотрудник
dob_years,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
0,,2.0,4.0,10.0,2.0,10.0,8.0,29.0,2.0,1.0,2.0,5.0,,,5.0,,2.0,7.0,1.0,11.0


Распределение достаточно равномерное. только несколько категорий не имеют нулей. Это может говорить нам об опечатке, либо о том, что клиент просто не указал свой возраст. В целом это пропущенное значение. 

#### Уберём нулевые значения в столбце возраста. Проведём замену на среднее для каждой группы  <a id="Уберём нулевые значения в столбце возраста"></a>

In [None]:

data.loc[(data['dob_years']==0)&(data['family_status']=='без пары')&(data['income_type']=='компаньон'), 'dob_years'] = data.loc[(data['family_status']=='без пары')&(data['income_type']=='компаньон'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='без пары')&(data['income_type']=='пенсионер'), 'dob_years'] = data.loc[(data['family_status']=='без пары')&(data['income_type']=='пенсионер'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='без пары')&(data['income_type']=='сотрудник'), 'dob_years'] = data.loc[(data['family_status']=='без пары')&(data['income_type']=='сотрудник'), 'dob_years'].mean()

data.loc[(data['dob_years']==0)&(data['family_status']=='в разводе')&(data['income_type']=='пенсионер'), 'dob_years'] = data.loc[(data['family_status']=='в разводе')&(data['income_type']=='пенсионер'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='в разводе')&(data['income_type']=='сотрудник'), 'dob_years'] = data.loc[(data['family_status']=='в разводе')&(data['income_type']=='сотрудник'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='в разводе')&(data['income_type']=='компаньон'), 'dob_years'] = data.loc[(data['family_status']=='в разводе')&(data['income_type']=='компаньон'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='в разводе')&(data['income_type']=='госслужащий'), 'dob_years'] = data.loc[(data['family_status']=='в разводе')&(data['income_type']=='госслужащий'), 'dob_years'].mean()

data.loc[(data['dob_years']==0)&(data['family_status']=='вдовствующий')&(data['income_type']=='пенсионер'), 'dob_years'] = data.loc[(data['family_status']=='вдовствующий')&(data['income_type']=='пенсионер'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='вдовствующий')&(data['income_type']=='сотрудник'), 'dob_years'] = data.loc[(data['family_status']=='вдовствующий')&(data['income_type']=='сотрудник'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='вдовствующий')&(data['income_type']=='госслужащий'), 'dob_years'] = data.loc[(data['family_status']=='вдовствующий')&(data['income_type']=='госслужащий'), 'dob_years'].mean()

data.loc[(data['dob_years']==0)&(data['family_status']=='гражданский брак')&(data['income_type']=='пенсионер'), 'dob_years'] = data.loc[(data['family_status']=='гражданский брак')&(data['income_type']=='пенсионер'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='гражданский брак')&(data['income_type']=='сотрудник'), 'dob_years'] = data.loc[(data['family_status']=='гражданский брак')&(data['income_type']=='сотрудник'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='гражданский брак')&(data['income_type']=='госслужащий'), 'dob_years'] = data.loc[(data['family_status']=='гражданский брак')&(data['income_type']=='госслужащий'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='гражданский брак')&(data['income_type']=='компаньон'), 'dob_years'] = data.loc[(data['family_status']=='гражданский брак')&(data['income_type']=='компаньон'), 'dob_years'].mean()

data.loc[(data['dob_years']==0)&(data['family_status']=='брак')&(data['income_type']=='пенсионер'), 'dob_years'] = data.loc[(data['family_status']=='брак')&(data['income_type']=='пенсионер'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='брак')&(data['income_type']=='сотрудник'), 'dob_years'] = data.loc[(data['family_status']=='брак')&(data['income_type']=='сотрудник'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='брак')&(data['income_type']=='компаньон'), 'dob_years'] = data.loc[(data['family_status']=='брак')&(data['income_type']=='компаньон'), 'dob_years'].mean()
data.loc[(data['dob_years']==0)&(data['family_status']=='брак')&(data['income_type']=='госслужащий'), 'dob_years'] = data.loc[(data['family_status']=='брак')&(data['income_type']=='госслужащий'), 'dob_years'].mean()


Округляем возраст до целых чисел и проверяем результат

In [None]:

data['dob_years'] = data['dob_years'].astype('int').abs()  
data['dob_years'].unique()


array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 58, 59, 29, 60, 55, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

Отлично, всё получилось и больше нет пропусков. Метод обычного перечисления при замене можно заменить при необходимости на более оптимальный.

#### Добавим столбец, где сгруппируем возраст по трём категориям (Молодые, Зрелые, Пожилые). Это нам понадобиться для дальнейшего изучения пропущенных значений (в столбце стажа и дохода) <a id="Добавим столбец, где сгруппируем возраст по трём категориям"></a>

In [None]:
#Добавим функцию для группировки и занесём полученные результаты в новый столбец
# Классификация возраста по теории психосоциального развития Эрика Эриксона

def years_group(dob_years):
            if dob_years < 37:
                return "молодые"    
            if  dob_years >= 37 and dob_years < 60:
                    return "зрелые" 
            return "пожилые"                

data['years_group'] = data['dob_years'].apply(years_group)


data['years_group'].value_counts()


зрелые     11839
молодые     7158
пожилые     2522
Name: years_group, dtype: int64

Сейчас подтверждаем теорию, проявившуюся на этапе изучения – основная группа кредитополучателей, или тех кто стремится взять кредит - принадлежат к возрастной группе от 37 до 60 лет.

#### Приведём к общему регистру слова в столбце образования  <a id="Приведём к общему регистру слова в столбце образования"></a>

In [None]:

data['education'] = data['education'].str.lower()

data['education'].value_counts()

среднее                15231
высшее                  5256
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Так гораздо нагляднее и в глазах не рябит.

#### Устраним аномалию в столбце с детьми <a id="Устраним аномалию в столбце с детьми"></a>

Распространение аномалии по семейному статусу пропорционально распространению в целом детей у клиентов разного семейного положения. Это говорит о возможной опечатке в сторону "0" или "2". Удалять строки не имеет смысла (удаление не сильно улучшит чистоту данных, как и замена аномалии на 0 или 2). Чтобы не потерять анкеты клиентов мы заменили значение на количество детей в той социальной группе, чьё распространение было примерно одинаково в долевом соотношении.

In [None]:

#Смотрим на распространение "20" "0" и "2" в группах, ищем совпадение по распределению.

anomaly = data[data['children'] == 20] #Для 20
print(anomaly.groupby('family_status')['children'].value_counts())

null_children_in_family = data[data['children'] == 0] #Для 0
print(null_children_in_family.groupby('family_status')['children'].value_counts())

with_2children_in_family = data[data['children'] == 2] #Для 1
display(with_2children_in_family.groupby('family_status')['children'].value_counts())

family_status     children
без пары          20           9
брак              20          49
в разводе         20           2
вдовствующий      20           4
гражданский брак  20          12
Name: children, dtype: int64
family_status     children
без пары          0           2264
брак              0           7499
в разводе         0            784
вдовствующий      0            848
гражданский брак  0           2750
Name: children, dtype: int64


family_status     children
без пары          2             75
брак              2           1534
в разводе         2             81
вдовствующий      2             20
гражданский брак  2            344
Name: children, dtype: int64

Из вывода видно, что ближе будет 0. К тому же по статистике это самая большая группа, вероятность опечатки в эту сторону - высокая. Меняем через функцию.

In [None]:

# убираем -1 в столбце с детьми
data['children'] = data['children'].abs() 

#Вводим функцию для замены числа "20" на "0"

def anomaly_replace (data,wrong):
    data['children'] = data['children'].replace(wrong, 0) 
    total = data.loc[data.loc[:,'children'] == 'wrong']['children'].count() 
    return total
anomaly_replace(data, 20)

#Смотрим на результат
display(data['children'].isna().sum()) # проверяем на пропуски - пропусков нет
data['children'].value_counts() # У столбца дети нет -1, но надо отредактировать ячейки со значением "20"

  result = method(y)


0

0    14221
1     4864
2     2054
3      330
4       41
5        9
Name: children, dtype: int64

Как уже отметили выше – основная масса кредитополучателей это клиенты без детей.

#### Возвращаемся к пропускам <a id="Возвращаемся к пропускам"></a>

Чтобы перевести значения в столбцах стажа и дохода в числовой тип, временно закрепим "1" за значениями NaN. Проверим, есть ли сейчас такие значения в столбцах

In [None]:
data[data['total_income'] == 1]
data[data['days_employed'] == 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_group


Значений нет, двигаемся дальше

#### Переведём столбцы дохода и стажа в числовой тип, уберём минусы и оставим в строках с "NaN" единицы (так будет проще потом их найти) <a id="Переведём столбцы дохода и стажа в числовой тип"></a>

In [None]:

# меняем тип и оставляем в пропущеных ячейках 1, уберём минусы в столбце дохода
data['total_income'] = data['total_income'].fillna(1).astype('int').abs()   

# меняем тип и оставляем в пропущеных ячейках 1, уберём минусы в столбце стажа
data['days_employed'] = data['days_employed'].fillna(1).astype('int').abs()   

#перепроверяем, пропущенных значений быть не должно
display(data.isna().sum())


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
years_group         0
dtype: int64

Единицы на местах, двигаемся дальше. Ранее была замечена симметрия по NaN в столбцах дохода и стажа. И аномальная разбежка по значениям в столбце стажа. Разберёмся с этим далее. <a id="Изучим данные, предоставленные кредитным отделом"></a>

#### Сформируем таблицу, чтобы посмотреть на max стажа по каждой возрастной группе и занятости  <a id="Сформируем таблицу, чтобы посмотреть на max стажа по каждой возрастной группе и занятости"></a>

In [None]:

age3_pivot = data.pivot_table(index='years_group', columns='income_type', values='days_employed', aggfunc='max')
display(age3_pivot) 


income_type,госслужащий,компаньон,пенсионер,сотрудник
years_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
зрелые,15193,14240,401755,16264
молодые,7375,8076,397905,8436
пожилые,14051,17615,401715,18388


Вероятностно, что человек может работать с 16 лет и без выходных, тогда максимальный стаж в днях (учитывая, что максимальный возраст кдиента - 75 лет) - 21 240 дней, будем оталкиваться от этой цифры. Приравняем к средним значениям стаж тех клиентов, который выбивается за горизонт вроятности. Статус текущий в этом случае второстепенен, важен возраст:

- Молодые (19-37 лет) - 1095 - 8 500 (стаж в днях)
- Зрелые (37-60 лет) - 8 500 - 16 840(стаж в днях)
- Пожилые (60 и выше) - 15 840 - 21 240 (стаж в днях)

Маленькие значения трогать не будем и "1" тоже.


#### Заменим аномально высокие значения стажа на медианные по каждой группе <a id="Заменим аномально высокие значения стажа"></a>

In [None]:

data.loc[(data['days_employed'] > 8500)&(data['years_group']=='молодые')&(data['income_type']=='пенсионер'), 'days_employed'] = data.loc[(data['days_employed'] > 1)&(data['days_employed'] <= 8500)&(data['years_group']=='молодые'), 'days_employed'].median()   

data.loc[(data['days_employed'] > 16840)&(data['years_group']=='зрелые')&(data['income_type']=='пенсионер'), 'days_employed'] = data.loc[(data['days_employed'] > 1)&(data['days_employed'] <= 16840)&(data['years_group']=='зрелые'), 'days_employed'].median()   

data.loc[(data['days_employed'] > 21240)&(data['years_group']=='пожилые')&(data['income_type']=='пенсионер'), 'days_employed'] = data.loc[(data['days_employed'] > 1)&(data['days_employed'] <= 21240)&(data['years_group']=='пожилые'), 'days_employed'].median()   


age3_pivot = data.pivot_table(index='years_group', columns='income_type', values='days_employed', aggfunc='max')
display(age3_pivot) 


income_type,госслужащий,компаньон,пенсионер,сотрудник
years_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
зрелые,15193.0,14240.0,2029.0,16264.0
молодые,7375.0,8076.0,1236.0,8436.0
пожилые,14051.0,17615.0,2669.0,18388.0


   Сейчас максимальные значения ближе к действительности.


#### Проверим, одни и теже клиенты не указали информацию о стаже и доходе или это разные люди <a id="Проверим, одни и теже клиенты не указали информацию о стаже и доходе или это разные люди"></a>

In [None]:
data.loc[(data['days_employed']==1)&(data['total_income']==1)].count() #посчитаем все совпадения по двум столбцам с условием

children            2173
days_employed       2173
dob_years           2173
education           2173
education_id        2173
family_status       2173
family_status_id    2173
gender              2173
income_type         2173
debt                2173
total_income        2173
purpose             2173
years_group         2173
dtype: int64

Видно, что это одни и те же анкеты, симметрия подтверждается <a id="Изучим данные, предоставленные кредитным отделом"></a>

#### Сформируем таблицы распространения "1" (NaN) по возрасту, образованию и типу дохода <a id="Сформируем таблицы распространения пропусков в столбце стажа: по возрасту, образованию и типу дохода"></a>

In [None]:
income_years_group_pivot = data.pivot_table(index='days_employed', columns=['income_type','years_group'], values='total_income', aggfunc='count')
display(income_years_group_pivot.head(1)) 

years_group_education_pivot = data.pivot_table(index='days_employed', columns=['years_group','education'], values='total_income', aggfunc='count')
display(years_group_education_pivot.head(1))

income_education_pivot = data.pivot_table(index='days_employed', columns=['income_type','education'], values='total_income', aggfunc='count')
display(income_education_pivot.head(1))

income_type,госслужащий,госслужащий,госслужащий,компаньон,компаньон,компаньон,пенсионер,пенсионер,пенсионер,сотрудник,сотрудник,сотрудник
years_group,зрелые,молодые,пожилые,зрелые,молодые,пожилые,зрелые,молодые,пожилые,зрелые,молодые,пожилые
days_employed,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
1.0,81.0,59.0,7.0,293.0,203.0,12.0,209.0,4.0,200.0,620.0,441.0,44.0


years_group,зрелые,зрелые,зрелые,зрелые,зрелые,молодые,молодые,молодые,молодые,молодые,пожилые,пожилые,пожилые,пожилые,пожилые
education,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,ученая степень
days_employed,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
1.0,276.0,11.0,25.0,891.0,,228.0,4.0,38.0,437.0,,39.0,6.0,6.0,212.0,


income_type,госслужащий,госслужащий,госслужащий,госслужащий,госслужащий,компаньон,компаньон,компаньон,компаньон,пенсионер,пенсионер,пенсионер,пенсионер,пенсионер,сотрудник,сотрудник,сотрудник,сотрудник,сотрудник
education,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,ученая степень
days_employed,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2
1.0,62.0,2.0,6.0,77.0,,188.0,1.0,20.0,299.0,57.0,6.0,6.0,344.0,,236.0,12.0,37.0,820.0,


Видно, что клиенты не указавшие стаж и доход не имеют учёной степени, однако и с начальным образованием клиентов не много. Больше всего людей, которые не указали подробности – это люди со средним образованием, зрелые. <a id="Изучим данные, предоставленные кредитным отделом"></a>

#### Заменим пропущенные значения в столбце дохода ("1") на медианное значение по каждой группе. Не включая в расчёт медианного значения "1". <a id="Заменим пропущенные значения в столбце дохода"></a>

Так или иначе у всех социальных групп есть доход и конечно мы не сможем уточнить статистику на столько, чтобы знать прямой источник, однако, для того, чтобы узнать влияние уровня дохода на возврат кредита, важно сгладить в пропущенных местах этот уровень для каждой соц группы в отдельности и посмотреть далее на статистику возвратов (А возвраты у них есть, как и в обратном случае).

In [None]:
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()             
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'total_income'] = data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'] = data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()       
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'] = data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'].median()           
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='предприниматель'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['family_status']=='брак'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'].median()        
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'].median()         
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()      
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()    
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'] =     data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'].median()    
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()      
data.loc[(data['total_income']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'].median()              


data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'] =    data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'].median()    
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'] =      data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'].median()    
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'] =     data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()    
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'] =    data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()       
data.loc[(data['total_income']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'] =    data.loc[(data['total_income']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'].median()        


data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['family_status']=='гражданский брак')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'] =    data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'] =  data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'] =   data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'] =      data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'] =        data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'] =    data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'] =     data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'total_income'].median()   
data.loc[(data['total_income']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'] =       data.loc[(data['total_income']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'total_income'].median()   
     
data[data['total_income'] == 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_group


#### Заменим пропущенные значения в столбце стажа  ("1") на среднее значение по каждой группе. Не включая в расчёт среднего значения "1" <a id="Заменим пропущенные значения в столбце стажа"></a>

In [None]:
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()             
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'days_employed'] = data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'] = data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()     
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'] = data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()        
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='предприниматель'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['family_status']=='брак'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()      
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'].mean()         
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()      
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()     
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()   
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'] =     data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()            
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()  
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='зрелые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()     
        
       
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'] =    data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()      
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'] =      data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()   
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =     data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =    data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()     
data.loc[(data['days_employed']==1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'] =    data.loc[(data['days_employed']>1)&(data['years_group']=='молодые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()       
         
     
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['family_status']=='гражданский брак')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='госслужащий'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'] =    data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='компаньон'), 'days_employed'].mean()      
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='компаньон'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =  data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'] =   data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='ученая степень')&(data['income_type']=='пенсионер'), 'days_employed'] =      data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='ученая степень')&(data['income_type']=='пенсионер'), 'days_employed'].mean()   
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='ученая степень')&(data['income_type']=='пенсионер'), 'days_employed'] =      data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='ученая степень')&(data['income_type']=='пенсионер'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =        data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean() 
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'] =    data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='начальное')&(data['income_type']=='сотрудник'), 'days_employed'].mean()
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'] =     data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='неоконченное высшее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'] =       data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='сотрудник'), 'days_employed'].mean()    
data.loc[(data['days_employed']==1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'] =       data.loc[(data['days_employed']>1)&(data['years_group']=='пожилые')&(data['education']=='среднее')&(data['income_type']=='пенсионер'), 'days_employed'].mean()      

data[data['days_employed'] == 1]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_group


Всё прошло успешно и у столбцов стажа и дохода теперь числовой тип, без минусов и с заполнеными пропусками. Двигаемся дальше.

Дополнительно округлим полученные значения до целых, после перевода

In [None]:

data['total_income'] = data['total_income'].astype('int')

data['days_employed'] = data['days_employed'].astype('int')   

#сформируем наглядную таблицу, где посмотрим на конечное распределение дохода клиентов 
#по возрасту, типу занятости и образованию.

total_pivot = data.pivot_table(index='income_type', columns=['years_group','education'], values='total_income', aggfunc='mean')
display(total_pivot)

years_group,зрелые,зрелые,зрелые,зрелые,зрелые,молодые,молодые,молодые,молодые,молодые,пожилые,пожилые,пожилые,пожилые,пожилые
education,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,ученая степень,высшее,начальное,неоконченное высшее,среднее,ученая степень
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
госслужащий,201782.348148,162404.2,206483.583333,151079.117541,,184390.609375,190966.5,159941.975,154638.617761,111392.0,217768.916667,128483.0,,159481.444444,
компаньон,254432.467489,169182.2,236908.640449,181591.445415,,221115.707986,161192.4,177778.856383,170674.44381,,244923.175439,,210887.25,174452.394231,
пенсионер,167043.544521,108067.571429,115038.714286,135090.897165,,179335.0,88367.0,,108711.4,,169370.65371,112837.333333,157847.2,125370.6625,177088.5
сотрудник,197928.583187,130431.638554,187658.45614,153596.349517,194310.0,179719.167553,143760.301887,165023.233871,146250.247382,,191802.535211,152014.555556,209997.375,158559.916667,


Дополнительно округлим полученные значения до целых, после перевода

#### Мы уже знаем по «data['purpose'].value_counts()» количество уникальных потребностей, на которые тратятся деньги клиентом. Лемматизируем их через функцию и добавим новый столбец с этими потребностями в таблицу. <a id="Лемматизируем"></a>

In [None]:
from pymystem3 import Mystem
m = Mystem()

def lemmatize(row):
    lemmas = m.lemmatize(row)
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'недвижимость' in lemmas:
        return 'недвижимость'
    if 'жилье' in lemmas:
        return 'недвижимость'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'
data['purpose_group'] = data['purpose'].apply(lemmatize)


#Посмотрим, что получилось
display(data.groupby('purpose_group')['debt'].count())
lem_pivot = data.pivot_table(index='purpose_group', columns=['years_group','family_status'], values='debt', aggfunc='sum')
display(lem_pivot)

purpose_group
автомобиль       4314
недвижимость    10836
образование      4022
свадьба          2347
Name: debt, dtype: int64

years_group,зрелые,зрелые,зрелые,зрелые,зрелые,молодые,молодые,молодые,молодые,молодые,пожилые,пожилые,пожилые,пожилые,пожилые
family_status,без пары,брак,в разводе,вдовствующий,гражданский брак,без пары,брак,в разводе,вдовствующий,гражданский брак,без пары,брак,в разводе,вдовствующий,гражданский брак
purpose_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
автомобиль,28.0,108.0,15.0,10.0,31.0,51.0,101.0,4.0,1.0,20.0,3.0,19.0,2.0,9.0,0.0
недвижимость,43.0,271.0,25.0,14.0,45.0,85.0,191.0,13.0,1.0,42.0,2.0,23.0,9.0,13.0,4.0
образование,26.0,109.0,9.0,8.0,29.0,32.0,91.0,8.0,1.0,29.0,4.0,16.0,0.0,6.0,2.0
свадьба,,,,,103.0,,,,,71.0,,,,,12.0


Основная масса кредитополучателей – это люди, покупающие недвижимость (В тоже время у них больше всего невозвратов в числовом отношении).

#### Проверим данные на наличие дубликатов. Уберём их <a id="Проверим данные на наличие дубликатов. Уберём их"></a>



In [None]:
data[data.duplicated(keep=False)].sort_values(by='dob_years') #проверяем на наличие дубликатов, их нашлось всего 137


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_group,purpose_group
20297,1,1616,23,среднее,1,гражданский брак,1,F,сотрудник,0,132644,сыграть свадьбу,молодые,свадьба
8853,1,1616,23,среднее,1,гражданский брак,1,F,сотрудник,0,132644,сыграть свадьбу,молодые,свадьба
15892,0,1616,23,среднее,1,без пары,4,F,сотрудник,0,132644,сделка с подержанным автомобилем,молодые,автомобиль
19321,0,1616,23,среднее,1,без пары,4,F,сотрудник,0,132644,сделка с подержанным автомобилем,молодые,автомобиль
3452,0,1539,29,высшее,0,брак,0,M,сотрудник,0,158985,покупка жилой недвижимости,молодые,недвижимость
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5865,0,2669,66,среднее,1,вдовствующий,2,F,пенсионер,0,111952,операции со своей недвижимостью,пожилые,недвижимость
9528,0,2669,66,среднее,1,вдовствующий,2,F,пенсионер,0,111952,операции со своей недвижимостью,пожилые,недвижимость
9604,0,2669,71,среднее,1,гражданский брак,1,F,пенсионер,0,111952,на проведение свадьбы,пожилые,свадьба
7938,0,2669,71,среднее,1,гражданский брак,1,F,пенсионер,0,111952,на проведение свадьбы,пожилые,свадьба


Удаляем дубликаты



In [None]:

data = data.drop_duplicates().reset_index(drop=True)


Проверяем, всё ли прошло корректно



In [None]:

data.duplicated().sum() 


0

Дубликаты могли появиться вследствие сбоя в записи данны, а так же во время предобработки. Доля дубликатов не большая, однако это можно рассмотреть в дальнейшем подробнее, при постоянном характере.



### Вывод <a id="Вывод2"></a>

Для решения задач бизнеса на этапе предобработки мы нашли и обработали в столбце дохода 2 1274 пропуска, что около 10% от всех анкет. 

Так же нашли аномальные значения в столбце с детьми, заменили на количество равное 0, руководствуясь моделью распределения этого значения на масштабе групп с разным семейным статусом. 

Наши и удалили дубликаты в строках. Заменили нули в столбце возраста на среднее значение по группам, к которым они пренадлежали.

Доказали симметрию пропущенных значений в столбце стажа и дохода. Заменили пропущенные значения в столбце дохода и стажа на единицу, а затем поэтапно заменили эти значения на среднее(стаж) и медианное(доход) опираясь на образование, возрастную группу и тип занятости клиента. Привели к нижнему регистру значения столбца образования. 

Лемматизировали цель получения кредита до 4-х основных направлений: автомобиль, недвижимость, образование, свадьба.   

И немного приоткрыли влияние изучаемых факторов на возврат кредита:


- Основная масса кредитополучателей это клиенты без детей, со средним образованием, зрелого возраста, состоящие в браке или отношениях. 
- Клиенты с разным доходом склонны приобретать кредит. 
- Кредитополучатели так же с большего склонны покупать недвижимость на кредитные средства, нежели остальные сущности. (В тоже время у них больше всего невозвратов в числовом отношении).


### Категоризация данных <a id="Категоризация данных"></a>

In [None]:
#data.info()

len_data = 21448

#### Выведем сводную таблицу по задолженности клиентов в разрезе семейного статуса и наличия детей.Обозначим в переменных ключевые показатели (семейного положения и количества детей) по отношению к возврату заёмных средств. <a id="Выведем сводную таблицу по задолженности клиентов в разрезе семейного статуса и наличия детей"></a>


In [None]:

#отобразим наглядно получившееся на этапе предобработки данные в таблице, 


data_pivot = data.pivot_table(index=['family_status'], columns='children', values='debt', aggfunc='count')
display(data_pivot.sort_values(by = 0,ascending = False))

data_pivot2 = data.pivot_table(index=['family_status'], columns='children', values='debt', aggfunc='sum')



children,0,1,2,3,4,5
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
брак,7516.0,3003.0,1532.0,249.0,29.0,7.0
гражданский брак,2740.0,1000.0,343.0,56.0,8.0,2.0
без пары,2270.0,454.0,75.0,8.0,2.0,
вдовствующий,851.0,81.0,20.0,6.0,1.0,
в разводе,786.0,316.0,81.0,11.0,1.0,


На лицо зависимость: количество анкет на кредит снижается вместе с ростом числа детей, также прослеживается связь между семейным статусом (наличием партнёра) и количеством заявок. Можно сказать с уверенностью, что, чем меньше детей у клиента и, чем официальнее(теснее/ближе) отношения с партнёром, тем чаще будут приниматься решения по приобритению кредита.


#### Сгруппируем клиентов по уровню дохода, для этого добавим новый столбец, где будет отмечен уровень каждого клиента <a id="Сгруппируем клиентов по уровню дохода"></a>

In [None]:

#Посмотрим на пороговые значения
data['total_income'].describe()


count    2.144800e+04
mean     1.654972e+05
std      9.826758e+04
min      2.066700e+04
25%      1.074905e+05
50%      1.434265e+05
75%      1.971295e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [None]:

#Добавим функцию для группировки и занесём полученные результаты в новый столбец


def alert_group(income):
            if income >= 0 and income <= 50000:
                return 'низкий'    
            if  income > 50000 and income <= 100000:
                    return 'средний' 
            if  income > 100000 and income <= 200000:
                    return 'выше среднего'
            if  income > 200000 and income <= 400000:
                    return 'высокий'   
            return 'очень высокий'                

data['alert_group'] = data['total_income'].apply(alert_group)

#дополним колонкой с типом занятости, чтобы видеть чётче зависимость, сортируя по самой многочисленной характеристике

total3_pivot = data.pivot_table(index='alert_group', columns='income_type', values='debt', aggfunc='count')
display(total3_pivot.sort_values(by = 'сотрудник',ascending = False))

income_type,госслужащий,компаньон,пенсионер,сотрудник
alert_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
выше среднего,798,2641,1987,6392
высокий,331,1606,505,2196
средний,265,556,1110,2162
очень высокий,38,249,47,193
низкий,25,26,180,141


Основная часть кридитополучателей это люди со средним, высоким и доходом выше среднего. Основная масса задолженностей лежит на стороне клиентов с доходом выше среднего

При выборе значений для группировки были учтены пороговые значения столбца дохода. При выборе промежудочных значений для клиентов:

- первый уровент "низкий доход": от нуля до 50к. Верхнее значение - около x2.42 к минимальному в столбце;
- средний доход: от 50к до 100к. Верхнее значение около значения процентиля 25;
- доход выше среднего: от 100к до 200к. Верхнее значение около значения процентиля 75 ;
- высокий доход:от 200к до 400к. Верхнее значение взято условно как х2 к значению процентиля 75;
- очень высокий доход: все, что выше 400к.

#### Посмотрим на таблицу количества задолженностей кредитополучателей по целям <a id="Посмотрим на таблицу количества задолженностей кредитополучателей по целям"></a>

In [None]:
#дополним колонкой с типом занятости, чтобы видеть чётче зависимость, сортируя по самой многочисленной характеристике

total3_pivot = data.pivot_table(index='purpose_group', columns='income_type', values='debt', aggfunc='count')
display(total3_pivot.sort_values(by = 'сотрудник',ascending = False))


income_type,госслужащий,компаньон,пенсионер,сотрудник
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
недвижимость,754,2547,1891,5615
автомобиль,286,1052,795,2172
образование,258,954,721,2080
свадьба,159,525,422,1217


Клиенты вне зависимости от типа занятости стремятся приобретать недвижимость.

## Вывод <a id="Вывод3"></a>

На этапе категоризации были проведены (по направлениям изучаемых задач) группировки значений столбцов с помощью сводных таблиц, добавления независимой характеристики (для исследования влияния цели кредита на возврат), ввода дополнительного столбца с описанием уровня дохода клиента (низкий, средний, выше среднего, высокий, очень высокий).

### Сводная таблица семейного статуса и количества детей показала:

Количество заявок на кредит уменьшается пропорционально росту числа детей в семье (можно предположить, что на стороне числа детей лежит ещё один фактор, влияющий косвенно на снижение потребности в кредите, например это может быть понимание, что кредит не нужен, либо платить по кредиту будет затруднительно). 

В тоже время клиенты состоящие в отношениях (брак, гражданский брак) имеют большее количество заявок, чем люди без пары (на третьем месте по числу), не говоря уже о клиентах вдовствующих и в разводе. Это говорит нам о том, что находясь в отношениях, не смотря на рост затрат, клиент владеет большим бюджетом (слияние двух бюджетов), расчитывая свои силы исходя из этого, имеет больше уверенности в будущих финансах, поэтому более склонен к приобритению кредита. 

Ситуация с клиентами без пары подсказывает, что они так же склонны приобретать кредит, но уже со стороны уверенности в свои силы "подвязать пояс" если придётся. Это подтверждает резкое снижение заявок у данной группы, при появлении детей (то есть дополнительных издержек)

Проследили связь:
- По мере увеличения числа детей у клиента (что вероятно ведёт к росту издержек на их содержкание) - влияние внутренних факторов на столько серьёзно, что снижает желание брать кредит, в разы, пропорционально росту числу детей. В подтверждении можно отметить отсутствие клиентов с количеством детей = 5, только у людей в браке и то, очень мало.

- Если клиент обеспечен поддержкой со стороны своего партнёра по браку, это в значительной степени усиливает желание взять кредит (фактор обеспечивает уверенность в будущих доходах). На лицо большая разница между числом анкет в группах "в браке", "в гражданском браке" и "в разводе", "вдовствующий". Так же люди по одиночку подверженны в большей степени издержкам, которые падают на бюджет только одного человека.Небольшим отклонением является группа "без пары", однако только с отсутствие детей - при их наличии желание так же начинает падать.

### Группировка клиентов по уровню дохода дала понять:

С разбивкой по типу занятости, по всем подгруппам лидируют по числу анкет, клиенты с доходом выше среднего (на втором месте клиенты с высоким доходом). Учитывая, что последними позициями по числу являются клиенты с низким и высоким доходом(что в целом интересно и означает рост желания по экспоненте вначале от низкого дохода к среднему и выше среднего, а затем резкое снижение к высокому и очень высокому доходу), можно проследить зависимость(так как людей со средним доходом и выше среднего в целом большинство): чем стабильнее оплата их труда и прирост к зп, чем больше вокруг людей с таким же уровнем дохода, тем выше желание приобрести кредит (+уверенность в будущей, такой же доходности и приросте). 

У людей с низким доходом и высоким, желания меньше, всё из-за тех же факторов, с отличием только в одном:

 - Клиенты с высоким доходом редко нуждаются в кредите и готовы в редких случаях финансировать свои затраты из заёмных средств, так как хватает своих.
 - Клиенты с низким доходом разбираются с текущим пулом издержек и редко готовы финансово принимать ещё и затраты на обслуживание кредита.


### Сводная таблица по целям кредита прояснила:

Распределение анкет по целям говорит нам о том, что в обществе, приоритет отдаётся интеллектуальной собственности и развлечениям в последнюю очередь, на первом месте – желание быстрее иметь собственное жильё и транспорт. Причём, клиенты, привлекающие заёмные средства в большинстве случаев делают вложение в крупные приобритения. В случае с недвижимостью это низкорисковое вложение для банка, так как вероятность порчи имущества крайне мала (помимо строховки и прочего, что компенсирует), невозврат средств от клиента будет компенсирован переводом недвижимости на актив банка в форс-мажорном случае. В ситуации с автомобилем больше риска, так как добавляется зависящие в большей степени от человеческого фактора события (например ДТП).

## Ответы для бизнеса <a id="Ответы для бизнеса"></a>

- Как ведут себя клиенты при расчёте с банком за кредит, в зависимости от наличия других приоритетов (детей) и участия в других социальных институтах (семья).

In [None]:
#посмотрим на процент невозвратов только по числу детей

child_count = data.groupby('children')['debt'].count()
child_sum = data.groupby('children')['debt'].sum()
child_influe = data.groupby('children')['debt'].sum() / data.groupby('children')['debt'].count() * 100
child_influe_all = data.groupby('children')['debt'].sum() / len_data * 100
child_influe_data = pd.concat([child_count, child_sum,child_influe,child_influe_all], axis = 1, keys = ['Количество заявок ', 'Количество задолженностей', 'Доля в %','Доля в % от общего числа'])

display (child_influe_data.sort_values(by = 'Доля в %', ascending=False))

Unnamed: 0_level_0,Количество заявок,Количество задолженностей,Доля в %,Доля в % от общего числа
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,41,4,9.756098,0.01865
2,2051,193,9.410044,0.899851
1,4854,444,9.147095,2.070123
3,330,27,8.181818,0.125886
0,14163,1071,7.561957,4.993473
5,9,0,0.0,0.0


Зависимость невозврата от количества детей можно описать геометрически на шкале (так как зависимость имеет динамический характер), где OX - это количество детей, а OY - это доля невозвратов: Процент растёт от 0 до 2 детей, падает на 3, принимает максимум на 4 и падает до 0 при количестве 5 детей.

In [None]:
#посмотрим на процент невозвратов только по семейному статусу

fami_count = data.groupby('family_status')['debt'].count()
fami_sum = data.groupby('family_status')['debt'].sum()
fami_influe = data.groupby('family_status')['debt'].sum() / data.groupby('family_status')['debt'].count() * 100
fami_influe_all = data.groupby('family_status')['debt'].sum() / len_data * 100
fami_influe_data = pd.concat([fami_count, fami_sum,fami_influe, fami_influe_all], axis = 1, keys = ['Количество заявок', 'Количество задолженностей', 'Доля в %', 'Доля в % от общего числа'])

display (fami_influe_data.sort_values(by = 'Доля в %', ascending=False))

Unnamed: 0_level_0,Количество заявок,Количество задолженностей,Доля в %,Доля в % от общего числа
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
без пары,2809,274,9.754361,1.277508
гражданский брак,4149,388,9.351651,1.809026
брак,12336,929,7.530804,4.331406
в разводе,1195,85,7.112971,0.396307
вдовствующий,959,63,6.569343,0.293734


Клиенты без пары и клиенты в гражданском браке склонны чаще остальных не возвращать кредит в срок. 

Прямого влияния не обнаружено. Так как люди в браке и люди в разводе имеют столько же общего друг с другом, как люди без пары и в гражданском браке (то есть. если смотреть по статусу - между ними ничего общего), хотя процент невозвратов у них: сильно отличается **между собой** и очень близок **в паре**.

Более общее имеют например люди "без пары" и люди "в разводе" (а так же "вдовствующие") в противоположность клиенты "в гражданском браке" и зарегистрированном. Но внутри этих групп доля невозвратов сильно отличается.

Непрямое влияние имеет сам факт создания семьи: 
 - "без пары" и "гражданский брак" - это отношения, в которых клиент не берёт ответственность материально(де-факто может уйти от негативных последствий создания семьи, потому что не подписывал документы и вообще может мало за что отвечать или не научился ещё)
 - "в браке" - "в разводе" - "вдовствующий" клиент меняется от меньшей ответственности к большей, так же и последствия (вдовствующий клиент уже прошёл эти стадии, то есть был в браке, а значит брал на себя ответственность, тоже самое и в разводе)
 
 Другими словами - есть зависимость уровня ответственности (который прослеживается по семейному статусу) на факт погашения кредита в срок. Это логично, но отметим: чем выше уровень ответственности (официальнее и продолжительнее семейный статус), тем ниже риск невозврата кредита в срок.

In [None]:
#разделим число кредитополучателей на число задолженностей по каждой группе
#получим процент невозвратов



# без детей
count_family = data[data['children'] == 0].groupby('family_status')['debt'].count()
sum_family =data[data['children'] == 0].groupby('family_status')['debt'].sum()

family_percent = sum_family / count_family *100
family_total_data = pd.concat([count_family, sum_family,family_percent], axis = 1, keys = ['Количество заявок у клиентов без детей', 'Количество задолженностей у этих клиентов', 'Доля в %'])

display (family_total_data.sort_values(by = 'Доля в %', ascending=False))




# с одним ребёнком
count_1family = data[data['children'] == 1].groupby('family_status')['debt'].count()
sum_1family =data[data['children'] == 1].groupby('family_status')['debt'].sum()

family_1percent = sum_1family / count_1family *100
family_1total_data = pd.concat([count_1family, sum_1family,family_1percent], axis = 1, keys = ['Количество заявок у клиентов с одним ребёнком', 'Количество задолженностей у этих клиентов', 'Доля в %'])

display (family_1total_data.sort_values(by = 'Доля в %', ascending=False))





# с двумя детьми
count_2family = data[data['children'] == 2].groupby('family_status')['debt'].count()
sum_2family =data[data['children'] == 2].groupby('family_status')['debt'].sum()

family_2percent = sum_2family / count_2family *100
family_2total_data = pd.concat([count_2family, sum_2family,family_2percent], axis = 1, keys = ['Количество заявок у клиентов с двумя детьми', 'Количество задолженностей у этих клиентов', 'Доля в %'])

display (family_2total_data.sort_values(by = 'Доля в %', ascending=False))





# с тремя детьми
count_3family = data[data['children'] >= 3].groupby('family_status')['debt'].count()
sum_3family =data[data['children'] >= 3].groupby('family_status')['debt'].sum()

family_3percent = sum_3family / count_3family *100
family_3total_data = pd.concat([count_3family, sum_3family,family_3percent], axis = 1, keys = ['Количество заявок у клиентов с тремя детьми', 'Количество задолженностей у этих клиентов', 'Доля в %'])

display (family_3total_data.sort_values(by = 'Доля в %', ascending=False))





# с четырьмя и более (объединил потому что мало анкет всего по последним)
count_4family = data[data['children'] >= 4].groupby('family_status')['debt'].count()
sum_4family =data[data['children'] >= 4].groupby('family_status')['debt'].sum()

family_4percent = sum_4family / count_4family *100
family_4total_data = pd.concat([count_4family, sum_4family,family_4percent], axis = 1, keys = ['Количество заявок у клиентов с четырьмя детьми и более', 'Количество задолженностей у этих клиентов', 'Доля в %'])

display (family_4total_data.sort_values(by = 'Доля в %', ascending=False))

Unnamed: 0_level_0,Количество заявок у клиентов без детей,Количество задолженностей у этих клиентов,Доля в %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без пары,2270,211,9.295154
гражданский брак,2740,232,8.467153
в разводе,786,56,7.124682
брак,7516,519,6.905269
вдовствующий,851,53,6.227967


Unnamed: 0_level_0,Количество заявок у клиентов с одним ребёнком,Количество задолженностей у этих клиентов,Доля в %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
гражданский брак,1000,118,11.8
без пары,454,52,11.453744
вдовствующий,81,7,8.641975
брак,3003,246,8.191808
в разводе,316,21,6.64557


Unnamed: 0_level_0,Количество заявок у клиентов с двумя детьми,Количество задолженностей у этих клиентов,Доля в %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовствующий,20,3,15.0
без пары,75,9,12.0
брак,1532,144,9.399478
гражданский брак,343,30,8.746356
в разводе,81,7,8.641975


Unnamed: 0_level_0,Количество заявок у клиентов с тремя детьми,Количество задолженностей у этих клиентов,Доля в %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без пары,10,2,20.0
гражданский брак,66,8,12.121212
в разводе,12,1,8.333333
брак,285,20,7.017544
вдовствующий,7,0,0.0


Unnamed: 0_level_0,Количество заявок у клиентов с четырьмя детьми и более,Количество задолженностей у этих клиентов,Доля в %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без пары,2,1,50.0
брак,36,3,8.333333
в разводе,1,0,0.0
вдовствующий,1,0,0.0
гражданский брак,10,0,0.0


#### Вывод



Учитывая вышеизложенное, общее влияние двух факторов незначительно сказывается на возврат кредита в срок. 

По последней группе с четырьмя и более детьми недостаточно данных, однако можно утверждать:

- чем выше статус (уровень официальной ответственности) - тем ниже процент невозврата 
- чем меньше детей - тем меньше риск невозврата, однако при количестве 3 детей в семье и 5 так же наблюдается небольшой процент задолженностей.
- данная группа факторов в совокупности оказывает незначительное влияние со своими исключениями (во многом из-за небольшого числа анкет отдельно в некоторых группах)

Связь достаточно запутанная, для чёткого разграничение рекомендуем дополнительно применить SWOT-анализ включая данные факторы.

Рекомендуем учесть пороговые значения невозвратов по группам анкет, таких как:


**При отсутствии детей** 
Самой рисковой группой являются клиенты без пары (9.3) и состоящие в гражданском браке (8.5).
Самой менее рисковой группой являются клиенты в браке (6.9) и вдовствующие (6.2).

**При наличии одного ребёнка**
Самой рисковой группой являются клиенты без пары (11.4) и состоящие в гражданском браке (11.8).
Самой менее рисковой группой являются клиенты в браке (8.19) и состоящие в разводе (6.6).

**При наличии двух детей ребёнка**
Самой рисковой группой являются клиенты вдовствующие (15) и без пары (12).
Самой менее рисковой группой являются клиенты в гражданском браке (8.7) и состоящие в разводе (8.6).

**При наличии трёх детей ребёнка**
Самой рисковой группой являются клиенты без пары (12.5) и состоящие в гражданском браке (14.3).
Самой менее рисковой группой являются клиенты в браке (6.8) и вдовствующие (0).

**При наличии четырёх и более**
Самой рисковой группой являются клиенты без пары (50) и состоящие в браке (8.3).
Самой менее рисковой группой являются вдовствующие (0) и состоящие в гражданском браке  (0).



- Как ведут себя клиенты разных доходных групп при возврате кредита?

In [None]:
#Вывод общего числа кредитополучателей, разбитого по уровню дохода и долей задолженности

count_income = data.groupby('alert_group')['debt'].count()
sum_income = data.groupby('alert_group')['debt'].sum()
income_percent = sum_income / count_income *100
income_total_data = pd.concat([count_income, sum_income,income_percent], axis = 1, keys = ['Количество заявок', 'Количество задолженностей', 'Доля в %'])

display (income_total_data.sort_values(by = 'Доля в %', ascending=False))

Unnamed: 0_level_0,Количество заявок,Количество задолженностей,Доля в %
alert_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
выше среднего,11818,1025,8.67321
средний,4093,330,8.062546
высокий,4638,330,7.115136
низкий,372,23,6.182796
очень высокий,527,31,5.882353


#### Вывод


Клиенты из группы с высоким и очень высоким доходом уже обладают большей суммой в месяц, по сравнению с клиентом из группы с низким доходом, то есть как минимум распоряжаются своим временем и средствами эффективнее а значит возвращает кредит чаще, а чаще в нём даже не нуждается (касается только клиентов с очень высоким доходом, клиентов с высоким доходом всё-таки не отпустили до конца мысли среднего класса).

Клиент с низким доходом достаточно чётко понимает на какую минимальную сумму (для своей минимальной потребности) он может взять кредит и при какой сумме он точно её выплатит.

Клиенты со средним и выше среднего ур. дохода, завышают свои ожидания от собственных возможностей, от этого готовы больше рисковать неосознанно (ровно на 8.67% и 8.06% невозвратов в данной группе).

Уровень дохода влияет на возврат кредита - нелинейная зависимость. Это видно на убывающем % невозврата, в то время как лидером по невозвратам является средний класс. Рекомендуем предъявлять к клиентам со средним и выше среднего дохода больше гарантий и материальных обеспечений, поручителей и тд., либо лимитировать объём кредита (например выдавать сумму на -n% от запрощенной суммы, с учётом занятости, возраста и стажа).

- "Скажи мне чего ты хочешь и я скажу тебе – кто ты" или как цель кредита сказывается на намерении возвращать заёмные средства.

In [None]:

#Вывод общего числа кредитополучателей, разбитого по целям кредита и долей задолженности

count_purpose = data.groupby('purpose_group')['debt'].count()
sum_purpose = data.groupby('purpose_group')['debt'].sum()
purpose_percent = sum_purpose / count_purpose *100
purpose_total_data = pd.concat([count_purpose, sum_purpose,purpose_percent], axis = 1, keys = ['Количество заявок', 'Количество задолженностей', 'Доля в %'])

display (purpose_total_data.sort_values(by = 'Доля в %', ascending=False))


Unnamed: 0_level_0,Количество заявок,Количество задолженностей,Доля в %
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,4305,402,9.337979
образование,4013,370,9.220035
свадьба,2323,186,8.006888
недвижимость,10807,781,7.226797


#### Вывод

Клиенты привлекающие средства банка для свадьбы или покупки недвижимости (что говорит и намекает о том, что заинтересован в успешности сего мероприятия не только клиент, но и его окружение - те кто будет с ним жить или близкие, которые с ним будут отмечать свадьбу) имеют больше гарантий, а от сюда меньший процент невозвратов, чем клиенты, потребляющие кредит на покупку автотранспорта и платного обучения (тут появляются риски ДТП и перестановка приоритетов не в пользу банка, так же платное обучение = клиент нуждается в повышении квалификации а временной лаг между "обучением-реализацией полученных знаний-выплатами по кредиту" приводит к невозврату чаще, чем покупка недвижимости.
Рекомендуем предъявлять больше требований и страховок к кредитам на приобретение автомобиля и образования.

## Подведём итоги <a id="Подведём итоги"></a>

На этапе **предобработки** мы мы нашли и обработали в столбце дохода и стажа 2 1274 пропуска, что около 10% от всех анкет.

- Нашли аномальные значения ("20", "-1") в столбце с детьми, которые могли возникнуть по причине опечатки или системной ошибки. Заменили значения на количество равное 0, руководствуясь моделью распределения этого значения на масштабе групп с разным семейным статусом.
- Заменили нули в столбце возраста на среднее значение по группам, к которым они пренадлежали.
- Доказали симметрию пропущенных значений в столбце стажа и дохода. 
- Заменили пропущенные значения в столбце дохода и стажа на единицу, а затем поэтапно заменили эти значения на среднее(стаж) и медианное(доход) опираясь на образование, возрастную группу и тип занятости клиента. Привели к нижнему регистру значения столбца образования.
- Лемматизировали цель получения кредита до 4-х основных направлений: автомобиль, недвижимость, образование, свадьба.
- Наши и удалили дубликаты в строках, которые могли возникнуть во время предобработки. 

На этапе **категоризации** были проведены (по направлениям изучаемых задач) группировки значений столбцов с помощью сводных таблиц, добавления независимой характеристики (для исследования влияния цели кредита на возврат), ввода дополнительного столбца с описанием уровня дохода клиента (низкий, средний, выше среднего, высокий, очень высокий).

- Сводная таблица семейного статуса и количества детей показала: количество заявок на кредит уменьшается пропорционально росту числа детей в семье; клиенты состоящие в отношениях (брак, гражданский брак) имеют большее количество заявок, чем люди без пары (на третьем месте по числу), не говоря уже о клиентах вдовствующих и в разводе.

- Группировка клиентов по уровню дохода дала понять: чем стабильнее оплата их труда и прирост к зп, чем больше вокруг людей с таким же уровнем дохода, тем выше желание приобрести кредит (+уверенность в будущей, такой же доходности и приросте).

- Сводная таблица по целям кредита прояснила: клиенты, привлекающие заёмные средства в большинстве случаев делают вложение в крупные приобритения (собственное жильё и транспорт). 


Рекомендуем учесть в текущей модели кредитного скорринга, что влияние на погашение кредита в срок оказываются:


**Со стороны семейного статуса и количества детей**:

- чем выше статус (уровень официальной ответственности) - тем ниже процент невозврата
- чем меньше детей - тем меньше риск невозврата, однако при количестве 3 детей в семье и 5 так же наблюдается небольшой процент задолженностей.
- данная группа факторов в совокупности оказывает незначительное влияние со своими исключениями (во многом из-за небольшого числа анкет отдельно в некоторых группах)
Связь достаточно запутанная, для чёткого разграничение рекомендуем дополнительно применить SWOT-анализ включая данные факторы.

**Уровня дохода**:

- Уровень дохода влияет на возврат кредита - нелинейная зависимость. Лидером по невозвратам является средний класс. Рекомендуем предъявлять к клиентам со средним и выше среднего дохода больше гарантий и материальных обеспечений, поручителей и тд., либо лимитировать объём кредита (например выдавать сумму на -n% от запрощенной суммы, с учётом занятости, возраста и стажа).

**Целей кредита**:

- чем выше капиталоёмкость цели и вовлечённость близких клиента, тем меньше процент невозврата (цель - покупка недвижимости. Снижает невозврат до 7.23%).
- приобретение образования и автомобиля на кредитные средства (клиенты с подобными целями чаще, чем остальные готовы не платить и подвержены обстоятельствам со стороны: не могут найти работу, ремонтируют купленную машину и тд).


