# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Содержание**<br/>
<a name="contents"></a><br/>
<a name="chapter_0"></a>    
[**1. Общая структура файла с данными.**](#chapter_1.)<br/>
[1.1. Для выявления общей структуры файла смотрим вначале его любым вьюером и далее используем функции .info и .describe](#chapter_1.1.)<br/> 
[1.2. Проверим структуру столбцов нашей таблицы.](#chapter_1.2.)<br/>
[1.3. Проверим таблицу на присутствие дубликатов строк.](#chapter_1.3.)<br/>
[1.4. Краткие выводы по структуре.](#chapter_1.4.)<br/>
    
[**2. Предобработка данных.**](#chapter_2.)<br/>
[2.1. Удаление дублирующих строк.](#chapter_2.1.)<br/>
[2.2. Анализ столбцов.](#chapter_2.2.)<br/>
[2.2.1. Столбец 'children' - количество детей у клиента.](#chapter_2.2.1.)<br/>
[2.2.2. Столбец 'days_employed' общий трудовой стаж в днях.](#chapter_2.2.2.)<br/>
[2.2.3. Столбец 'dob_years' — возраст клиента в годах.](#chapter_2.2.3.)<br/>
[2.2.4. Столбец 'education' — уровень образования клиента.](#chapter_2.2.4.)<br/>
[2.2.5. Столбец education_id — идентификатор уровня образования.](#chapter_2.2.5.)<br/>
[2.2.6. Столбец 'family_status' — семейное положение.](#chapter_2.2.6.)<br/>
[2.2.7. Столбец 'family_status_id' — идентификатор семейного положения.](#chapter_2.2.7.)<br/>
[2.2.8. Столбец 'gender' — пол клиента.](#chapter_2.2.8.)<br/>
[2.2.9. Столбец 'income_type' — тип занятости.](#chapter_2.2.9.)<br/>
[2.2.10. Столбец 'debt' — имел ли задолженность по возврату кредитов.](#chapter_2.2.10.)<br/>
[2.2.11. Столбец 'total_income' — ежемесячный доход.](#chapter_2.2.11.)<br/>
[2.2.12. Столбец 'purpose' — цель получения кредита.](#chapter_2.2.12.)<br/>
    
[**3. Ответы на вопросы.**](#chapter_3.)  
[3.1. Есть ли зависимость между наличием детей и возвратом кредита в срок?.](#chapter_3.1.)<br/>
[3.2. Есть ли зависимость между семейным положением и возвратом кредита в срок?](#chapter_3.2.)<br/>
[3.3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#chapter_3.3.)<br/>
[3.4. Как разные цели кредита влияют на его возврат в срок?](#chapter_3.4.)<br/>

[**4. Общие выводы.**](#chapter_4.) 

<a name="chapter_1."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>1. Общая структура файла с данными.</b> <br/>
</div>

<a name="chapter_1.1."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>1.1. Для выявления общей структуры файла смотрим вначале его любым вьюером и далее используем функции .info и .describe</b> <br/>
</div>

In [1]:
import pandas as pd
# data = pd.read_csv('C:/1_Webartel/2021/pithon_work/datasets/data.csv') # разделители запятые

try:
    data = pd.read_csv('C:/1_Webartel/2021/pithon_work/datasets/data.csv') # разделители запятые
except FileNotFoundError as e:
    data = pd.read_csv('/datasets/data.csv')
    

data.info() # смотрим общую информацию о файле и его структуре

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
data.describe(include='all') # include='all' - включить все колонки, описание функцииhttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,19351.0,21525
unique,,,,15,,5,,3,8,,,38
top,,,,среднее,,женат / замужем,,F,сотрудник,,,свадьба
freq,,,,13750,,12380,,14236,11119,,,797
mean,0.538908,63046.497661,43.29338,,0.817236,,0.972544,,,0.080883,167422.3,
std,1.381587,140827.311974,12.574584,,0.548138,,1.420324,,,0.272661,102971.6,
min,-1.0,-18388.949901,0.0,,0.0,,0.0,,,0.0,20667.26,
25%,0.0,-2747.423625,33.0,,1.0,,0.0,,,0.0,103053.2,
50%,0.0,-1203.369529,42.0,,1.0,,0.0,,,0.0,145017.9,
75%,1.0,-291.095954,53.0,,1.0,,1.0,,,0.0,203435.1,


<a name="chapter_1.2."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>1.2. Проверим структуру столбцов нашей таблицы.</b> <br/>
</div>

In [3]:
print(data.columns) # названия столбцов нашего файла

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')


<a name="chapter_1.3."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>1.3. Проверим таблицу на присутствие дубликатов строк.</b> <br/>
</div>



Для представления выведем данные строки, сортируя по столбцу 'dob_years'. <br/>
Функция .duplicated была выбрана по причине своей работы по всему списку столбцов с вариациями по параметру keep - что позволяет рассмотреть визуально совпадающие строки.

In [4]:
data.loc[data.duplicated(subset=['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'], keep=False)].sort_values('dob_years') # keep='False' смотрим повторы
#DataFrame.duplicated(subset=None, keep='first') http://espressocode.top/python-pandas-dataframe-duplicated/ https://zen.yandex.ru/media/id/5ee6f73b7cadb75a66e4c7e3/vyiavlenie-i-filtraciia-dublikatov-s-pandas-5f2657156e5e0c5b1c250ab4

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19321,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,сделка с подержанным автомобилем
15892,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,сделка с подержанным автомобилем
18328,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
3452,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
8629,1,,30,высшее,0,женат / замужем,0,F,сотрудник,0,,покупка коммерческой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
13639,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,автомобиль
3609,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,жилье
12389,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,дополнительное образование
5865,0,,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,,операции со своей недвижимостью


In [5]:
data.loc[data.duplicated(subset=['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'], keep='first')].sort_values('dob_years') # keep='first' только первое значение рассматривается как уникальное

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19321,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,сделка с подержанным автомобилем
18328,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
21281,1,,30,высшее,0,женат / замужем,0,F,сотрудник,0,,покупка коммерческой недвижимости
18349,1,,30,высшее,0,женат / замужем,0,F,госслужащий,0,,покупка жилья для семьи
13878,1,,31,среднее,1,женат / замужем,0,F,компаньон,0,,покупка жилья
16904,1,,32,высшее,0,женат / замужем,0,F,сотрудник,0,,на покупку подержанного автомобиля
4182,1,,34,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,,свадьба
9238,2,,34,среднее,1,женат / замужем,0,F,сотрудник,0,,покупка жилья для сдачи
13773,0,,35,среднее,1,гражданский брак,1,F,сотрудник,0,,сыграть свадьбу
14432,2,,36,высшее,0,женат / замужем,0,F,госслужащий,0,,получение образования


<a name="chapter_1.4."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>1.4. Краткие выводы по структуре.</b> <br/>
</div>



Разберем более подробно описание данных:
всего 21525 строк.
Разделители - запятые и судя по отсутствию столбцов с непонятными названиями - ошибок с разделителями нет.
Названия столбцов без пропусков и артефактов, что уже хорошо.

Нашли 106 строк с дубликатами, из них оставим уникальные 52 строки.

children — количество детей в семье, тип int64, как и должно быть. Есть отрицательные, причина?

days_employed — общий трудовой стаж в днях, тип float64, имеются не только дробные данные, но и отрицательные, есть пропуски данных, что видно из цифры 19351.

dob_years — возраст клиента в годах, int64, проверим на отрицательные значения.

education — уровень образования клиента, object, есть Caps Lock, как полный, так и частичный, вывести уникальные значения.

education_id — идентификатор уровня образования, int64, не совсем понятно, что чему соответствует? Есть версия, что среднее - 1, высшее - 0. Надо проверить. Вывести уникальные значения.

family_status — семейное положение, object, текстовая строка, есть Caps Lock, вывести уникальные значения.

family_status_id — идентификатор семейного положения, int64, вывести уникальные значения в сопоставлении с уникальными в столбце family_status.

gender — пол клиента, object, вывести уникальные значения, с gender в мире не все сейчас понятно ))
income_type — тип занятости, object, вывести уникальные значения.

debt — имел ли задолженность по возврату кредитов, int64, вывести уникальные значения.

total_income — ежемесячный доход, float64, есть пропуски исходя из цифры 19351. Интересно, что количество строк с данными у столбца total_income совпадает со столбцом  days_employed, может по одной причине? Посмотреть их совместно. И нет ли отрицательных значений?

purpose — цель получения кредита, object, вывести уникальные значения

<a name="chapter_2."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2. Предобработка данных.</b> <br/>
</div>

<a name="chapter_2.1."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.1. Удаление дублирующих строк.</b> <br/>
</div>

Удаление дублирующих строк с помощью уже опробованной функции  .drop_duplicates, имеющей возможность за счет параметра keep оставить уникальные строки.

In [6]:
data.drop_duplicates(subset=['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'], keep='first', inplace=True) # keep='first' - оставляем первые уникальные строки дубликатов df.drop_duplicates(subset=['A', 'C'], keep=False) https://askdev.ru/q/udalite-vse-povtoryayuschiesya-stroki-v-python-pandas-40492/
# inplace=True - перезаписываем в это же таблице

Проверка результата операции по удалению дубликатов.

In [7]:
data.loc[data.duplicated(subset=['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'], keep=False)].sort_values('dob_years') # дубликаты не обнаружены

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


<a name="chapter_2.2."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2. Анализ столбцов.</b> <br/>
</div>

Для первичного понимания состава, ошибок, артефактов и распределения данных в отдельных столбцах нашего массива данных используем разновидности функции .value_counts. Выбрана по причине наглядности получаемых результатов.**
https://pythonru.com/primery/pandas-value-counts

<a name="chapter_2.2.1."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.1. Столбец 'children' - количество детей у клиента.</b> <br/>
</div>

Распределение уникальных данных значений столбца с учетом NaN по количеству.

In [8]:
data['children'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

 0     14107
 1      4809
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Отметим большую группу клиентов, имеющих по 20 детей и артефакт с количеством детей -1.

Смотрим строки с количеством детей, равным -1

In [9]:
children_minus1 = data.loc[data['children'] == -1]
print(children_minus1)

       children  days_employed  dob_years            education  education_id  \
291          -1   -4417.703588         46              среднее             1   
705          -1    -902.084528         50              среднее             1   
742          -1   -3174.456205         57              среднее             1   
800          -1  349987.852217         54              среднее             1   
941          -1            NaN         57              Среднее             1   
1363         -1   -1195.264956         55              СРЕДНЕЕ             1   
1929         -1   -1461.303336         38              среднее             1   
2073         -1   -2539.761232         42              среднее             1   
3814         -1   -3045.290443         26              Среднее             1   
4201         -1    -901.101738         41              среднее             1   
4402         -1  398001.302888         64              СРЕДНЕЕ             1   
4542         -1   -1811.899756         3

Здесь основная версия появления ошибки, что минус использовался при записи в виде дефиса и далее при цифровке данных оператор ошибочно вводил дефис в виде минуса. Считаю, что мы заменим все эти строки на значение в столбце 'children' на значение 1.

In [10]:
data['children'] = data['children'].replace(-1, 1)

Смотрим строки с количеством детей, равным 20

In [11]:
children_20 = data.loc[data['children'] == 20]
display(children_20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,-855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,-3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,-2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,-2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,-601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,,53,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилой недвижимости
21404,20,-494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


Анализ строк как-то не проясняет природу появления данного феномена. В индексе они разбросаны. Поля разнообразные. Версия в виде ошибочного введения оператором 20 вместо 2  - слабая, цифры на клавиатуре всегда достаточно разделены расстоянием. Можно поискать корреляцию с количеством усыновленных детей в семейном детском доме.

Считаю, что надо заменить в строках 20 детей на медианное значение и делаем конечную проверку столбца.

In [12]:
children_median = data.loc[data.loc[:, 'children'] != 20]['children'].median()
data['children'] = data['children'].replace(20, children_median)
data['children'].value_counts()

0    14183
1     4856
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

<a name="chapter_2.2.2."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.2. Столбец 'days_employed' общий трудовой стаж в днях.</b> <br/>
</div>

Смотрим распределение по четырем частям всего разброса данных значений столбца, для наглядности используем и в годах.

In [13]:
data['days_employed'].value_counts(bins=4) # это в днях, bins - количество групп

(-18809.095, 86647.138]     15906
(296719.313, 401755.4]       3445
(86647.138, 191683.225]         0
(191683.225, 296719.313]        0
Name: days_employed, dtype: int64

In [14]:
days_employed_year = data['days_employed'] / 365 # это для наглядности в годах, bins - количество групп
days_employed_year.value_counts(bins=4)

(-51.532999999999994, 237.389]    15906
(812.93, 1100.7]                   3445
(237.389, 525.16]                     0
(525.16, 812.93]                      0
Name: days_employed, dtype: int64

Столбец 'days_employed' - распределение уникальных данных значений столбца с учетом NaN по количеству.

In [15]:
data['days_employed'].value_counts(dropna=False)

 NaN              2120
-8437.673028         1
-5135.928528         1
 354500.415854       1
-769.717438          1
                  ... 
-1099.957609         1
-209.984794          1
 398099.392433       1
-1271.038880         1
-1984.507589         1
Name: days_employed, Length: 19352, dtype: int64

Есть NaN, отрицательные значения и есть какие-то большие странные цифры. Считаю, для наглядности вначале перевести данные в годы и сменить тип данных на int.
А далее посмотреть распределение стажа по всему массиву клиентов.
По NaN есть совпадение по количеству со столбцом total_income, посмотрим позже.

Вначале для этой цели импортируем библиотеку по копированию.

In [16]:
import copy #импорт библиотеки по копированию Источник: https://pythononline.ru/osnovy/modul-copy-python

Так как это пока просто исследование столбца, то вначале скопируем данные, чтобы пока не менять сам исходный массив данных.

In [17]:
data_2 = copy.deepcopy(data) # и скопируем наш файл, чтобы пока манипуляции с ним не меняли наш исходный массив

С копией делаем следующие манипуляции - убираем NaN с помощью .dropna  и переписываем датафрейм,
далее переводим все отрицательные данные в положительные с помощью .abs(),
далее переводим в годы для наглядности и в тип int 

In [18]:
data_2.dropna(subset = ['days_employed'], inplace = True) # inplace = False смотрим только копию данных
data_2['days_employed'] = data_2['days_employed'].abs() #Источник: https://pythononline.ru/osnovy/funktsiya-abs-python 
data_2['days_employed'] = data_2['days_employed'] / 365 # это для наглядности в годах
data_2['days_employed'] = data_2['days_employed'].astype('int')
print(data_2['days_employed'].value_counts().head(60))# посмотрим уникальные значения столбца и их распределение по количеству

1       2023
2       1878
0       1827
3       1560
4       1350
5       1024
6        965
7        810
8        748
9        572
10       455
11       379
12       345
13       284
14       251
15       205
16       134
19       124
17       117
18        98
20        90
21        88
22        81
23        65
24        53
25        51
26        50
27        46
30        34
931       31
29        30
32        28
1024      28
31        27
1005      27
935       27
1084      26
1004      26
1082      25
28        25
1043      25
918       24
924       24
970       24
1071      24
1022      24
1014      23
974       23
950       23
1089      23
1017      23
910       23
991       23
1020      23
1021      23
937       23
1029      22
914       22
908       22
916       22
Name: days_employed, dtype: int64


И что мы будем делать с этими безумными годами?

Посмотрим результаты по столбцу days_employed (в годах) в виде Dataframe, используя опять же .value_counts().to_frame() и логическое условие по стажу в годах

In [19]:
data_2.loc[data_2['days_employed'] <= 100].value_counts().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,0
children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,Unnamed: 12_level_1
0,0,0,СРЕДНЕЕ,1,гражданский брак,1,M,сотрудник,0,174105.987951,сыграть свадьбу,1
1,1,47,среднее,1,женат / замужем,0,M,сотрудник,0,193060.699620,строительство собственной недвижимости,1
1,1,46,СРЕДНЕЕ,1,Не женат / не замужем,4,F,сотрудник,1,138071.546042,получение дополнительного образования,1
1,1,46,высшее,0,гражданский брак,1,F,сотрудник,0,202780.883472,строительство жилой недвижимости,1
1,1,46,высшее,0,женат / замужем,0,F,сотрудник,0,110362.313652,строительство недвижимости,1
...,...,...,...,...,...,...,...,...,...,...,...,...
0,5,34,среднее,1,Не женат / не замужем,4,M,компаньон,0,289407.284906,покупка жилой недвижимости,1
0,5,34,среднее,1,Не женат / не замужем,4,M,сотрудник,0,232087.543238,образование,1
0,5,34,среднее,1,гражданский брак,1,M,сотрудник,0,91294.990601,операции с жильем,1
0,5,34,среднее,1,гражданский брак,1,M,сотрудник,0,178268.907126,строительство собственной недвижимости,1


In [20]:
data_2.loc[data_2['days_employed'] >= 100].value_counts().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,0
children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,Unnamed: 12_level_1
0,900,51,высшее,0,женат / замужем,0,F,пенсионер,0,189181.456572,недвижимость,1
0,1044,59,среднее,1,женат / замужем,0,F,пенсионер,0,29067.573677,покупка недвижимости,1
0,1044,62,среднее,1,гражданский брак,1,F,пенсионер,0,174926.520660,свадьба,1
0,1044,62,среднее,1,женат / замужем,0,F,пенсионер,0,399121.659013,операции со своей недвижимостью,1
0,1044,64,среднее,1,вдовец / вдова,2,F,пенсионер,1,180608.110744,покупка коммерческой недвижимости,1
0,...,...,...,...,...,...,...,...,...,...,...,...
0,974,51,среднее,1,вдовец / вдова,2,F,пенсионер,0,130715.795648,операции с коммерческой недвижимостью,1
0,974,52,Среднее,1,женат / замужем,0,M,пенсионер,0,203943.804142,строительство жилой недвижимости,1
0,974,53,среднее,1,Не женат / не замужем,4,F,пенсионер,0,489863.439884,операции с коммерческой недвижимостью,1
0,974,55,среднее,1,вдовец / вдова,2,F,пенсионер,0,205177.490584,строительство недвижимости,1


Стало немного яснее. Большие цифры возникают в основном у пенсионеров. Похоже на ошибку при пересчете данных из другого формата, потому как столбцы рядом, например dob_years  не коррелируют со столбцом days_employed. Пока идея - столбец ошибочный, данные нельзя назвать достоверными. Можно запросить уточнения по данному столбцу у заказчика, если эти данные потребуются в дальнейшем анализе.

In [21]:
data_2['days_employed'].value_counts(bins=10) # это опять же в годах, новых идей пока не дало.

(-1.101, 110.0]    15906
(990.0, 1100.0]     1880
(880.0, 990.0]      1565
(110.0, 220.0]         0
(220.0, 330.0]         0
(330.0, 440.0]         0
(440.0, 550.0]         0
(550.0, 660.0]         0
(660.0, 770.0]         0
(770.0, 880.0]         0
Name: days_employed, dtype: int64

Тогда для красоты конечных таблиц, хоть это и некорректно для этих данных -  заменим в столбце пропущенные значения на медианное и изменим тип данных.

In [22]:
data['days_employed'] = data['days_employed'].abs()
days_employed_median = data.loc[data.loc[:, 'days_employed'] != 'NaN']['days_employed'].median() # считаем медианное значение
print(days_employed_median)
data['days_employed'] = data['days_employed'].fillna(days_employed_median)#Источник: http://espressocode.top/python-pandas-dataframe-fillna-to-replace-null-values-in-dataframe/
data['days_employed'] = data['days_employed'].astype('int') # меняем тип данных
data['days_employed'].value_counts()

2194.220566878695


2194      2126
133         16
327         16
438         15
223         14
          ... 
8200         1
9090         1
360849       1
2101         1
343937       1
Name: days_employed, Length: 9086, dtype: int64

<a name="chapter_2.2.3."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.3. Столбец 'dob_years' — возраст клиента в годах.</b> <br/>
</div>

Смотрим распределение по 10 частям всего разброса данных значений столбца.

In [23]:
data['dob_years'].value_counts(bins=4) # bins - количество групп

(37.5, 56.25]      9834
(18.75, 37.5]      7675
(56.25, 75.0]      3861
(-0.076, 18.75]     101
Name: dob_years, dtype: int64

In [24]:
dob_years_do0 = data.loc[data['dob_years'] < 0]
print(dob_years_do0)

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


In [25]:
dob_years_do1 = data.loc[data['dob_years'] < 1]
print(dob_years_do1)

       children  days_employed  dob_years education  education_id  \
99            0         346541          0   Среднее             1   
149           0           2664          0   среднее             1   
270           3           1872          0   среднее             1   
578           0         397856          0   среднее             1   
1040          0           1158          0    высшее             0   
...         ...            ...        ...       ...           ...   
19829         0           2194          0   среднее             1   
20462         0         338734          0   среднее             1   
20577         0         331741          0   среднее             1   
21179         2            108          0    высшее             0   
21313         0           1268          0   среднее             1   

               family_status  family_status_id gender income_type  debt  \
99           женат / замужем                 0      F   пенсионер     0   
149                в 

У столбца 'dob_years' в 101 строке - нулевые значения, в остальном достоверное распределение данных, пропусков и отрицательных значений нет.

Нулевые значения по той же схеме меняем на медианное значение и делаем проверку.

In [26]:
dob_years_median = data.loc[data.loc[:, 'dob_years'] != 0]['dob_years'].median()
data['dob_years'] = data['dob_years'].replace(0, dob_years_median)
data['dob_years'].value_counts(bins=4)

(33.0, 47.0]                  7890
(47.0, 61.0]                  6435
(18.942999999999998, 33.0]    5368
(61.0, 75.0]                  1778
Name: dob_years, dtype: int64

<a name="chapter_2.2.4."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.4. Столбец 'education' — уровень образования клиента.</b> <br/>
</div>

In [27]:
data['education'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN, хоти их и нет, знаем из .describe 

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Переводим значения столбца в строчные значения с помощью .str.lower, вдруг банку еще что-то закаже посчитать? ))
И сразу проверим.

In [28]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

<a name="chapter_2.2.5."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.5. education_id — идентификатор уровня образования.</b> <br/>
</div>

In [29]:
data['education_id'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

1    15188
0     5251
2      744
3      282
4        6
Name: education_id, dtype: int64

Совпадение цифр с предыдущим пунктом очень радует, природа значений понятна, но проверим.

In [30]:
education_id_0 = data.loc[data['education_id'] == 0]
print(education_id_0.head(5))

    children  days_employed  dob_years education  education_id  \
0          1           8437         42    высшее             0   
5          0            926         27    высшее             0   
6          0           2879         43    высшее             0   
8          2           6929         35    высшее             0   
10         2           4171         36    высшее             0   

       family_status  family_status_id gender income_type  debt  \
0    женат / замужем                 0      F   сотрудник     0   
5   гражданский брак                 1      M   компаньон     0   
6    женат / замужем                 0      F   компаньон     0   
8   гражданский брак                 1      F   сотрудник     0   
10   женат / замужем                 0      M   компаньон     0   

     total_income                purpose  
0   253875.639453          покупка жилья  
5   255763.565419          покупка жилья  
6   240525.971920      операции с жильем  
8    95856.832424  на провед

In [31]:
education_id_1 = data.loc[data['education_id'] == 1]
print(education_id_1.head(5))

   children  days_employed  dob_years education  education_id  \
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
4         0         340266         53   среднее             1   
7         0            152         50   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   
7   женат / замужем                 0      M   сотрудник     0  135823.934197   

                      purpose  
1     приобретение автомобиля  
2               покупка жилья  
3  дополнительное образова

In [32]:
education_id_2 = data.loc[data['education_id'] == 2]
print(education_id_2.head(5))

     children  days_employed  dob_years            education  education_id  \
13          0           1846         54  неоконченное высшее             2   
42          0           1257         20  неоконченное высшее             2   
43          0           4375         43  неоконченное высшее             2   
64          0            118         35  неоконченное высшее             2   
134         1           4171         46  неоконченное высшее             2   

             family_status  family_status_id gender income_type  debt  \
13         женат / замужем                 0      F   сотрудник     0   
42   Не женат / не замужем                 4      F   сотрудник     0   
43               в разводе                 3      F   компаньон     0   
64   Не женат / не замужем                 4      M   сотрудник     0   
134              в разводе                 3      F   сотрудник     0   

      total_income                           purpose  
13   130458.228857           приобрет

In [33]:
education_id_3 = data.loc[data['education_id'] == 3]
print(education_id_3.head(5))

     children  days_employed  dob_years  education  education_id  \
31          0           1682         47  начальное             3   
136         0         357880         60  начальное             3   
210         2         342167         55  начальное             3   
211         0            577         41  начальное             3   
272         0           5538         35  начальное             3   

        family_status  family_status_id gender income_type  debt  \
31    женат / замужем                 0      F   сотрудник     0   
136   женат / замужем                 0      M   пенсионер     0   
210    вдовец / вдова                 2      F   пенсионер     0   
211  гражданский брак                 1      F   сотрудник     0   
272  гражданский брак                 1      M   сотрудник     1   

      total_income                           purpose  
31   275485.684538                             жилье  
136  113124.202781   операции со своей недвижимостью  
210  160635.12034

In [34]:
education_id_4 = data.loc[data['education_id'] == 4]
print(education_id_4.head(5))

       children  days_employed  dob_years       education  education_id  \
2963          0         337584         69  ученая степень             4   
4170          0            409         45  ученая степень             4   
6551          0           5352         58  ученая степень             4   
12021         3           5968         36  ученая степень             4   
12786         0         376276         62  ученая степень             4   

               family_status  family_status_id gender  income_type  debt  \
2963         женат / замужем                 0      M    пенсионер     0   
4170   Не женат / не замужем                 4      M    сотрудник     0   
6551         женат / замужем                 0      M    сотрудник     0   
12021        женат / замужем                 0      F  госслужащий     0   
12786        женат / замужем                 0      F    пенсионер     0   

        total_income                                purpose  
2963    98752.495442          

In [35]:
education_id_all = data.groupby('education_id')['education'].unique()
display(education_id_all)

education_id
0                 [высшее]
1                [среднее]
2    [неоконченное высшее]
3              [начальное]
4         [ученая степень]
Name: education, dtype: object

<a name="chapter_2.2.6."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.6. Столбец 'family_status' — семейное положение.</b> <br/>
</div>

In [36]:
data['family_status'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

Переведем в строчные значения для порядка...

In [37]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].value_counts()

женат / замужем          12344
гражданский брак          4163
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

<a name="chapter_2.2.7."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.7. Столбец 'family_status_id' — идентификатор семейного положения.</b> <br/>
</div>

In [38]:
data['family_status_id'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

0    12344
1     4163
4     2810
3     1195
2      959
Name: family_status_id, dtype: int64

Значения совпадают с предыдущим столбцом, значит их смысл понятен. Проверим хотя бы один вариант.

In [39]:
family_status_id_0 = data.loc[data['family_status_id'] == 0]
print(family_status_id_0.head(5))

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
6         0           2879         43    высшее             0   

     family_status  family_status_id gender income_type  debt   total_income  \
0  женат / замужем                 0      F   сотрудник     0  253875.639453   
1  женат / замужем                 0      F   сотрудник     0  112080.014102   
2  женат / замужем                 0      M   сотрудник     0  145885.952297   
3  женат / замужем                 0      M   сотрудник     0  267628.550329   
6  женат / замужем                 0      F   компаньон     0  240525.971920   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жилья  


<a name="chapter_2.2.8."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.8. Столбец 'gender' — пол клиента.</b> <br/>
</div>

In [40]:
data['gender'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

F      14189
M       7281
XNA        1
Name: gender, dtype: int64

Нашли интересный пол - XNA, смотрим на данную запись

In [41]:
gender_xna = data.loc[data['gender'] == 'XNA']
print(gender_xna)

       children  days_employed  dob_years            education  education_id  \
10701         0           2358         24  неоконченное высшее             2   

          family_status  family_status_id gender income_type  debt  \
10701  гражданский брак                 1    XNA   компаньон     0   

        total_income               purpose  
10701  203905.157261  покупка недвижимости  


Думаю, если готовить массив для дальнейших работ, то лучше убрать эту запись из дальнейших расчетов. Это никак не должно сказаться на общих результатах. Перезаписываем дата и проверяем результат.

In [42]:
data = data[data['gender'] != 'XNA']
data[data['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Заменим для красоты и надежности на строчные символы.

In [43]:
data['gender'] = data['gender'].str.lower()
data['gender'].value_counts()

f    14189
m     7281
Name: gender, dtype: int64

<a name="chapter_2.2.9."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.9. Столбец 'income_type' — тип занятости.</b> <br/>
</div>

Интересно распределение по типу занятости

In [44]:
data['income_type'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

сотрудник          11091
компаньон           5079
пенсионер           3837
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

<a name="chapter_2.2.10."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.10. Столбец 'debt' — имел ли задолженность по возврату кредитов.</b> <br/>
</div>

Интересно распределение по задолженности.

In [45]:
data['debt'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

0    19729
1     1741
Name: debt, dtype: int64

Скорее всего, если имел задолженность - это 1. Но я не совсем в этом уверен. А узнать можно только у банка, и как это сделать? 

<a name="chapter_2.2.11."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.11. Столбец 'total_income' — ежемесячный доход.</b> <br/>
</div>

In [46]:
data['total_income'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

NaN              2120
253875.639453       1
124337.377229       1
70113.902786        1
116196.518662       1
                 ... 
148042.721049       1
60039.334460        1
175979.762960       1
155819.968351       1
82047.418899        1
Name: total_income, Length: 19351, dtype: int64

Смотрим, что за строки с NaN в столбцах 'total_income' и 'days_employed'. Посчитать в каждом столбце отсутствующие значения можно методом .isnull()

In [47]:
data[pd.isnull(data['total_income'])] # выводим строки с пропусками NaN 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,2194,65,среднее,1,гражданский брак,1,m,пенсионер,0,,сыграть свадьбу
26,0,2194,41,среднее,1,женат / замужем,0,m,госслужащий,0,,образование
29,0,2194,63,среднее,1,не женат / не замужем,4,f,пенсионер,0,,строительство жилой недвижимости
41,0,2194,50,среднее,1,женат / замужем,0,f,госслужащий,0,,сделка с подержанным автомобилем
55,0,2194,54,среднее,1,гражданский брак,1,f,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,2194,47,среднее,1,женат / замужем,0,m,компаньон,0,,сделка с автомобилем
21495,1,2194,50,среднее,1,гражданский брак,1,f,сотрудник,0,,свадьба
21497,0,2194,48,высшее,0,женат / замужем,0,f,компаньон,0,,строительство недвижимости
21502,1,2194,42,среднее,1,женат / замужем,0,f,сотрудник,0,,строительство жилой недвижимости


Думаю, следует перевести тип данных в int и  сделать замену пропущенных значений на медианное. Сделаем это методом  fillna(), который управляет и позволяет пользователю заменять значения NaN на свои собственные значения.
http://espressocode.top/python-pandas-dataframe-fillna-to-replace-null-values-in-dataframe/
И сразу проверим.

In [48]:
total_income_median = data.loc[data.loc[:, 'total_income'] != 'NaN']['total_income'].median() # считаем медианное значение
print(total_income_median)
data['total_income'] = data['total_income'].fillna(total_income_median)#Источник: http://espressocode.top/python-pandas-dataframe-fillna-to-replace-null-values-in-dataframe/
data['total_income'] = data['total_income'].astype('int') # меняем тип данных
data['total_income'].value_counts(dropna=False)

145011.70929552132


145011    2120
154199       3
150684       3
145603       3
126262       3
          ... 
300306       1
381117       1
70100        1
110461       1
82047        1
Name: total_income, Length: 18606, dtype: int64

<a name="chapter_2.2.12."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>2.2.12. Столбец 'purpose' — цель получения кредита.</b> <br/>
</div>

In [49]:
data['purpose'].value_counts(dropna=False) # ставим значение False для параметра dropna, чтобы учесть возможные NaN

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      620
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Судя по всему, для этого столбца нам потребуется и категоризация и лемматизация. Потому как при таком разнообразии формулировок цель кредита лучше лемматизировать, з затем добавить новый столбец в массив с данными категориями.
Ставим библиотеку с русским языком.

Вначале используем .unique () - сохраняем все уникальные значения из столбца purpose в переменной, смотрим его и получаем его длину http://espressocode.top/python-pandas-series-unique/

In [50]:
purpose_arr = data['purpose'].unique()
print(purpose_arr)
len(purpose_arr)

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


38

Смотрим результаты стемминга.

In [51]:
from nltk.stem import SnowballStemmer 
russian_stemmer = SnowballStemmer('russian')
for word in purpose_arr:
    print ('Исходное слово - ' + word + ', после стемминга - ' + russian_stemmer.stem(word)) 

Исходное слово - покупка жилья, после стемминга - покупка жил
Исходное слово - приобретение автомобиля, после стемминга - приобретение автомобил
Исходное слово - дополнительное образование, после стемминга - дополнительное образован
Исходное слово - сыграть свадьбу, после стемминга - сыграть свадьб
Исходное слово - операции с жильем, после стемминга - операции с жил
Исходное слово - образование, после стемминга - образован
Исходное слово - на проведение свадьбы, после стемминга - на проведение свадьб
Исходное слово - покупка жилья для семьи, после стемминга - покупка жилья для сем
Исходное слово - покупка недвижимости, после стемминга - покупка недвижим
Исходное слово - покупка коммерческой недвижимости, после стемминга - покупка коммерческой недвижим
Исходное слово - покупка жилой недвижимости, после стемминга - покупка жилой недвижим
Исходное слово - строительство собственной недвижимости, после стемминга - строительство собственной недвижим
Исходное слово - недвижимость, после стемм

Инсталлируем pymystem3

In [52]:
pip install pymystem3

Note: you may need to restart the kernel to use updated packages.


Проводим purpose_arr через pymystem3

In [53]:
from pymystem3 import Mystem
m = Mystem()

lemmas = []
for i in purpose_arr:
    lemma = m.lemmatize(i)
    lemmas.append(lemma)
print(lemmas)

[['покупка', ' ', 'жилье', '\n'], ['приобретение', ' ', 'автомобиль', '\n'], ['дополнительный', ' ', 'образование', '\n'], ['сыграть', ' ', 'свадьба', '\n'], ['операция', ' ', 'с', ' ', 'жилье', '\n'], ['образование', '\n'], ['на', ' ', 'проведение', ' ', 'свадьба', '\n'], ['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n'], ['покупка', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n'], ['недвижимость', '\n'], ['строительство', ' ', 'недвижимость', '\n'], ['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n'], ['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n'], ['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['жилье', '\n'], ['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n'], ['автомобиль', '\n'], ['заниматьс

Жилье, автомобиль, образование, свадьба - исчерпывающий список из лемматизации по  pymystem3

Делаем категоризацию столбца purpose и добавляем новый столбец к нашему массиву

In [54]:
#def purpose_label(row):                                     # закомментировал, получалось слишком большое время для обработки
#    lemmas_purpose = m.lemmatize(row['purpose'])            # большое время даже на предыдущей стадии
#    if 'жилье' in lemmas_purpose:
#        return 'недвижимость'
#    if 'недвижимость' in lemmas_purpose:
#        return 'недвижимость'
#    if 'автомобиль' in lemmas_purpose:
#        return  'автомобиль'
#    if 'образование' in lemmas_purpose:
#        return  'образование'
#    if 'свадьба' in lemmas_purpose:
#        return  'свадьба'
#    return  'иные цели'
#data['purpose_label'] = data.apply(purpose_label, axis=1) # добавлем столбец
#data.head(10)

def purpose_label(row):                                      # аналогичная схема с ручной обработкой, на порядки быстрее
    lemmas_purpose = row['purpose']
    if 'жиль' in lemmas_purpose:
        return 'недвижимость'
    if 'недвиж' in lemmas_purpose:
        return 'недвижимость'
    if 'авто' in lemmas_purpose:
        return  'автомобиль'
    if 'образов' in lemmas_purpose:
        return  'образование'
    if 'свадьб' in lemmas_purpose:
        return  'свадьба'
    return  'иные цели'
data['purpose_label'] = data.apply(purpose_label, axis=1) # добавлем столбец
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_label
0,1,8437,42,высшее,0,женат / замужем,0,f,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,f,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,m,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,m,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,f,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,926,27,высшее,0,гражданский брак,1,m,компаньон,0,255763,покупка жилья,недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,f,компаньон,0,240525,операции с жильем,недвижимость
7,0,152,50,среднее,1,женат / замужем,0,m,сотрудник,0,135823,образование,образование
8,2,6929,35,высшее,0,гражданский брак,1,f,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,2188,41,среднее,1,женат / замужем,0,m,сотрудник,0,144425,покупка жилья для семьи,недвижимость


Если не считаем проблем со столбцом days_employed - все готово к дальнейшему анализу.

<a name="chapter_3."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>3. Ответы на вопросы.</b> <br/>
</div>

<a name="chapter_3.1."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>3.1. Есть ли зависимость между наличием детей и возвратом кредита в срок?</b> <br/>
</div>

Мне не совсем кажется полностью корректным такой вопрос. Более правильно бы иметь еще и возраст детей. Тогда можно было бы поставить вопрос - как влияет ли начие маленьких детей (до определенной возраста) на возврат кредита в срок?

Для ответа на имеющийся вопрос посчитаем долю имеющих просрочку сренди заемщиков, не имеющих детей и заемщиков с детьми.

In [55]:
client_child_no = len(data.loc[data['children'] == 0]) # считаем длину при условии
client_child_yes = len(data.loc[data['children'] > 0]) # считаем длину при условии

client_debt_child_no = data.loc[data['children'] == 0, 'debt'].sum() # суммируем по debt https://utyatnishna.ru/info/219763/how-do-i-sum-values-in-a-column-that-match-a-given-condition-using-pandas
client_debt_child_yes = data.loc[data['children'] > 0, 'debt'].sum()

client_debt_child_no_pr = client_debt_child_no / client_child_no * 100
client_debt_child_yes_pr = client_debt_child_yes / client_child_yes * 100

print('Количество клиентов без детей:', client_child_no)
print('Количество клиентов без детей с debt:', client_debt_child_no)
print('Процент с debt у клиентов без детей: {:.1f}'.format(client_debt_child_no_pr))
print('Общее количество клиентов с детьми:', client_child_yes)  
print('Количество клиентов с детьми с debt:', client_debt_child_yes)
print('Процент с debt у клиентов с детьми: {:.1f}'.format(client_debt_child_yes_pr))


Количество клиентов без детей: 14182
Количество клиентов без детей с debt: 1071
Процент с debt у клиентов без детей: 7.6
Общее количество клиентов с детьми: 7288
Количество клиентов с детьми с debt: 670
Процент с debt у клиентов с детьми: 9.2


Далее посмотрим % заемщиков с разным количеством детей.

In [56]:
debt_children = pd.DataFrame()
debt_children['количество клиентов'] = data.groupby('children')['debt'].count() # считаем общее количество клиентов с таким числом детей
debt_children['из них с debt'] = data.groupby('children')['debt'].sum() # считаем, сколько в них с задолженностью
debt_children['%'] = debt_children['из них с debt'] / debt_children['количество клиентов'] *100 # считаем процент клиентов с задолженностью по данной группе
debt_children.sort_values('children', ascending = True)

Unnamed: 0_level_0,количество клиентов,из них с debt,%
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14182,1071,7.551826
1,4856,445,9.163921
2,2052,194,9.454191
3,330,27,8.181818
4,41,4,9.756098
5,9,0,0.0


In [57]:
children_debt_mean = data.groupby('children')['debt'].mean()
display(children_debt_mean)

children
0    0.075518
1    0.091639
2    0.094542
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64

In [58]:
children_debt_mean = data.groupby('children').agg(number_of_clients=('debt','count'),debtors=('debt','sum'),ratio=('debt','mean'))
display(children_debt_mean)

Unnamed: 0_level_0,number_of_clients,debtors,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14182,1071,0.075518
1,4856,445,0.091639
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


И интересно, как влияет количество маленьких детей на регулярность платежей. Полных данных для этого не хватает, но мы можем взять клиентов с детьми с возрастом клиента до 35 лет включительно и процент клиентов из этой группы покажет тренд.

In [59]:
data_35 = copy.deepcopy(data)
data_35 = data_35[data_35['dob_years'] <= 35]
#data_35[data_35['dob_years'] <= 35] # сделал для просмотра

In [60]:
client_child_no_35 = len(data_35.loc[data_35['children'] == 0])
client_child_yes_35 = len(data_35.loc[data_35['children'] > 0])

client_debt_child_no_35 = data_35.loc[data_35['children'] == 0, 'debt'].sum() # суммируем по debt https://utyatnishna.ru/info/219763/how-do-i-sum-values-in-a-column-that-match-a-given-condition-using-pandas
client_debt_child_yes_35 = data_35.loc[data_35['children'] > 0, 'debt'].sum()

client_debt_child_no_pr_35 = client_debt_child_no_35 / client_child_no_35 * 100
client_debt_child_yes_pr_35 = client_debt_child_yes_35 / client_child_yes_35 * 100

print('Возраст клиентов до 35 лет, включительно:')
print('')
print('Количество клиентов без детей:', client_child_no_35)
print('Количество клиентов без детей с debt:', client_debt_child_no_35)
print('Процент с debt у клиентов без детей: {:.1f}'.format(client_debt_child_no_pr_35))
print('Общее количество клиентов с детьми:', client_child_yes_35)  
print('Количество клиентов с детьми с debt:', client_debt_child_yes_35)
print('Процент с debt у клиентов с детьми: {:.1f}'.format(client_debt_child_yes_pr_35))

Возраст клиентов до 35 лет, включительно:

Количество клиентов без детей: 3340
Количество клиентов без детей с debt: 353
Процент с debt у клиентов без детей: 10.6
Общее количество клиентов с детьми: 3244
Количество клиентов с детьми с debt: 345
Процент с debt у клиентов с детьми: 10.6


Так как мы получили результат вне ранее показываемого тренда, то заодно и посмотрим аналогичные цифры для клиентов старше 35 лет.

In [61]:
data_35 = copy.deepcopy(data)
data_35 = data_35[data_35['dob_years'] > 35]
#data_35[data_35['dob_years'] <= 35] # сделал для просмотра

In [62]:
client_child_no_35 = len(data_35.loc[data_35['children'] == 0])
client_child_yes_35 = len(data_35.loc[data_35['children'] > 0])

client_debt_child_no_35 = data_35.loc[data_35['children'] == 0, 'debt'].sum() # суммируем по debt https://utyatnishna.ru/info/219763/how-do-i-sum-values-in-a-column-that-match-a-given-condition-using-pandas
client_debt_child_yes_35 = data_35.loc[data_35['children'] > 0, 'debt'].sum()

client_debt_child_no_pr_35 = client_debt_child_no_35 / client_child_no_35 * 100
client_debt_child_yes_pr_35 = client_debt_child_yes_35 / client_child_yes_35 * 100

print('Возраст клиентов выше 35 лет:')
print('')
print('Количество клиентов без детей:', client_child_no_35)
print('Количество клиентов без детей с debt:', client_debt_child_no_35)
print('Процент с debt у клиентов без детей: {:.1f}'.format(client_debt_child_no_pr_35))
print('Общее количество клиентов с детьми:', client_child_yes_35)  
print('Количество клиентов с детьми с debt:', client_debt_child_yes_35)
print('Процент с debt у клиентов с детьми: {:.1f}'.format(client_debt_child_yes_pr_35))

Возраст клиентов выше 35 лет:

Количество клиентов без детей: 10842
Количество клиентов без детей с debt: 718
Процент с debt у клиентов без детей: 6.6
Общее количество клиентов с детьми: 4044
Количество клиентов с детьми с debt: 325
Процент с debt у клиентов с детьми: 8.0


> Выводы:
    В целом цифры показывают, что процент клиентов с debt выше у клиентов с детьми. Но этот тренд действителен только для клиентов старше 35 лет. В группе клиентов до 35 лет, включительно - процент клиентов с debt одинаков и для клиентов с детьми и клиентов без детей. Также необходимо отметить, что группе клиентов до 35 лет данный процент является достаточно высоким и равен 10,6.

In [63]:
#client_debt_child_no = data.groupby('children')['debt'].value_counts() # интересное отображение, оставить в архиве
#print(client_debt_child_no)
#client_debt_child_no = data.groupby('debt')['children'].value_counts() # интересное отображение, оставить в архиве
#print(client_debt_child_no)

<a name="chapter_3.2."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>3.2. Есть ли зависимость между семейным положением и возвратом кредита в срок?</b> <br/>
</div>

In [64]:
debt_family_status = pd.DataFrame()
debt_family_status['количество клиентов'] = data.groupby('family_status')['debt'].count() # считаем общее количество клиентов с таким статусом
debt_family_status['из них с debt'] = data.groupby('family_status')['debt'].sum() # считаем, сколько в них с задолженностью
debt_family_status['%'] = debt_family_status['из них с debt'] / debt_family_status['количество клиентов'] *100 # считаем процент клиентов с задолженностью по данной группе
debt_family_status.sort_values('%', ascending = True)

Unnamed: 0_level_0,количество клиентов,из них с debt,%
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,959,63,6.569343
в разводе,1195,85,7.112971
женат / замужем,12344,931,7.542126
гражданский брак,4162,388,9.322441
не женат / не замужем,2810,274,9.75089


Интересно посмотреть картину на выборке клиентов до 35 лет включительно.

In [65]:
data_family_status_35 = copy.deepcopy(data)
data_family_status_35 = data_family_status_35[data_family_status_35['dob_years'] <= 35]
#data_family_status_35[data_family_status_35['dob_years'] <= 35] # сделал для просмотра

In [66]:
debt_family_status_35 = pd.DataFrame()
debt_family_status_35['количество клиентов_35'] = data_family_status_35.groupby('family_status')['debt'].count() # считаем общее количество клиентов с таким статусом
debt_family_status_35['из них с debt_35'] = data_family_status_35.groupby('family_status')['debt'].sum() # считаем, сколько в них с задолженностью
debt_family_status_35['%_35'] = debt_family_status_35['из них с debt_35'] / debt_family_status_35['количество клиентов_35'] *100 # считаем процент клиентов с задолженностью по данной группе
debt_family_status_35.sort_values('%_35', ascending = True)

Unnamed: 0_level_0,количество клиентов_35,из них с debt_35,%_35
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,20,2,10.0
женат / замужем,3558,357,10.033727
в разводе,232,24,10.344828
гражданский брак,1392,151,10.847701
не женат / не замужем,1382,164,11.86686


Соединим эти две таблицы для рассмотрения методом .merge

In [67]:
debt_family_status_all = pd.merge(debt_family_status, debt_family_status_35, # соединяем две предыдущие таблицы в одно. #how='outer' - означает, что будет NaN если значения у такого name не будет
         left_on='family_status', right_on='family_status', how='outer')
debt_family_status_all = debt_family_status_all # 
debt_family_status_all.sort_values('%', ascending = True)

Unnamed: 0_level_0,количество клиентов,из них с debt,%,количество клиентов_35,из них с debt_35,%_35
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
вдовец / вдова,959,63,6.569343,20,2,10.0
в разводе,1195,85,7.112971,232,24,10.344828
женат / замужем,12344,931,7.542126,3558,357,10.033727
гражданский брак,4162,388,9.322441,1392,151,10.847701
не женат / не замужем,2810,274,9.75089,1382,164,11.86686


> Выводы:
> Да, определенные статусы семейного положения положительно влияют на возвращаемость кредитов. 
> Лучше отдают группы (процент по debt до 7.5):
> + вдовец / вдова
> + в разводе
> + женат / замужем

> и хуже отдают кредиты группы (процент по debt выше 9.3):
> + гражданский брак
> + не женат / не замужем

> Но иная картина для группы клиентов до 35 лет включительно. В ней выделяются в худшую сторону только слой не женат / не замужем. И в целом цифры %debt значимо хуже. Опять же к этой группе необходимо бОльшее внимание.

<a name="chapter_3.3."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>3.3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</b> <br/>
</div>

Вначале смотрим, как лучше разбить на группы по доходам:

In [68]:
data['total_income'].value_counts(bins=4)

(18422.061999999998, 581901.25]    21347
(581901.25, 1143135.5]               109
(1143135.5, 1704369.75]                9
(1704369.75, 2265604.0]                5
Name: total_income, dtype: int64

Исходя из этих цифр можно разбить группы на диапазоны по 50 тыс.руб.

In [69]:
def total_income_range_name(range_value):
    if range_value <= 50000:                            # распределение по диапазону, есть ли более короткий способ?
        return 1
    if range_value > 50000 and range_value <= 100000:
        return 2
    if range_value > 100000 and range_value <= 150000:
        return 3
    if range_value > 150000 and range_value <= 200000:
        return 4
    if range_value > 200000 and range_value <= 250000:
        return 5
    if range_value > 250000 and range_value <= 300000:
        return 6
    if range_value > 350000 and range_value <= 400000:
        return 7
    if range_value > 400000 and range_value <= 450000:
        return 8
    if range_value > 450000 and range_value <= 500000:
        return 9
    if range_value > 500000:
        return 10
        return range_value
    

data['total_income_range'] = data['total_income'].apply(total_income_range_name) # делаем дополнительный столбец total_income_range
#print(data)
debt_income_range = pd.DataFrame() # для отображения создаем новый dataframe
debt_income_range['sum'] = data.groupby('total_income_range')['debt'].sum() # группируем по новому столбцу
debt_income_range['count'] = data.groupby('total_income_range')['debt'].count()
debt_income_range['%debt'] = debt_income_range['sum'] / debt_income_range['count'] *100
debt_income_range.sort_values('total_income_range', ascending = True)

Unnamed: 0_level_0,sum,count,%debt
total_income_range,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.0,23,372,6.182796
2.0,331,4091,8.090931
3.0,661,7824,8.448364
4.0,368,4118,8.936377
5.0,164,2253,7.279183
6.0,88,1330,6.616541
7.0,24,330,7.272727
8.0,13,196,6.632653
9.0,4,110,3.636364
10.0,14,222,6.306306


Давайте также посмотрим только на клиентах до 35 лет.

In [70]:
data_income_35 = copy.deepcopy(data)
data_income_35 = data_income_35[data_income_35['dob_years'] <= 35]
#data_35[data_35['dob_years'] <= 35] # сделал для просмотра

In [71]:
def total_income_range_name(range_value):
    if range_value <= 50000:                            # распределение по диапазону, есть ли более короткий способ?
        return 1
    if range_value > 50000 and range_value <= 100000:
        return 2
    if range_value > 100000 and range_value <= 150000:
        return 3
    if range_value > 150000 and range_value <= 200000:
        return 4
    if range_value > 200000 and range_value <= 250000:
        return 5
    if range_value > 250000 and range_value <= 300000:
        return 6
    if range_value > 350000 and range_value <= 400000:
        return 7
    if range_value > 400000 and range_value <= 450000:
        return 8
    if range_value > 450000 and range_value <= 500000:
        return 9
    if range_value > 500000:
        return 10
        return range_value
    

data_income_35['total_income_range'] = data_income_35['total_income'].apply(total_income_range_name) # делаем дополнительный столбец total_income_range
#print(data)
debt_income_range_35 = pd.DataFrame() # для отображения создаем новый dataframe
debt_income_range_35['sum_35'] = data_income_35.groupby('total_income_range')['debt'].sum() # группируем по новому столбцу
debt_income_range_35['count_35'] = data_income_35.groupby('total_income_range')['debt'].count()
debt_income_range_35['%debt_35'] = debt_income_range['sum'] / debt_income_range['count'] *100
debt_income_range_35.sort_values('total_income_range', ascending = True)

Unnamed: 0_level_0,sum_35,count_35,%debt_35
total_income_range,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.0,5,67,6.182796
2.0,127,1187,8.090931
3.0,287,2450,8.448364
4.0,146,1317,8.936377
5.0,62,740,7.279183
6.0,31,410,6.616541
7.0,10,87,7.272727
8.0,4,58,6.632653
9.0,2,34,3.636364
10.0,4,56,6.306306


Соединим эти две таблицы для рассмотрения методом .merge

In [72]:
debt_income_range_all = pd.merge(debt_income_range, debt_income_range_35, # соединяем две предыдущие таблицы в одно. #how='outer' - означает, что будет NaN если значения у такого name не будет
         left_on='total_income_range', right_on='total_income_range', how='outer')
debt_income_range_all = debt_income_range_all # 
debt_income_range_all.sort_values('total_income_range', ascending = True)

Unnamed: 0_level_0,sum,count,%debt,sum_35,count_35,%debt_35
total_income_range,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1.0,23,372,6.182796,5,67,6.182796
2.0,331,4091,8.090931,127,1187,8.090931
3.0,661,7824,8.448364,287,2450,8.448364
4.0,368,4118,8.936377,146,1317,8.936377
5.0,164,2253,7.279183,62,740,7.279183
6.0,88,1330,6.616541,31,410,6.616541
7.0,24,330,7.272727,10,87,7.272727
8.0,13,196,6.632653,4,58,6.632653
9.0,4,110,3.636364,2,34,3.636364
10.0,14,222,6.306306,4,56,6.306306


> Выводы: Да, можно сказать, что группы с доходами от 50000 до 200000 несколько хуже возвращают кредиты. В группе до 35 лет включительно похожий тренд и в целом в группе до 35 лет процент задолженности выше, что возможно потребует более внимательного подхода к данной группе.
Обращает на себя внимание артефакт в группе до 35 лет из диапазона от 350000 до 400000 руб. Хотя это может определяться  и малой выборкой,  малым количеством подобных клиентов.

<a name="chapter_3.4."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>3.4. Как разные цели кредита влияют на его возврат в срок?</b> <br/>
</div>

In [73]:
debt_purpose_label = pd.DataFrame()
debt_purpose_label['количество клиентов'] = data.groupby('purpose_label')['debt'].count() # считаем общее количество клиентов с таким статусом
debt_purpose_label['из них с debt'] = data.groupby('purpose_label')['debt'].sum() # считаем, сколько в них с задолженностью
debt_purpose_label['%'] = debt_purpose_label['из них с debt'] / debt_purpose_label['количество клиентов'] *100 # считаем процент клиентов с задолженностью по данной группе
debt_purpose_label.sort_values('%', ascending = True)

Unnamed: 0_level_0,количество клиентов,из них с debt,%
purpose_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
недвижимость,10813,782,7.232036
свадьба,2335,186,7.965739
образование,4014,370,9.217738
автомобиль,4308,403,9.354689


И давайте отдельно, для полноты картины, посмотрим  и группу клиентов до 35 лет, включительно. Если бы база была реальная, то было бы интересно в этом пункте сделать разные срезы. Но цель данного исследования - получить зачет ))

In [74]:
data_purpose_label_35 = copy.deepcopy(data)
data_purpose_label_35 = data_purpose_label_35[data_purpose_label_35['dob_years'] <= 35]
#data_purpose_label_35[data_purpose_label_35['dob_years'] <= 35] # сделал для просмотра

In [75]:
debt_purpose_label_35 = pd.DataFrame()
debt_purpose_label_35['количество клиентов_35'] = data_purpose_label_35.groupby('purpose_label')['debt'].count() # считаем общее количество клиентов с таким статусом
debt_purpose_label_35['из них с debt_35'] = data_purpose_label_35.groupby('purpose_label')['debt'].sum() # считаем, сколько в них с задолженностью
debt_purpose_label_35['%_35'] = debt_purpose_label_35['из них с debt_35'] / debt_purpose_label_35['количество клиентов_35'] *100 # считаем процент клиентов с задолженностью по данной группе
debt_purpose_label_35.sort_values('%_35', ascending = True)

Unnamed: 0_level_0,количество клиентов_35,из них с debt_35,%_35
purpose_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
свадьба,727,66,9.078404
недвижимость,3331,311,9.336536
автомобиль,1287,163,12.665113
образование,1239,158,12.75222


Соединим эти две таблицы для совместного рассмотрения, методом .merge

In [76]:
debt_purpose_label_all = pd.merge(debt_purpose_label, debt_purpose_label_35, # соединяем две предыдущие таблицы в одно. #how='outer' - означает, что будет NaN если значения у такого name не будет
         left_on='purpose_label', right_on='purpose_label', how='outer')
debt_purpose_label_all = debt_purpose_label_all # 
debt_purpose_label_all.sort_values('%', ascending = True)

Unnamed: 0_level_0,количество клиентов,из них с debt,%,количество клиентов_35,из них с debt_35,%_35
purpose_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
недвижимость,10813,782,7.232036,3331,311,9.336536
свадьба,2335,186,7.965739,727,66,9.078404
образование,4014,370,9.217738,1239,158,12.75222
автомобиль,4308,403,9.354689,1287,163,12.665113


> Выводы: Здесь тренды похожи. И для всех клиентов и отдельно для группы клиентов до 35 лет лучшая возвращаемость при целях кредита:
> + недвижимость
> + свадьба

> К моему удивлению, цель кредита Автомобиль - имеет худшие показатели. Может быть и сам банк более легко относится к проверкам данной группы, потому как автомобиль практически всегда в этой схеме у него находится в залоге, да еще и с полным Каско. Ликвидность автомобился такого возраста довольно высока. Поэтом, видимо, и банк позволяет себе в данном сегменте более рискованную политику.

> В группе до 35 лет включительно похожий тренд и в целом в группе до 35 лет процент задолженности выше, что возможно потребует более внимательного подхода к данной группе.

> Несколько удивило, что процент кредитов в каждом сегменте приблизительно совпадает в группе для  до 35 лет, совпадает с общим по всем клиентам. Думал, что реальные различия будут больше. Хотя, впрочем, эти данные могут быть и просто учебными, не коррелирующими с реальностью...

<a name="chapter_4."></a>
[к содержанию](#chapter_0)<br/>
<div class="p-3 mb-2 bg-primary text-white">
<b>4. Общие выводы.</b> <br/>
</div>

> В целом, по полученному массиву данных удалось справиться со всеми проблемами, кроме столбца days_employed. Данный столбец имеет данные, не позволяющие его использовать. Замечено, что значимая часть ошибок в нем связана с сегментом пенсионеров. Но точная природа такого разброса в столбце не установлена. Необходимы уточнения Заказчика, если эта работа будет продолжена.

> Основные выводы по всем вопросам были ранее сформулированы в этом документе. Но хотелось бы акцентировать дополнительно внимание Заказчика, что группа клиентов до 35 лет включительно по всем заданным вопросам имеет более худшие показатели. Думаю, эта особенноссть уже учитывается Заказчиком, но требует более детальной проработки.

> И, пожалуй, возрастной срез претендует на более обширное исследование, хотя этого не было в задачах, поставленных Заказчиком.