# Исследование надежности заемщиков.

## Шаг 1. Обзор данных

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('/datasets/data.csv')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


В таблице 12 колонок с данными:
* children           - дети
* days_employed      - отработанные дни
* dob_years          - возраст
* education          - образование
* education_id       - идентификатор образования
* family_status      - семейный статус
* family_status_id   - семейный статус_идентификатор
* gender             - пол
* income_type        - тип дохода
* debt               - долг
* total_income       - общий доход
* purpose            - цель

In [4]:
df.info() # Получаем информацию о данных

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 солонок, 21525 строк с данными, в названиях колонок нет нарушения стиля,
по 5 колонок с типами данных int, object и 2 колонки - float:

1. В столбце 'education' строчные буквы сочетаются с прописными.
2. В столбце 'days_employed' встречаются отрицательные значения.
3. В столбцах 'days_employed' и 'total_income' тип данных float, часть данных отсутствует. 

Посчитаем суммарное значение пропусков.

In [5]:
df.isna().sum() # Cуммарное значение пропусков.

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Находим доли пропусков от общего количества строк и только заполненных ячеек (%).

In [6]:
df.isna().mean() * 100 # Доля пропусков в % от общего количества строк.

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

In [7]:
df.isna().sum() / df.count() * 100 # Доля пропусков в % от общего количества заполненых ячеек.

children             0.000000
days_employed       11.234562
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        11.234562
purpose              0.000000
dtype: float64

#### Вывод:  

- В каждой стоке таблици указанны социальные данные клиента банка, данные дохода и статус работоспособности.   

- В столбцах 'days_employed' и 'total_income' cуммарное значение, долей пропусков совпадают,   
а это значит, что причина возникновения пропусков может совпадать.   

- Нужно изучить причину пропуска и заменить пропуски на подходящие значения.

- В столбце 'days_employed' заменить отрицательные значения на положительные.

- В столбце 'education' строчные буквы заменить на прописные.

### Шаг 2.1 Заполнение пропусков

Методом isna() найдём все строки с пропусками в столбц days_employed и просмотрим первые пять.

In [8]:
df[df['days_employed'].isna()].head() 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Аналогично найдём все строки с пропусками в столбце otal_income и просмотрим первые пять.

In [9]:
df[df['total_income'].isna()].head() 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


По двум столбцам пропуски в строках полностью совпадают. Проверим.

In [10]:
df[(df['total_income'].isna() == True) & (df['days_employed'].isna() == True)].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2174 non-null   int64  
 1   days_employed     0 non-null      float64
 2   dob_years         2174 non-null   int64  
 3   education         2174 non-null   object 
 4   education_id      2174 non-null   int64  
 5   family_status     2174 non-null   object 
 6   family_status_id  2174 non-null   int64  
 7   gender            2174 non-null   object 
 8   income_type       2174 non-null   object 
 9   debt              2174 non-null   int64  
 10  total_income      0 non-null      float64
 11  purpose           2174 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Предположение подтвердилось, пропуски совпадают по столбцам 'days_employed' и 'total_income'.

Проверим как распределяются пропуски по профессиям.

In [11]:
df[(df['total_income'].isna() == True) & (df['days_employed'].isna() == True)]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

#### Вывод:   
Явную причину возникновения пропусков назвать пока нельзя,  
скорей всего отсутствие нужной информации по техническим причинам.   
Нужно сделать дополнительный запрос на выгрузку данных,  
без информации о доходе и стаже кредиты не выдают.

Пропуски присутствуют из разных профессий, использовать среднее значение нельзя,   
лучше воспользоваться медианным значением по типизации дохода. 

Заполним пропуски в столбцах days_employed и total_income медианнами категорий столбца income_type соответственно.

In [12]:
df['days_employed'] = df['days_employed'].fillna(df.groupby('income_type')['days_employed'].transform('median'))

df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform('median'))

In [13]:
df['days_employed'].value_counts() # Проверяем по столбцу 'days_employed' заполнение пропусков медианным значением.

-1574.202821      1105
-1547.382223       509
 365213.306266     414
-2689.368353       147
-520.848083          2
                  ... 
 398099.392433       1
-1271.038880         1
-1623.362064         1
-694.792802          1
-1984.507589         1
Name: days_employed, Length: 19353, dtype: int64

In [14]:
df['total_income'].value_counts() # Проверяем по столбцу 'total_income' заполнение пропусков медианным значением.

142594.396847    1105
172357.950966     509
118514.486412     414
150447.935283     147
499163.144947       2
                 ... 
148042.721049       1
60039.334460        1
175979.762960       1
155819.968351       1
82047.418899        1
Name: total_income, Length: 19353, dtype: int64

In [15]:
df.head() # Выодим данные тадлици для визуальной проверки.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [16]:
df.info() # Проверяем, выводим общюю информацию.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [17]:
df.isna().sum() # Проверяем, подсчёт пропусков.

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод:** Пропуски заполнены медианным значением по категориям 'income_type'.  
Датафрем готов к дальнейшей обработке.

## Шаг 2.2 Проверка данных на аномалии и исправления.

#### План:   
**1. 'children':** выявить уникальные значения и посчитать по назначению;   
**2. 'days_employed':** выявить уникальные значения и посчитать по назначению;   
**3. 'dob_years':** выявить уникальные значения и посчитать по назначению;   
**4. 'education':** выявить уникальные значения и посчитать по назначению;  
**5. 'education_id':** выявить уникальные значения и посчитать по назначению,  
проанализировать на предмет дублирования значений со столбцом 'education';   
**6. 'family_status':** проверить на ошибки, выявить уникальные значения и посчитать;   
**7. 'family_status_id':** проанализировать на предмет дублирования значений со столбцом 'family_status';   
**8. 'gender':** выявить уникальные значения и посчитать по назначению;   
**9. 'income_type':** выявить уникальные значения и посчитать по назначению;   
**10.'debt':** выявить уникальные значения и посчитать по назначению;   
**11.'total_income':** выявить уникальные значения и посчитать по назначению;   
**12.'purpose':** выявить уникальные значения и посчитать по назначению. 

**1. 'children':**  
Выявляем уникальные значения и считаем колличество сторк по значению.

In [18]:
df['children'].sort_values(ascending=True).unique() # массив.

array([-1,  0,  1,  2,  3,  4,  5, 20], dtype=int64)

In [19]:
df['children'].value_counts() # количество строк по значению.

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

**Вывод 1:**  
Количество отрицательных значений по столбцу 'children' равно 47, значение '20' - возможна опечатка.

**2. 'days_employed':**  
Выявляем уникальные значения и считаем колличество сторк по значению.

In [20]:
df['days_employed'].value_counts() # количество строк по значению.

-1574.202821      1105
-1547.382223       509
 365213.306266     414
-2689.368353       147
-520.848083          2
                  ... 
 398099.392433       1
-1271.038880         1
-1623.362064         1
-694.792802          1
-1984.507589         1
Name: days_employed, Length: 19353, dtype: int64

**Вывод 2:**  
Присутствуют отрицательные значения, рекомендация - принять значение по модулю.

**3. 'dob_years':**  
Выявляем уникальные значения и считаем колличество сторк по возрасту.

In [21]:
df['dob_years'].sort_values(ascending=True).unique() # массив

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75], dtype=int64)

In [22]:
df['dob_years'].value_counts() # количество строк по значению.

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

**Вывод 3:**   
Аномальное значение - '0'.  
Рекомендация: при необходимости разнести по возрастным категориям.

**4. 'education':**  
Выявляем уникальные значения и считаем колличество сторк по значению.

In [23]:
df['education'].sort_values(ascending=True).unique() # массив

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

In [24]:
df['education'].value_counts() # количество строк по значению.

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

**Вывод 4:**  
Единообразие шрифта отсутствует.   
Рекомендация: Привести шрифт в строчный тип.

**5. 'education_id':**  
Выявляем уникальные значения и считаем колличество сторк по значению.

In [25]:
df['education_id'].sort_values(ascending=True).unique() # массив

array([0, 1, 2, 3, 4], dtype=int64)

In [26]:
df['education_id'].value_counts() # количество строк по значению.

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

**Вывод 5:**  
Аномалии не выявлено.

**6. 'family_status':**  
Проверяем наличие ошибок, выявляем уникальные значения и считаем.

In [27]:
df['family_status'].sort_values(ascending=True).unique() # массив

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

In [28]:
df['family_status'].value_counts() # количество строк по значению.

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

**Вывод 6:**  
Присутствуют строчные буквы.   
Рекомендация: Приведите значения в соответствие с хорошим стилем.

**7. 'family_status_id':**  
Проанализировать на предмет дублирования значений со столбцом 'family_status'.

In [29]:
df['family_status_id'].sort_values(ascending=True).unique() # массив

array([0, 1, 2, 3, 4], dtype=int64)

In [30]:
df['family_status_id'].value_counts() # количество строк по значению.

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

**Вывод 7:**  
Аномалии не выявлены. Данные столбцов 'family_status' и 'family_status_id' по строкам совпадают.   
Рекомендация: столбец 'family_status' удалить.

**8. 'gender':**  
Выявляем уникальные значения и считаем по назначению.

In [31]:
df['gender'].sort_values(ascending=True).unique() # массив

array(['F', 'M', 'XNA'], dtype=object)

In [32]:
df['gender'].value_counts() # количество строк по значению.

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [33]:
df[df['gender'] == 'XNA'] # Находим строку.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,-2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


**Вывод 8:**  
Найдено одно аномальное значение в столбце 'gender' - 'XNA'.   
Рекомендация: удалить или присоединить к другой группе.

**9. 'income_type':**  
Выявляем уникальные значения и считаем количество строк  по значению.

In [34]:
df['income_type'].value_counts() # колличество строк по значению.

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

**Вывод 9:**  
В столбце 'income_type' аномалии не выявлено.

**10.'debt':**   
Выявляем уникальные значения и считаем количество строк по значению.

In [35]:
df['debt'].value_counts() # количество строк по значению.

0    19784
1     1741
Name: debt, dtype: int64

**Вывод 10:**  
В столбце 'debt' аномалии не выявлено.

**11.'total_income':**  
Выявляем уникальные значения и считаем количество строк по значению.

In [36]:
df['total_income'].value_counts() # количество строк по значению.

142594.396847    1105
172357.950966     509
118514.486412     414
150447.935283     147
499163.144947       2
                 ... 
148042.721049       1
60039.334460        1
175979.762960       1
155819.968351       1
82047.418899        1
Name: total_income, Length: 19353, dtype: int64

**Вывод 11:**  
В столбце 'total_income' есть одинаковые значения.

**12.'purpose':**  
Выявляем уникальные значения и считаем количество строк по значению.

In [37]:
df['purpose'].value_counts() # количество строк по значению.

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

**Вывод 12:**  
В столбце 'purpose' аномалии не выявлено, присутствуют не явные совпадения.

#### Вывод 2.2:   
Выявлены и проанализированы все аномалии в датафрейме.  
Возникают подобные факты по техническим причинам и человеческим фактором.  
В следующем разделе устраним аномалии.

### Шаг 2.3. Изменение типов данных.

#### План:   
**1. 'children':** заменим отрицательные значения '-1' на '1', '20' на '2' или относим к многодетным;   
**2. 'days_employed':** поменять отрицательные значения стажа на положительные, возможна опечатка и привести к типу int;   
**3. 'dob_years':** нулевые значения меняем на средние, разносим по возрастным категориям;   
**4. 'education':** приводим шрифт в строчный тип;   
**5. 'education_id':** проанализировать отношение со столбцом 'education', возможно объединить в один с идентификаторами;   
**6. 'family_status':** привести значения в соответствие с хорошим стилем;   
**7. 'family_status_id':** проанализировать отношение со столбцом 'family_status', возможно объединть в один с индификатором;   
**8. 'gender':** определить куда отнести одно аномальное значение в столбце 'gender' - 'XNA';   
**9. 'income_type':** выявить уникальные значения и посчитать по назначению;   
**10.'debt':** определить процентное соотношение;   
**11.'total_income':** изменять тип данных не нужно;   
**12.'purpose':** изменять тип данных не нужно. 

**1. 'children':** Заменим отрицательные значения '-1' на '1', отрицательно не может быть детей, если это не опечатка.
Все у кого от '3' детей отнесем к многодетным, '20' - возможно опечатка, заменим на '2'.

In [38]:
df['children'] = df['children'].replace(-1, 0) # заменим '-1' на '1'.

In [39]:
df['children'] = df['children'].replace(20, 2) # заменим '20' на '2'.

In [40]:
df['children'].sort_values(ascending=True).unique() # массив.

array([0, 1, 2, 3, 4, 5], dtype=int64)

Значение '-1' и '20' исчезли.

In [41]:
df['children'].value_counts() # проверяем.

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Дополнительная проверка:

In [42]:
df[df['children'] == -1].count()[0] # дополнительная проверка по столбцу 'children' на присутствие значения '-1'.

0

In [43]:
df[df['children'] == 20].count()[0] # дополнительная проверка по столбцу 'children' на присутствие значения '20'.

0

In [44]:
df[df['children'] == 0].count()[0] # дополнительная проверка по столбцу 'children' на количественное значения '0'.

14196

In [45]:
df[df['children'] == 2].count()[0] # дополнительная проверка по столбцу 'children' на количественное значения '2'.

2131

**Вывод:** Количество значений: '0' увеличилось на 47 и столо равно 14196, '2' - увеличилось на 76 => 2131.

**2.1. 'days_employed':** заменим отрицательные значения стажа на положительные, возможна опечатка.

In [46]:
df[['days_employed']] = df[['days_employed']].abs() # принимаеиим значение по модулю.

In [47]:
df.head() # проверяем.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**2.2. 'days_employed':** данные приводим к типу int.

In [48]:
df['days_employed'] = df['days_employed'].astype('int') # переводим в целые числа.

In [49]:
df.head() # проверяем.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [50]:
df['days_employed'].value_counts() # количество строк по значению.

1574      1106
1547       512
365213     414
2689       154
133         16
          ... 
9090         1
360849       1
2101         1
380864       1
343937       1
Name: days_employed, Length: 9086, dtype: int64

**Вывод:** Отрицательные значения исчезли. Числа приобрели корректный вид.

**3. 'dob_years':** нулевые значения меняем на средние, разносим по возрастным категориям.

Разделим на группы:

In [51]:
df[df['dob_years'] == 0].count()[0] # аномальные значений '0'.

101

In [52]:
df[df['dob_years'] < 18].count()[0] # несовершеннолетние.

101

In [53]:
df[df['dob_years'] >= 18].count()[0] - df[df['dob_years'] >= 60].count()[0] # возраст от 18 до <60.  

18907

In [54]:
df[df['dob_years'] >= 60].count()[0] # 60 и старше.  

2517

Значения по столбцу 'dob_years' несовершеннолетние и аномальные значений '0' совпадают, значит аномальных значений равно 101,   
заполняем средними значениями по каждой группе 'income_type'.

In [55]:
df['dob_years'] = df.groupby('income_type')['dob_years'].transform(lambda x: x.replace(0, int(x.mean())))

In [56]:
df[df['dob_years'] == 0].count()[0] # проверяем нулевые значения.

0

**Вывод:** Аномальное значение '0' изменились на средние по категориям.   
Рекомендация: разделить пенсионеров по гендерному и возрастному типу F >= 60, M >=65.

**4. 'education':** приводим шрифт в строчный тип.

In [57]:
df['education'] = df['education'].str.lower()
df.head() # проверяем

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [58]:
df['education'].value_counts() # количество строк по ению.знач

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

**5. 'education_id':** Анализируем по типу значения со столбцом 'education', на возможность объединить в один с индификатором. 

In [59]:
df['education_id'].value_counts() # количество строк по значению.

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

Создаем новый датафрейм, в которым каждому уникальному значению из 'education' соответствует уникальное значение 'education_id'.

<a id='section_id59'></a>

In [60]:
df.groupby(['education', 'education_id']).size().to_frame('count').reset_index() # Проверяем на совпадение значений с побсчетом.

Unnamed: 0,education,education_id,count
0,высшее,0,5260
1,начальное,3,282
2,неоконченное высшее,2,744
3,среднее,1,15233
4,ученая степень,4,6


**Вывод:** Значения в столбцах 'education' и 'education_id' дублируют друг друга, столбец 'education' можно удалить.

<a id='section_id60'></a>

In [61]:
df = df.drop(columns = 'education') # удаляем столбец 'education'.
df.head() # проверяем.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [62]:
df.info() # проверяем.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int32  
 2   dob_years         21525 non-null  int64  
 3   education_id      21525 non-null  int64  
 4   family_status     21525 non-null  object 
 5   family_status_id  21525 non-null  int64  
 6   gender            21525 non-null  object 
 7   income_type       21525 non-null  object 
 8   debt              21525 non-null  int64  
 9   total_income      21525 non-null  float64
 10  purpose           21525 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(4)
memory usage: 1.7+ MB


**Вывод:** Столбец 'education' удален.

**6. 'family_status':** Приводим значения в соответствие с хорошим стилем.

In [63]:
df['family_status'] = df['family_status'].str.lower() # приводим к строчному типу.
df.head() # проверяем.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [64]:
df['family_status'].value_counts() # количество строк по значению.

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

**Вывод:** значения приведены в соответствие хорошему стилю. 

**7. 'family_status_id':** Анализируем по типу значения со столбцом 'family_status', на возможность объединть в один с индификатором.

In [65]:
df['family_status_id'].value_counts() # количество строк по значению.

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

Создаем новый датафрейм, в которым каждому уникальному значению из 'family_status' соответствует уникальное значение 'family_status_id'.

<a id='section_id65'></a>

In [66]:
df.groupby(['family_status', 'family_status_id']).size().to_frame('count').reset_index() # Проверяем на совпадение значений с побсчетом.

Unnamed: 0,family_status,family_status_id,count
0,в разводе,3,1195
1,вдовец / вдова,2,960
2,гражданский брак,1,4177
3,женат / замужем,0,12380
4,не женат / не замужем,4,2813


**Вывод:** Значения в столбцах 'family_status' и 'family_status_id' дублируют друг друга, столбец 'family_status' можно удалить.   

<a id='section_id66'></a>

In [67]:
df = df.drop(columns = 'family_status') # удаляем столбец 'education'.


In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int32  
 2   dob_years         21525 non-null  int64  
 3   education_id      21525 non-null  int64  
 4   family_status_id  21525 non-null  int64  
 5   gender            21525 non-null  object 
 6   income_type       21525 non-null  object 
 7   debt              21525 non-null  int64  
 8   total_income      21525 non-null  float64
 9   purpose           21525 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(3)
memory usage: 1.6+ MB


**Вывод:** Столбец 'family_status' удален.

Проверем итоговую таблицу.

In [69]:
df.head() # проверяем.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**Вывод по п. 4 - 7 :** Столбцы  'education' и 'family_status' удалены.

**8. 'gender':** Определяем куда отнести одно аномальное значение в столбце 'gender' - 'XNA'.

In [70]:
df[df['gender'] == 'XNA'] # Находим строку.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,2,1,XNA,компаньон,0,203905.157261,покупка недвижимости


**Вывод:** В дальнейшем 'XNA' можно вынести в отдельную категорию для исследований, а пока по характеристикам положительный заемщик.   
Удаление строки на статистику сильно не повлияет, но отнесем его в категорию 'M', на основании отсутствия детей.

In [71]:
def replace_wrong_gender(wrong_gender, correct_gender): #создание функции с двумя параментрами
    for index in wrong_gender: # перебираем список с неправильными значениями
        df['gender'] = df['gender'].replace(index, correct_gender) # Функция для замены неявных дубликатов

In [72]:
wrong_gender = ['XNA']# переменная с неправильным списком   
correct_gender = 'M' # переменная с правильным значением   
replace_wrong_gender(wrong_gender, correct_gender) # Устранение неявных дубликатов

In [73]:
df['gender'].sort_values(ascending=True).unique() # Проверка на неявные дубликаты

array(['F', 'M'], dtype=object)

Сравниваем значения:   
F      14236   
M       7288   
XNA        1

In [74]:
df['gender'].value_counts() # количество строк по значению.

F    14236
M     7289
Name: gender, dtype: int64

In [75]:
df[df['gender'] == 'XNA'] # Проверяем на наличие строки.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose


**Вывод:** Строка с данными 'XNA' отсутствует, данные по назначению увеличились на 1, (M = 7288 => 7289).

**9. 'income_type':** выявляем уникальные значения и посчитаем по назначению.

In [76]:
df['income_type'].value_counts() # количество строк по значению.

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

**Вывод:** Больше всего кредитов у сотрудников, у пенсионеров значительная доля.

**10.'debt':** выявляем уникальные значения и посчитаем по назначению.

In [77]:
df['debt'].value_counts() # количество строк по значению.

0    19784
1     1741
Name: debt, dtype: int64

Доля в процентном соотношении. 

In [78]:
df.groupby('debt').size() / len(df)*100

debt
0    91.911731
1     8.088269
dtype: float64

**Вывод:** 8% - должников.

**11.'total_income':** заменим тип данных float на int.

In [79]:
df['total_income'] = df['total_income'].astype('int') # переводим в целые числа.
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


In [80]:
df['total_income'].value_counts() # количество строк по значению.

142594    1105
172357     509
118514     414
150447     147
102816       3
          ... 
300306       1
381117       1
70100        1
110461       1
82047        1
Name: total_income, Length: 18608, dtype: int64

**Вывод:** Числа приобрели корректный вид.

**12.'purpose':** Тип данных менять не нужно, работа с дубликатами в следующем разделе.

#### Вывод 2.3:   
Изменение данных произведено полностью, за исключением дубликатов, которые заменим в разделе 2.4.   
Детально изучена вся информация. Сформировалась общая картина данных. Датафрейм готов к анализу данных.

### Шаг 2.4. Удаление дубликатов.

Посчитаем явные дубликаты.

In [81]:
df.duplicated().sum() # подсчёт явных дубликатов

71

Выводим на экран. 

In [82]:
df[df.duplicated(keep=False)].sort_values(by=['days_employed', 'total_income'])

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
2254,0,1547,54,0,0,M,компаньон,0,172357,операции с коммерческой недвижимостью
4081,1,1547,40,1,1,F,компаньон,0,172357,строительство жилой недвижимости
5124,0,1547,40,1,1,F,компаньон,0,172357,сыграть свадьбу
8490,1,1547,31,1,0,F,компаньон,0,172357,покупка жилья
9374,0,1547,38,0,1,F,компаньон,0,172357,на проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...
20116,0,365213,57,1,1,M,пенсионер,0,118514,свадьба
20187,0,365213,65,1,1,F,пенсионер,0,118514,сыграть свадьбу
20702,0,365213,64,1,0,F,пенсионер,0,118514,дополнительное образование
21032,0,365213,60,1,0,F,пенсионер,0,118514,заняться образованием


Удаляем явные дубликаты, создавая новые индексы.

In [83]:
df = df.drop_duplicates().reset_index(drop=True)

Проверяем.

In [84]:
df.duplicated().sum() # подсчёт явных дубликатов

0

Далее иследуем датафрем двумя разными вариантами на категоризацию.   

Бублируем df в df_apply.

In [85]:
df_apply = df # два одинаковых датафрейма.
df_apply # проверяем.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,1,1,F,компаньон,0,224791,операции с жильем
21450,0,343937,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21451,1,2113,38,1,1,M,сотрудник,1,89672,недвижимость
21452,3,3112,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля


Создаем функцию на основании лемматизации для df_apply.

In [86]:
def purpose_change(purpose):
    if 'авто' in purpose:
        return 'авто'
    elif 'образов' in purpose:
        return 'образование'         
    elif 'недвиж'  in purpose or 'жил'  in purpose:
        return  'недвижимость жилая'
    elif 'недвижим' in purpose or 'коммерческой' in purpose:
        return  'недвижимость коммерческая'
    elif 'ремонт' in purpose:
        return 'ремонт'
    elif 'строительство' in purpose:
        return  'строительство'
    elif 'свадьб' in purpose:
        return  'свадьба'

С помощью функции apply закладываем все значения в purpose_category датафрейма df_apply и выводим на экран.

In [87]:
df_apply['purpose_category']= df_apply['purpose'].apply(purpose_change)
df_apply.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,недвижимость жилая
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,авто
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,недвижимость жилая
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,недвижимость жилая
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,недвижимость жилая
7,0,152,50,1,0,M,сотрудник,0,135823,образование,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость жилая


In [88]:
df_apply['purpose_category'].sort_values(ascending=True).unique()

array(['авто', 'недвижимость жилая', 'образование', 'свадьба'],
      dtype=object)

In [89]:
df_apply['purpose_category'].value_counts() # количество строк по значению.

недвижимость жилая    10811
авто                   4306
образование            4013
свадьба                2324
Name: purpose_category, dtype: int64

**Вывод 2.4.1:**   
Датафрем разделился на 5 категорий: 'авто', 'недвижимость жилая', 'образование', 'ремонт', 'свадьба', 'строительство',   
недвижимость жилая и недвижимость коммерческая объединились в одну категорию недвижимость жилая.  
Используя разные методы лемматизации пришёл к выводу, что функция выполняет действия поэтапно, сначала выбирает все значения с корнем слова 'недвиж', т.е. недвижимость жилую и коммерческую. Разделить однокоренные слова невозможно.

Исследуем датафрейм другим методом, путем примой замены значений, для более точной категоризации.

Находим не явные дубликаты.

In [90]:
df['purpose'].sort_values(ascending=True).unique() # Просмотр уникальных значений в алфавитном порядке.

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

**Не явнные дубликаты:**   
* 'автомобили', 'автомобиль', 'на покупку автомобиля', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'приобретение автомобиля', 'свой автомобиль', 'сделка с автомобилем', 'сделка с подержанным автомобилем'.   
* 'высшее образование', 'дополнительное образование', 'заняться высшим образованием', 'заняться образованием', 'образование', 'получение высшего образования', 'получение дополнительного образования', 'получение образования', 'профильное образование'.   
* 'жилье','недвижимость', 'операции с жильем', 'операции с недвижимостью', 'операции со своей недвижимостью', 'покупка жилой недвижимости', 'покупка жилья', 'покупка жилья для сдачи', 'покупка жилья для семьи', 'покупка недвижимости', 'покупка своего жилья'   
* 'операции с коммерческой недвижимостью', 'покупка коммерческой недвижимости'   
* 'ремонт жилью'   
* 'строительство жилой недвижимости', 'строительство недвижимости', 'строительство собственной недвижимости'   
* 'на проведение свадьбы', 'свадьба', 'сыграть свадьбу'  

**Заменим значения на сответсствующие:**   
* авто   
* образование   
* недвижимость жилая  
* недвижимость коммерческая   
* ремонт  
* строительство   
* свадьба  

**Пояснение:**   
Шесть категорий - оптимальный вариант. Коммерческая и жилая недвижимости объединять нельзя, по целям и заемщикам они отличаются.  Строительство и ремонт, разнятся по сумме, срокам, и способам выдачи (на строительство выдачу средств разбивают на три части: фундамент, коробка, отделка).

In [91]:
def replace_wrong_goals(wrong_goals, correct_goals): #создание функции с двумя параментрами
    for index in wrong_goals: # перебираем список с неправильными значениями
        df['purpose'] = df['purpose'].replace(index, correct_goals) # Функция для замены неявных дубликатов

In [92]:
wrong_goals = ['автомобили', 'автомобиль', 'на покупку автомобиля', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'приобретение автомобиля', 'свой автомобиль', 'сделка с автомобилем', 'сделка с подержанным автомобилем']# переменная с неправильным списком   
correct_goals = 'авто' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [93]:
wrong_goals = ['высшее образование', 'дополнительное образование', 'заняться высшим образованием', 'заняться образованием', 'образование', 'получение высшего образования', 'получение дополнительного образования', 'получение образования', 'профильное образование']# переменная с неправильным списком   
correct_goals = 'образование' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [94]:
wrong_goals = ['жилье','недвижимость', 'операции с жильем', 'операции с недвижимостью', 'операции со своей недвижимостью', 'покупка жилой недвижимости', 'покупка жилья', 'покупка жилья для сдачи', 'покупка жилья для семьи', 'покупка недвижимости', 'покупка своего жилья']# переменная с неправильным списком   
correct_goals = 'недвижимость жилая' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [95]:
wrong_goals = ['операции с коммерческой недвижимостью', 'покупка коммерческой недвижимости']# переменная с неправильным списком   
correct_goals = 'недвижимость коммерческая' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [96]:
wrong_goals = ['ремонт жилью']# переменная с неправильным списком   
correct_goals = 'ремонт' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [97]:
wrong_goals = ['строительство жилой недвижимости', 'строительство недвижимости', 'строительство собственной недвижимости']# переменная с неправильным списком   
correct_goals = 'строительство' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

In [98]:
wrong_goals = ['на проведение свадьбы', 'свадьба', 'сыграть свадьбу']# переменная с неправильным списком   
correct_goals = 'свадьба' # переменная с правильным значением   
replace_wrong_goals(wrong_goals, correct_goals) # устранение неявных дубликатов

Тут можно было воспользоваться функцией `apply`.

Проверяем.

In [99]:
df['purpose'].sort_values(ascending=True).unique() # Проверка на неявные дубликаты

array(['авто', 'недвижимость жилая', 'недвижимость коммерческая',
       'образование', 'ремонт', 'свадьба', 'строительство'], dtype=object)

In [100]:
df['purpose'].value_counts() # количество строк по значению.

недвижимость жилая           7015
авто                         4306
образование                  4013
свадьба                      2324
строительство                1878
недвижимость коммерческая    1311
ремонт                        607
Name: purpose, dtype: int64

In [101]:
df.head() # выодим итоговую таблицу на экран.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,недвижимость жилая,недвижимость жилая
1,1,4024,36,1,0,F,сотрудник,0,112080,авто,авто
2,0,5623,33,1,0,M,сотрудник,0,145885,недвижимость жилая,недвижимость жилая
3,3,4124,32,1,0,M,сотрудник,0,267628,образование,образование
4,0,340266,53,1,1,F,пенсионер,0,158616,свадьба,свадьба


In [102]:
df.info() # проверяем.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int32 
 2   dob_years         21454 non-null  int64 
 3   education_id      21454 non-null  int64 
 4   family_status_id  21454 non-null  int64 
 5   gender            21454 non-null  object
 6   income_type       21454 non-null  object
 7   debt              21454 non-null  int64 
 8   total_income      21454 non-null  int32 
 9   purpose           21454 non-null  object
 10  purpose_category  21454 non-null  object
dtypes: int32(2), int64(5), object(4)
memory usage: 1.6+ MB


**Сравниваем варианты df и df_apply:** 

In [103]:
df_apply['purpose_category'].value_counts()

недвижимость жилая    10811
авто                   4306
образование            4013
свадьба                2324
Name: purpose_category, dtype: int64

In [104]:
df['purpose'].value_counts() # количество строк по значению.

недвижимость жилая           7015
авто                         4306
образование                  4013
свадьба                      2324
строительство                1878
недвижимость коммерческая    1311
ремонт                        607
Name: purpose, dtype: int64

In [105]:
1311 / len(df['purpose']) *100  

6.110748578353687

In [106]:
1311 / 7015 *100

18.688524590163937

**Вывод 2.4.1:**   
На приобретение коммерческой недвижимости выдано 1311 кредитов,   
что составляет более 6 % от всех кредитов и 18,68 % от кредитов, выданных на покупку жилой недвижимости.   
Это значительная доля, которой нельзя пренебрегать при исследовании.   
 

- Считаю, что в данном случае (при не возможности разделении корней в названиях категорий)  
вариант примой замены значений для категоризации, более точный и подходящий.   

#### Вывод 2.4:   
Не явные дубликаты устранены.   
Самое большое количество кредитов приходится на приобретение жилой недвижимости - 7015,  
средняя доля приходится на авто - 4306 и образование - 4013,  
минимальное на ремонт - 607.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Разобьем по категориям датафрейм и сформируем новые столбцы.

**'children'** По детям создаем столбец children_category (c_ctg - сокращенный вариант названия столбца, если потребуется) с категориями:   
0 - '0';  
1-2 - '1-2';  
з =< 'многодетные'.

In [107]:
def children_category(row):
    if row['children'] == 0:
        return '0'
    elif 1 <= row['children'] <= 2:
        return '1-2'
    else:
        return 'многодетные'

**'days_employed'** По стажу создаем столбец days_employed_category (d_e_ctg ) с категориями:  
0 - 1824 до 5 лет - 'до 5';   
1825 - 3649 от 5 до 10 лет - '5-10';   
3650 - 9124 от 10 до 25 лет - '10-25';  
9125 =< более 25 лет - 'более 25'.


In [108]:
def days_employed_category(row):
    if row['days_employed'] <= 1824:
        return 'до 5'
    elif 1825 < row['days_employed'] <= 3649:
        return '5-10'
    elif 3650 < row['days_employed'] <= 9124:
        return '10-25'
    else:
        return 'более 25'

**'days_employed'** По возрасту создаем столбец dob_years_category (d_y_ctg ) с категориями:  
до 25 лет - 'до 25 ';   
25 - 44 лет - '25-44';    
45 - 59 лет - '45-59';  
старше 60 - 'старше 60'.

In [109]:
def dob_years_category(row):
    if row['dob_years'] < 24:
        return 'до 25'
    elif 25 <= row['dob_years'] < 44:
        return '25-44'
    elif 45 <= row['dob_years'] < 59:
        return '45-59'
    else:
        return 'старше 60'

**'total_income'** По доходу создаем столбец total_income_category (t_i_ctg ) с категориями:  
- 0–30000 — 'до 30000';  
- 30001–50000 — '30001–50000';  
- 50001–200000 — '50001–200000';  
- 200001–1000000 — '200001–1000000';  
- 1000001 и выше — '1000001 и выше'.

In [110]:
def total_income_category(row):
    if row['total_income'] <= 30000:
        return 'до 30000'
    elif 30000 < row['total_income'] <= 50000:
        return '30001–50000'
    elif 50000 < row['total_income'] < 200000:
        return '50001–200000'
    elif 200000 < row['total_income'] < 1000000:
        return '200001–1000000'
    else:
        return '1000001 и выше'

**'purpose'** По назначению создаем столбец purpose_category (p_ctg) с категориями:  
- авто;   
- недвижимость жилая;  
- недвижимость коммерческая;  
- строительство;  
- ремонт;  
- образование;  
- свадьба.

In [111]:
def purpose_category(row):
    if row['purpose'] == 'авто':
        return 'авто'
    elif row['purpose'] == 'недвижимость жилая':
        return 'недвижимость жилая'
    elif row['purpose'] == 'недвижимость коммерческая':
        return 'недвижимость коммерческая'
    elif row['purpose'] == 'строительство':
        return 'строительство'
    elif row['purpose'] == 'ремонт':
        return 'ремонт'
    elif row['purpose'] == 'образование':
        return 'образование'
    else:
        return 'свадьба'

In [112]:
df['children_category'] = df.apply(children_category, axis=1)
df['days_employed_category'] = df.apply(days_employed_category, axis=1)
df['dob_years_category'] = df.apply(dob_years_category, axis=1)
df['total_income_category'] = df.apply(total_income_category, axis=1)
df['purpose_category'] = df.apply(purpose_category, axis=1)

Продублируем столбец 'family_status_id' и 'education_id' для метода pivot_table().

In [113]:
df = df.assign(family_status_id_X = df.family_status_id * 1)
df = df.assign(education_id_X = df.education_id * 1)

In [114]:
df.head() # выводим на экран.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_category,days_employed_category,dob_years_category,total_income_category,family_status_id_X,education_id_X
0,1,8437,42,0,0,F,сотрудник,0,253875,недвижимость жилая,недвижимость жилая,1-2,10-25,25-44,200001–1000000,0,0
1,1,4024,36,1,0,F,сотрудник,0,112080,авто,авто,1-2,10-25,25-44,50001–200000,0,1
2,0,5623,33,1,0,M,сотрудник,0,145885,недвижимость жилая,недвижимость жилая,0,10-25,25-44,50001–200000,0,1
3,3,4124,32,1,0,M,сотрудник,0,267628,образование,образование,многодетные,10-25,25-44,200001–1000000,0,1
4,0,340266,53,1,1,F,пенсионер,0,158616,свадьба,свадьба,0,более 25,45-59,50001–200000,1,1


In [115]:
df.info() # проверяем.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   children                21454 non-null  int64 
 1   days_employed           21454 non-null  int32 
 2   dob_years               21454 non-null  int64 
 3   education_id            21454 non-null  int64 
 4   family_status_id        21454 non-null  int64 
 5   gender                  21454 non-null  object
 6   income_type             21454 non-null  object
 7   debt                    21454 non-null  int64 
 8   total_income            21454 non-null  int32 
 9   purpose                 21454 non-null  object
 10  purpose_category        21454 non-null  object
 11  children_category       21454 non-null  object
 12  days_employed_category  21454 non-null  object
 13  dob_years_category      21454 non-null  object
 14  total_income_category   21454 non-null  object
 15  fa

Исследуем датафрейм двумя способами на предмет картины идеального заемщика.  
Создаем функцию для подсчета доли и количества по 'debt'.   
Используем функцию pivot_table()

In [116]:
def relation(category):
    return df.groupby(category)['debt'].mean().to_frame().sort_values(by='debt')

Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [117]:
relation('children_category') # определяем долю.

Unnamed: 0_level_0,debt
children_category,Unnamed: 1_level_1
0,0.075258
многодетные,0.081579
1-2,0.093137


In [118]:
df.groupby(['children_category', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,children_category,debt,count
0,0,0,13074
1,0,1,1064
2,1-2,0,6290
3,1-2,1,646
4,многодетные,0,349
5,многодетные,1,31


In [119]:
pd.pivot_table(df,
               index=['debt', 'children_category'],
               values=['children'],
               aggfunc=[len])

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Unnamed: 0_level_1,Unnamed: 1_level_1,children
debt,children_category,Unnamed: 2_level_2
0,0,13074
0,1-2,6290
0,многодетные,349
1,0,1064
1,1-2,646
1,многодетные,31


**Вывод:**
Заемщики, не имеющие детей, менее склонны к просрочке по выплатам кредита.

Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [120]:
relation('family_status_id') # определяем долю.

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
2,0.065693
3,0.07113
0,0.075452
1,0.093471
4,0.097509


In [121]:
df.groupby(['family_status_id', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,family_status_id,debt,count
0,0,0,11408
1,0,1,931
2,1,0,3763
3,1,1,388
4,2,0,896
5,2,1,63
6,3,0,1110
7,3,1,85
8,4,0,2536
9,4,1,274


In [122]:
pd.pivot_table(df,
               index=['debt', 'family_status_id_X'],
               values=['family_status_id'],
               aggfunc=[len])

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Unnamed: 0_level_1,Unnamed: 1_level_1,family_status_id
debt,family_status_id_X,Unnamed: 2_level_2
0,0,11408
0,1,3763
0,2,896
0,3,1110
0,4,2536
1,0,931
1,1,388
1,2,63
1,3,85
1,4,274


**Вывод:**
Клиенты не состоящие в браке, более склонны к просрочке по выплатам кредита.

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [123]:
relation('total_income_category') # определяем долю.

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
30001–50000,0.06
200001–1000000,0.070607
1000001 и выше,0.08
50001–200000,0.08492
до 30000,0.090909


In [124]:
df.groupby(['total_income_category', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,total_income_category,debt,count
0,1000001 и выше,0,23
1,1000001 и выше,1,2
2,200001–1000000,0,4686
3,200001–1000000,1,356
4,30001–50000,0,329
5,30001–50000,1,21
6,50001–200000,0,14655
7,50001–200000,1,1360
8,до 30000,0,20
9,до 30000,1,2


In [125]:
pd.pivot_table(df,
               index=["debt", "total_income_category"],
               values=["total_income"],
               aggfunc=[len])

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Unnamed: 0_level_1,Unnamed: 1_level_1,total_income
debt,total_income_category,Unnamed: 2_level_2
0,1000001 и выше,23
0,200001–1000000,4686
0,30001–50000,329
0,50001–200000,14655
0,до 30000,20
1,1000001 и выше,2
1,200001–1000000,356
1,30001–50000,21
1,50001–200000,1360
1,до 30000,2


**Вывод:** Клиенты с уровнем дохода до 30000 менее склонны просрочке кредита.

Как разные цели кредита влияют на его возврат в срок?   
Для улучшения категоризации кредитов, лучше принять 6 целей.

In [126]:
relation('purpose')

Unnamed: 0_level_0,debt
purpose,Unnamed: 1_level_1
ремонт,0.057661
недвижимость жилая,0.071846
недвижимость коммерческая,0.075515
строительство,0.076677
свадьба,0.080034
образование,0.0922
авто,0.09359


In [127]:
df.groupby(['purpose', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,purpose,debt,count
0,авто,0,3903
1,авто,1,403
2,недвижимость жилая,0,6511
3,недвижимость жилая,1,504
4,недвижимость коммерческая,0,1212
5,недвижимость коммерческая,1,99
6,образование,0,3643
7,образование,1,370
8,ремонт,0,572
9,ремонт,1,35


In [128]:
pd.pivot_table(df,
               index=['debt', 'purpose_category'],
               values=['purpose'],
               aggfunc=[len])

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Unnamed: 0_level_1,Unnamed: 1_level_1,purpose
debt,purpose_category,Unnamed: 2_level_2
0,авто,3903
0,недвижимость жилая,6511
0,недвижимость коммерческая,1212
0,образование,3643
0,ремонт,572
0,свадьба,2138
0,строительство,1734
1,авто,403
1,недвижимость жилая,504
1,недвижимость коммерческая,99


**Вывод:** Клиенты берущие кредит на покупку жилой и коммерческой недвижимости, строительство и ремонт более ответственны.

Есть ли зависимость от образования?

In [129]:
relation('education_id_X')

Unnamed: 0_level_0,debt
education_id_X,Unnamed: 1_level_1
4,0.0
0,0.052952
1,0.089902
2,0.091398
3,0.109929


In [130]:
df.groupby(['education_id_X', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,education_id_X,debt,count
0,0,0,4972
1,0,1,278
2,1,0,13808
3,1,1,1364
4,2,0,676
5,2,1,68
6,3,0,251
7,3,1,31
8,4,0,6


In [131]:
pd.pivot_table(df,
               index=['debt', 'education_id_X'],
               values=['education_id'],
               aggfunc=[len])

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Unnamed: 0_level_1,Unnamed: 1_level_1,education_id
debt,education_id_X,Unnamed: 2_level_2
0,0,4972
0,1,13808
0,2,676
0,3,251
0,4,6
1,0,278
1,1,1364
1,2,68
1,3,31


**Вывод:** Клиенты с ученой степенью положительные заемщики и со средним образованием отрицательные.

Есть ли зависимость от стажа?

In [132]:
relation('days_employed_category')

Unnamed: 0_level_0,debt
days_employed_category,Unnamed: 1_level_1
10-25,0.05421
более 25,0.05433
5-10,0.08306
до 5,0.098727


In [133]:
df.groupby(['days_employed_category', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,days_employed_category,debt,count
0,10-25,0,2617
1,10-25,1,150
2,5-10,0,3908
3,5-10,1,354
4,более 25,0,3986
5,более 25,1,229
6,до 5,0,9202
7,до 5,1,1008


**Вывод:** Клиенты с трудовым стажем от 10 до 25 лет более склонны к дефолту.

Есть ли зависимость от возраста?

In [134]:
relation('dob_years_category')

Unnamed: 0_level_0,debt
dob_years_category,Unnamed: 1_level_1
старше 60,0.058059
45-59,0.06788
25-44,0.09674
до 25,0.104746


In [135]:
df.groupby(['dob_years_category', 'debt']).size().to_frame('count').reset_index() # определяем количество.

Unnamed: 0,dob_years_category,debt,count
0,25-44,0,9365
1,25-44,1,1003
2,45-59,0,6248
3,45-59,1,455
4,до 25,0,547
5,до 25,1,64
6,старше 60,0,3553
7,старше 60,1,219


**Вывод:** Клиенты старше 60 лет самые ответственные.

**Итоговая таблица портрета положительного и отрицательного заемщика:**

In [136]:
pd.DataFrame({'debt':[ 'положительные', 'отрицательные'],
                     'children':[0, '1-2'], 
                     'family_status':['гражданский брак', 'не женат / не замужем'], 
                     'total_income':['30001–50000', 'до 30000'],
                     'purpose':['недвижимость', 'авто'],
                     'education':['ученая степень', 'среднее'],
                     'days_employed':['10-25', 'до 5'],
                     'dob_years':['старше 60', 'до 25']},                       
                   columns=['debt', 'children', 'family_status', 'total_income', 'purpose', 'education', 'days_employed', 'dob_years'])


Unnamed: 0,debt,children,family_status,total_income,purpose,education,days_employed,dob_years
0,положительные,0,гражданский брак,30001–50000,недвижимость,ученая степень,10-25,старше 60
1,отрицательные,1-2,не женат / не замужем,до 30000,авто,среднее,до 5,до 25


#### Вывод 2.5:   
Во всех категориях есть доля не возврата кредита.  

Портрет положительного заемщика:  
- не имеющий детей;  
- гражданский брак;  
- с уровнем дохода от 30001 до 50000;  
- цели: недвижимость, ремонт;   
- имеющий ученую степень:  
- трудовой стаж от 10 до 25 лет;  
- старше 60 лет.

### Шаг 2.6. Категоризация дохода.

Категоризация производится для приведения данных в удобный и читаемый вид.  
Произведем категоризацию дохода по одному столбцу 'total_income'.

**'total_income'** По доходу создаем столбец total_income_category (t_i_ctg ) с категориями:  
- 0–30000 — 'E';  
- 30001–50000 — 'D';  
- 50001–200000 — 'C';  
- 200001–1000000 — 'B';  
- 1000001 и выше — 'A'.

In [137]:
def total_income_category(row): # Создаем функцию.
    if row['total_income'] <= 30000:
        return 'E'
    elif 30000 < row['total_income'] <= 50000:
        return 'D'
    elif 50000 < row['total_income'] < 200000:
        return 'C'
    elif 200000 < row['total_income'] < 1000000:
        return 'B'
    else:
        return 'A'

In [138]:
df['total_income_category'] = df.apply(total_income_category, axis=1) # меняем числовые значения на буквенные.


Перед выводом на экран удаляем дублирующие столбцы.

In [139]:
df = df.drop(columns = 'family_status_id_X') # удаляем столбец 'family_status_id_X'.

In [140]:
df = df.drop(columns = 'education_id_X') # удаляем столбец 'education_id_X'.

In [141]:
df = df.drop(columns = 'dob_years_category') # удаляем столбец 'dob_years_category'.

In [142]:
df = df.drop(columns = 'days_employed_category') # удаляем столбец 'days_employed_category'.

In [143]:
df = df.drop(columns = 'children_category') # удаляем столбец 'children_category'.

In [144]:
df.head() # выводим на экран.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,недвижимость жилая,недвижимость жилая,B
1,1,4024,36,1,0,F,сотрудник,0,112080,авто,авто,C
2,0,5623,33,1,0,M,сотрудник,0,145885,недвижимость жилая,недвижимость жилая,C
3,3,4124,32,1,0,M,сотрудник,0,267628,образование,образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,свадьба,свадьба,C


In [145]:
df['total_income_category'].sort_values(ascending=True).unique() # просмотрим уникальных значений в алфавитном порядке.

array(['A', 'B', 'C', 'D', 'E'], dtype=object)

#### Вывод 2.6:  
Произведя категоризацию визуализация и обработка стала легче, при этом не всем понятны буквенные обозначения категорий.

### Шаг 2.7. Категоризация целей кредита.

Произведем категоризацию целей по одному столбцу 'purpose_category' на 4 типа.

**'purpose'** По назначению создаем столбец purpose_category (p_ctg) с категориями:  
- авто;   
- недвижимость;  
- образование;  
- свадьба.

In [146]:
def purpose_category(row):
    if row['purpose'] == 'авто':
        return 'авто'
    elif row['purpose'] == 'недвижимость жилая':
        return 'недвижимость'
    elif row['purpose'] == 'недвижимость коммерческая':
        return 'недвижимость'
    elif row['purpose'] == 'строительство':
        return 'недвижимость'
    elif row['purpose'] == 'ремонт':
        return 'недвижимость'
    elif row['purpose'] == 'образование':
        return 'образование'
    else:
        return 'свадьба'

- В данном случае только для выполнения задания и произвести категоризацию из 6 категорий в 4,  
обобщить 'недвижимость жилая', 'недвижимость коммерческая', 'строительство', 'ремонт' в категорию 'недвижимость'.  
Следствие ранее выполненного задания.

In [147]:
df['purpose_category'] = df.apply(purpose_category, axis=1)

In [148]:
df.head() # выводим на экран.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,недвижимость жилая,недвижимость,B
1,1,4024,36,1,0,F,сотрудник,0,112080,авто,авто,C
2,0,5623,33,1,0,M,сотрудник,0,145885,недвижимость жилая,недвижимость,C
3,3,4124,32,1,0,M,сотрудник,0,267628,образование,образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,свадьба,свадьба,C


In [149]:
df['purpose_category'].sort_values(ascending=True).unique() # уникальных значений в алфавитном порядке.

array(['авто', 'недвижимость', 'образование', 'свадьба'], dtype=object)

#### Вывод 2.7:  
Разделив на 4 категории информация стала более понятна и обработка стала легче.

При категоризации информации нужно учитывать понятность информации, присваивать категориям понятные названия.

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

##### Вывод 1:   
Проанализировав полученную информацию можно с уверенностью сбелать закличение:  
 - клиенты не имеющие детей, более привлекательны для банка;  
 - клиенты с многодетными семьями, находятся в средней группе риска;  
 - клиенты имеющие по 1 или 2 ребенка более склонны к не выплатам кредита.   
 
**Рекомендация:** При выдаче кредита клиентам с 1 или 2 детьми руководствоваться дополнительной информацией (кредитной историей, доходом, полом и т.д.).

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

##### Вывод 2:   
В заключении по зависимости от семейного статуса можно сказать следующее:  
 - вдовец / вдова - категория более склонна к выплатам кредита;  
 среднюю позицию занимают две категори:   
 - в разводе;  
 - женат / замужем;  
 склонны к не выплатам две категории:  
 - гражданский брак;  
 - не женат / не замужем.  
 
**Рекомендация:** К калории клиентов с неузаконенными отношениями быть более внимательней, руководствоваться дополнительной информацией.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок? 

##### Вывод 3:   
Уровень дохода всегда влиял на риск дефолта клиента, по исследованным данным можно сделать интересное заключение:  
 - доход 
 - 30001–50000 - 0.060000  
 - 200001–1000000 - 0.070607   
 - 1000001 и выше - 0.080000   
 - 50001–200000 - 0.084920   
 - до 30000 - 0.090909

Выяснился интересный факт: клиенты с доходом до 30000, более всех подвержены риску не возврата кредита. А при небольшом пороге превышающем 30000 и до 50000 категория переходит в разряд самых ответственных клиентов, что не скажешь о клиентах с большим доходом.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?  

##### Вывод 4:   
Исследование данных привело к следующему заключению по целенаправленности кредита: 

 - ремонт	- 0.057661   
 - недвижимость жилая	- 0.071846   
 - недвижимость коммерческая	- 0.075515   
 - строительство	- 0.076677   
 - свадьба	- 0.080034   
 - образование	- 0.092200    
 - авто	- 0.093590   

Самая положительная категория заемщиков берет кредит на ремонт, риск невозврата очень низкий, коэффициент сильно отличается от остальных. Это связано с небольшой суммою кредита и небольшим сроком. Основная положительная группа целенаправленно берет на покупку или строительства недвижимости. Это обусловлено условиями выдачи кредита и серьезными намерениями клиентов. Образование имеет предпоследнюю позицию, это скорее связано со сроками учебы и устройством на работу по бедующей специальности. Самая опасная категория клиентов относится по целевому назначению на покупку авто

## Общий вывод:

Исследовательская работа бала проведена по предоставленным данным, на основании которой бал составлен положительный и отрицательный портрет заемщика:

#### Портрет положительного заемщика:  
- не имеющий детей;  
- гражданский брак;  
- с уровнем дохода от 30001 до 50000;  
- цели: недвижимость, ремонт;   
- имеющий ученую степень:  
- трудовой стаж от 10 до 25 лет;  
- старше 60 лет.

#### Портрет отрицательного заемщика:  
- имеющий до 2 детей;  
- не женат / не замужем;  
- с уровнем дохода до 30000;  
- цели: авто;   
- образование среднее:  
- трудовой стаж до 5 лет;  
- возраст до 25 лет.

#### Рекомендация:
В заключении рекомендую в исследование включить данные:  
 - сроки кредита, временной интервал начала просрочек по платежам;  
 - сумму платежа, долю от дохода. 
 
Предполагаю, что при анализе информации с дополнительными данными выявятся интересные факты и закономерности.

## Общий вывод 2:

Исследовательская работа бала проведена по предоставленным данным о 21525 заемщиках.  

- В столбцах 'days_employed' и 'total_income' отсутствует 10 % данннных, заполнено медианным значением, на статистику не влияет.


- Выявленные аномальные значения количества детей у заемщика:  
по 20 детей в 76 случаях и
 -1 (отрицательное) в 47 случаях.   
Данные аномалии являются явной опечаткой, прозведена исправление данных:   
20 на 2   
 -1 на 1  
123 заемщика добавлено в категорию с детьми 1-2.   



- 101 случай возрастной категории о, разнесены по возрастным категориям.  
  
  
- Значения в столбцах 'education' и 'education_id' дублируют друг друга, столбец 'education' удален.  
- Значения в столбцах 'family_status' и 'family_status_id' дублируют друг друга, столбец 'family_status' удален.  
   
   
- Выявлена категория 'XNA', в дальнейшем можно вынести в отдельную категорию для исследований, а пока по характеристикам положительный заемщик.   
Удаление строки на статистику сильно не повлияет, но отнесли его в категорию 'M', на основании отсутствия детей.   


- По целям кредита определено 6 категорий:  

purpose_category             |len  
-----------------------------|---
недвижимость жилая           | **7015**   
авто                         | **4306**   
образование                  | **4013**   
свадьба                      | **2324**   
строительство                | **1878**  
недвижимость коммерческая    | **1311**  
ремонт                       | **607**  

#### Зависимость семейного положения  и возвратом кредита в срок:   
   
debt|family_status|len   
------|---------------------|--------   
0     |женат / замужем      |**11408**   
      |гражданский брак     |**3763**  
      |не женат / не замужем|**2536**
      |в разводе            |**1110**   
      |вдовец / вдова       |**896**  
1     |женат / замужем      |**931**   
      |гражданский брак     |**388**   
      |не женат / не замужем|**274**  
      |в разводе            |**85**   
      |вдовец / вдова       |**63**  
      
**В долевом выражении:**   

family_status         |debt  
----------------------|--------   
вдовец / вдова        |**0.06**5693  
в разводе             |**0.07**1130  
женат / замужем       |**0.07**5452   
гражданский брак      |**0.09**3471  
не женат / не замужем |**0.09**7509   

#### Вывод:  зависимости возврата кредита от семейного положения.  

В заключении по зависимости от семейного статуса можно сказать следующее:  
 - вдовец / вдова - категория более склонна к выплатам кредита;  
 
среднюю позицию занимают две категори:  
 - в разводе;  
 - женат / замужем;  
 
склонны к не выплатам две категории:
 - гражданский брак;  
 - не женат / не замужем.  
 
**Рекомендация:** К калории клиентов с неузаконенными отношениями быть более внимательней, руководствоваться дополнительной информацией.

#### Зависимость между наличием детей и возвратом кредита в срок: 

debt |children_category|len 
-----|-----------------|---------
0    |0                |**13074**
     |1-2              |**6290**
     |многодетные      |**349**
1    |0                |**1064**    
     |1-2              |**646**     
     |многодетные	   |**31**   
     
**В долевом выражении:**

children_category|debt  
-----------------|--------   
0                |**0.07**5258  
многодетные      |**0.08**1579  
1-2              |**0.09**3137
     
#### Вывод: зависимости возврата кредита от количества детей.   
 - клиенты не имеющие детей, более привлекательны для банка;  
 - клиенты с многодетными семьями, находятся в средней группе риска;  
 - клиенты имеющие по 1 или 2 ребенка более склонны к не выплатам кредита.   
 
**Рекомендация:** При выдаче кредита клиентам с 1 или 2 детьми руководствоваться дополнительной информацией   
(кредитной историей, доходом, семейным положением и т.д.).

#### Уровень дохода всегда влиял на риск дефолта клиента,   
по исследованным данным можно сделать интересное заключение:  

total_income_category|debt  
---------------------|----  
30001–50000	         |**0.06**0000  
200001–1000000	     |**0.07**0607  
1000001 и выше	     |**0.08**0000  
50001–200000	     |**0.08**4920  
до 30000	         |**0.09**0909  


#### Вывод: зависимости возврата кредита от дохода.
Выяснился интересный факт: клиенты с доходом до **30000**, более всех подвержены риску не возврата кредита. А при небольшом пороге превышающем **30000 и до 50000** категория переходит в разряд самых ответственных клиентов, что не скажешь о клиентах с большим доходом.

#### Портрет положительного заемщика:  
- не имеющий детей;  
- гражданский брак;  
- с уровнем дохода от 30001 до 50000;  
- цели: недвижимость, ремонт;   
- имеющий ученую степень:  
- трудовой стаж от 10 до 25 лет;  
- старше 60 лет.

#### Портрет отрицательного заемщика:  
- имеющий до 2 детей;  
- не женат / не замужем;  
- с уровнем дохода до 30000;  
- цели: авто;   
- образование среднее:  
- трудовой стаж до 5 лет;  
- возраст до 25 лет.

Исследовательская работа бала проведена по предоставленным данным, в которых были заполнены пропущенные значения, удалены дубликаты и выделены категории для целей кредита, группы по количеству детей и семейному положению. Используя сводные таблицы, произведена оценка, критериев, влияющих на возврат кредита.  Для построения модели кредитного скоринга составлены положительного и отрицательного портреты заемщика.