# Исследование надёжности заёмщиков

## Оглавление

+ [Описание проекта](#project_description)
+ [Описание данных](#data_description)
+ [1. Откройте таблицу и изучите общую информацию о данных](#open_data)
    - [Задание 2](#task_2)
    - [Задание 3](#task_3)
    
+ [2 Предобработка данных](#data_predprocessing)
    - [2.1 Удаление пропусков](#delete_nan)
        - [Задание 4](#task_4)
        - [Задание 5](#task_5)
    - [2.2 Обработка аномальных значений](#handling_outliers)
        - [Задание 6](#task_6)
        - [Задание 7](#task_7)
        - [Задание 8](#task_8)
        - [Задание 9](#task_9)
        - [Задание 10](#task_10)
    - [2.3 Удаление пропусков (продолжение)](#nan_delete)
        - [Задание 11](#task_11)
        - [Задание 12](#task_12)
    - [2.4 Изменение типов данных](#data_type_chage)
        - [Задание 13](#task_13)
    - [2.5 Обработка дубликатов](#duplicate_handling)
        - [Задание 14](#task_14)
        - [Задание 15](#task_15)
    - [2.6 Категоризация данных](#data_categorization)
        - [Задание 16](#task_16)
        - [Задание 17](#task_17)
        - [Задание 18](#task_18)
        
+ [Начало второй части](#second_part)
    - [Задание 19](#task_19)
    - [Задание 20](#task_20)
    - [Задание 21](#task_21)
    - [Задание 22](#task_22)
    - [Задание 23](#task_23)
    - [Задание 24](#task_24)

+ [Вывод](#coclusion)

###  <a name="project_description"></a> Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### <a name="data_description"></a> Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

##  <a name="open_data"></a> 1. Откройте таблицу и изучите общую информацию о данных

In [1]:
from io import BytesIO
import requests
import pandas as pd
spreadsheet_id = '1Lsmu1RU3uwOV3QzkAe1bKjbFT8ma0bXspXoveyhv8Dw'
file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
r = requests.get(file_name)
data = pd.read_csv(BytesIO(r.content))
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


#### <a name="task_2"></a> Задание 2. Выведите первые 20 строчек датафрейма data на экран.

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


#### <a name="task_3"></a> Задание 3. Выведите основную информацию о датафрейме с помощью метода info().

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## <a name="data_predprocessing"></a> 2  Предобработка данных

### <a name="delete_nan"></a> 2.1  Удаление пропусков

#### <a name="task_4"></a> Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.

In [4]:
total = data.isnull().sum()
    
print(total)

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


#### <a name="task_5"></a> Задание 5. В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца income_type. Например, у человека с типом занятости сотрудник пропуск в столбце total_income должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [5]:
for item in data['income_type'].unique():
    data.loc[(data['income_type'] == item) & (data['total_income'].isna()), 'total_income'] = data.loc[(data['income_type'] == item), 'total_income'].median()

### <a name="handling_outliers"></a> 2.2  Обработка аномальных значений

#### Задание 6. <a name="task_6"></a> В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце days_employed. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода abs().

In [6]:
data['days_employed'] = data['days_employed'].abs()

#### <a name="task_7"></a> Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа days_employed в днях.

In [7]:
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

#### <a name="task_8"></a> Задание 8. Выведите перечень уникальных значений столбца children.

In [8]:
print(data['children'].unique())

[ 1  0  3  2 -1  4 20  5]


#### <a name="task_9"></a> Задание 9. В столбце children есть два аномальных значения. Удалите стр

In [9]:
data = data.loc[(data['children'] != -1) & (data['children'] != 20)]
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


#### <a name="task_10"></a> Задание 10. Ещё раз выведите перечень уникальных значений столбца children, чтобы убедиться, что артефакты удалены.

In [10]:
print(data['children'].unique())

[1 0 3 2 4 5]


### <a name="nan_delete"></a> 2.3  Удаление пропусков (продолжение)

#### <a name="task_11"></a> Задание 11. Заполните пропуски в столбце days_employed медианными значениями по каждому типу занятости income_type.

In [11]:
import warnings
warnings.filterwarnings("ignore")

for item in data['income_type'].unique():
    data.loc[(data['income_type'] == item) & (data['days_employed'].isna()), 'days_employed'] = data.loc[(data['income_type'] == item), 'days_employed'].median()

#### <a name="task_12"></a> Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.

In [12]:
test_1 = data['days_employed'].unique()
print(test_1)

test_2 = data['total_income'].unique()
print(test_2)



[8437.67302776 4024.80375385 5623.42261023 ... 2113.3468877  3112.4817052
 1984.50758853]
[253875.6394526  112080.01410244 145885.95229686 ...  89672.56115303
 244093.05050043  82047.41889948]


###  <a name="data_type_change"></a> 2.4  Изменение типов данных 

####  <a name="task_13"></a> Задание 13. Замените вещественный тип данных в столбце total_income на целочисленный с помощью метода astype().

In [13]:
data['total_income'] = data['total_income'].astype(int)

### <a name="duplicate_handling"></a> 2.5  Обработка дубликатов

#### <a name="task_14"></a> Задание 14. Обработайте неявные дубликаты в столбце education. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.

In [14]:
data_2 = []

for item in data['education']:
    test = item.lower()
    data_2.append(test)

data['education'] = data_2


#### <a name="task_15"></a> Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates().reset_index(drop=True)

### <a name="data_categorization"></a> 2.6  Категоризация данных

#### <a name="task_16"></a> Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:


- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    if income <= 30000:
        return 'E'
    if 30001 <= income <= 50000:
        return 'D'
    if  50001 <= income <= 200000:
        return 'C'
    if 200001 <= income <= 1000000:
        return 'B'
    if 1000001 <= income:
        return 'A'

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21326,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B
21327,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C
21328,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C
21329,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B


#### <a name="task_17"></a> Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца purpose.

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

#### <a name="task_18"></a> Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**


- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(purp):
    if 'авто' in purp:
        return 'операции с автомобилем'
    if 'недви' in purp:
        return 'операции с недвижимостью'
    if 'жил' in purp:
        return 'операции с недвижимостью'
    if 'свад' in purp:
        return 'проведение свадьбы'
    if 'образ' in purp:
        return 'получение образования'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21326,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21327,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21328,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21329,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


# <a name="second_part"></a>  Начало второй части

#### <a name="task_19"></a>  Задание 19. Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
children = data.groupby('children').agg({'debt': ['count', 'mean']})

display(children.style.format({('debt', 'mean'): '{:.2%}'}))

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,7.54%
1,4808,9.23%
2,2052,9.45%
3,330,8.18%
4,41,9.76%
5,9,0.00%


#### Вывод

Как мы видим из третьего столбца таблицы выше, в данных присутствует зависимость между количеством детей и наличием задолженностей по возрастам кредитов. У людей с четырьмя детьми самый большой процент по задолженностям кредита, при этом у людей с 5-ю детьми вообще нет задолженностей (скорее всего это связано с недостаточным количеством данных, потому что мы имеем информацию только по 9 семьям с 5-ю детьми). Самый маленький процент задолженностей у семей в которых нет детей.


В общем мы можем сказать, что проценты задолженностей не сильно различаются в зависимости от количества детей.


#### <a name="task_20"></a>  Задание 20. Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [23]:
family = data.groupby('family_status').agg({'debt': ['count', 'mean']})

display(family.style.format({('debt', 'mean'): '{:.2%}'}))

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2796,9.76%
в разводе,1189,7.06%
вдовец / вдова,951,6.62%
гражданский брак,4134,9.31%
женат / замужем,12261,7.56%


####  Вывод

Как мы видим из третьего столбца таблицы выше, в данных присутствует зависимость между семейным положением и наличием задолженностей по возрастам кредитов. Самый большой процент задолженностей у незамужних людей, при этом на втором месте по количеству задолженностей наоборот стоят люди в гражданском браке. Самый маленький процент задолженностей по кредитам у людей, которые раньше состояли в браке, но потом развелись.


В общем мы можем сказать, что проценты задолженностей не сильно различаются в зависимости от семейного статуса.


#### <a name="task_21"></a> Задание 21. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [24]:
earnings = data.groupby('total_income_category').agg({'debt': ['count', 'mean']})

display(earnings.style.format({('debt', 'mean'): '{:.2%}'}))

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,25,8.00%
B,5014,7.06%
C,15921,8.50%
D,349,6.02%
E,22,9.09%


#### Выводы

Воспользуемся распределением по зарплатам, которые мы делали в одном из предыдущих заданий:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

Как мы видим, самый большой процент задолженностей по кредитам имеют люди с самой низкой зарплатой (до 30000 $\$$). Самый маленький процент у среднего класса, людей которые зарабатывают от 30 до 50к $\$$.


### Замечание

Многие данные, по которым мы делаем выводы представлены в маленьком количестве. Из-за этого мы не можем быть уверенными в точности проведенного анализа так как выборки недостаточно крупные и по таким маленьким выборкам нельзя судить о всей популяции.

#### <a name="task_22"></a> Задание 22. Как разные цели кредита влияют на его возврат в срок?

In [25]:
target = data.groupby('purpose_category').agg({'debt': ['count', 'mean']})

display(target.style.format({('debt', 'mean'): '{:.2%}'}))

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4279,9.35%
операции с недвижимостью,10751,7.26%
получение образования,3988,9.25%
проведение свадьбы,2313,7.91%


#### Вывод

Из полученных данных мы видим, что чаще всего проблемы с возвратом кредита возникают у тех, кто берет его на покупку автомобиля и на получение образования. Наилучший процент возврата кредита у тех, кто берет его для покупки недвижимости. Скорее всего это связано с тем, что кредит на автомобиль и на образование достаточно короткие и их чаще всего берут на короткие периоды (соответственно людям приходятся ежемесячно постоянно выплачивать достаточно большие суммы) и такие кредиты берут менее обеспеченные слои населения (студенты и молодежь), которые не всегда потом могут заработать достаточную суммы, чтобы обеспечить себя и еще и выплатить кредит. С этим связан большой процент дефолта по кредитам на машины и образование.
С другой стороны, кредиты на недвижимость чаще берут уже состоявшиеся семьи, которые более осознано походят к этому кредиту. Кроме того, кредит на недвижимость обычно имеет достаточно большой срок и соответвенно людям нужно ежемесячно выплачивать не такие большое суммы.


#### <a name="task_23"></a> Задание 23. Приведите возможные причины появления пропусков в исходных данных.

- ошибки при внесении или переносе данных
- отсутствие данных при сборе
- повреждение файла с данными

#### <a name="task_24"></a> Задание 24. Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Среднее значение для выборки будет не всегда корректно характеризовать данные, например если в выборке присутствуют значения, которые очень сильно отличаются от всех остальных. При этом медианное значение даже при появлении очень больших или очень маленьких значений в выборке остается прежним, соответственно будет более правильно использовать его для заполнения пропусков.

# <a name="conclusion"></a>  Вывод

В конце, после проведенного анализа данных, мы можем выделить наиболее благоприятный и не благоприятный портрет клиента.

Самым желаемым клиентом, если объединять все категории, по которым мы проводили анализ, будет клиент без детей, вдовец или вдова, с категорией зарплаты D и берущий кредит на операции с недвижимостью. Самый не желаемый будет клиент с 4-мя детьми, не замужем или не женат, находящийся в категории заработной платы E и берущий кредит на операции с автомобилем.

Конечно, описанные выше случаи являются уникальными, но благодаря поведенному анализу теперь мы имеем большое количество параметром по которому мы можем оценивать человека перед тем, как дать ему кредит и в связи с этим присваивать определенный уровень риска этому кредиту. 
