# Задача: "Исследование надежности заемщиков"

**Заказчик** — кредитный отдел банка. 

**Цель** - Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

**Входные данные от банка** — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.



**Описание данных:**
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

### Шаг 1. Загрузка данных, изучение общей информации

In [1]:
import pandas as pd

In [2]:
#Загружаем данные
data =  pd.read_csv('C:/Users/ratus/DATA_SCIENCE/итоговые проекты/0/data.csv')

In [3]:
#Смиотрим первые 20 строчек датафрейма
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
#Смотрим общую информацию по датафрейму
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


На данном этапе можно заметить:
* Полученные данные содержат информацию о  21525 заемщиках.
* В некоторых признаках встречаются пропуски.
* В трудовом стаже содержатся отрицательные значения, это аномалии, которые скорее всего вызваны какой-то ошибкой.
* Тип столбца ежемесячного дохода логичнее заменить на целочисленный.
* В столбце образование есть неявные дубликаты (одни и те же значения, написанные по-разному в разном регистре). Стоит проверить также и другие признаки на наличие такой же проблемы.

### Шаг 2. Предобработка данных

#### 2.1 Устранение пропусков

In [5]:
#Посмотрим кол-во пустых строк в каждом столбце:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Равное количество пропусков (2174 строки из 21525) в двух столбцах days_employed (общий трудовой стаж в днях) и total_income (ежемесячный доход). Исходные данные мы получили от банка, а банк наверняка во всех случаях выдачи кредитов имеет данные о ежемесячном доходе и трудовом стаже. Поэтому пропуски в этих столбцах возможно вызваны какой-то ошибкой записи данных или их выгрузки.

Но попробуем для анализа заменить эти пропуски медианными значениями по типу занятости income_type, так как на сумму дохода сильнее всего влияет тип занятости. А почему медианой, так как в нашем случае широкий диапазон значений, и медиана будет лучше характеризовать данные чем например среднее.

Заполним пропуски в total_income:

In [6]:
# перебираем каждый вид занятости в наборе уникальных значений столба income_type
for el in data['income_type'].unique():
    # на каждом шаге цикла с помощью атрибута loc выбираем строки,
    # в которых в income_type текущий тип занятости (el) 
    #и есть пропуски в total_income (данных о доходах) 
    # и записываем в них медианное total_income для строк с текущим типом занятости (el)
    data.loc[(data['income_type'] == el) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == el), 'total_income'].median()

# проверяем, что все пропуски заполнены
print(data['total_income'].isna().sum())

0


заполним пропуски в столбце days_employed:

In [7]:
for el in data['income_type'].unique():
    data.loc[(data['income_type'] == el) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == el), 'days_employed'].median()

# проверяем, что все пропуски заполнены
print(data['days_employed'].isna().sum())

0


Перепроверим что все пропуски устранены:

In [8]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

#### 2.2 Обработка аномальных значений

Заменим все отрицательные значения в days_employed положительными:

In [9]:
data['days_employed'] = abs(data['days_employed'])

#### 2.3 Дальнейшая предобработка (изменение типов данных и др.) 

Заменим вещественный тип данных в столбце total_income на целочисленный

In [10]:
data['total_income'] = data['total_income'].astype(int)

#Проверяем
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int32  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 1.9+ MB


Посмотрим для каждого типа занятости медианное значение трудового стажа days_employed в днях:

In [11]:
#Выделяем группы занятости в income type,
#и находим в каждой из них медианное значение трудового стажа
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получаются аномально большие значения. Как исправить такие значения пока идей нет, поэтому оставим их как есть. К тому же этот столбец возможно не понадобится нам для исследования.

Посмотрим уникальные значения столбца children:

In [12]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце children есть два аномальных значения (-1 и 20). Удалим строки, в которых встречаются такие аномальные значения из датафрейма:

In [13]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

#Проверяем 
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

#### 2.4 Обработка дубликатов:

У нас были обнаружены дубликаты в столбце education. Проверим на наличие неявных дубликатов и другие признаки кроме education: 

In [14]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [15]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [16]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [17]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Неявных дубликатов в других признаков нет. Однако обнаружилось аномальное значение в гендере - XNA, посмотрим сколько таких строк:

In [18]:
data.loc[data['gender'] =='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Всего одна строка, вероятно ошибка, удалим ее из датафрейма:

In [19]:
data.drop(10701, inplace = True)

#Обновим индексацию датафрейма
data.reset_index(drop=True, inplace= True)

#Проверяем
print (data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21401 entries, 0 to 21400
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21401 non-null  int64  
 1   days_employed     21401 non-null  float64
 2   dob_years         21401 non-null  int64  
 3   education         21401 non-null  object 
 4   education_id      21401 non-null  int64  
 5   family_status     21401 non-null  object 
 6   family_status_id  21401 non-null  int64  
 7   gender            21401 non-null  object 
 8   income_type       21401 non-null  object 
 9   debt              21401 non-null  int64  
 10  total_income      21401 non-null  int32  
 11  purpose           21401 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 1.9+ MB
None


Возвращаясь к неявным дубликатам в образовании, для их устранения приведем значения этого столбца к нижнему регистру:

In [20]:
# Приводим данные столбца education к нижнему регистру
data['education'] = data['education'].str.lower()

Посмотрим теперь в целом количество строк-дубликатов:

In [21]:
#смотрим количество дубликатов
data.duplicated().sum()

71

В нашем датафрейме 71 строк дубликатов, удалим их:

In [22]:
# удаляем дубликаты
data = data.drop_duplicates() 

# проверяем количество дубликатов
data.duplicated().sum()

0

#### 2.5 Создание новых признаков:

Для анализа добавим в датафрейм столбец total_income_category с категориями зарплат:

            0–30000 — `'E'`;
            30001–50000 — `'D'`;
            50001–200000 — `'C'`;
            200001–1000000 — `'B'`;
            1000001 и выше — `'A'`.

In [23]:
# создаем функцию categorize_income(), которая соотносит ежемесячный доход с категорией
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [24]:
# создаем новый столбец total_income_category
data['total_income_category'] = data['total_income'].apply(categorize_income)

# проверяем изменения датафрейма
print(display(data.head(10)))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C


None


Создадим также еще столбец purpose_category, в который войдут следующие категории:

     'операции с автомобилем';
     'операции с недвижимостью';
     'проведение свадьбы';
     'получение образования'.

In [25]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [26]:
# создаем функцию categorize_income(), которая соотносит цель кредита с категорией
def categorize_purpose(row):
    try:
        if 'авто' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свадьб' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [27]:
# создаем новый столбец purpose_category
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

# проверяем изменения датафрейма
print(display(data.head(10)))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


None


### Шаг 3. Анализ данных

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Разделим клиентов на две большие группы: имеющих детей и неимеющих. Посмотрим влияет ли в целом наличие/отсутствие детей на задолжность

In [28]:
#Выделяем группу клиентов с детьми
client_with_child = data[data['children'] > 0] 

#Выделяем группу клиентов без детей
client_childless = data.loc[data['children'] == 0]

In [29]:
#Получаем количество клиентов с детьми
count_client_with_child = client_with_child['children'].count() 

#Получаем количество клиентов без детей
count_client_childless = client_childless['children'].count()

#Общее количество клиентов
count_client = data['children'].count()

In [30]:
# Среди группы клиентов, не имеющих детей, выявляем процент должников
perс_childless = client_childless['debt'].sum() /  count_client_childless

perс_with_child = client_with_child['debt'].sum() / count_client_with_child 

print (f'Клиентов имеющих детей в компании: {count_client_with_child/count_client:.2%}, \
из них должников {perс_with_child:.2%}\n')
print (f'Клиентов неимеющих детей в компании: {count_client_childless/count_client:.2%}, \
из них должников {perс_childless:.2%}\n')

Клиентов имеющих детей в компании: 33.94%, из них должников 9.24%

Клиентов неимеющих детей в компании: 66.06%, из них должников 7.54%



In [31]:
def effect_param_on_dept (df, param):
    """
    Создаем функцию, которая будет возвращать данные о влиянии параметра param на задолжность
    В качестве первого аргумента принимает датафрейм с данными, 
    в качестве второго название столбца, влияние которого на задолжность мы изучаем.
    """
    try:
        #Разделяем клиентов на группы по param (например количеству детей). 
        #И запишем количество клиентов каждой группы в переменную count_client_param
        count_client_param = df.groupby(param)[param].count()
        
        #Выразим в процентах:
        perc_client_param = count_client_param / df[param].count()
        
        #Форматируем для вывода процентов:
        perc_client_param = pd.Series(["{0:.2f}%".format(val * 100) for val in perc_client_param],\
                                      index = perc_client_param.index)
        print ('Клиентов по параметру', param, 'в компании:','\n\n', perc_client_param, '\n\n')
        
        #Разделяем клиентов на группы по param (например количеству детей).
        #И запишем количество должников каждой группы
        count_debt_param= data.groupby(param)['debt'].sum()
        
        #Выразим в процентах:
        perc_debt_param = count_debt_param / count_client_param
        
        #Форматируем для вывода процентов:
        perc_debt_param = pd.Series(["{0:.2f}%".format(val * 100) for val in perc_debt_param], \
                                    index = perc_debt_param.index)
        
        #Выведем результат в порядке возврасттания задолжности в группе
        print ('Должников в каждой группе:','\n\n', perc_debt_param.sort_values(), '\n\n')
    except:
        print ('not')


Посмотрим теперь подкатегории: по количеству детей. Для начала вспомним список уникальных значений столбца, чтобы понять клиенты с каким кол-вом детей встречаются

In [32]:
data['children'].unique() 

array([1, 0, 3, 2, 4, 5], dtype=int64)

Применим функцию effect_param_on_dept, чтобы посмотреть как влияет количество детей на задолжность

In [33]:
effect_param_on_dept (data, 'children')

Клиентов по параметру children в компании: 

 children
0    66.06%
1    22.54%
2     9.62%
3     1.55%
4     0.19%
5     0.04%
dtype: object 


Должников в каждой группе: 

 children
5    0.00%
0    7.54%
3    8.18%
1    9.23%
2    9.45%
4    9.76%
dtype: object 




**Вывод:**

**1)** Клиентов разделили на две большие группы: имеющие детей и неимеющие. По анализу видно, что в большинстве клиентами банка являются люди, неимеющие детей -они составляют 66% от общего числа клиентов. И среди них, реже встречаются задолжности (невозврат кредита в срок). 

**2)** Разбили клиентов на группы по количеству детей. По анализу также подтверждается, что у неимеющих детей реже встречаются задолжности. Можно выделить еще тех клиентов, у которых трое детей, они лучше возвращают кредиты. В остальном не видно отчетливого влияния количества детей на задолжность. Категория клиентов, у которых пятеро детей очень мала, чтобы давать существенный вклад/влияние.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Применим функцию effect_param_on_dept, чтобы посмотреть как влияет семейное положение на задолжность

In [34]:
effect_param_on_dept (data, 'family_status')

Клиентов по параметру family_status в компании: 

 family_status
Не женат / не замужем    13.11%
в разводе                 5.57%
вдовец / вдова            4.46%
гражданский брак         19.38%
женат / замужем          57.48%
dtype: object 


Должников в каждой группе: 

 family_status
вдовец / вдова           6.62%
в разводе                7.06%
женат / замужем          7.56%
гражданский брак         9.32%
Не женат / не замужем    9.76%
dtype: object 




**Вывод:** 

Меньше всего задолжностей у клиентов, которые имеют семейное положение вдовец/вдова или в разводе. 

Большинство задолжностей находятся в группах неженатых/незамужних и тех, кто в гражданском браке.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [35]:
effect_param_on_dept (data, 'total_income_category')

Клиентов по параметру total_income_category в компании: 

 total_income_category
A     0.12%
B    23.50%
C    74.64%
D     1.64%
E     0.10%
dtype: object 


Должников в каждой группе: 

 total_income_category
D    6.02%
B    7.06%
A    8.00%
C    8.50%
E    9.09%
dtype: object 




**Вывод:** 

Меньше всего задолжностей у клиентов с категорией дохода D и B.

Больше всего задолжностей у клиентов с категорией дохода E и C.

Однако, клиентов в категории A,D и E очень мало, не будем на них ориентироваться. Можно предположить, что более состоятельный клиент окажется более надежным заемщиком.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [36]:
effect_param_on_dept (data, 'purpose_category')

Клиентов по параметру purpose_category в компании: 

 purpose_category
операции с автомобилем      20.06%
операции с недвижимостью    50.40%
получение образования       18.70%
проведение свадьбы          10.84%
dtype: object 


Должников в каждой группе: 

 purpose_category
операции с недвижимостью    7.26%
проведение свадьбы          7.91%
получение образования       9.25%
операции с автомобилем      9.35%
dtype: object 




**Вывод:** 

Меньше всего задолжностей у клиентов, чья цель кредита 'операции с недвижимостью' или 'проведение свадьбы'.

Больше всего задолжностей у клиентов, чья цель кредита 'операции с автомобилем' или 'получение образования'.

### Шаг 4: Общий вывод:

#### Цели исследования:

Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

***

#### Полученные данные были проверены на пропуски, аномалии и ошибки:
* В двух столбцах `days_employed` (общий трудовой стаж в днях) и `total_income` (ежемесячный доход) было обнаружено по 2174 пропуска из 21525 значений. Пропуски были заполнены медианным стажем и медианным доходом по каждому типу занятости (сотрудник/пенсионер/и др.) 
* В столбце `children` (количество детей) попалась пара аномальных значений: -1 и 20. Строки с этими значениями были удалены из таблицы.
* В таблице были обнаружены и удалены дубликаты в количестве 71 строк.
* Для последующего анализа в таблице был добавлен столбец `total_income_category` со следующими категориями зарплат:

            0–30000 — `'E'`;
            30001–50000 — `'D'`;
            50001–200000 — `'C'`;
            200001–1000000 — `'B'`;
            1000001 и выше — `'A'`.
        
***

#### Результаты и выводы исследования:

* Семейное положение и количество детей клиента влияет на факт погашения кредита в срок:

    Так самое высокое количество должников встречается среди неженатых/незамужних (9,76%) и живущих в гражданском браке (9,31%), чем у клиентов с другим семейным положением. 
    Процент должников среди разных групп семейного положения представлен в таблице:
    
    | Семейное положение    | Доля таких клиентов от общего числа  | Доля должников среди этих клиентов |
    |:---------------------:|:------------------------------------:|:----------------------------------:|
    | вдовец / вдова        |    4.46%                             |  6.62%                             |
    | в разводе             |    5.57%                             |  7.06%                             |
    | женат / замужем       |    57.48%                            |  7.56%                             |
    | гражданский брак      |    19.38%                            |  9.31%                             |
    | Не женат / не замужем |    13.11%                            |  9.76%                             |
  

    Клиенты неимеющие детей реже имеют задолжности. В остальном, среди клиентов имеющих детей, количество детей не сильно коррелирует с задолжностью. Процент должников среди клиентов с разным количеством детей представлен в таблице:
    
| Количество детей      | Доля таких клиентов от общего числа  | Доля должников среди этих клиентов |
|:---------------------:|:------------------------------------:|:----------------------------------:|
| 5 |    0.04%  |  0.00%                             |
| 0 |    66.06% |  7.54%                             |
| 3 |    1.55%  |  8.18%                             |
| 1 |    22.54% |  9.23%                             |
| 2 |    9.62%  |  9.45%                             |
| 4 |    0.19%  |  9.76%                             |
    
       Доля клиентов неимеющих детей в компании - 66.06%, из них должников 7.54%
    Доля клиентов имеющих детей(одного или больше ребенка) в компании - 33.94%, из них общий процент должников 9.24%
      
***


#### Дополнительные результаты и выводы исследования:


* Кроме того, на факт погашения кредита в срок влияет цель кредита и уровень дохода:

    Так самое высокое количество должников встречается среди тех клиентов, которые берут кредит для операций с автомобилем или для получения образования. Процент должников среди клиентов с разными целями представлен в таблице:
    
    | Цель кредита          | Доля таких клиентов от общего числа  | Доля должников среди этих клиентов |
    |:---------------------:|:------------------------------------:|:----------------------------------:|
    | операции с недвижимостью |  50.40%  |  7.26%                            |
    | проведение свадьбы |    10.84%|  7.91%                             |
    | получение образования |    18.70%  |  9.25%                             |
    | операции с автомобилем |    20.06% |  9.35%                            |


    По уровню дохода: На малочисленные категории A,D,E не стоит ориентироваться, поэтому можно предположить, что более состоятельный клиент - более надежный. Доля клиентов в каждой категории дохода и доля должников в этих категориях представлены в таблице:
    
| Категория дохода      | Доля таких клиентов от общего числа  | Доля должников среди этих клиентов |
|:----------------------|:------------------------------------:|:----------------------------------:|
| D (30001–50000) |  1.64%  |  6.02%                           |
| B (200001–1000000) |    23.51%|  7.06%                             |
| A (1000001 и выше) |    0.12%  |  8.00%                             |
| C (50001–200000) |    74.64% |  8.50%                            |
| E (0–30000) |    0.10% |  9.09%                           |
            
