# Исследование надёжности заёмщиков

На полученных от заказчика-банка данных необходимо определить, влияет ли уровень дохода, цель кредита, семейное положение и количество детей клиента на факт погашения кредита в срок.

**Цель исследования** — определить зависимость факта уплаты кредита в срок от уровня дохода, цели кредита, семейного положения и наличия детей

**Ход исследования**

1. Знакомство с данными 
2. Предобработка данных
3. Анализ данных


## Знакомство с данными

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
display(data.head(20))
data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Методом unique() определим уникальные значения во всех столбцах, кроме days_employed и total_income

In [2]:
print('КОЛИЧЕСТВО ДЕТЕЙ:', data['children'].unique())
print()
print('ОБРАЗОВАНИЕ:', data['education'].unique()) 
print()
print('СЕМЕЙНОЕ ПОЛОЖЕНИЕ:', data['family_status'].unique())
print()
print('ИНДЕФИКАТОР СЕМЕЙНОГО ПОЛОЖЕНИЯ:', data['family_status_id'].unique()) 
print()
print('ТИП ЗАНЯТОСТИ:', data['income_type'].unique())
print()
print('ПОЛ:', data['gender'].unique())
print()
print('ЗАДОЛЖЕННОСТЬ', data['debt'].unique())
print()
print('ЦЕЛЬ ПОЛУЧЕНИЯ КРЕДИТА:', data['purpose'].unique())
print()
print('ТИП ДАННЫХ СТОЛБЦА ДОХОДОВ В МЕСЯЦ:', data['total_income'].dtype)
print()
print('ТИП ДАННЫХ СТОЛБЦА ТРУДОВОГО СТАЖА:', data['days_employed'].dtype)
print()
print('ИНФОРМАЦИЯ ПО ВСЕМ СТОЛБЦАМ')
print(data.describe())

КОЛИЧЕСТВО ДЕТЕЙ: [ 1  0  3  2 -1  4 20  5]

ОБРАЗОВАНИЕ: ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']

СЕМЕЙНОЕ ПОЛОЖЕНИЕ: ['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']

ИНДЕФИКАТОР СЕМЕЙНОГО ПОЛОЖЕНИЯ: [0 1 2 3 4]

ТИП ЗАНЯТОСТИ: ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']

ПОЛ: ['F' 'M' 'XNA']

ЗАДОЛЖЕННОСТЬ [0 1]

ЦЕЛЬ ПОЛУЧЕНИЯ КРЕДИТА: ['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного

**Вывод**

- В столбце children закралась ошибка с отрицательным количеством детей (-1) и слишком большим (20). Необходимо проверить.
- В столбце days_employed встречаются отрицательные значения. Также приведем вещественные значения к целым.
- В столбце education повторяются одинаковые уровни образования, написанные разным регистром. 
- В столбце gender встречается непонятное значение XNA 
- Типы целей кредита необходимо сгруппировать по категориям, т.к. встречаются одинаковые по смыслу.

## Предобработка данных

### Обработка пропусков

In [3]:
# проверим строку с количеством детей, равным -1 и 20 и посчитаем, сколько строк встречается с такими значениям
# посчитаем методом  count()
print(data[data['children'] == -1]['children'].count())
print(data[data['children'] == 20]['children'].count())
display(data[data['children'] == -1].head())
display(data[data['children'] == 20])

47
76


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,-4417.703588,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.346412,профильное образование
705,-1,-902.084528,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.899271,приобретение автомобиля
742,-1,-3174.456205,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.044444,дополнительное образование
800,-1,349987.852217,54,среднее,1,Не женат / не замужем,4,F,пенсионер,0,86293.724153,дополнительное образование
941,-1,,57,Среднее,1,женат / замужем,0,F,пенсионер,0,,на покупку своего автомобиля


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,-855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,-3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,-2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,-2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,-601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,,53,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилой недвижимости
21404,20,-494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


Кажется, не может человек в возрастe 21 года иметь 20 детей, здесь явно ошибка или опечатка (изменим на 2), в остальных случаях также странно, потому что нет 8,11 или 16 детей, а именно 20, ничего общего у этих строк больше нет, так что также заменим количество на 2. Можем это сделать, так как главный вопрос задачи - зависимость факта уплаты кредита от наличия детей (их количество не важно)

In [4]:
# похоже на опечатку, поэтому заменим все значения столбце children со значением -1 на 1, а значения 20 на 2
# посчитаем общее количество методом count()
data.loc[data['children'] == -1, 'children'] = 1
data.loc[data['children'] == 20, 'children'] = 2
print(data[data['children'] == -1]['children'].count())
print(data[data['children'] == 20]['children'].count())


0
0


После проведения категоризации заменим пропуски в столбце dob_years на среднее значение по категории.

Преобразуем столбец days_employed и выразим его через года, а не через дни.
Так же поступим с total_income, для удобства выразим в тысячах рублей.

In [5]:
# делим каждое значение в столбце days_employed на 365 и получаем года
data['days_employed'] = data['days_employed']/365
# делим каждое значение в столбце total_income на 1000 и получается ежемесячный доход в тысячах рублей
data['total_income'] = data['total_income']/1000
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253.875639,покупка жилья
1,1,-11.026860,36,среднее,1,женат / замужем,0,F,сотрудник,0,112.080014,приобретение автомобиля
2,0,-15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145.885952,покупка жилья
3,3,-11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267.628550,дополнительное образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158.616078,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-12.409087,43,среднее,1,гражданский брак,1,F,компаньон,0,224.791862,операции с жильем
21521,0,942.294258,67,среднее,1,женат / замужем,0,F,пенсионер,0,155.999807,сделка с автомобилем
21522,1,-5.789991,38,среднее,1,гражданский брак,1,M,сотрудник,1,89.672561,недвижимость
21523,3,-8.527347,38,среднее,1,женат / замужем,0,M,сотрудник,1,244.093051,на покупку своего автомобиля


In [6]:
# проверим количество пропусков во всем датафрейме методом isna() с применением метода sum(),
# для определение пропусков в каждой категории
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
# проверим, как выглядят строки, содержащие пропуски
display(data[data['days_employed'].isna()].head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Так как столбец total_imcome тредуется нам для ответа на вопрос "зависит ли выплаат кредита в срок от дохода?", мы не можем просто заменить в нем значения на нули. Для этого сначала заполним столбцы нулями, а затем заменим значения на среднюю зарплату по категории.

In [8]:
# заменяем пропуски на нули
data = data.fillna(0)
display(data[data['days_employed'] == 0].head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,0.0,65,среднее,1,гражданский брак,1,M,пенсионер,0,0.0,сыграть свадьбу
26,0,0.0,41,среднее,1,женат / замужем,0,M,госслужащий,0,0.0,образование
29,0,0.0,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,0.0,строительство жилой недвижимости
41,0,0.0,50,среднее,1,женат / замужем,0,F,госслужащий,0,0.0,сделка с подержанным автомобилем
55,0,0.0,54,среднее,1,гражданский брак,1,F,пенсионер,1,0.0,сыграть свадьбу


In [9]:
avg_total_income = data.groupby('income_type')['total_income'].mean()
print(avg_total_income)

income_type
безработный        131.339752
в декрете           53.829131
госслужащий        153.679632
компаньон          182.195619
пенсионер          122.440318
предприниматель    249.581572
сотрудник          145.342380
студент             98.201625
Name: total_income, dtype: float64


*Средние зарплаты по категориям в тысячах рублей:*
- Пенсионеры 122
- Сотрудники 145
- Компаньоны 182
- Госслужащие 154
- Безработные 131
- Предприниматели 250
- Студенты 98
- В декрете 54

Заменим нулевые значения для столбца total_income на средние по категориям

In [10]:
# заменим нулевые зарплаты на средние значения зарплат по категориям 
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'пенсионер'), 'total_income'] = 122
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'сотрудник'), 'total_income'] = 145
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'компаньон'), 'total_income'] = 182
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'госслужащий'), 'total_income'] = 154
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'безработный'), 'total_income'] = 131
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'предприниматель'), 'total_income'] = 250
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'студент'), 'total_income'] = 98
data.loc[(data['total_income'] == 0.0) & (data['income_type'] == 'в декрете'), 'total_income'] = 54
display(data.head(13))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253.875639,покупка жилья
1,1,-11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112.080014,приобретение автомобиля
2,0,-15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145.885952,покупка жилья
3,3,-11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267.62855,дополнительное образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158.616078,сыграть свадьбу
5,0,-2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255.763565,покупка жилья
6,0,-7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240.525972,операции с жильем
7,0,-0.418574,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135.823934,образование
8,2,-18.985932,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95.856832,на проведение свадьбы
9,0,-5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144.425938,покупка жилья для семьи


**Вывод**

Ошибки, требующие исправления:
- отрицательные значения в days_employed (возможно, вызвано опечатками)
- разный регистр в столбце education (человесечких фактор при заполнении)
- пропуски (возможно также человеческий фактор)
Уже исправленные ошибки и корректировки: 
- заменены нулевые значения в столбце total_income
- исправлен трудовой стаж в днях на трудовой стаж в годах
- исправлен ежемесячный доход в рублях на ежемесячный доход в тысячах рублей

### Замена типа данных

Прежде чем менять типы данных в столбце days_employed заменим отрицательные значения на положительные. Сделаем это примениением функции ко всему датафрейму

In [11]:
def change_days_employed(num):
    if num >= 0:
        return num
    elif num < 0:
        return num * (-1)

data['days_employed'] = data['days_employed'].apply(change_days_employed)
display(data.head(20))


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.116912,42,высшее,0,женат / замужем,0,F,сотрудник,0,253.875639,покупка жилья
1,1,11.02686,36,среднее,1,женат / замужем,0,F,сотрудник,0,112.080014,приобретение автомобиля
2,0,15.406637,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145.885952,покупка жилья
3,3,11.300677,32,среднее,1,женат / замужем,0,M,сотрудник,0,267.62855,дополнительное образование
4,0,932.235814,53,среднее,1,гражданский брак,1,F,пенсионер,0,158.616078,сыграть свадьбу
5,0,2.537495,27,высшее,0,гражданский брак,1,M,компаньон,0,255.763565,покупка жилья
6,0,7.888225,43,высшее,0,женат / замужем,0,F,компаньон,0,240.525972,операции с жильем
7,0,0.418574,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135.823934,образование
8,2,18.985932,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95.856832,на проведение свадьбы
9,0,5.996593,41,среднее,1,женат / замужем,0,M,сотрудник,0,144.425938,покупка жилья для семьи


In [12]:
# проверим, какие сейчас типы данных в столбцах атрибутом dtypes
data.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

In [13]:
# меняем типы данных в столбцах data_employed и total_income методом astype()
# применяем этот метод, так как меняет float на int
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
display(data.head(20))
# снова выводим типы данных, чтобы убедиться, что типы изменились
data.dtypes

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля
2,0,15,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255,покупка жилья
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240,операции с жильем
7,0,0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135,образование
8,2,18,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95,на проведение свадьбы
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144,покупка жилья для семьи


children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
dtype: object

**Вывод**

Заменили вещественные значения в столбцах days_employed и total_income на целые, используя метод astype с аргументом 'int', а также исправили отрицательные значения в столбце days_employed на положительные

### Обработка дубликатов

In [14]:
# сделает одинаковый регистр во всех столбцах с текстом
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу
5,0,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255,покупка жилья
6,0,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240,операции с жильем
7,0,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135,образование
8,2,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95,на проведение свадьбы
9,0,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144,покупка жилья для семьи


In [15]:
# проверяем имеются ли дубликаты в таблице методом duplicatred() и сколько их методом sum()
print(data.duplicated().sum())

73


In [16]:
# проверяем количество объектов в датафрейме до удаления дубликатов методом info()
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [17]:
# удаляем дубликаты методом drop_duplicated 
# и заменяем индексы в правильном порядке методом reset_index() с аргументом drop = True
data = data.drop_duplicates().reset_index(drop = True)

In [18]:
# проверяем снова количество строк в таблице 
data.info()
display(data)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 12 columns):
children            21452 non-null int64
days_employed       21452 non-null int64
dob_years           21452 non-null int64
education           21452 non-null object
education_id        21452 non-null int64
family_status       21452 non-null object
family_status_id    21452 non-null int64
gender              21452 non-null object
income_type         21452 non-null object
debt                21452 non-null int64
total_income        21452 non-null int64
purpose             21452 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224,операции с жильем
21448,0,942,67,среднее,1,женат / замужем,0,F,пенсионер,0,155,сделка с автомобилем
21449,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89,недвижимость
21450,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244,на покупку своего автомобиля


**Вывод**

После обнаружения 73 дубликата с учетом регистра, выполнили их удаление, и количество строк в датафрейме сократилось с 21525 до 21452

### Лемматизация

In [19]:
# Выполняем лемматизацию целей кредита (это поможет в дальнейшем категоризировать данные),
# с помощью подключения бибилиотеки pymystem3 и метода lemmatize.
# Так как метод lemmatize принимает только строку, вводим функцию для одной строки
# и аргументом в ней становится столбец purpose

data['purpose'] = data['purpose'].astype('str')
from pymystem3 import Mystem
m = Mystem()

# разобъём каждый элемент в столбце purpose на леммы
def text_to_lemmas(purpose):
    word = m.lemmatize(purpose)
    return word

data['lemmas'] = data['purpose'].apply(text_to_lemmas)
# выведем часть таблицы, чтобы проверить, появился ли новый столбац lemmas с правильными данными или нет 
display(data.head())


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья,"[покупка, , жилье, \n]"
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья,"[покупка, , жилье, \n]"
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу,"[сыграть, , свадьба, \n]"


In [20]:
# Для подсчета уникальных лемм используем Counter из библиотеки collections
# Так как Counter принимает списки, создаем список лемм с помощью цикла for, добавляя в список
# те элеменны, которые там еще ни разу не встретились
text = []
for i in data['lemmas']:
    for j in i:
        if j != ' ' and j != '\n':
            text.append(j)
from collections import Counter
print(Counter(text))

Counter({'недвижимость': 6350, 'покупка': 5896, 'жилье': 4460, 'автомобиль': 4305, 'образование': 4013, 'с': 2918, 'операция': 2604, 'свадьба': 2324, 'свой': 2229, 'на': 2221, 'строительство': 1877, 'высокий': 1374, 'получение': 1314, 'коммерческий': 1311, 'для': 1289, 'жилой': 1230, 'сделка': 941, 'дополнительный': 906, 'заниматься': 904, 'проведение': 768, 'сыграть': 765, 'сдача': 651, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'подержанный': 486, 'подержать': 478, 'приобретение': 461, 'профильный': 436})


Получили леммы и их количество в датафрейме, теперь сможем категоризировать таблицу по цели кредита

### Категоризация данных

In [21]:
# выделим категории по возрастам, но сначала выясним, есть ли ошибочные значения в возрастах, равные 0
display(data[data['dob_years'] == 0]['children'].count())

101

In [22]:
# так как нулевые значения есть, посмотрим ошибка во всей строке или только в возрасте 
display(data[data['dob_years'] == 0])
# у всех нулевых значений оказались прописаны типы занятости, значит может вставить вместо нулей средние значения по категории
# там, где в income-type пенсионер, поставим вместо нуля средний возраст по пенсионерам,
# аналогично, сотрудник - средний возраст по сотрудникам, и т.д.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas
99,0,949,0,среднее,1,женат / замужем,0,F,пенсионер,0,71,автомобиль,"[автомобиль, \n]"
149,0,7,0,среднее,1,в разводе,3,F,сотрудник,0,70,операции с жильем,"[операция, , с, , жилье, \n]"
270,3,5,0,среднее,1,женат / замужем,0,F,сотрудник,0,102,ремонт жилью,"[ремонт, , жилье, \n]"
578,0,1090,0,среднее,1,женат / замужем,0,F,пенсионер,0,97,строительство собственной недвижимости,"[строительство, , собственный, , недвижимост..."
1040,0,3,0,высшее,0,в разводе,3,F,компаньон,0,303,свой автомобиль,"[свой, , автомобиль, \n]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
19768,0,0,0,среднее,1,женат / замужем,0,F,сотрудник,0,145,жилье,"[жилье, \n]"
20395,0,928,0,среднее,1,женат / замужем,0,F,пенсионер,0,259,покупка своего жилья,"[покупка, , свой, , жилье, \n]"
20510,0,908,0,среднее,1,не женат / не замужем,4,F,пенсионер,0,129,недвижимость,"[недвижимость, \n]"
21108,2,0,0,высшее,0,женат / замужем,0,M,компаньон,0,240,строительство жилой недвижимости,"[строительство, , жилой, , недвижимость, \n]"


In [23]:
# ['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный' 'предприниматель' 'студент' 'в декрете']
# средний возраст пенсионеров
pensioner_age_mean = data.groupby(data['income_type'] == 'пенсионер')['dob_years'].mean()
print('Пенсионеры: среднее', pensioner_age_mean)
print()
# средний возраст сотрудников
employee_age_mean = data.groupby(data['income_type'] == 'сотрудник')['dob_years'].mean()
print('Сотрудники: среднее', employee_age_mean)
print()
# средний возраст компаньонов
companion_age_mean = data.groupby(data['income_type'] == 'компаньон')['dob_years'].mean()
print('Компаньоны: среднее', companion_age_mean)
print()
# средний возраст госслужащий
civil_servant_age_mean = data.groupby(data['income_type'] == 'госслужащий')['dob_years'].mean()
print('Госслужащие: среднее', civil_servant_age_mean)
print()
# средний возраст безработных
unemployed_age_mean = data.groupby(data['income_type'] == 'безработный')['dob_years'].mean()
print('Безработные: среднее', unemployed_age_mean)
print()
# средний возраст предпринимателей
entrepreneur_age_mean = data.groupby(data['income_type'] == 'предприниматель')['dob_years'].mean()
print('Предприниматели: среднее', entrepreneur_age_mean)
print()
# средний и медианный возраст студентов
student_age_mean = data.groupby(data['income_type'] == 'студент')['dob_years'].mean()
print('Студенты: среднее', student_age_mean)
print()
# средний возраст в декрете
maternity_leave_age_mean = data.groupby(data['income_type'] == 'в декрете')['dob_years'].mean()
print('В декрете: среднее', maternity_leave_age_mean)

Пенсионеры: среднее income_type
False    39.844351
True     59.048577
Name: dob_years, dtype: float64

Сотрудники: среднее income_type
False    46.973768
True     39.808987
Name: dob_years, dtype: float64

Компаньоны: среднее income_type
False    44.382008
True     39.693383
Name: dob_years, dtype: float64

Госслужащие: среднее income_type
False    43.462943
True     40.651786
Name: dob_years, dtype: float64

Безработные: среднее income_type
False    43.272634
True     38.000000
Name: dob_years, dtype: float64

Предприниматели: среднее income_type
False    43.272214
True     42.500000
Name: dob_years, dtype: float64

Студенты: среднее income_type
False    43.273134
True     22.000000
Name: dob_years, dtype: float64

В декрете: среднее income_type
False    43.272342
True     39.000000
Name: dob_years, dtype: float64


Средние возраста получились следующие:
- Пенсионеры 59
- Сотрудники 40
- Компаньоны 40
- Госслужащие 41
- Безработные 38
- Предприниматели 43
- Студенты 22
- В декрете 39



In [24]:
# С помощью логической индексации и сокращенной записи арибута loc выполним замену нулевых значений
# на средние значения возрастов по категориям
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'пенсионер'), 'dob_years'] = 60
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'сотрудник'), 'dob_years'] = 40
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'компаньон'), 'dob_years'] = 40
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'госслужащий'), 'dob_years'] = 41
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'безработный'), 'dob_years'] = 38
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'предприниматель'), 'dob_years'] = 43
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'студенты'), 'dob_years'] = 22
data.loc[(data['dob_years'] == 0) & (data['income_type'] == 'в декрете'), 'dob_years'] = 39
# проверим, остались ли нулевые значения. Посчитаем их количество методом count
print(data[data['dob_years'] == 0]['children'].count())

0


Снова категоризируем данные, но теперь по цели кредита. Основные цели, перечисленные в списке уникальных лемм: 
- свадьба
- жилье 
- коммерческая недвижимость 
- автомобиль
- образование
- ремонт 
- строительство

In [25]:
data['lemmas'] = data['lemmas'].astype('str')
# выполняем категоризацию с помощью функции одной строки
def category_purpose(lemmas):
        if 'свадьба' in lemmas:
            return 'свадьба'
        elif 'недвижимость' in lemmas and 'коммерческий' in lemmas:
            return 'коммерческая недвижимость'
        elif 'жилье' in lemmas or ('собственный' in lemmas and 'недвижимость' in lemmas):
            return 'жилье'
        elif 'автомобиль' in lemmas:
            return 'автомобиль'
        elif 'образование' in lemmas:
            return 'образование'
        elif 'ремонт' in lemmas:
            return 'ремонт'
        elif 'строительство' in lemmas:
            return 'строительство'
        elif 'ремонт' in lemmas:
            return 'ремонт'

data['category'] = data['lemmas'].apply(category_purpose)
# выводим часть таблицы для проверки появления столбца категории
display(data.head())


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля,"['приобретение', ' ', 'автомобиль', '\n']",автомобиль
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование,"['дополнительный', ' ', 'образование', '\n']",образование
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу,"['сыграть', ' ', 'свадьба', '\n']",свадьба


In [26]:
# выведем в этом датафрейме количество должников, сгруппировав по уровню заработка
# применяя функцию одной строки
def total_income_category(total_income):
    if total_income == 0:
        return 0
    elif 0 < total_income <= 30:
        return 'до 30т'
    elif 30 < total_income <= 50:
        return 'от 30т до 50т'
    elif 50 < total_income <= 100:
        return 'от 50т до 100т'
    elif 100 < total_income <= 150:
        return 'от 100т до 150т'
    elif 150 < total_income <= 200:
        return 'от 150т до 200т'
    elif 200 < total_income <= 300:
        return 'от 200т до 300т'
    else:
        return 'от 300т'
data['total_income_category'] = data['total_income'].apply(total_income_category)
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,category,total_income_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 200т до 300т
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля,"['приобретение', ' ', 'автомобиль', '\n']",автомобиль,от 100т до 150т
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 100т до 150т
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование,"['дополнительный', ' ', 'образование', '\n']",образование,от 200т до 300т
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу,"['сыграть', ' ', 'свадьба', '\n']",свадьба,от 150т до 200т
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224,операции с жильем,"['операция', ' ', 'с', ' ', 'жилье', '\n']",жилье,от 200т до 300т
21448,0,942,67,среднее,1,женат / замужем,0,F,пенсионер,0,155,сделка с автомобилем,"['сделка', ' ', 'с', ' ', 'автомобиль', '\n']",автомобиль,от 150т до 200т
21449,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89,недвижимость,"['недвижимость', '\n']",,от 50т до 100т
21450,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244,на покупку своего автомобиля,"['на', ' ', 'покупка', ' ', 'свой', ' ', 'авто...",автомобиль,от 200т до 300т


In [27]:
# категоризируем данные по наличию детей, применяя функцию одной строки
def children_category(children):
    if children == 0:
        return 'дети есть'
    else:
        return 'детей нет'
data['children_category'] = data['children'].apply(children_category)
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,category,total_income_category,children_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 200т до 300т,детей нет
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля,"['приобретение', ' ', 'автомобиль', '\n']",автомобиль,от 100т до 150т,детей нет
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 100т до 150т,дети есть
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование,"['дополнительный', ' ', 'образование', '\n']",образование,от 200т до 300т,детей нет
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу,"['сыграть', ' ', 'свадьба', '\n']",свадьба,от 150т до 200т,дети есть
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224,операции с жильем,"['операция', ' ', 'с', ' ', 'жилье', '\n']",жилье,от 200т до 300т,детей нет
21448,0,942,67,среднее,1,женат / замужем,0,F,пенсионер,0,155,сделка с автомобилем,"['сделка', ' ', 'с', ' ', 'автомобиль', '\n']",автомобиль,от 150т до 200т,дети есть
21449,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89,недвижимость,"['недвижимость', '\n']",,от 50т до 100т,детей нет
21450,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244,на покупку своего автомобиля,"['на', ' ', 'покупка', ' ', 'свой', ' ', 'авто...",автомобиль,от 200т до 300т,детей нет


In [28]:
# категоризируем по семейному положению
# если "женат/замужем" => в категории напишем "женат", в других случаях напишем "холост"
# категоризируем данные по наличию детей, применяя функцию одной строки
def family_status_category(family_status):
    if family_status == 'женат / замужем':
        return 'женат'
    else:
        return 'холост'
data['family_status_category'] = data['family_status'].apply(family_status_category)
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,category,total_income_category,children_category,family_status_category
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 200т до 300т,детей нет,женат
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112,приобретение автомобиля,"['приобретение', ' ', 'автомобиль', '\n']",автомобиль,от 100т до 150т,детей нет,женат
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145,покупка жилья,"['покупка', ' ', 'жилье', '\n']",жилье,от 100т до 150т,дети есть,женат
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267,дополнительное образование,"['дополнительный', ' ', 'образование', '\n']",образование,от 200т до 300т,детей нет,женат
4,0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158,сыграть свадьбу,"['сыграть', ' ', 'свадьба', '\n']",свадьба,от 150т до 200т,дети есть,холост
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,12,43,среднее,1,гражданский брак,1,F,компаньон,0,224,операции с жильем,"['операция', ' ', 'с', ' ', 'жилье', '\n']",жилье,от 200т до 300т,детей нет,холост
21448,0,942,67,среднее,1,женат / замужем,0,F,пенсионер,0,155,сделка с автомобилем,"['сделка', ' ', 'с', ' ', 'автомобиль', '\n']",автомобиль,от 150т до 200т,дети есть,женат
21449,1,5,38,среднее,1,гражданский брак,1,M,сотрудник,1,89,недвижимость,"['недвижимость', '\n']",,от 50т до 100т,детей нет,холост
21450,3,8,38,среднее,1,женат / замужем,0,M,сотрудник,1,244,на покупку своего автомобиля,"['на', ' ', 'покупка', ' ', 'свой', ' ', 'авто...",автомобиль,от 200т до 300т,детей нет,женат


**Вывод**

С помощью лемматизации и категоризации разбили таблицу на категории по возрасту для заполнения нулевых ошибочных значений возрастов.
А также разбили датафрейм на категории по цели кредита и по уровню заработка для дальнейший выявлений закономерностей.

## Анализ данных 

**1. Есть ли зависимость между наличием детей и возвратом кредита в срок?**


In [29]:
# создадим сводную таблицу для ответа на вопрос про наличие детей
data_children_pivot = data.pivot_table(index='children_category', columns='debt', values='total_income', aggfunc='count')
display(data_children_pivot)

debt,0,1
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1
детей нет,6683,678
дети есть,13028,1063


In [30]:
# считаем процент должников без детей от общего количества клиентов с детьми
all_with_children = data[data['children_category']=='дети есть']['children'].count()
print('Общее количество клиентов с детьми:', all_with_children)
print('Процент должников с детьми:', 1063 / all_with_children * 100)

Общее количество клиентов с детьми: 14091
Процент должников с детьми: 7.543822297920659


**Вывод**

In [31]:
# считаем процент должников без детей от общего количества клиентов без детей
all_without_children = data[data['children_category']=='детей нет']['children'].count()
print('Общее количество клиентов без детей:', all_without_children)
print('Процент должников без детей:', 678 / all_without_children * 100)

Общее количество клиентов без детей: 7361
Процент должников без детей: 9.210705067246298


Не значительно зависит, будет выплачен кредит вовремя или нет, от наличия детей, так как в случае с отсутствием детей результат составил 7,5%, а без детей 9,2%. Чуть выше вероятность просрочки выплаты, если у клиента дети всё же есть.

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [32]:
# как и в предыдущем вопросе, составим сводную таблицу по должникам с учетом семейного положения
family_status_pivot = data.pivot_table(
    index='family_status_category', 
    columns='debt', 
    values='total_income', 
    aggfunc='count'
)
display(family_status_pivot)

debt,0,1
family_status_category,Unnamed: 1_level_1,Unnamed: 2_level_1
женат,11406,931
холост,8305,810


In [33]:
# считаем процент холостых должников от общего количества холостых клиентов
single_payers = data[data['family_status_category']=='холост']['children'].count()
print('Общее количество холостых клиентов:', single_payers)
print('Процент холостых должников:', 810 / single_payers * 100)

Общее количество холостых клиентов: 9115
Процент холостых должников: 8.886450905101482


In [34]:
# считаем процент холостых должников от общего количества холостых клиентов
married_payers = data[data['family_status_category']=='женат']['children'].count()
print('Общее количество женатых клиентов:', married_payers)
print('Процент женатых должников:', 931 / married_payers * 100)

Общее количество женатых клиентов: 12337
Процент женатых должников: 7.546405122801329


**Вывод**

Также есть незначительная зависимость своевременность выплаты кредита от семейного положения.
Холостые клиенты задерживают выплату с вероятностью в 8,9%, а женатые - с вероятностью 7,5%. Женатые всё таки чуточку добросовестнее, но не на много.

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [35]:
# выведем в этом датафрейме количество должников, сгруппировав по уровню дохода
debtors = data[data['debt']==1]
print(debtors.groupby('total_income_category')['family_status'].count())

total_income_category
до 30т               2
от 100т до 150т    630
от 150т до 200т    400
от 200т до 300т    245
от 300т            105
от 30т до 50т       24
от 50т до 100т     335
Name: family_status, dtype: int64


**Вывод**

Здесь зависимость также имеется, но странная.
Если у человека нет постоянного дохода, ссылаясь на результаты группировки, его можно назвать потенциальным неплательщиком в срок.
Но, например, категория клиентов с доходом до 100 т является самой добросовестной, 
категория с доходом от 100 до 200 тысяч, наоборот, не может похвастать выплатой вовремя.
И наконец, клиенты с доходом выше 300 тысяч также чаще выплачивают в срок.

**4. Как разные цели кредита влияют на его возврат в срок?**

In [36]:
# сгруппируем должников и платежеспособных клиентов методом groupby
# на категории по целям кредита и посчитаем их количество в каждой
honest_payers = data[data['debt'] == 0]
total_debtors = debtors.groupby('category')['family_status'].count().sum()
total_honest_payers = honest_payers.groupby('category')['family_status'].count().sum()
print('ОБЩЕЕ КОЛИЧЕСТВО ЗАДОЛЖНИКОВ:', total_debtors)
print(debtors.groupby('category')['family_status'].count())
print('ОБЩЕЕ КОЛИЧЕСТВО НЕЗАДОЛЖНИКОВ:', total_honest_payers)
print(honest_payers.groupby('category')['family_status'].count())

ОБЩЕЕ КОЛИЧЕСТВО ЗАДОЛЖНИКОВ: 1510
category
автомобиль                   403
жилье                        350
коммерческая недвижимость     99
образование                  370
свадьба                      186
строительство                102
Name: family_status, dtype: int64
ОБЩЕЕ КОЛИЧЕСТВО НЕЗАДОЛЖНИКОВ: 16780
category
автомобиль                   3902
жилье                        4745
коммерческая недвижимость    1212
образование                  3643
свадьба                      2138
строительство                1140
Name: family_status, dtype: int64


In [37]:
# посчитаем в процентром соотношении каждую цель
# для этого создадим новый датафрейм с помощью конструктора pandas.DataFrame для создания таблицы
# где названия столбцов будут следующими: 
# 'должник','автомобиль', 'жилье', 'коммерческая недвижимость', 'образование', 'свадьба','строительство'
# а строками будут: 'количество выплаченных не в срок/ в срок', 'общее количество', 'процентное соотношение'
ratio_debtor = [
    { 'автомобиль': 397, 
    'жилье':347,
    'коммерческая недвижимость':98, 
    'образование':369,
    'свадьба':181, 
    'строительство':102},
    {'автомобиль': 1494, 
    'жилье':1494,
    'коммерческая недвижимость':1494, 
    'образование':1494,
    'свадьба':1494, 
    'строительство':1494}
]
df_ratio_debtor = pd.DataFrame(ratio_debtor)
df_ratio_debtor.loc[2] = df_ratio_debtor.loc[0] / df_ratio_debtor.loc[1] * 100
print('СООТНОШЕНИЕ ДОЛЖНИКОВ')
display(df_ratio_debtor)

ratio_honest_payers = [
    { 'автомобиль': 3861, 
    'жилье':4692,
    'коммерческая недвижимость':1200, 
    'образование':3601,
    'свадьба':2118, 
    'строительство':1134},
    {'автомобиль': 16606, 
    'жилье':16606,
    'коммерческая недвижимость':16606, 
    'образование':16606,
    'свадьба':16606, 
    'строительство':16606}
]
df_ratio_honest_payers = pd.DataFrame(ratio_honest_payers)
df_ratio_honest_payers.loc[2] = df_ratio_honest_payers.loc[0] / df_ratio_honest_payers.loc[1] * 100
print('СООТНОШЕНИЕ НЕДОЛЖНИКОВ')
display(df_ratio_honest_payers)

СООТНОШЕНИЕ ДОЛЖНИКОВ


Unnamed: 0,автомобиль,жилье,коммерческая недвижимость,образование,свадьба,строительство
0,397.0,347.0,98.0,369.0,181.0,102.0
1,1494.0,1494.0,1494.0,1494.0,1494.0,1494.0
2,26.572959,23.226238,6.559572,24.698795,12.115127,6.827309


СООТНОШЕНИЕ НЕДОЛЖНИКОВ


Unnamed: 0,автомобиль,жилье,коммерческая недвижимость,образование,свадьба,строительство
0,3861.0,4692.0,1200.0,3601.0,2118.0,1134.0
1,16606.0,16606.0,16606.0,16606.0,16606.0,16606.0
2,23.250632,28.254848,7.226304,21.684933,12.754426,6.828857


**Вывод**

Обратим внимание, что и в выплатах без задержек, и в просрочках процент цели кредита от общего количества кредиторов меняется совсем незначительно, поэтому цель кредита не влияет, будет ли кредит выплачен вовремя.
А также обратим внимание, что среди задолжников нет тех, чья цель - ремонт.
По данному датафрейму можно сделать вывод, что в принципе, такие категории, как автомобиль, жилье и образование являются целью кредита чаще, чем коммерческая недвижимость, ремонт и строительство.

## Общий вывод

В ходе работы было проведено знакомство с данными, их предобработка (устранение пропусков, ошибок, дубликатов) и анализ с последующими ответами на вопросы:

**1. Есть ли зависимость между наличием детей и возвратом кредита в срок?**

Не значительно зависит, будет выплачен кредит вовремя или нет, от наличия детей, так как в случае с отсутствием детей результат составил 7,5%, а без детей 9,2%. Чуть выше вероятность просрочки выплаты, если у клиента дети всё же есть.

**2. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Также есть незначительная зависимость своевременности выплаты кредита от семейного положения.
Холостые клиенты задерживают выплату с вероятностью в 8,9%, а женатые - с вероятностью 7,5%. Женатые всё таки чуточку добросовестнее, но не на много.

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Здесь зависимость также имеется, но странная.
Если у человека нет постоянного дохода, ссылаясь на результаты группировки, его можно назвать потенциальным неплательщиком в срок.
Но, например, категория клиентов с доходом до 100 т является самой добросовестной, 
категория с доходом от 100 до 200 тысяч, наоборот, не может похвастать выплатой вовремя.
И наконец, клиенты с доходом выше 300 тысяч также чаще выплачивают в срок.

**4. Как разные цели кредита влияют на его возврат в срок?**

Обратим внимание, что и в выплатах без задержек, и в просрочках процент цели кредита от общего количества кредиторов меняется совсем незначительно, поэтому цель кредита не влияет, будет ли кредит выплачен вовремя.
А также обратим внимание, что среди задолжников нет тех, чья цель - ремонт.
По данному датафрейму можно сделать вывод, что в принципе, такие категории, как автомобиль, жилье и образование являются целью кредита чаще, чем коммерческая недвижимость, ремонт и строительство.
_ _ _ 

На основе данных, полученных от банка-заказчика, выяснилось, что прослеживается зависимость, будет ли выплачен кредит вовремя, от следующих факторов:
- количество детей в семье
- семейное положение
- уровень дохода

И наоборот, выяснилось, что нет зависимости от: 
- цели кредита