# Исследование надежности заемщиков.

# Шаг 1. Обзор данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Банк предоставил статистику о платежеспособности клиентов в формате 'csv' со следующим описанием данных:

•	children — количество детей в семье

•	days_employed — общий трудовой стаж в днях

•	dob_years — возраст клиента в годах

•	education — уровень образования клиента

•	education_id — идентификатор уровня образования

•	family_status — семейное положение

•	family_status_id — идентификатор семейного положения

•	gender — пол клиента

•	income_type — тип занятости

•	debt — имел ли задолженность по возврату кредитов

•	total_income — ежемесячный доход

•	purpose — цель получения кредита



In [1]:
import pandas as pd #вызовем библиотеку pandas
client = pd.read_csv('/datasets/data.csv') #откроем с помощью pandas и присвоем имя таблице
client.head(10) #выведем первые 10 строк на экран

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
client.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Уже в первых 10 строках мы видим следующие ошибки в данных: 
- отрицательный стаж работы и количество детей. Мы можем предположить, что данная ошибка возникла в результате програмной ошибки. Может программа вместо прибавления количества отработанных дней и детей отнимала это количество 
- прыгающий регистр букв в образовании (Вероятно считали что СРЕДНЕЕ образование круче среднего)))) 
- непонятно в какой валюте исчисляется доход заемщика
- минимальное значение в возрасте — 0

Пока мы не видим пустые значения. Для получения информации о пустых значениях и формате строк в таблице запросим ее:

In [3]:
client.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Из полученных данных мы можем увидеть, что в столбце "days_employed" и столбце "total_income" равное количество пропущенных значений. Необходимо заполнить пропуски медианными значениями по столбцам. 

In [4]:
client.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

В названиях столбцов ошибок не замечено! Получим более расширенную информацию о таблице:

In [5]:
client.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


По полученным данным мы видим, что количество детей и количество отработанных дней в некоторых строках имеют отрицательное значение. Максимальное количество детей достигает цифры 20, что кажется сомнительным. 401755 дней это 1100 лет, обычные люди столько не живут. Максимальный возраст заемщика может быть 75 лет, в этом ошибки не наблюдается. Но минимальный никак не может ровняться нулю! Статусы образования и семейного положения вызывают вопросы. Также формат столбца с информацией о доходах неверный, информация нечитаема. 
Проверим, соответствуют ли строки с пропусками данных в столбцах "days_employed" и "total_income":

In [6]:
client[(client['total_income'].isnull())&(client['days_employed'].isnull())].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2174 non-null   int64  
 1   days_employed     0 non-null      float64
 2   dob_years         2174 non-null   int64  
 3   education         2174 non-null   object 
 4   education_id      2174 non-null   int64  
 5   family_status     2174 non-null   object 
 6   family_status_id  2174 non-null   int64  
 7   gender            2174 non-null   object 
 8   income_type       2174 non-null   object 
 9   debt              2174 non-null   int64  
 10  total_income      0 non-null      float64
 11  purpose           2174 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Предположение подтвердилось - строки с пропусками соответствуют в данных столбцах.

# Шаг 2 Предобработка данных
## Шаг 2.1 Проверка на наличие дубликатов и их удаление 

Проверим наличие дубликатов

In [7]:
client.duplicated().sum()

54

Удалим дубликаты

In [8]:
client = client.drop_duplicates().reset_index(drop=True)
client.duplicated().sum()

0

## Шаг 2.2 Заполнение пропусков

Заполним пропуски в столбцу 'total_income' медианным значением. Этот метод лучше применять для сгруппированных данных и для столбцов

In [9]:
client['total_income'] = client['total_income'].fillna(client['total_income'].median())   
client.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21471.0,19351.0,21471.0,21471.0,21471.0,21471.0,21471.0
mean,0.539565,63046.497661,43.279074,0.817195,0.973685,0.081086,165210.1
std,1.382978,140827.311974,12.574291,0.548508,1.421082,0.272974,97983.84
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107655.3
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195751.9
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Проверяем наличие пропусков:

In [10]:
client.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В связи с тем, что в данные о трудовом стаже закралась аномалия, заполнять пропуски в данных по этому столбцу будем после выявления и исправления аномалии!

## Шаг 2.3 Проверка данных на аномалии и исправления.

Максимальное количество детей достигает цифры 20! Если количество заемщиков с 20 детьми не повлияет на статистику, то выяснять причину аномалии смысла нет, просто удалим строки

In [11]:
client[client['children'] == 20]['children'].count()

76

In [12]:
client['children'] = client['children'].replace(20,2)
client['children'].value_counts()

 0    14107
 1     4809
 2     2128
 3      330
-1       47
 4       41
 5        9
Name: children, dtype: int64

-1 детей заменим на 0, то есть их отсутствие

In [13]:
client['children'] = client['children'].replace(-1,0)
client['children'].value_counts()

0    14154
1     4809
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

Проверим наличие аномалий в столбце gender:

In [14]:
client['gender'].value_counts()

F      14189
M       7281
XNA        1
Name: gender, dtype: int64

XNA в единственном экземпляре не испортит статистику, поэтому мы будем использовать данные которые не равны XNA

In [15]:
client = client.loc[client['gender'] != 'XNA']
client['gender'].value_counts()

F    14189
M     7281
Name: gender, dtype: int64

Разберемся с возрастом заемщиков. Возраст равный нулю нас не устраивает!

In [16]:
client[client['dob_years'] == 0]['dob_years'].count()

101

В 101 строке скорее всего не указали возраст

In [17]:
client[client['dob_years'] == 0].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,-2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,-1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,-1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
1149,0,-934.654854,0,среднее,1,женат / замужем,0,F,компаньон,0,201852.430096,покупка недвижимости
1175,0,370879.508002,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования
1386,0,-5043.21989,0,высшее,0,женат / замужем,0,M,госслужащий,0,240523.618071,сделка с автомобилем
1890,0,,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,145017.937533,жилье
1898,0,370144.537021,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля


Из списка мы видим, что это люди из разных слоев населения, и госслужащий, и пенсионер и даже компаньон. Также мы видим, что разница в стаже работы также колоссальна. Следует запросить у банка данные по этим пропускам, поскольку если вставлять сюда значения, статистика нарушится.
Из таблицы видно также, что не все данные в столбце образование строчные. Исправим данную ошибку

In [18]:
client['education'] = client['education'].str.lower()
client['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Проверим столбец вид дохода.

In [19]:
client['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

В столбце типа дохода все предельно ясно

## Шаг 2.4. Изменение типов данных.

Наличие отрицательных количественых данных в таблице может говорить об ошибке подсчета в программе, собирающей статистику, либо о человеческом факторе. Исправим данные в столбцах 'days_employed' и 'children'

In [20]:
client['days_employed'] = client['days_employed'].abs()
client['days_employed'].describe()

count     19350.000000
mean      66918.065141
std      139033.698578
min          24.141633
25%         926.990457
50%        2194.218768
75%        5538.423086
max      401755.400475
Name: days_employed, dtype: float64

После изменения данных в столбцах из отрицательного в положительный мы можем заменить пропущеные значения на медианные:

In [21]:
client['days_employed'].median()

2194.218767670908

In [22]:
client['days_employed'] = client['days_employed'].fillna(client['days_employed'].median())
client['days_employed'].describe()

count     21470.000000
mean      60527.075187
std      133395.557766
min          24.141633
25%        1024.256918
50%        2194.218768
75%        4794.914073
max      401755.400475
Name: days_employed, dtype: float64

In [23]:
client['children'] = client['children'].abs()
client['children'].describe()

count    21470.000000
mean         0.478062
std          0.755842
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          5.000000
Name: children, dtype: float64

Далее поменяем формат чисел в столбцах  'total_income' и 'days_employed' на целочисленный. Очевидно создатели таблицы хотели донести полную информацию, но для анализа достаточно будет целочисленных данных!

In [24]:
client['total_income'] = client['total_income'].astype('int')
client['days_employed'] = client['days_employed'].astype('int')
client.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


## Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Для упрощения анализа данных, мы можем убрать столбцы education и family_status и классифицировать их по показателям в столбцах  education_id и family_status_id соответственно. Создадим соответствующие датафреймы

In [25]:
client_education = client[['education','education_id']].drop_duplicates()
client_education

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
13,неоконченное высшее,2
31,начальное,3
2962,ученая степень,4


In [26]:
client_family_status = client[['family_status','family_status_id']].drop_duplicates()
client_family_status

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
4,гражданский брак,1
18,вдовец / вдова,2
19,в разводе,3
24,Не женат / не замужем,4


## Шаг 2.6. Категоризация дохода.

Для удобства анализа таблицы присвоем уровням дохода из столбца total_income категории

In [27]:
def income_status(total_income):
    if total_income <= 30000:
        return 'E'
    elif total_income > 30000 and total_income <= 50000:
        return 'D'
    elif total_income > 50000 and total_income <= 200000:
        return 'C'
    elif total_income > 200000 and total_income <= 1000000:
        return 'B'
    elif total_income > 1000000:
        return 'A'    
    else:
        return 'error'

In [28]:
client['income_status'] = client['total_income'].apply(income_status)
client['income_status'].value_counts()

C    16033
B     5040
D      350
A       25
E       22
Name: income_status, dtype: int64

Теперь мы можем удалить не нужные нам столбцы education, family_status, total_income

In [29]:
client.drop(columns=['education', 'family_status', 'total_income'], inplace=True)
client.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,purpose,income_status
0,1,8437,42,0,0,F,сотрудник,0,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,образование,C
8,2,6929,35,0,1,F,сотрудник,0,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,покупка жилья для семьи,C


## Шаг 2.7. Категоризация целей кредита

In [30]:
client['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

У нас очень много целей кредита. Нужно сгруппировать данные. Для этого напишем функцию, заменяющую название целей кредита в обобщающее название

In [31]:
def purpose_category(purpose):
    if 'образован' in purpose:
        return 'Образование'
    if 'авто' in purpose:
        return 'Автомобиль'
    if 'свадь' in purpose:
        return 'Свадьба'
    if 'жиль' or 'недв' in purpose:
        return 'Недвижимость'
    return 'Ошибка классификации'

client['purpose_category'] = client['purpose'].apply(purpose_category)
client['purpose_category'].value_counts()

Недвижимость    10813
Автомобиль       4308
Образование      4014
Свадьба          2335
Name: purpose_category, dtype: int64

Теперь можно удалить столбец purpose

In [32]:
client.drop(columns=['purpose'], inplace=True)
client.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,income_status,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,B,Недвижимость
1,1,4024,36,1,0,F,сотрудник,0,C,Автомобиль
2,0,5623,33,1,0,M,сотрудник,0,C,Недвижимость
3,3,4124,32,1,0,M,сотрудник,0,B,Образование
4,0,340266,53,1,1,F,пенсионер,0,C,Свадьба


## Шаг 2.8. Категоризация количества детей

In [33]:
def children_cat_id(children):
    if children == 0:
        return 0
    elif children == 1:
        return 1
    elif children == 2:
        return 2
    elif children > 2:
        return 3
    else:
        return 4

client['children_cat_id'] = client['children'].apply(children_cat_id)
client.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,income_status,purpose_category,children_cat_id
0,1,8437,42,0,0,F,сотрудник,0,B,Недвижимость,1
1,1,4024,36,1,0,F,сотрудник,0,C,Автомобиль,1
2,0,5623,33,1,0,M,сотрудник,0,C,Недвижимость,0
3,3,4124,32,1,0,M,сотрудник,0,B,Образование,3
4,0,340266,53,1,1,F,пенсионер,0,C,Свадьба,0
5,0,926,27,0,1,M,компаньон,0,B,Недвижимость,0
6,0,2879,43,0,0,F,компаньон,0,B,Недвижимость,0
7,0,152,50,1,0,M,сотрудник,0,C,Образование,0
8,2,6929,35,0,1,F,сотрудник,0,C,Свадьба,2
9,0,2188,41,1,0,M,сотрудник,0,C,Недвижимость,0


Теперь можно столбец с количеством детей удалить из таблицы

In [34]:
client.drop(columns=['children'], inplace=True)
client.head()

Unnamed: 0,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,income_status,purpose_category,children_cat_id
0,8437,42,0,0,F,сотрудник,0,B,Недвижимость,1
1,4024,36,1,0,F,сотрудник,0,C,Автомобиль,1
2,5623,33,1,0,M,сотрудник,0,C,Недвижимость,0
3,4124,32,1,0,M,сотрудник,0,B,Образование,3
4,340266,53,1,1,F,пенсионер,0,C,Свадьба,0


# Шаг 3 Ответы на вопросы.

#### Вопрос 1: •	Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для ответа на этот вопрос нам нужно сопоставить данные в столбце с информацией о количестве детей и данные из столбца о долгах перед банком

In [35]:
children_pivot = client.pivot_table(index = ['children_cat_id'], \
                                columns = ['debt'], \
                                values = 'purpose_category', aggfunc='count')
children_pivot['ratio'] = children_pivot[1] / (children_pivot[0]+children_pivot[1]) * 100
children_pivot

debt,0,1,ratio
children_cat_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13089,1064,7.517841
1,4365,444,9.232689
2,1926,202,9.492481
3,349,31,8.157895


По результатам исследования можно сделать вывод, что заемщикам с 1 или 2 детьми можно доверять больше остальных. Заемщики без детей чаще всего задерживают оплату. Заемщики с 3 и более детьми немногим хуже оплачивают кредиты в срок чем заемщики с 1 или 2 детьми.

#### Вопрос 2: •	•	Есть ли зависимость между семейным положением и возвратом кредита в срок?

Найдем ответ на данный вопрос по схожей схеме

In [36]:
family_status_id_pivot = client.pivot_table(index = ['family_status_id'], \
                                columns = ['debt'], \
                                values = 'purpose_category', aggfunc='count')
family_status_id_pivot['ratio'] = family_status_id_pivot[1] / (family_status_id_pivot[0] + family_status_id_pivot[1]) * 100
family_status_id_pivot

debt,0,1,ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11413,931,7.542126
1,3774,388,9.322441
2,896,63,6.569343
3,1110,85,7.112971
4,2536,274,9.75089


Как мы можем видеть из данных таблицы вдовы и вдовцы хуже всех оплачивают кредиты в срок. Женатые/замужние и люди вышедшие из этого статуса оплачивают кредиты примерно на одинаковом уровне. А вот люди не связавшие свои отношения узами брака оплачивают кредиты лучше всех остальных!

#### Вопрос 3: •	•	•	Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [37]:
income_status_pivot = client.pivot_table(index = ['income_status'], \
                                columns = ['debt'], \
                                values = 'purpose_category', aggfunc='count')
income_status_pivot['ratio'] = income_status_pivot[1] / (income_status_pivot[0] +income_status_pivot[1]) * 100
income_status_pivot

debt,0,1,ratio
income_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.0
B,4684,356,7.063492
C,14673,1360,8.482505
D,329,21,6.0
E,20,2,9.090909


По результатам исследований доходов заемщиков можно сделать вывод о том, что люди с маленьким и средним доходами стремятся заплатить кредиты в срок больше других. Люди с доходами ниже среднего возращают кредиты хуже всех. Средние показатели у заемщиков с доходами выше среднего и большими 

#### Вопрос 4: •	•	•	•	Как разные цели кредита влияют на его возврат в срок?

In [38]:
purpose_category_pivot = client.pivot_table(index = ['purpose_category'], \
                                columns = ['debt'], \
                                values = 'income_type', aggfunc='count')
purpose_category_pivot['ratio'] = purpose_category_pivot[1] / (purpose_category_pivot[0]+purpose_category_pivot[1]) * 100
purpose_category_pivot

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Автомобиль,3905,403,9.354689
Недвижимость,10031,782,7.232036
Образование,3644,370,9.217738
Свадьба,2149,186,7.965739


Как мы видим из таблицы хуже всех возращают кредиты в срок заемщики, получившие заемные средства на приобретение недвижимости. Немногим лучше возвращают кредиты в срок молодожены. Заемщики, получившие средства на образование или покупку автомобиля, оплачивают лучше других.

# Шаг 4 Общий вывод:

Получив данные от банка мы тщательно изучили их. Из полученных данных мы выяснили, что есть пропущенные значения, есть данные с отрицательными значениями, есть некорректно заполненные данные. На следующем этапе нами были проделаны действия по устранению пропусков и аномалий в предоставленных данных. А именно:
- заполнение пропусков в столбце с данными о доходах медиаными значениями;
- исправление ошибочно заполненных данных в строке количества детей;
- удаление единственной строки с некорректно заполненым половым признаком;
- исправление данных об образовании в маленький регистр;
- исправление данных о трудовом стаже и о количестве детей из отрицательного в положительный формат;
- заполнение пропусков в столбце с данными о трудовом стаже медиаными значениями;
- убрали столбцы с образованием и семейным положением, классифицировали их по показателям и создали новые столбцы;
- разбили доходы, цели кредита и количество детей на категории.

Далее провели анализ зависимости количества детей, материального и семейного положения на возврат кредитов срок. По результатам проведенных исследований были сделаны следующие выводы:
- большая часть заемщиков с 1 или 2 детьми возвращают кредиты в срок. Заемщики без детей чаще всего задерживают оплату. Заемщики с 3 и более детьми немногим хуже оплачивают кредиты в срок чем заемщики с 1 или 2 детьми.
- вдовы и вдовцы оплачивают кредиты в срок хуже, чем заемщики в другими семейными статусами. Женатые/замужние и люди вышедшие из этого статуса оплачивают кредиты примерно на одинаковом уровне. А вот люди не связавшие свои отношения узами брака оплачивают кредиты лучше всех остальных!
- заемщики с маленьким и средним доходами стремятся заплатить кредиты в срок больше других. Люди с доходами ниже среднего возращают кредиты хуже всех. Средние показатели у заемщиков с доходами выше среднего и большими
- хуже всех возращают кредиты в срок заемщики, получившие заемные средства на приобретение недвижимости. Немногим лучше возвращают кредиты в срок молодожены. Заемщики, получившие средства на образование или покупку автомобиля, оплачивают лучше других.

<h4>Комментарий ревьюера</h4>

<div class="alert alert-info">

Осталось небольшое исправление в функции. В остальном всё хорошо

</div>