# Исследование надежности заемщиков банка

Влияет ли наличие детей, семейное положение или другие факторы на факт погашения кредита? Давайте узнаем, есть ли зависимость.

**Цель исследования** - проверить гипотезу, влияет ли семейное положение и количество детей клиента кредитного отдела банка на факт погашения кредита в срок. 

Результаты исследования будут учтены при построении модели *кредитного скоринга* - специальной системы, которая оценивает способность потенциального заемщика вернуть кредит банку.

*Ход исследования:*

1. Обзор данных.
2. Предобработка данных.
3. Ответы на вопросы.
4. Общий вывод.

### Шаг 1. Обзор данных

Необходимо составить общее представление о данных кредитного отдела банка.

In [1]:
#импорт библиотеки Pandas
import pandas as pd

In [2]:
#чтение файла с данными и сохранение в переменной data
data = pd.read_csv('C:/Users/nasty/OneDrive/Документы/Яндекс Практикум/Проект Исслед Заемщиков банка/Credit_Data.csv')

In [3]:
#вывод первых 10-ти строк для ознакомления с данными
data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
#получение общей информации о данных в таблице data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        21525 non-null  int64  
 1   children          21525 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         21525 non-null  int64  
 4   education         21525 non-null  object 
 5   education_id      21525 non-null  int64  
 6   family_status     21525 non-null  object 
 7   family_status_id  21525 non-null  int64  
 8   gender            21525 non-null  object 
 9   income_type       21525 non-null  object 
 10  debt              21525 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           21525 non-null  object 
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


Итак, в таблице 12 столбцов. Типы данных в столбцах - `int`, `float`, `object`.
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

Из информации о таблице видно, что количество в столбцах различается. Это означает, что есть пропущенные значения.

### Шаг 2.1 Заполнение пропусков

Сначала посчитаем количество пропущенных значений.

In [5]:
#подсчет количества значений с помощью методов isna() и sum()
data.isna().sum()

Unnamed: 0             0
children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски были обнаружены в двух столбцах - `days_employed` и `total_income`.

Пропущенные значения составили порядка 10% от общего числа строк в таблице. 

Проанализировав на данном этапе значения в столбце `total_income` 

In [6]:
#выведем таблицу только с пропусками в столбце total_income
data[data['total_income'].isna()]

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21489,21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Пропущенные значения в столбце `total_income` и, как оказалось, в `days_employed`, оказались NaN - особое значение с типом данных float. Пропуски могли взяться по разным причинам. Можно предположить, что данные собраны с онлайн заявок, форма для заполнения заработной платы была необязательной, человек специально или машинально ее не заполнил. 

Еще можно предположить, следуя из того, что данные в столбце трудового стажа имеют схожий тип пропущенных данных, возможно, была вторая форма заполнения с данными о стаже и зарплате, и человек ее полностью пропустил, не дошел, и остановился на общих данных о себе, семье и цели кредита. Строки с данным значением не всегда следует удалять.

Одним из возможных способов заполнения этих данных является способ заполнить методом медианы. Для количественных данных, а тем более для усреднения заработной платы, медиана подходит лучше всего. Она покажет среднее выборки, в то время как среднее арифметическое может дать некорретное реальное среднее. Плюс, будет производиться деление с учетом NaN, что также исказит результат. 

In [7]:
#восстановление пропусков медианным значением столбца
data['total_income'] = data['total_income'].fillna(data['total_income'].median())

Проверим, избавились ли мы от пропущенных значений в столбце `total_income`:

In [8]:
#проверка заполнения пропусков total_income
data.isna().sum()

Unnamed: 0             0
children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Шаг 2.2 Проверка данных на аномалии и исправления.

Из первичного просмотра таблицы с данными было видно, что столбец с днями стажа `days_employed` имеет отрицательные значения. Это могла быть техническая ошибка в записи данных. Исправим данный столбец на положительные значения с помощью модуля.

In [9]:
#перезапись столбца стажа с отрицательных на положительные значения 
data.loc[data['days_employed'] < 0, 'days_employed'] = abs(data['days_employed'])

Выведем для проверки первые несколько значений.

In [10]:
#вывод первых 10-ти строк данных
data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Что ещё бросается в глаза? Из описания данных известно, что исчисления в этом столбце ведется в днях. Опустим, что тогда данные должны были быть int, а не float. Просто посмотрим на числа. В 4 строке значение 340266.072047. Если разделить на примерное количество рабочих дней в году, это 247 дней, то выходит, что рабочий стаж данного клиента равен:

In [11]:
340266.072047/247

1377.5954333886639

1377 лет! Такого быть не может, если клиент конечно не вампир из семьи Калленов. Тут явно какая-то аномалия. Попробуем исправить её.

Найдем максимальный возраст клиента.

In [12]:
#нахождение максимального возраста методом unique() и методом max()
data['dob_years'].unique().max()

75

Допустим, человек трудился с 18 лет. Значит, трудовой стаж - 57 лет. В днях это будет:

In [13]:
(75-18)*247

14079

Максимально возможное значение трудового стажа для нашей таблицы составляет - 14079 дней. Будем считать, что всё, что выше этого, является аномальным значением.

Создадим отфильтрованную таблицу, в которую входят строки с аномальным значением стажа.

In [14]:
#создание таблицы, отсортированной по дням стажа больше 14079 дней
days_filter = data[data['days_employed'] >= 14079]

In [15]:
#просмотр новой таблицы, первые 10 значений
days_filter.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
18,18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
35,35,0,394021.072184,68,среднее,1,гражданский брак,1,M,пенсионер,0,77805.677436,на проведение свадьбы
50,50,0,353731.432338,63,среднее,1,женат / замужем,0,F,пенсионер,0,92342.730612,автомобили
56,56,0,370145.087237,64,среднее,1,вдовец / вдова,2,F,пенсионер,0,149141.043533,образование
71,71,0,338113.529892,62,среднее,1,женат / замужем,0,F,пенсионер,0,43929.696397,автомобили
78,78,0,359722.945074,61,высшее,0,женат / замужем,0,M,пенсионер,0,175127.646,сделка с автомобилем


Посмотрим, какие значения возраста есть в данной отфильтрованной таблице.

In [16]:
#вывод уникальных значений возраста из таблицы в порядке возрастания
sorted(days_filter['dob_years'].unique())

[0,
 22,
 26,
 27,
 28,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74]

В таблице есть значение возраста 0. Это исправим позже. На данный момент изменим аномальные данные в столбце в остальных случаях. Значения стажа возьмем такое же, как при подсчете максимального стажа клиента с максимальным возрастом: из каждого возраста вычтем 18 и умножим на среднее число дней работы в году - 247. 0 исключили из-за получения отрицательного результата. Других возрастов меньше 18 в данной таблице нет.

In [17]:
#создание фильтра строки и замена значения столбца days_employed
rows = (data['days_employed'] > 14079)&(data['dob_years'] > 0)
data.loc[rows, 'days_employed'] = (data.loc[rows, 'dob_years'] - 18) * 247

In [18]:
#вывод первых 10-ти строк данных
data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,8645.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Как видим, данные в 4-ой строке пришли в норму.

Теперь заменим данные о стаже в строках с возрастом 0. Заменим на медианное значение.

In [19]:
#создание фильтра строки и замена значения столбца days_employed
row = (data['dob_years'] == 0)
data.loc[row, 'days_employed'] = data['days_employed'].median()

In [20]:
data[data['dob_years'] == 0]

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,99,0,2194.173062,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,149,0,2194.173062,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,270,3,2194.173062,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,578,0,2194.173062,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,1040,0,2194.173062,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...,...
19829,19829,0,2194.173062,0,среднее,1,женат / замужем,0,F,сотрудник,0,145017.937533,жилье
20462,20462,0,2194.173062,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,20577,0,2194.173062,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,21179,2,2194.173062,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости


In [21]:
#создание таблицы со строками, где dob_years не равен 0
data = data.loc[data['dob_years'] != 0]

Проверим данные выводом 10-строк.

In [22]:
#вывод первых 10-ти строк отфильтрованной по возрасту 0 таблицы
data[data['dob_years'] == 0].head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


После обработки аномалий в столбце `days_employed` можем заменить пустые значения медианой.

In [23]:
#замена значений столбца days_employed медианным значением столбца
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median())

In [24]:
#проверка пустых значений
data.isna().sum()

Unnamed: 0          0
children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Аномалии с возрастом равным 0 не так принципиальны. Возникла ошибка, но для нашего анализа данные не столь важны. Можно было бы их заменить на 18, так как кредит выдают только совершеннолетним, но мы этого делать не будем. Найдем еще возможные аномалии. Проверим уникальные значения в других столбцах.

In [25]:
#вывод уникальных значений с их количеством столба children
data['children'].value_counts()

 0     14080
 1      4802
 2      2042
 3       328
 20       75
-1        47
 4        41
 5         9
Name: children, dtype: int64

Видны две аномалии: отрицательное число детей и число детей 20. В мире не так много семей с 20-тью детьми, а у банка таких клиентов целых 76. Предположу, что произошла ошибка, и в данном случае допущу, что была опечатка и здесь лишний 0. С отрицательным значением также допущу наличие ошибки ввода минуса. Исправим эти значения: 20 на 2, -1 на 1.

In [26]:
#создание фильтра строки и замена значения столбца children, равное 20
row = (data['children'] == 20)
data.loc[row, 'children'] = 2

In [27]:
#создание фильтра строки и замена значения столбца children, равное -1
row = (data['children'] == -1)
data.loc[row, 'children'] = 1

Проверим уникальные значения:

In [28]:
#вывод уникальных значений с их количеством столба children
data['children'].value_counts()

0    14080
1     4849
2     2117
3      328
4       41
5        9
Name: children, dtype: int64

В остальных случаях аномалии не столько существенны, или числовым способом исправить их не получится.

In [29]:
#вывод уникальных значений столбца gender
data['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Результат показал только одну строку с неопределенными данными по полу. Это не является даже одним процентом, можем удалить эту строку.

In [30]:
#вывод этой строки
data[data['gender'] == 'XNA']

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


In [31]:
data = data.loc[data['gender'] != 'XNA']

In [32]:
data['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

### Шаг 2.3. Изменение типов данных.

Изменим вещественный тип данных столбца `total_income` на int.

In [33]:
#перевод столбца в тип int с помощью метода astype()
data['total_income'] = data['total_income'].astype('int')

In [34]:
#проверка изменения методом info()
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21423 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        21423 non-null  int64  
 1   children          21423 non-null  int64  
 2   days_employed     21423 non-null  float64
 3   dob_years         21423 non-null  int64  
 4   education         21423 non-null  object 
 5   education_id      21423 non-null  int64  
 6   family_status     21423 non-null  object 
 7   family_status_id  21423 non-null  int64  
 8   gender            21423 non-null  object 
 9   income_type       21423 non-null  object 
 10  debt              21423 non-null  int64  
 11  total_income      21423 non-null  int32  
 12  purpose           21423 non-null  object 
dtypes: float64(1), int32(1), int64(6), object(5)
memory usage: 2.2+ MB


### Шаг 2.4. Удаление дубликатов.

Найдем количество дубликатов в таблице. Воспользуемся двумя методами: `duplicated` и `sum()`

In [35]:
#вывод количества дубликатов
data.duplicated().sum()

0

In [36]:
#создание таблицы с дубликатами
duplicated_data = data[data.duplicated()]

In [37]:
#вывод первых 10-строк новой таблицы
duplicated_data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Из визуального анализа можно предположить, что там, где были пропуски в стаже и зарплате, те строки и стали дубликатами.

Удалим дубликаты с помощью метода `drop_duplicates()`

In [38]:
#удаление дубликатов
data = data.drop_duplicates()

In [39]:
#проверка количества дубликатов после удаления
data.duplicated().sum()

0

Это были явные дубликаты. Найдем неявные дубликаты: как видно из таблицы образование записано не в одном регистре. Сначала проверим уникальные значения в столбцах, где такая ошибка возможна, а затем изменим значения на нижний регистр.

In [40]:
#уникальные значения столбца education
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [41]:
#уникальные значения столбца family_status
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [42]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [43]:
#уникальные значения столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Ошибка регистра встретилась только в столбце education. Исправим её.

In [44]:
#преобразование в нижний регистр с помощью метода str.lower()
data['education'] = data['education'].str.lower()

In [45]:
#проверка уникальных значений
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Посмотрим число оставшихся дубликатов после преобразования.

In [46]:
#вывод числа дубликатов
data.duplicated().sum()

0

Удалим оставшиеся дубликаты.

In [47]:
#удаление дубликатов
data = data.drop_duplicates()

In [48]:
#проверка числа дубликатов
data.duplicated().sum()

0

От явных и неявных дубликатов избавились.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

В таблице есть две пары столбцов - `education` и `education_id`, `family_status` и `family_status_id`.

Создадим два новых датафрейма словаря, где каждому уникальному значения одного из пары столбцов будет соответствовать другой столбец пары.

In [49]:
#создание первого словаря для education
education_dict = data[['education_id', 'education']]
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
...,...,...
21520,1,среднее
21521,1,среднее
21522,1,среднее
21523,1,среднее


В 'словаре' заметно много дубликатов, удалим их.

In [50]:
#удаление дубликатов, перепись словаря
education_dict = education_dict.drop_duplicates().reset_index(drop=True)

In [51]:
#вывод словаря
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Тоже самое проделаем для family_status.

In [52]:
#создание второго словаря для family_status
family_status_dict = data[['family_status_id', 'family_status']]
family_status_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
...,...,...
21520,1,гражданский брак
21521,0,женат / замужем
21522,1,гражданский брак
21523,0,женат / замужем


In [53]:
#удаление дубликатов
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)

In [54]:
#вывод словаря
family_status_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Из исходной таблицы `data` удалим столбцы `education` и `family_status`, оставив только их идентификаторы id.

In [55]:
#удаление столбца education
data = data.drop('education', 1)

  data = data.drop('education', 1)


In [56]:
#удаление столбца family_status
data = data.drop('family_status', 1)

  data = data.drop('family_status', 1)


In [57]:
#просмотр таблицы data
data

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,2,0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,4,0,8645.000000,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...
21520,21520,1,4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем
21521,21521,0,12103.000000,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21522,21522,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость
21523,21523,3,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля


Мы создали два словаря, к которым сможем обратиться по идентификатору.

### Шаг 2.6. Категоризация дохода.

Чтобы делать статистические выводы, необходимо сгруппировать данные. Численности каждой группы должно хватать для формулировки выводов. для этого воспользуемся `категоризацией`, или объединением данных в категории.

Создадим новый столбец `total_income_category`, в котором и будет обозначение соответсвующей категории. Для этого создадим функцию.

In [58]:
#создание функции определения категории
def income_group(total_income):
    if total_income <= 30000:
        return 'E'
    if 30001 < total_income <= 50000:
        return 'D'
    if 50001 < total_income <= 200000:
        return 'C'
    if 200001 < total_income <= 1000000:
        return 'B'
    if total_income > 1000001:
        return 'A'

In [59]:
#создание столбца с категории по доходу
data['total_income_category'] = data['total_income'].apply(income_group)

In [60]:
#вывод первых 10-ти строк таблицы
data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,4,0,8645.0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C
8,8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


Мы создали стобец с категорией дохода, это поможет лучше оценить данные.

### Шаг 2.7. Категоризация целей кредита.

Также, категоризуем данные о цели кредита. Распределим на четыре группы.

In [61]:
#вывод уникальных значений целей кредита
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Распределим данные по разным спискам: 1) всё, что связано с недвижимостью; 2) с автомобилем; 3) со свадьбой; 4) с образованием.

In [62]:
list_realty = ['покупка жилья', 'операции с жильем', 'покупка жилья для семьи', 'покупка недвижимости', 'покупка коммерческой недвижимости', 'покупка жилой недвижимости', 'строительство собственной недвижимости', 'недвижимость', 'строительство недвижимости', 'операции с коммерческой недвижимостью', 'строительство жилой недвижимости', 'жилье', 'операции со своей недвижимостью', 'покупка своего жилья', 'операции с недвижимостью', 'покупка жилья для сдачи', 'ремонт жилью']
list_auto = [ 'приобретение автомобиля', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'автомобили', 'сделка с подержанным автомобилем', 'автомобиль', 'свой автомобиль', 'сделка с автомобилем', 'на покупку автомобиля']
list_wedd = [ 'сыграть свадьбу', 'на проведение свадьбы', 'свадьба']
list_education = ['дополнительное образование', 'образование', 'заняться образованием', 'получение образования', 'получение дополнительного образования', 'получение высшего образования', 'профильное образование', 'высшее образование', 'заняться высшим образованием']

In [63]:
#создание функции категоризации данных
def purpose_category(purpose):
    if purpose in list_realty:
        return 'операции с недвижимостью'
    if purpose in list_auto:
        return 'операции с автомобилем'
    if purpose in list_wedd:
        return 'проведение свадьбы'
    if purpose in list_education:
        return 'получение образования'

In [64]:
#создание столбца с категориями
data['purpose_category'] = data['purpose'].apply(purpose_category)

In [65]:
#вывод первых 10-ти строк данных
data.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,4,0,8645.0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Мы категоризовали цели кредита, что также поможет проанализировать данные.

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Создадим сводную таблицу зависимости необходимых нам данных - в данном случае свяжем количество детей и факт возврата кредита.

In [66]:
#создание сводной таблицы 
data_pivot_children = data.pivot_table(index = ['children'], columns = 'debt', values = 'dob_years', aggfunc = 'count')

In [67]:
#вывод сводной таблицы
data_pivot_children

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13021.0,1058.0
1,4407.0,442.0
2,1915.0,202.0
3,301.0,27.0
4,37.0,4.0
5,9.0,


In [68]:
data_pivot_children['%'] = data_pivot_children[1]/(data_pivot_children[0] + data_pivot_children[1])*100

In [69]:
data_pivot_children

debt,0,1,%
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13021.0,1058.0,7.514738
1,4407.0,442.0,9.115282
2,1915.0,202.0,9.541804
3,301.0,27.0,8.231707
4,37.0,4.0,9.756098
5,9.0,,


##### Вывод 1:

Проанализировав сводную таблицу, можно сделать следующие выводы:
1. Увеличение количества детей прямо пропорционально уменьшению количества должников, но это связано и с тем, что в принципе количество всех клиентов уменьшается. В целом, людей без детей больше, чем с людей с 3-мя или 4-мя детьми. С этим и связана тенденция. 
2. Доля должников также имеет тенденцию:среди клиентов без детей - 7.5%, а максимальный процент должников в категории с 4-мя детьми - 9.8%. Клиенты с 1-ним ребенком повысили долю должников в своей группе на 1.6%. Среди всех категорий с детьми наблюдается повышение количества должников.  

Значит наша гипотеза о том, что наличие детей влияет на невозврат кредита вовремя верна.

##### Вопрос 2: Есть ли зависимость между семейным положением и вовзратом кредита в срок?¶

Создадим сводную таблицу зависимости необходимых нам данных - в данном случае свяжем семейное положение и факт возврата кредита.

In [70]:
#создание сводной таблицы
data_pivot_status = data.pivot_table(index = ['family_status_id'], columns = 'debt', values = 'dob_years', aggfunc = 'count')

In [71]:
#вывод сводной таблицы
data_pivot_status

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11404,927
1,3769,386
2,893,62
3,1100,85
4,2524,273


In [72]:
data_pivot_status['%'] = data_pivot_status[1]/(data_pivot_status[0] + data_pivot_status[1])*100

In [73]:
data_status = data_pivot_status.merge(family_status_dict, on = 'family_status_id', how='left')

In [74]:
data_status

Unnamed: 0,family_status_id,0,1,%,family_status
0,0,11404,927,7.517638,женат / замужем
1,1,3769,386,9.290012,гражданский брак
2,2,893,62,6.492147,вдовец / вдова
3,3,1100,85,7.172996,в разводе
4,4,2524,273,9.760458,Не женат / не замужем


###### Вывод 2:

Проанализиров сводную таблицу можно сделать следующие выводы:
1. Наибольшее количество должников среди клиентов категории женат/замужем, но отношение ко всем клиентам этой категории - 7.5%. 
2. Гражданский брак можно было бы отнести к первой категории, но так как без официального оформления, отнесем к "не женат/не замужем". В данном случае доля должников увеличилась на 1.8%. И максимальная доля должников в категории "не женат/не замужем", практически каждый десятый имеет задолженность.

Получается, гипотезу о том, что есть зависимость между семейным положением и невозвратом кредита, можно и в данном случае принять. Женатые люди более надежные заемщики.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?¶

Создадим сводную таблицу зависимости необходимых нам данных - в данном случае свяжем уровень дохода и факт возврата кредита.

In [75]:
#создание сводной таблицы
data_pivot_income = data.pivot_table(index = 'total_income_category', columns = 'debt', values = 'dob_years', aggfunc = 'count')

In [76]:
#вывод сводной таблицы
data_pivot_income

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4658,355
C,14661,1353
D,327,21
E,20,2


In [77]:
data_pivot_income['%'] = data_pivot_income[1]/(data_pivot_income[1] + data_pivot_income[0])*100

In [78]:
data_pivot_income

debt,0,1,%
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.0
B,4658,355,7.081588
C,14661,1353,8.448857
D,327,21,6.034483
E,20,2,9.090909


до 30000: `E`

30001 - 50000: `D`

50001 - 200000: `C`

200001 - 1000000: `B`

от 1000001: `A`

###### Вывод 3:

Проанализировав данные можно сделать следующие выводы:
В целом, это напомнило нормальное распределение. Вершина оказалась в середине - большинство должников в средней категории.
Большое количество должников в группе связано с большим количеством клиентов. Тем более доля должников не максимальная по категории.
Гипотеза о том, что есть зависимость между уровнем дохода и невозврата кредита в срок, себя не оправдала. 

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

Создадим сводную таблицу зависимости необходимых нам данных - в данном случае свяжем цель кредита и факт возврата кредита.

In [79]:
#создание сводной таблицы
data_pivot_purpose = data.pivot_table(index = 'purpose_category', columns = 'debt', values = 'dob_years', aggfunc = 'count')

In [80]:
#вывод сводной таблицы
data_pivot_purpose

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,3893,400
операции с недвижимостью,10013,779
получение образования,3634,370
проведение свадьбы,2150,184


In [81]:
data_pivot_purpose['%'] = data_pivot_purpose[1]/(data_pivot_purpose[0]+data_pivot_purpose[1])*100

In [82]:
data_pivot_purpose

debt,0,1,%
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3893,400,9.317494
операции с недвижимостью,10013,779,7.21831
получение образования,3634,370,9.240759
проведение свадьбы,2150,184,7.883462


###### Вывод 4:

Проанализировав таблицу можно сделать следующие выводы:
На операции с недвижимостью было взято больше всего кредитов. Но одновременно с этим, эта категория с наименьшей долей должников - 7.2%. Это может быть связано с тем, что обычно это ипотека, клиенты проверяются тщательней, а сами клиенты бояться просрочки в силу возможной потери, возможно единственного, жилья. 
Следующая по доле невозврата категория "проведение свадьбы", разница составляет 0.7%. Предположу, что закрытие кредита можно осуществить подарочными деньгами. Также, это наименьшая категория по количеству должников и общему числу кредитов.
Категории "операции с автомобилем" и "получение образование" практически одинаковы по количеству должников и по их доле в общем числе и являются максимальными значения доли по группам - 9.3%. Более детальные причины установить по данным не представляется возможным.

В целом, разные цели кредита по-своему влияют на возврат кредита вовремя. В большинстве своем, люди берут кредиты или ипотеки на улучшение жилищных условий.

## Общий вывод:

Анализ данных кредитного отдела банка подтвердил наличие зависимости между некоторыми факторами и возвратом кредита вовремя. 
Разные категории клиентов влияют на количество кредитов внутри своей группы по внутренним признакам, характерным этой группе.

Анализ подтвердил влияние на возврат кредита по категориям: наличие детей и семейное положение.

В категории "наличие детей" клиенты без задолженностей оказались без детей. В случае с "семейным положением" женатые/замужние люди лучше справлялись с кредитами, чем люди не замужем, не женатые и в неофициальном браке.

По категориям уровня дохода и цели кредита анализ показал, что прямой зависимости между категорией и невозвратом кредита нет.