#  Влияние семейного положения и количества детей клиента на факт погашения кредита в срок.

**Цель исследования** — проверьте три гипотезы:
1. Существует определенная зависимость между количеством детей и возвратом кредита в срок.
2. Существует зависимость между семейным положением и возвратом кредита в срок. 
3. Существует зависимость между уровнем дохода и возвратом кредита в срок.
4. Разные цели кредита по-разному влияют на его возврат в срок.

**Ход исследования**

Данные о о платёжеспособности клиентов получены из файла `/datasets/data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Данные будут проверны  на ошибки и оценено их влияние на исследование. Затем, на этапе предобработки исправляются самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.

## 1 Обзор данных

Первое представление о данных Банка.


In [1]:
import pandas as pd
# импорт библиотеки pandas

In [2]:
data = pd.read_csv('data_2.csv')
 # чтение файла с данными и сохранение в data
display(data.head(10))
# получение первых 10 строк таблицы data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
data.tail()
#получение последние 5 строк.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [4]:
data.info()
# получение общей информации о данных в таблице data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов. Тип данных в столбцах различается. Присутствует — `float64`(2), `int64`(5), `object`(5).

Согласно документации к данным:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

В названиях колонок нарушений стиля не обнаружено.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные о клиенте банка. Часть колонок относится непосредственно к информации по кредиту, например `debt` или`purpose`. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а также артефакты в некоторых колонках, например отрицательноые значения в колонке трудового стажа.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## 2 Предобработка данных

### 2.1 Исправление артефактов

In [5]:
data['days_employed'] = abs(data['days_employed'])
data['children'] = abs(data['children'])
#Избавление от отрицательных значений в данных с помощью их модуля.

In [6]:
data.head()
# проверка результатов

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [7]:
data.loc[data['children'] == 20]['children'].count()
# смотрим кол-во семей с 20тью детьми

76

In [8]:
data.loc[data['children'] == 20] = 2
#меняем число 20 на 2, предполагая, что случайно добавился 0

In [9]:
data.loc[data['children'] == 20]['children'].count()
# проверка

0

In [10]:
data.loc[data['dob_years']==0]['dob_years'].count()

100

In [11]:
data.loc[data['dob_years']==0,['dob_years']] = int(data['dob_years'].mean())

In [12]:
data.loc[data['dob_years']==0]['dob_years'].count()

0

### 2.2 Пропуски значений

In [13]:
data.isna().sum()
# подсчёт пропусков

children               0
days_employed       2165
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2165
purpose                0
dtype: int64

In [14]:
data.count()

children            21525
days_employed       19360
dob_years           21525
education           21525
education_id        21525
family_status       21525
family_status_id    21525
gender              21525
income_type         21525
debt                21525
total_income        19360
purpose             21525
dtype: int64

In [15]:
round(data['days_employed'].isna().sum() / data['children'].count(),2)
#подсчет доли пропущенных значений

0.1

Пропущенные значения составили 10%

In [16]:
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median())
#замена пропущенных значений на медиану

In [17]:
data['total_income'] = data['total_income'].fillna(data['total_income'].median())
#замена пропущенных значений на медиану

In [18]:
data.isna().sum()
# подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Причины:**
1) Возможно уровень дохода и трудовой стаж не указаны, потому что эти люди были не работающими.
2) Возможно это техническая ошибка.

Заполнить нужно именно медианой, потому что она, в отличие от среднего не подается аномальным выбросам. А в случае с заработной платой и трудовым стажем такой разброс гарантирован.

### 2.3 Перевод вещественных чисел в целые

In [19]:
data['total_income'] = data['total_income'].astype('int')
data['days_employed'] = data['days_employed'].astype('int')

In [20]:
data.info()
#проверка

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int32 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int32 
 11  purpose           21525 non-null  object
dtypes: int32(2), int64(5), object(5)
memory usage: 1.8+ MB


### 2.4 Дубликаты

In [21]:
data.duplicated().sum()
# подсчёт явных дубликатов

129

In [22]:
data = data.drop_duplicates().reset_index(drop=True)
# удаление явных дубликатов (с удалением старых индексов и формированием новых)

In [23]:
data.duplicated().sum()
# проверка на отсутствие дубликатов

0

In [24]:
data['education'].value_counts()
# Просмотр уникальных названий

среднее                13653
высшее                  4698
СРЕДНЕЕ                  770
Среднее                  705
неоконченное высшее      666
ВЫСШЕЕ                   271
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
2                          1
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [25]:
def replace_wrong_values(wrong_values, correct_values):
    for value in wrong_values:
        data['education'] = data['education'].replace(value, correct_values)
# Функция для замены неявных дубликатов

In [26]:
duplicates = [
    ['ВЫСШЕЕ', 'высшее'],
    ['среднее','СРЕДНЕЕ'],
    ['неоконченное высшее','НЕОКОНЧЕННОЕ ВЫСШЕЕ'],
    ['начальное','НАЧАЛЬНОЕ'],
    ['УЧЕНАЯ СТЕПЕНЬ', 'ученая степень']
]
name = ['Высшее','Среднее','Неоконченное высшее','Начальное','Ученая степень']

In [27]:
a = 0
for duplicate in duplicates:
    replace_wrong_values(duplicate, name[a])
    a+=1
#цикл с вызовом созданной функции

In [28]:
data['education'].value_counts()
# Проверка на неявные дубликаты

Среднее                15128
Высшее                  5237
Неоконченное высшее      742
Начальное                282
Ученая степень             6
2                          1
Name: education, dtype: int64

### 2.5 Создание двух новых датафреймов со столбцами:
`education_id` и `education` — в первом;

`family_status_id` и `family_status` — во втором.

In [29]:
data_education = data[['education_id', 'education']]
# создание первого датафрейма
data_education = data_education.drop_duplicates().reset_index(drop=True)
#удаление дупликатов
data_education
# Проверка

Unnamed: 0,education_id,education
0,0,Высшее
1,1,Среднее
2,2,Неоконченное высшее
3,3,Начальное
4,2,2
5,4,Ученая степень


In [30]:
data_family_status = data[['family_status_id','family_status']]
# создание второго датафреейма 
data_family_status = data_family_status.drop_duplicates().reset_index(drop=True)
#удаление дупликатов
data_family_status
# Проверка

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем
5,2,2


In [31]:
data = data.drop(['education', 'family_status'], axis = 1)
#Удаление из исходного датафрейма столбцы education и family_status
data.head()
# Проверка

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### 2.6 Создание столбца 'total_income_category' с категориями, на основании данных о заработке


In [32]:
def total_income_group(income):
    if income <= 30000:
        return 'E'
    if income <= 50000:
        return 'D'
    if  income <= 200000:
        return 'C'
    if  income <= 1000000:
        return 'B'
    return 'A'
#функция которая на основании данных из столбца total_income формирует новый столбец total_income_category 

In [33]:
data['total_income_category'] = data['total_income'].apply(total_income_group)
# приминение функции 

In [34]:
data.head()
# проверка

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


###  2.7 Создание столбца с типами операций

In [35]:
data['purpose'].unique()
# просмотр униальных значений

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [36]:
duplicates = [
    ['приобретение автомобиля', 'на покупку подержанного автомобиля','на покупку своего автомобиля','автомобили','сделка с подержанным автомобилем','автомобиль', 'свой автомобиль', 'сделка с автомобилем','на покупку автомобиля'],
    ['покупка жилья','операции с жильем','покупка жилья для семьи','покупка жилья для семьи', 'покупка недвижимости','покупка коммерческой недвижимости', 'покупка жилой недвижимости','строительство собственной недвижимости', 'недвижимость','строительство недвижимости','операции с коммерческой недвижимостью','строительство жилой недвижимости', 'жилье','операции со своей недвижимостью','покупка своего жилья','операции с недвижимостью','ремонт жилью'],
    ['сыграть свадьбу','на проведение свадьбы','свадьба'],
    ['дополнительное образование','образование','заняться образованием','получение образования','получение дополнительного образования','получение высшего образования','профильное образование', 'высшее образование','заняться высшим образованием']
]
name = ['операции с автомобилем','операции с недвижимостью','проведение свадьбы','получение образования']
#создание списков для функции

In [37]:
def apply_category(value):
    a = [[]]
    if value in duplicates[0]:
        return name [0]
    if value in duplicates[1]:
        return name [1]
    if value in duplicates[2]:
        return name [2]
    if value in duplicates[3]:
        return name [3]
#создание функции

In [38]:
data['purpose_category'] = data['purpose'].apply(apply_category)
# применение функции

In [39]:
data.head()
# проверка

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


**Выводы**

Предобработка обнаружила четыре проблемы в данных:

- артефакты (отрицательные и аномально высокие значения),
- пропущенные значения,
- дубликаты — явные и неявные.
- вещественные числа вместо целых

Без данных проблем исследование станет более точным.

Теперь можно перейти к проверке гипотез. 

##  3 Проверка гипотез

##  3.1 Наличие зависимости между количеством детей и возвратом кредита в срок

In [40]:
data_children_debt = data.groupby('children').agg({'debt':['count', 'sum']})

data_children_debt['share'] = round(data_children_debt['debt']['sum'] / data_children_debt['debt']['count'], 2)
data_children_debt

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14107,1063,0.08
1,4856,445,0.09
2,2053,196,0.1
3,330,27,0.08
4,41,4,0.1
5,9,0,0.0


**Выводы**
На основании проверки гипотезы можно сделать следующий вывод:
* Количество детей не влияет на возврат кредита в срок, так как процент имеющих задолженность в разных категориях различается на несколько процентов.

Таким образом, первая гипотеза не подтвердилась.

##  3.2 Наличие зависимости между семейным положением и возвратом кредита в срок

In [41]:
family_status_debt = data.groupby('family_status_id').agg({'debt':['sum','count']})
# гуппировка данных столбца 'debt' по столбцу 'family_status_id' и применение к нему функций 'sum','count'

In [42]:
family_status_debt['share'] = round(family_status_debt['debt']['sum'] / family_status_debt['debt']['count'], 2)
# создание столбца 'share' с результатом деления данных из столбца 'debt'

In [43]:
family_status_debt
# проверка

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,928,12295,0.08
1,385,4151,0.09
2,65,956,0.07
3,84,1193,0.07
4,273,2801,0.1


In [44]:
family_status_debt = data_family_status.merge(family_status_debt, on='family_status_id', how='left')
# объединение двух татафреймов по столбцу 'family_status_id'


  return merge(


In [45]:
family_status_debt
# проверка

Unnamed: 0,family_status_id,family_status,"(debt, sum)","(debt, count)","(share, )"
0,0,женат / замужем,928,12295,0.08
1,1,гражданский брак,385,4151,0.09
2,2,вдовец / вдова,65,956,0.07
3,3,в разводе,84,1193,0.07
4,4,Не женат / не замужем,273,2801,0.1
5,2,2,65,956,0.07


**Выводы**
На основании проверки гипотезы можно сделать следующие выводы:
* Семейный статус практически не влияет на возврат кредита в срок, так как процент имеющих задолженность в разных категориях различается на несколько процентов.
* Однако заметно, что люди, которые не состоят и не состояли в законном браке, чаще остальных имеют задолженность по кредиту.

Таким образом, вторая гипотеза подтвердилась лишь отчасти.

##  3.3 Наличие зависимостb между уровнем дохода и возвратом кредита в срок

In [46]:
data_income_debt = data.groupby('total_income_category').agg({'debt':['count', 'sum']})
# гуппировка данных столбца 'debt' по столбцу 'total_income_category' и применение к нему функций 'sum','count'

In [47]:
data_income_debt['share'] = round(data_income_debt['debt']['sum'] / data_income_debt['debt']['count'], 2)
# создание столбца 'share' с результатом деления данных из столбца 'debt'

In [48]:
data_income_debt
# проверка

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5021,354,0.07
C,15977,1354,0.08
D,350,21,0.06
E,23,4,0.17


**Выводы**
На основании проверки гипотезы можно сделать следующие выводы:
* Процент имеющих задолженность в разных категориях различается лишь на несколько процентов.
* Однако заметно, что клиенты из категории D  чаще других возвращают кредит в срок.
* Выше всего процент задолженности в категории 'E', однако нельзя делать однозначные выводы по данной категории, так как слишком мало общее количество кредитов в данной категории.
* По той же причине нельзя дать конкретный ответ по категории 'A'

Таким образом, третья гипотеза подтвердилась лишь отчасти.

##  3.4 Влияние целей кредита на возврат кредита в срок

In [49]:
data_purpose_debt = data.groupby('purpose_category').agg({'debt':['count', 'sum']})
# гуппировка данных столбца 'debt' по столбцу 'purpose_category' и применение к нему функций 'sum','count'

In [50]:
data_purpose_debt['share'] = round(data_purpose_debt['debt']['sum'] / data_purpose_debt['debt']['count'], 2)
# создание столбца 'share' с результатом деления данных из столбца 'debt'

In [51]:
data_purpose_debt
# проверка

Unnamed: 0_level_0,debt,debt,share
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4292,401,0.09
операции с недвижимостью,10127,728,0.07
получение образования,3999,369,0.09
проведение свадьбы,2326,183,0.08


**Выводы**
На основании проверки гипотезы можно сделать следующие выводы:
* Процент имеющих задолженность в разных категориях различается лишь на несколько процентов.
* Однако заметно, что клиенты, совершающие операции с недвижимостью, чаще других возвращают кредит в срок.
* Выше всего процент задолженности у тех, кто берет кредит на операции с автомобилем и получение образования.


Таким образом, третья гипотеза подтвердилась лишь отчасти.

## Итоги исследования

Было проверено три гипотезы, в результате чего установлено:

1. Количество детей не влияет на возврат кредита в срок.

Первая гипотеза не подтвердилась.

2. Семейный статус практически не влияет на возврат кредита в срок, однако небольшая тенденция наблюдается:
* люди, которые не состоят и не состояли в законном браке, чаще остальных имеют задолженность по кредиту.

Таким образом, вторая гипотеза подтвердилась лишь отчасти.

3. Различия по категориям в данной гипотезе также невелики. Тем не менее стоит отметить следующее:
* клиенты из категории D чаще других возвращают кредит в срок.
* По категориям 'A' и 'E' нельзя сделать точных выводов, из-за маленького количества клиентов в данных категориях.
