# Исследование надёжности заёмщиков — анализ банковских данных.

**Цель исследования** — проверить гипотезу: семейное положение и количество детей клиента влияет на факт погашения кредита в срок.

**Ход исследования**

Данные о поведении пользователей были получены из файла `/datasets/data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотезы понадобится обзор данных. 

Необходимо проверить данные на ошибки и оценить их влияние на исследование. Затем, на этапе предобработки найти возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотезы.

### Исследование надежности заемщиков.
_____

###### Данное исследование разделим на несколько частей.

#### Часть 1. Обзор данных:
* [1. Изучение файлов с данными, получение общей информации, загрузка библиотек.](#1-bullet)
#### Часть 2. Предобработка данных:
* [1. Заполнение пропусков.](#2-bullet)
* [2. Проверка данных на аномалии и исправления.](#3-bullet)
* [3. Изменение типов данных.](#4-bullet)
* [4. Удаление дубликатов.](#5-bullet)
* [5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.](#6-bullet)
* [6. Категоризация дохода.](#7-bullet)
* [7. Категоризация целей кредита.](#8-bullet)
#### Часть 3. Ответы на вопросы:
* [1. Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?](#9-bullet)
* [2. Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?](#10-bullet)
* [3. Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#11-bullet)
* [4. Вопрос 4: Как разные цели кредита влияют на его возврат в срок?](#12-bullet)
##### Итоги исследования

## Обзор данных

<a id='1-bullet'></a>
### Изучение файлов с данными, получение общей информации, загрузка библиотек.

In [1]:
import pandas as pd # импорт библиотеки pandas

Прочитаем файл `/datasets/data.csv` из папки `/datasets` и сохраним его в переменной `df`:

In [2]:
df = pd.read_csv('D:\Programs\data.csv') # чтение файла с данными и сохранение в df

Выведем на экран первые 10 строк таблицы

In [3]:
df.head(10) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Также необходимо посмотреть общую информацию о таблице

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. Тип данных в столбцах — `object`, `int64`, `float64`.

Согласно документации к данным:
* `children`  — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Вывод**

В каждой строке таблицы — данные о клиенте банка. Часть колонок описывает общую информацию о клиенте: пол, возраст, семейное положение, количество детей, трудовой стаж, образование. Остальные данные связаны с финансами: цель получения кредита, доход и задолженности клиента. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез, но встречаются пропуски в данных.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

<a id='2-bullet'></a>
### Заполнение пропусков

Посчитаем количество пропусков в данных.

In [5]:
df.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Отсутсвуют данные в столбцах, описывающих трудовой стаж и ежемесячный доход. Доля пропусков в столбцах  `total_income` и `days_employed` состявляет 10%. Пропуски данных могут быть связаны с тем, что у некоторых людей отсутвует трудовой стаж и ежемесячный доход. Пропущенные значения в столбце `total_income` можно заменить медианным значением по столбцу, так как наши данные не однородны. 

In [6]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median()) #заполнение пропусков медианным значением

<a id='3-bullet'></a>
### Проверка данных на аномалии и исправления.

В столбцах `children` и `days_employed` есть отрицательные значения. Такие аномалии могли возникнуть в результате технической ошибки. Возможно алгоритм неправильно считает время. Время может обрабатываться алгоритмом в формате UTC. Так как начало отсчета этого времени идет с 1972 года. Люди, начавшие работать до 1972 года, могут иметь отрицательный трудовой стаж. 

Избавимся от отрицательных значений в столбцах, заменив их пропусками. Для этого напишем функцию, которая заменяет отрицательные значения пропусками.

In [7]:
def minus_dead(column): # функция замены отрицательных значений пропусками
    for row in range(len(df[column])): 
        if df.loc[row,column] < 0:
            df.loc[row,column] = None

In [8]:
minus_dead('days_employed') #замена пропущенных значений пропусками
minus_dead('children') #замена пропущенных значений пропусками

Заполним пропуски в столбцах `children` и `days_employed` медианным значением столбца.

In [9]:
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())

In [10]:
df['children'].unique()

array([ 1.,  0.,  3.,  2., nan,  4., 20.,  5.])

Помимо отсутствующих строк в столбце `children` есть также столбцы содержащие аномальные данные. Скорее всего в результате ошибки, двое детей превратились в 20. Заменим данные в этих столбцах.

In [11]:
df['children'] = df['children'].replace(20, 2)

In [12]:
df['children'].unique()

array([ 1.,  0.,  3.,  2., nan,  4.,  5.])

In [13]:
df['children'] = df['children'].fillna(df['children'].median())

Убедимся, что в таблице не осталось пропусков. Для этого ещё раз посчитаем пропущенные значения.

In [14]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

<a id='4-bullet'></a>
### Изменение типов данных.

Заменим вещественный тип данных в столбце total_income на целочисленный.

In [15]:
df['total_income'] = df['total_income'].astype('int') #изменение типа данных столбца

<a id='5-bullet'></a>
### Удаление дубликатов.

Посчитаем явные дубликаты

In [16]:
df.duplicated().sum() # подсчёт явных дубликатов

54

Удалим явные дубликаты.

In [17]:
df = df.drop_duplicates().reset_index(drop=True)
# удаление явных дубликатов (с удалением старых индексов и формированием новых)

Убедимся, что нам удалось избавиться от дубликатов

In [18]:
df.duplicated().sum() # проверка на отсутствие дубликатов

0

Теперь избавьтесь от неявных дубликатов в колонках. Например, в столбцах могут быть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к одному регистру. Такие ошибки тоже повлияют на результат исследования.

Выведем на экран список уникальных названий жанров, отсортированный в алфавитном порядке, для каждого категориального столбца

In [19]:
education_name = df['education'].sort_values().unique() 
education_name # Просмотр уникальных названий столбца 'образование'

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

In [20]:
df['education'].value_counts() #подсчет количества уникальных значений

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [21]:
family_status_name = df['family_status'].sort_values().unique() 
family_status_name # Просмотр уникальных названий столбца 'семейное положение'

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

In [22]:
gender_name = df['gender'].sort_values().unique() 
gender_name # Просмотр уникальных названий столбца 'пол'

array(['F', 'M', 'XNA'], dtype=object)

In [23]:
income_type_name = df['income_type'].sort_values().unique() 
income_type_name # Просмотр уникальных названий столбца 'тип занятости'

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [24]:
purpose_name = df['purpose'].sort_values().unique() 
purpose_name # Просмотр уникальных названий столбца 'тип занятости'

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

В результате просмотра уникальных названий в столбцах удалось выявить некоторые неявные дубликаты.

В столбце `education` названия категорий образования записаны с разными регистрами. Например, 'ВЫСШЕЕ' и 'Высшее'. Чтобы избавиться от таких дубликатов, необходимо привести все к одному нижнему регистру. 

In [25]:
df['education'] = df['education'].str.lower() #перевед названий столбца 'образование' в нижний регистр 

Посмотрим результат.

In [26]:
education_name = df['education'].sort_values().unique() 
education_name # Просмотр уникальных названий столбца 'образование'

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

In [27]:
df['education'].value_counts() #подсчет количества уникальных значений после обработки данных

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Нам удалось избавиться от неявных дубликатов в столбце 'образование'.

В столбце `purpose` одинаковые цели получения кредита записаны по разному. Например, 'получение дополнительного образования' и 'дополнительное образование'.

Чтобы избавиться от таких неявных дубликатов напишем функцию replace_wrong_purpose() с двумя параметрами:

* `wrong_purpose` — список дубликатов,
* `correct_purpose` — строка с правильным значением.

Функция должна исправить колонку `purpose` в таблице `df`: заменить каждое значение из списка `wrong_purpose` на значение из `correct_purpose`.

**Вывод**: 

Дубликаты в столбце `education` могли возникнуть из-за зажатой клавиши CapsLock при вводе данных  в ячейку, а в столбце `purpose` из-за разного написания одной и той же цели получения кредита.

<a id='6-bullet'></a>
### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим дополнительные датафреймы словари.

In [28]:
education_df = df[['education_id','education']] #создание новой таблицы
education_df = education_df.drop_duplicates().reset_index(drop=True) #удаление дубликатов 
education_df

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [29]:
family_df = df[['family_status_id','family_status']] #создание новой таблицы
family_df = family_df.drop_duplicates().reset_index(drop=True) #удаление дубликатов
family_df

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Так как у нас есть словари для столбцов `family_status` и `education`, эти столбцы можно удалить

In [30]:
df = df.drop(['family_status', 'education'], axis=1) #удаление столбцов
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1.0,365213.306266,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1.0,365213.306266,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0.0,365213.306266,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3.0,365213.306266,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0.0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21466,1.0,365213.306266,43,1,1,F,компаньон,0,224791,операции с жильем
21467,0.0,343937.404131,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21468,1.0,365213.306266,38,1,1,M,сотрудник,1,89672,недвижимость
21469,3.0,365213.306266,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля


<a id='7-bullet'></a>
### Категоризация дохода.

Создадим функцию, которая возвращает группу по значению дохода income, используя правила:
* 0–30000 — `E`;
* 30001–50000 — `D`;
* 50001–200000 — `C`;
* 200001–1000000 — `B`;
* 1000001 и выше — `A`


In [31]:
def total_income_group(income): # создание функции для категоризации доходов клиента
    try:
        if income >= 0 and income <= 30000:
            return 'E'
        if income >= 30001 and income <= 50000:
            return 'D'
        if income >= 50001 and income <= 200000:
            return 'C'
        if income >= 200001 and income <= 1000000:
            return 'B'
        if income >= 1000001:
            return 'A'
    except:
        return 'прочее'

In [32]:
df['total_income_category'] = df['total_income'].apply(total_income_group) # создание нового столбца с категориями дохода клиента
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1.0,365213.306266,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1.0,365213.306266,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0.0,365213.306266,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3.0,365213.306266,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0.0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0.0,365213.306266,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0.0,365213.306266,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0.0,365213.306266,50,1,0,M,сотрудник,0,135823,образование,C
8,2.0,365213.306266,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0.0,365213.306266,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


<a id='8-bullet'></a>
### Категоризация целей кредита.

In [33]:
def purpose_group(purpose): # создание функции для категоризации целей кредита
    try:
        if 'автомоб' in purpose:
            return 'операции с автомобилем'
        if 'недвиж' in purpose or 'жиль' in purpose:
            return 'операции с недвижимостью'
        if 'свадьб' in purpose:
            return 'проведение свадьбы'
        if 'образован' in purpose:
            return 'получение образования'
    except:
        return 'прочее'

In [34]:
df['purpose_category'] = df['purpose'].apply(purpose_group) # создание нового столбца с категориями дохода клиента
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1.0,365213.306266,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1.0,365213.306266,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0.0,365213.306266,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3.0,365213.306266,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0.0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0.0,365213.306266,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0.0,365213.306266,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0.0,365213.306266,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2.0,365213.306266,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0.0,365213.306266,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


## Ответы на вопросы.

<a id='9-bullet'></a>
### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Чтобы ответить на это вопрос составим сводную таблицу, данные будут сгруппированы по столбцу `children`, а значения взяты из столбца `debt`.

In [35]:
children_data = df.pivot_table(index='children', values ='debt', aggfunc=['sum','count','mean']) # создание сводной таблицы
children_data

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0.0,1064,14154,0.075173
1.0,444,4809,0.092327
2.0,202,2128,0.094925
3.0,27,330,0.081818
4.0,4,41,0.097561
5.0,0,9,0.0


##### Вывод 1:

Исходя из сводной таблицы, можно сделать вывод, что количество детей в семье влияет на возврат кредита в срок, так как с увеличением количества детей происходит увеличения значения отношения между людьми, имеющими задолженность, ко всем людям в каждой категории.


<a id='10-bullet'></a>
### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [36]:
family_data = df.pivot_table(index='family_status_id', values ='debt', aggfunc=['sum','count','mean']) # создание сводной таблицы
family_data

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12344,0.075421
1,388,4163,0.093202
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


In [37]:
family_data.merge(family_df, on='family_status_id', how='left') # слияние датасета со словарем

  family_data.merge(family_df, on='family_status_id', how='left') # слияние датасета со словарем


Unnamed: 0,family_status_id,"(sum, debt)","(count, debt)","(mean, debt)",family_status
0,0,931,12344,0.075421,женат / замужем
1,1,388,4163,0.093202,гражданский брак
2,2,63,959,0.065693,вдовец / вдова
3,3,85,1195,0.07113,в разводе
4,4,274,2810,0.097509,Не женат / не замужем


##### Вывод 2:

По сводной таблице видно, что клиенты, никогда не оформлявшие брак официально, имеют больше трудностей с возвратом кредита в срок.

<a id='11-bullet'></a>
### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [38]:
income_data = df.pivot_table(index='total_income_category', values ='debt', aggfunc=['sum','count','mean'])
# создание сводной таблицы
income_data

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,356,5041,0.070621
C,1360,16033,0.084825
D,21,350,0.06
E,2,22,0.090909


##### Вывод 3:

Можно сделать вывод, что с увеличением дохода клиента, в целом, вероятность проблем с возратом кредита уменьшается.

<a id='12-bullet'></a>
### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [39]:
purpose_data = df.pivot_table(index='purpose_category', values ='debt', aggfunc=['sum','count','mean']) 
# создание сводной таблицы
purpose_data

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,403,4308,0.093547
операции с недвижимостью,782,10814,0.072314
получение образования,370,4014,0.092177
проведение свадьбы,186,2335,0.079657


Таблицы видно, что клиенты, взявшие кредит на операции с недвижимостью и проведение свадьбы, меньше имеют проблем с возратом кредите, чем те, чьи цели заключались в получении образования и проведении операций с автомобилем.  

## Общий вывод:

В заключении можно сделать вывод о том, что на возврат кредита в срок влияют разные факторы:
* Количество детей в семье
* Семейное положение
* Доход клиента
* Цель получения кредита