# Исследование надёжности заёмщиков

**Описание проекта**

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


**Ход исследования**

Данные о поведении пользователей мы получим из файла `data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных.

Мы проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки мы поищем возможность исправить самые критичные ошибки данных.

Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.

## Откроем таблицу и изучим общую информацию о данных

In [3]:
import pandas as pd

In [4]:
data = pd.read_csv('C:/users/admin/datasets/data.csv')
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Промежуточный вывод**

В данных имеются такие проблемы как:
* пропуски
* присутствуют аномальные значения

Необходимо сделать предобработку данных, для возможности их дальнейшего анализа.

## Предобработка данных

### Пропуски

In [5]:
print(data.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


Возможные причины пропусков:

* Человеческий фактор
* Ошибки при копировании
* Технический сбой при создании таблицы

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [6]:
for d in data['income_type'].unique():
    data.loc[(data['income_type'] == d) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == d), 'total_income'].median()
        
print(data.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64


### Обработка аномальных значений

#### В наших данных встречаются артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом являются отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.

In [7]:
data['days_employed'] = abs(data['days_employed'])
print(data['days_employed'].head(10))

0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4    340266.072047
5       926.185831
6      2879.202052
7       152.779569
8      6929.865299
9      2188.756445
Name: days_employed, dtype: float64


#### Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.

In [8]:
print(data.groupby('income_type')['days_employed'].median())

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64


У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть.

#### Выведем перечень уникальных значений столбца `children`

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`, сразу проверим уникальные значения**

In [10]:
data = data.drop(data[data['children'] == -1].index)
data = data.drop(data[data['children'] == 20].index)
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

#### Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`, и сразу проверим что все пропуски заполнены

Заполнить пропуски медианным значением - лучшее решение для количественных переменнных, потому что медина меннее чувствительна к **'выбросам'** в данных, чем среднее арефметическое, и более устойчива к влиянию нескольких экстремальных значений на итог.

In [11]:
for d in data['income_type'].unique():
    data.loc[(data['income_type'] == d) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == d), 'days_employed'].median()

data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

#### Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`, проведем проверку.

In [17]:
data['total_income'] = data['total_income'].astype(int)
data['total_income'].apply(type).unique()

array([<class 'int'>], dtype=object)

### Обработка дубликатов

#### Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.

In [18]:
data['education'] = data['education'].str.lower()
data['education'].head(15)

0                  высшее
1                 среднее
2                 среднее
3                 среднее
4                 среднее
5                  высшее
6                  высшее
7                 среднее
8                  высшее
9                 среднее
10                 высшее
11                среднее
12                среднее
13    неоконченное высшее
14                 высшее
Name: education, dtype: object

**Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их и сразу проведем проверку.**

In [21]:
data.duplicated().sum()

71

In [22]:
data = data.drop_duplicates()
data.duplicated().sum()

0

### Категоризация данных

#### На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [25]:
def categorize_income(row):
    income = row['total_income']
    
    if income <= 30000:
        return 'E'
    elif 30000 < income <= 50000:
        return 'D'
    elif 50000 < income <= 200000:
        return 'C'
    elif 200000 < income <= 1000000:
        return 'B'
    else:
        return 'A'

In [26]:
data['total_income_category'] = data.apply(categorize_income, axis=1)
data['total_income_category'].unique()

array(['B', 'C', 'D', 'E', 'A'], dtype=object)

#### Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`

In [27]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`

In [28]:
def categorize_purpose(row): # создайте функцию categorize_purpose()
    category = row['purpose']
    
    if 'автомобил' in category:
        return 'операции с автомобилем'
    elif ('жил' in category) | ('недвижимост' in category):
        return 'операции с недвижимостью'
    elif 'свадьб' in category:
        return 'проведение свадьбы'
    else:
        return 'получение образования'

In [30]:
data['purpose_category'] = data.apply(categorize_purpose, axis=1)
data['purpose_category'].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

### Исследуем данные и ответим на вопросы

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Сверим данные после предварительной обработки

In [31]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21331 non-null  int64  
 1   days_employed          21331 non-null  float64
 2   dob_years              21331 non-null  int64  
 3   education              21331 non-null  object 
 4   education_id           21331 non-null  int64  
 5   family_status          21331 non-null  object 
 6   family_status_id       21331 non-null  int64  
 7   gender                 21331 non-null  object 
 8   income_type            21331 non-null  object 
 9   debt                   21331 non-null  int64  
 10  total_income           21331 non-null  int32  
 11  purpose                21331 non-null  object 
 12  total_income_category  21331 non-null  object 
 13  purpose_category       21331 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(7)
memory us

Выведем первые 5 строк таблицы с данными клиентов, имеющих прросроченные кредиты, для общего представления

In [32]:
data[data['debt'] != 0].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
14,0,1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127,покупка жилой недвижимости,C,операции с недвижимостью
32,0,4649.910832,34,среднее,1,гражданский брак,1,F,сотрудник,1,139057,на проведение свадьбы,C,проведение свадьбы
38,0,597.881827,25,высшее,0,Не женат / не замужем,4,M,сотрудник,1,192247,образование,C,получение образования
55,0,365286.62265,54,среднее,1,гражданский брак,1,F,пенсионер,1,118514,сыграть свадьбу,C,проведение свадьбы
75,1,2953.151948,38,среднее,1,женат / замужем,0,M,сотрудник,1,81935,операции с недвижимостью,C,операции с недвижимостью


Подсчитаем количество клиентов в предоставленных данных после предобработки.

In [38]:
credits = data['children'].count()
credits

21331

Подсчитаем количество клиентов, имеющих просроченные кредиты из предоставленных данных.

In [37]:
bad_credits = data[data['debt'] != 0]['children'].count()
bad_credits

1732

Найдем долю кредитов которые не вернули в срок среди всех выданных в данной выборке

In [39]:
print(f'{bad_credits / credits:.2%}')

8.12%


Сгруппируем данные клиентов, с просроченными кредитами по количеству детей

In [40]:
data[data['debt'] != 0].groupby('children')['debt'].sum()

children
0    1063
1     444
2     194
3      27
4       4
Name: debt, dtype: int64

Напишем функцию для создания сводной таблицы, чтобы можно было обратиться к обработанным ранее данным и получить удобную визуализацию по отдельным группам клиентов, где будут отображаться данные по определенной группе: колличество выданных кредитов, количество просроченных кредитов и среднее значение просроченных кредитов в каждой подгруппе в зависимости от задаваемых факторов (особенности клиентских групп)

In [41]:
def data_pivot(variable):
    data_pivot_table = data.pivot_table(index=variable, values='debt', aggfunc=['count', 'sum', 'mean'])
    data_pivot_table.columns = ['all_credits', 'all_debtors', 'share_debtors']
    display(data_pivot_table)

Применим нашу функцию к предоставленным данным для выявления зависимости между количеством детей и возвратом кредита в срок

In [42]:
data_pivot('children')

Unnamed: 0_level_0,all_credits,all_debtors,share_debtors
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


**Промежуточный вывод:**

Как мы видим из сводной таблицы
    
1. Самая многочисленная группа заемщиков, клиенты **'без детей'** 14091, самая малочисленная **'с 5 детьми'** - 9 клиентов;
2. Четкой зависимости между количеством детей и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,075 максимальная 0,097, что находится в пределах **7,5% до 9,7%**;
3. В подгруппе клиентов с **'5 детьми'** в в предоставленных данных ни одного просроченного кредита, но в данной выборке всего 9 клиентов, это слишком мало для того чтобы принять во внимание. К примеру в подгруппе **'без детей'** 14091 число заемщиков.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [43]:
data[data['debt'] != 0].groupby('family_status')['debt'].sum()

family_status
Не женат / не замужем    273
в разводе                 84
вдовец / вдова            63
гражданский брак         385
женат / замужем          927
Name: debt, dtype: int64

Применим нашу функцию к предоставленным данным для выявления зависимости между семейным положением и возвратом кредита в срок

In [44]:
data_pivot('family_status')

Unnamed: 0_level_0,all_credits,all_debtors,share_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


**Промежуточный вывод:**

Как мы видим из сводной таблицы
    
1. Самая многочисленная группа заемщиков, клиенты **'женат.замужем'** 12261;
2. Четкой зависимости между семейным положением и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,066 максимальная 0,097, что находится в пределах **6,6% до 9,7%**

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [45]:
data[data['debt'] != 0].groupby('total_income_category')['debt'].sum()

total_income_category
A       2
B     354
C    1353
D      21
E       2
Name: debt, dtype: int64

Применим нашу функцию к предоставленным данным для выявления зависимости между уровнем дохода и возвратом кредита в срок

In [46]:
data_pivot('total_income_category')

Unnamed: 0_level_0,all_credits,all_debtors,share_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,0.08
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172
E,22,2,0.090909


**Промежуточный вывод:**

По уровню дохода мы разделили клиентов на следующие категории:
        
A - 1000001 и выше;
    
B - 200001–1000000;
    
C - 50001–200000;
    
D - 30001–50000;
    
E - 0–30000;
    
Как мы видим из сводной таблицы
    
1. Самая многочисленная группа заемщиков, клиенты с уровнем дохода категории **'С'** 12261, самые малочисленные это клиенты категорий **'A' и 'E'**;
2. Четкой зависимости между уровнем дохода и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,06 максимальная 0,091, что находится в пределах **6,0% до 9,1%**

#### Как разные цели кредита влияют на его возврат в срок?

In [47]:
data[data['debt'] != 0].groupby('purpose_category')['debt'].sum()

purpose_category
операции с автомобилем      400
операции с недвижимостью    780
получение образования       369
проведение свадьбы          183
Name: debt, dtype: int64

Применим нашу функцию к предоставленным данным для выявления зависимости между целью кредита и возвратом кредита в срок

In [48]:
data_pivot('purpose_category')

Unnamed: 0_level_0,all_credits,all_debtors,share_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4279,400,0.09348
операции с недвижимостью,10751,780,0.072551
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118


**Промежуточный вывод:**

Как мы видим из сводной таблицы:
    
1. Самая многочисленная группа заемщиков, клиенты с целью кредита **'операции с недвижимостью'** 10751;
2. Четкой зависимости между целью кредита и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,072 максимальная 0,093, что находится в пределах **7,2% до 9,3%**;
3. Можно выделить две пары групп с разными целями:
    
    a) **('операции с автомобилем' и 'получение образования')** количество заемщиков примерно одинаковое, а также средние по просроченным кредитам практически равны;
    
    b) **('операции с недвижимостью' и 'проведение свадьбы')** средние по просроченным кредитам близки

### Общий вывод

Произвели исследование надежности различных групп заемщиков из предоставленных данных.
Предварительное ознакомление выявило наличие в данных пропусков, неверных или аномальных значений. Так как это может повлиять на результаты выводов, необходимо произвести предообработку данных. В данных имеется 21525 строк, а по столбцам **'days_employed' и 'total_income'** 19351 строк.
    
1. Проверка данных показала что в столбцах **'days_employed' (стаж) и 'total_income' (уровень дохода)** имеются пропуски в количестве 2174 ед.;
2. Предварительно сгрупировав клиентов по типу занятости, заполнили пропуски в графе **'total_income'** медианым значением;
3. В столбце **'days_employed'** присутсвуют отрицательные значения, избавимся от минуса применив функцию абсолютного значения abs():
4. В графе **'children' дети**, присутствуют аномальные значения -1 и 20, избавились от данных строк
5. Предварительно сгрупировав клиентов по типу занятости, заполнили пропуски в графе **'days_employed'** медианым значением;
6. В столбце **'education' (образование)** выявили о обработали неявные дубликаты
7. Разбили клиентов на группы по уровню дохода **(A, B, C, D, E)**, доавили в данные столбец с присвоением каждому клиенты соответствующего значения категории
8. Сгруппировали клиентов по цели кредита, создав 4 основные группы (операции с автомобилем, операции с недвижимостью, проведение свадьбы, получение образование)
    
После предварительной обработки данных мы получили таблицу с одинаковым количеством строк по всем столбцам в количестве **21331**. Значит после обработки в предоставленных данных мы имеем **21331** заемщика. Из них **1732** клиента имеют проблемы с возвратом кредита в срок, что составляет **8,12%** от общего числа.
    
***В результате исследования данных на предмет надежности различных групп заемщиков мы ответили на следующие вопросы:***
    
**Есть ли зависимость между количеством детей и возвратом кредита в срок?**
    
a) Самая многочисленная группа заемщиков, клиенты **'без детей'** 14091, самая малочисленная **'с 5 детьми'** - 9 клиентов;
    
b) Четкой зависимости между количеством детей и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,075 максимальная 0,097, что находится в пределах **7,5% до 9,7%**;
    
c) В подгруппе клиентов с **'5 детьми'** в в предоставленных данных ни одного просроченного кредита, но в данной выборке всего 9 клиентов, это слишком мало для того чтобы принять во внимание. К примеру в подгруппе **'без детей'** 14091 число заемщиков.
    
**Есть ли зависимость между семейным положением и возвратом кредита в срок?**    
 
a) Самая многочисленная группа заемщиков, клиенты **'женат.замужем'** 12261;
    
b) Четкой зависимости между семейным положением и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,066 максимальная 0,097, что находится в пределах **6,6% до 9,7%**.
    
**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**
    
По уровню дохода мы разделили клиентов на следующие категории:
        
**A - 1000001 и выше;**
    
**B - 200001–1000000;**
    
**C - 50001–200000;**
    
**D - 30001–50000;**
    
**E - 0–30000;**
    
1. Самая многочисленная группа заемщиков, клиенты с уровнем дохода категории **'С'** 12261, самые малочисленные это клиенты категорий **'A' и 'E'**;
2. Четкой зависимости между уровнем дохода и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,06 максимальная 0,091, что находится в пределах **6,0% до 9,1%**    
  
**Как разные цели кредита влияют на его возврат в срок?**

1. Самая многочисленная группа заемщиков, клиенты с целью кредита **'операции с недвижимостью'** 10751;
2. Четкой зависимости между целью кредита и возвратом кредита в срок не прослеживается, среди просроченных кредитов в каждой подгруппе минимальная средняя 0,072 максимальная 0,093, что находится в пределах **7,2% до 9,3%**;
3. Можно выделить две пары групп с разными целями:
    
    a) **('операции с автомобилем' и 'получение образования')** количество заемщиков примерно одинаковое, а также средние по просроченным кредитам практически равны;
    
    b) **('операции с недвижимостью' и 'проведение свадьбы')** средние по просроченным кредитам близки 
    
***По всем заемщикам нет четкой зависимости возврата кредита в срок от категории рассмотренных групп клиентов:***
    
- группы со одинаковыми целями кредита

- группы с одинаковым количеством детей
    
- группы с одинаковыми или близкими доходами
    
- группы с одинаковым семейным положением