**Название проекта:** 

Исследование надёжности заёмщиков — анализ банковских данных

**Цель исследования:**

Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

**Ход исследования:**

1. Загрузка данных и подготовка их к анализу
2. Исследование данных
3. Вывод

**Краткое описание проекта:**

Заказчик — кредитный отдел банка. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание начальных данных:**

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита


# 1. Загрузка данных и подготовка их к анализу

## 1.1. Обзор данных

In [None]:
# импортируем библиотеку pandas
import pandas as pd

In [None]:
# прочитаем csv-файл
data = pd.read_csv('/content/drive/MyDrive/ЯПрактикум - АЛЛА/Спринт 2. Предобработка данных/data.csv')

In [None]:
# выведем первые 20 строк
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Комментарии:** 

**Обнаруженные проблемы:**
- пропуски в столбцах days_employed и total_income, пропуски типа NaN относятся к вещественным числам, float. Возможно данные клиенты банка не указали сведения о трудовом стаже и доходе, т.к не имеют официально подтвержденных данных (не работалили), либо система сбора информации дала сбой. 
- отрацательные значения в столбце days_employed (трудовой стаж не может быть минусовым)
- дубликаты в столбце education, строчные буквы сочетаются с прописными
- дубликаты в столбце purpose, необходимо категоризировать данные 


In [None]:
# выведем основную информацию о датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## 1.2. Предобработка данных

In [None]:
# посчитаем количество пропусков
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Комментарии:** 
Доля пропущенных значений в столбцах days_employed и total_income одинаковая и составляет 10%

В двух столбцах есть пропущенные значения. Один из них — `days_employed` и  `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом

In [None]:
# заполним пропуски в столбце total_income
temp = data.groupby('income_type')['total_income'].median()

for inc_type in data['income_type'].unique():
    data.loc[data['income_type'] == inc_type, 'total_income'] = data.loc[data['income_type'] == inc_type, 'total_income'].fillna(temp[inc_type])

**Комментарии:** Заполняем пропуски медианным значением, чтобы "оторыванные" значения от основной массы не смещали результаты среднего вверх или вниз.

In [None]:
# заменим все отрицательные значения положительными с помощью метода abs()
data['days_employed'] = data['days_employed'].abs()

**Комментарии:** Из возможных причин данной аномалии - система сбора информации дала сбой

In [None]:
# для каждого типа занятости выведем медианное значение трудового стажа days_employed в днях.
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

In [None]:
# выведем перечень уникальных значений столбца children.
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Комментарии:** т.к в нашей гипотезе одним из ключевых критериев является "количество детей у клиента", проверем данный столбец на аномалии. Выявлена ошибка в виде количества "-1" и аномалия в виде кол-ва "20 детей"

In [None]:
# удалим строки, в которых встречаются такие аномальные значения из датафрейма data.
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [None]:
# перепроверим
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [None]:
# Заполним пропуски в столбце days_employed медианными значениями по каждому типу занятости income_type.
temp_day = data.groupby('income_type')['days_employed'].median()

for inc_day in data['income_type'].unique():
    data.loc[data['income_type'] == inc_day, 'days_employed'] = data.loc[data['income_type'] == inc_day, 'days_employed'].fillna(temp_day[inc_day])

In [None]:
# перепроверим
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [None]:
# Заменим вещественный тип данных в столбце total_income на целочисленный с помощью метода astype().
data['total_income'] = data['total_income'].astype('int')

In [None]:
# посчитаем дубликаты
data.duplicated().sum()

54

In [None]:
# удалим дубликаты
data = data.drop_duplicates()

In [None]:
# обработаем неявные дубликаты в столбце education. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру. Проверим остальные столбцы.
data['education'] = data['education'].str.lower()

# 2. Исследование данных

## 2.1. Категоризация данных

На основании диапазонов, указанных ниже, создадим в датафрейме data столбец total_income_category с категориями:

0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.
Например, кредитополучателю с доходом 25000 назначим категорию 'E', а клиенту, получающему 235000, — 'B'. Используем собственную функцию с именем categorize_income() и метод apply().

In [None]:
# создадим функцию categorize_income()
def categorize_income(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'
    
# применим функцию методом apply()
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [None]:
# Выведим на экран перечень уникальных целей взятия кредита из столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- 'операции с автомобилем',
- 'операции с недвижимостью',
- 'проведение свадьбы',
- 'получение образования'.



In [None]:
# создадим функцию categorize_purpose()
def categorize_purpose(purpose):
    try:
        if 'авто' in purpose:
            return 'операции с автомобилем'
        elif 'недвиж' in purpose or 'жиль' in purpose:
            return 'операции с недвижимостью'
        elif 'свадьб' in purpose:
            return 'проведение свадьбы'
        elif 'образ' in purpose:
            return 'получение образования'
    except: 'категория не определена'

In [None]:
# применим функцию методом apply()
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## 2.2. Зависимость между количеством детей и возвратом кредита в срок?

In [None]:
# у нас данные в виде единиц и нулей. Соответственно, искомая величина (доля единиц = доля невозврата кредита) будет их средним значением.
data_pivot_kids = data.pivot_table(index='children', values='debt', aggfunc=['count', 'sum', 'mean']).round(3)
data_pivot_kids.columns = ['Всего получателей', 'Всего должников', 'Доля должников']
data_pivot_kids

Unnamed: 0_level_0,Всего получателей,Всего должников,Доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14107,1063,0.075
1,4809,444,0.092
2,2052,194,0.095
3,330,27,0.082
4,41,4,0.098
5,9,0,0.0


Всего получателей − это наши нули и единицы. Используем count.
    
Должники − это наши единицы. Используем sum, нули отпадают, единицы суммируются. Получаем то, что нужно.
    
Доля должников − среднее (= сумма элементов, деленная на их количество). С нулями и единицами опять у нас получается искомое. 


## 2.3. Зависимость между семейным положением и возвратом кредита в срок?

In [None]:
data_family_status_pivot = data.pivot_table(index='family_status', values='debt', aggfunc=['count', 'sum', 'mean']).round(3)
data_family_status_pivot.columns = ['Всего получателей', 'Всего должников', 'Доля должников']
data_family_status_pivot

Unnamed: 0_level_0,Всего получателей,Всего должников,Доля должников
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,0.098
в разводе,1189,84,0.071
вдовец / вдова,951,63,0.066
гражданский брак,4146,385,0.093
женат / замужем,12266,927,0.076


## 2.4. Зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
data_income_pivot = data.pivot_table(index='total_income_category', values='debt', aggfunc=['count', 'sum', 'mean']).round(3)
data_income_pivot.columns = ['Всего получателей', 'Всего должников', 'Доля должников']
data_income_pivot

Unnamed: 0_level_0,Всего получателей,Всего должников,Доля должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,0.08
B,5014,354,0.071
C,15938,1353,0.085
D,349,21,0.06
E,22,2,0.091


# 3. Вывод:

Зависимость между уровнем дохода и возвратом кредита в срок не выявлена. Тем не менее стоит обратить внимание, что клиенты с уровнем дохода менее 30 тысяч рублей имеют самую высокую долю невозврата кредита в срок.

Возможные причины появления пропусков в исходных данных:

- человеческий фактор при внесении данных из анкеты клиента банка в систему банка,
- автоматизированная система сьора данных дала сбой
- клиент сам не внес данные, оставив поля в анкете пустыми

Исходя и полученных данных и проведенной обработки информации можно сделать следующий вывод:

- наличие детей влияет на сроки возврата кредита, но не их количество,
- "не семейные" категории клиентов хуже справляются с возвратом заемных средств,
- клиенты с уровнем дохода менее 30 тысяч рублей имеют самый низкий % возврата кредита в срок,
- для банка наиболее рискованными целевыми категориями являются "получение образования" и "операции с автомобилем"

**Описание шагов исследования:**

1. Загрузка данных и подготовка их к анализу
- Обзор данных
- Предобработка данных

2. Исследование данных
- Категоризация данных
- Зависимость между количеством детей и возвратом кредита в срок?
- Зависимость между семейным положением и возвратом кредита в срок?
- Зависимость между уровнем дохода и возвратом кредита в срок?

3. Вывод