# Проект по исследованию надежности заемщиков банка

**Цель исследования** - определить влияние семейного положения и количества детей заемщика на факт погашения кредита в срок для построения модели кредитного скоринга (системы, оценивающей способность потенциального заёмщика вернуть кредит банку).

**Задачи исследования:**
1. Декомпозировать проект.
2. Найти и обработать пропуски.
3. Проверить и заменить при необходимости типы данных на соответствующие хранящимся данным.
4. Выявить и по-возможности устранить аномалии в данных.
4. Категоризировать данные.
5. Удалить дубликаты.
6. Определить влиение на факт погашения кредита в срок таких факторов как:
    - количество детей заемщика;
    - семейное положение заемщика;
    - уровень дохода заемщика;
    - цель кредита.

**Источник данных** - один датасет со статистикой о платёжеспособности клиентов от банка.

**Навыки и инструменты** - предобработка данных, python, pandas
____

# Резюме

В ходе исследования удалось определить, что и семейное положение клиентов, и наличие у них детей имеет непосредственное и значительное влияние на факт погашения кредита в срок. А такие факторы как уровень дохода заемщика и цель кредита демонстрируют незначительное алияние на рассматриваемый показатель.

В целом, по всем рассмотренным параметрам процент должников колеблется от 6% до 10,53%.

Портрет наиболее надеждого для банка заемщика будет выглядеть так:
- заемщик состоит или состоял в официальном браке (таких должников от 6,56% до 7,52%), 
- заемщик не имеет детей или имеет 3-х детей (таких должников 7,51% и 8,18% соответственно), 
- заемщик имеет доход либо от 30к до 50к, либо от 200к до 1 млн. (таких должников 6% и 7,06% соттветственно), 
- заемщик оформляет кредит для совершения сделки с недвижимостью или для проведения свадьбы (таких должников 7,21% и 7,92% соответственно).
____

# Краткое содержание работы

**_Предобработка позволила выявить, что исходные данные:_**
1. содержали 10% пропусков в колонках days_employed и total_income.
2. имели смысловые дубликаты в колонках education, family_status и purpose.
3. имещи вещественный формат в колонке total_income.
4. имели 71 ед. полных дубликатов.

Для обработки данных использовались такие методы как `value_counts()`, `pivot_table()`, `fillna()`, `apply()`, `astyp()`, `str.lower()`, `duplicated().sum()` и `drop_duplicates()`.

**_Проверка данных на аномалии показала, что:_**
1. в колонке dob_years были заемщики с нулевым возрастом (101 ед. или 0,47%). Нулевые значения заменены характерным медианным значением в зависимости от категории заемщика. 


2. в колонке days_emploed были отрицательные значения и показатели, равные более чем 273 годам (последних было 3858 ед. или 18%). Было сделано предположение о том, что для некоторых категорий заемщиков стаж указан в часах, поэтому данные были пересчитаны в столбце new_days_emploed, а отрицательные значения были приведены к значению по модулю методом `abs()`.


3. в колонке children были отрицательные значения (47 ед. или 0,22%) и семьи с 20-ю детьми (76 ед. или 0,35%). В отношении отрицательной численности значения были приведены к значению по модулю, а в отношении многодетных семей данные оставлены без изменений (подробнее в шаге 2.2).

**_Проверка наличия зависимости между разными параметрами заемщиков и возвратом кредита в срок определила:_** 

1. Наиболее надежных заемщиков для банка:
    - Заемщики без детей - среди них процен должников равен 7,51%.
    - Заемщики с 3-мя детьми - среди них процен должников равен 8,18%.
    - Заемщики состоящие или состоявшие в браке - среди них процен должников находится в диапазоне от 6,56% до 7,52% (в зависимости от статуса заемщика).
    

2. Наименее надежных заемщики для банка
    - Заемщики с 1-м, 2-мя, 4-мя детьми - среди них процен должников находится в диапазоне от 9,15% до 9,76%.
    - Одинокие заемщики и лица, состоящих в гражданском браке - среди них должников составляет 9,74% и 9,29% соответственно.
    

3. Признаки надежных заемщиков с точки зрения их дохода и цели оформления кредита:
    - Доход заемщика равен 30к - 50к или 200к - 1 млн. В этих случаях процент должников составляет 6% и 7,06% соответственно.
    - Цель кредита - совершение сделки с недвижимостью или проведение свадьбы. В этом случае процент должников равен 7,21% и 7,92% соответственно.

### Шаг 1. Обзор данных

In [1]:
#Импортируем все библиотеки, используемые в проекте

#Импортируем библиотеку pandas

import pandas as pd
    
#Импортируем библиотеку seaborn

import seaborn as sb

In [2]:
#после выгрузки датасета получаю общую информацию по нему для ознакомления
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Обратить внимание на:
- Колонки с пропущенными значениями: days_employed (общий трудовой стаж в днях) и total_income (ежемесячный доход), пропущенно одинаковое количество значений <font color="browm">проверено, описание в шаге 2.1</font>
- Для колонок income_type и debt проверить содержание и тип данных <font color="browm">проверено, ошибки нет</font>

In [3]:
#income_type - категорийные данные, заполнение словесное
#debt - содержание по типу Булево, где 1 = да, 0 = нет
# data.head(20)

Обратить внимание на:
- проверить для какого количество пенсионеров указана цель кредита "сыграть свадьбу" (может ли быть ошибка в заполнении цели?) <font color="browm">проверено, ошибки нет</font>
- проверить уникальные значения по типам занятости (пенсионер не вяжется с сотрудником и компаньоном, также странно выглядит цель кредита свадьба для категории заемщиков пенсионер)<font color="browm"> проверено, ошибки нет</font>
- проверить количество строк, для которых отсутствуют данные в days_employed и total_income одновременно
(заемщики, ранее никогда не работавшие?)Какие категории заемщиков подпадают под эти строки? <font color="browm">проверено, описание в шаге 2.1</font>

### Шаг 2.1 Заполнение пропусков

In [4]:
data['days_employed'].value_counts() # кол-во уникальных значений 19351
data['total_income'].value_counts() # кол-во уникальных значений 19351
data.groupby('income_type')['total_income'].count() # количество значений по группам всего по датасету отличается 
# от количества уникальных значений в этих же группах. Значит, пропущенных данные относятся к разным категориям заемщиков
# (пропуски не зависят от категории заемщика)
data[data['income_type'] == 'пенсионер']['purpose'].value_counts() # среди 3856 строк в категории заемщика "пенсионер"
# цель займа со свадьбой имеют 3 варианта и не являются единственной целью для данной категории заемщиков, значит 
# ошибка связки цель-категория исключена. Возможно, пенсионеры офорляют кредит на свадьбу близких родственников.

total_str = 21525 # из общих данных о датасете
uniq_str = 19351 #
miss_str = total_str - uniq_str # количество пропущенных значений в days_employed и total_income
miss_str_share = miss_str / total_str # доля пропущенных значений в days_employed и total_income
display(f'Доля пропущенных значений составила {miss_str_share:.0%}')


'Доля пропущенных значений составила 10%'

Так как кол-во уникальных значений в столбцах days_employed и total_income совпадают, в других столбцах пропущенных значений нет, то выдвигаются предположения:
- каждое пропущенное значение в столбцах days_employed и total_income относятся к одному и тому же уникальному заемщику (пропуски в обоих столбцах рапределены по строкам одинаково/параллельно)
- значения в столбцах days_employed и total_income зависят друг от друга
- пропуски в столбцах days_employed и total_income относятся к заемщикам, ранее никогда не работавшим

Так как столбец total_income содержит числовые показатели о ежемесячном доходе заемщика, то отсутствующие данные допустимо заполнить медианным характерным значением и лучше всего это сделать в разрезе категорий заемщиков (нужна функция для строки)

In [5]:
data_pivot = data.pivot_table(index='income_type', values=['total_income', 'days_employed'], aggfunc='median')

display(data_pivot)

def fill_with_median(row):
    income_type = row['income_type']
    values = {
        'days_employed': data_pivot['days_employed'][income_type],
        'total_income': data_pivot['total_income'][income_type]
    }
    return row.fillna(values)

data = data.apply(fill_with_median, axis=1)

# data.head(30)

Unnamed: 0_level_0,days_employed,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
безработный,366413.652744,131339.751676
в декрете,-3296.759962,53829.130729
госслужащий,-2689.368353,150447.935283
компаньон,-1547.382223,172357.950966
пенсионер,365213.306266,118514.486412
предприниматель,-520.848083,499163.144947
сотрудник,-1574.202821,142594.396847
студент,-578.751554,98201.625314


### Шаг 2.2 Проверка данных на аномалии и исправления.

В колонке days_employed содержатся данные о трудовом стаже заемщика в днях. При этом есть строки, для которых значения составляют более сотни тысяч дней, что составляет более 273 лет (100000/365). Очевидно, что расчет дней стажа для таких строк проведен некорректно, скорее всего неверно указан формат данных.

Так же при фильтрации данных по трудовому стажу стало видно, что есть заемщики, с нулевым возрастом, чего не может быть (данные встречаются 101 раз). Так как возраст - это измеряемый показатель, то допустимо будет заполнить эти данные характерным медианным значением в зависимости от категории заемщика

Кроме того, в процессе обработки указанных выше аномалий были выявлены логические расхождения между возрастом заемщика, показателем его трудового стажа и его категорией, а также отрицательные значения в сведениях о количестве детей заемщика

In [7]:
# Фильтрация датасета по возрасту 0 для определения категорий заемщиков, в отношении которых встречается это значение

age = data[data['dob_years'] == 0]
# display(age['income_type'].value_counts())# возраст 0 указан для разных категорий заемщиков, ошибка одной
# категории исключена

# display(data[data['dob_years'] == 0]) # выявлено 101 значение

data_pivot_dob_years = data.pivot_table(index='income_type', values='dob_years', aggfunc='median')

# print(data_pivot_dob_years)

def dob_with_median(row):
    income_type = row['income_type']
    if row['dob_years'] == 0:
        row['dob_years'] = int(data_pivot_dob_years['dob_years'][income_type])
    return row

data = data.apply(dob_with_median, axis=1)

# display(data[data['dob_years'] == 0]) # выявлено 0 значений

# Приступим к обработке аналомалий по столбцу days_employed. Сначала приведем значения к модулю, затем
# определим минимальные и максимальные показатели для построянения карты рассеивания

data['days_employed'] = data['days_employed'].abs()
# display(data)

# рассчитываем минимальные и максимальные показатели трудового стажа  для понимания диапазона значений

days_employed_min = data['days_employed'].min()
days_employed_max = data['days_employed'].max()
# display(days_employed_min)
# display(days_employed_max)

# Строим диаграмму рассеивания по категориям заемщиков и по возрасту заемщиков для определения выборки 
# с аномальными значениями и проверки зависимостей аномалий от рассматриваемых показателей

x_coordination_dob_years = data['dob_years']
y_coordination_days_employed = data['days_employed']

x_coordination_days_employed_1 = data['days_employed']
y_coordination_income_type_1 = data['income_type']

# display(sb.scatterplot(x=x_coordination_dob_years, y=y_coordination_days_employed))
# display(sb.scatterplot(x=x_coordination_days_employed_1, y=y_coordination_income_type_1))

# По минимальным-максимальным показателям и по карте рассеивания видим, что неправдоподобные анамальные 
# значения для данных о трудовом стаже в днях сосредоточены в диапазоне от 300000 до 402000, при этом они 
# распределены всего по двум категориям заемщиков: пенсионеры и безработные. Таким образом, определен массив
# значений, которые необходимо скорректировать.

# Перевод значений в года показывает невозможные результаты (300000/365 = 822 лет), поэтому делается предположение
# о том, что стаж указан в часах (300000/24 = 12 500 дней/365 = 34 года)

# строим и применяем функцию для корректировки данных о трудовом стаже для выбранных категорий заемщиков

def new_days_employed(row):
    income_type = row['income_type']
    days_employed = row['days_employed']
    if income_type == 'пенсионер' or income_type == 'безработный':
        return int(days_employed/24)
    else:
        return int(days_employed)

data['new_days_employed'] = data.apply(new_days_employed, axis=1)
# data.head(30)

# Меняем порядок колонок в датафрейме для удобства работы

data = data.loc[:, ['children', 'days_employed', 'new_days_employed', 'dob_years', 'education', 'education_id',
              'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
              'purpose']]
# data.head(30)

# Проверка измененных данных о трудовом стаже

#  сортируем датафрейм по колонке new_days_employed по убыванию для проверки максимальных значений

data = data.sort_values(by='new_days_employed', ascending=False) 
# display(data.head(30))

# рассчитываем минимальные и максимальные показатели трудового стажа для понимания диапазона значений

new_days_employed_min = data['new_days_employed'].min()
new_days_employed_max = data['new_days_employed'].max()
# display(new_days_employed_min)
# display(new_days_employed_max)

# Строим проверочную диаграмму рассеивания по категориям заемщиков и по возрасту заемщиков

x_coordination_dob_years_1 = data['dob_years']
y_coordination_new_days_employed = data['new_days_employed']

x_coordination_new_days_employed_2 = data['new_days_employed']
y_coordination_income_type_2 = data['income_type']

# display(sb.scatterplot(x=x_coordination_dob_years_1, y=y_coordination_new_days_employed))
# display(sb.scatterplot(x=x_coordination_new_days_employed_2, y=y_coordination_income_type_2))

data['check_years'] = data['dob_years']-(data['new_days_employed']/365) # определяем примерный возраст  
# начала трудовой деятельности

data['check_years'] = data['check_years'].astype('int')
data = data.loc[:, ['children', 'days_employed', 'new_days_employed', 'check_years', 'dob_years', 'education', 'education_id',
              'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
              'purpose']]

# display(data.head())

data = data.sort_values(by='check_years')
# data.head(30)

# Сортировка по check_years выявила, что в части данных вероятнее всего неверно указан возраст заемщика, 
# так как категория пенсионер и значительный трудовой стаж более 10000 дне (36 лет) не может сответствовать
# 26-ти летнему возрасту заемщика. Также при проверке возраста не может быть отрицательных значений
# В идеале необходимо запрашивать пояснения у заказчка, но в условиях решаемой задачи для устранения возрастной 
# аномалии для таких данных возраст заемщика будет увеличен на 18 лет (совершенноление) от текущего значения
# общего трудового стажа в годах (new_days_employed/365)

# Напишем функцию для изменения возраста

def age(row):
    check_years = row['check_years']
    dob_years = row['dob_years']
    if check_years <18:
        return int(row['new_days_employed']/365 + 18)
    else:
        return dob_years

data['new_dob_years'] = data.apply(age, axis=1)

data = data.loc[:, ['children', 'days_employed', 'new_days_employed', 'check_years', 'new_dob_years', 
                    'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender',
                    'income_type', 'debt', 'total_income', 'purpose']]
# data.head()

data = data.sort_values(by='check_years')
data.head(30)

# Выявлены отрицательные значения для сведений о количестве детей у заемщика, данные необходимо исправить

data[data['children'] <0]['income_type'].value_counts()
# display(data[data['children'] <0])

def module_children(row):
    children = row['children']
    if children < 0:
        return abs(children)
    else:
        return children
    
data['new_children'] = data.apply(module_children, axis=1)

data = data.loc[:, ['children', 'new_children', 'days_employed', 'new_days_employed', 'check_years', 'new_dob_years', 
                    'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender',
                    'income_type', 'debt', 'total_income', 'purpose']]

# display(data[data['children'] <0])
# data[data['new_children'] <0]['income_type'].value_counts() # проверка замены значений для new_children

data.head(30)

data = data.sort_index()
# data.head(10)

### Шаг 2.3. Изменение типов данных.

In [8]:
data['total_income'] = data['total_income'].astype('int')
#data.head(30)

### Шаг 2.4. Удаление дубликатов.

Для удаления дубликатов необходимо сначала найти все смысловые дубликаты (регистр написания данных, смысловые дубликаты по всем колонкам с текстовым содержанием) и типизировать данные при необходимости. Далее воспользоваться методом подсчета дубликатов (для оценочной проверки реалистичности полученного результата) duplicated().sum() и удалить выявленных дубликаты методом data.drop_duplicates().
Полсе типизации данных и удаления дубликатов проверить корректность выполнения типизации (проверить наличие сымсловых дубликатов)

Возможные причины появления дубликатов:
1. В предосталвенных банком данных нет информации о выдаче и/или возврате кредита, исходя из чего можно предположить, что это предварительные данные ДО выдачи кредита (опросник для заемщика при подаче заявки на одобрение кредита). Соответственно, есть вероятность того, что некая доля заемщиков несколько раз обращалась в банк для получения кредита, тем более, что период выборки банковских данных неизвестен.
2. Технический сбой на стороне кредитора (если предположить, что заявление на выдачу кредита оформлялось заемщиком онлайн на сайте банка), в связи с чем форма заявления отправлялась несколько раз либо технический сбой в программе оператора банка при личном оформлении заявления в отделении банка.
3. Неизвестно каким образом формировалась банковская выборка, возможна ошибка на этом этапе (частичное задвоение данных)
4. Неизвестен источник данных, это может быть как консолидорованная база всех/ нескольких банков, так и консолидированные данные одного банка, но разных отделений, в т.ч. региональных. Таким образом, если заемщик обращался в несколько банков или в один, но в разных отделениях/регионах, данные могли быть задвоены.

In [9]:
#data['purpose_category'].value_counts()#проверка целей займа независимо от категории заемщика на смысловые дубликаты
#data['income_type'].value_counts()#проверка типа занятости на смысловые дубликаты
#data['education'].value_counts()#проверка данных об уровне образования на смысловые дубликаты
#data['family_status'].value_counts()#проверка семейного положения на смысловые дубликаты

data['education'] = data['education'].str.lower()#приведение к нижнему решистру значений в столбце education
data['family_status'] = data['family_status'].str.lower()#приведение к нижнему решистру значений в столбце family_status

# display(data.duplicated().sum())#проверка количества дубликатов (0)

def new_purpose (row):
    purpose = row['purpose']
    
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'жил' in purpose or 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'образов' in purpose:
        return 'получение оборазования'
    
data['purpose_category'] = data.apply(new_purpose, axis=1)

# data.head(10)

# display(data.duplicated().sum())#проверка количества дубликатов (0)

# data['purpose_category'].value_counts()#проверка целей займа независимо от категории заемщика на смысловые дубликаты

data.head(10)

display(data[data['children'] ==5])

Unnamed: 0,children,new_children,days_employed,new_days_employed,check_years,new_dob_years,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
3979,5,5,1574.202821,1574,37,42,42,среднее,1,гражданский брак,1,M,сотрудник,0,142594,на покупку своего автомобиля,операции с автомобилем
4397,5,5,3248.839837,3248,27,36,36,среднее,1,женат / замужем,0,F,компаньон,0,168460,операции с недвижимостью,операции с недвижимостью
7866,5,5,773.124856,773,33,36,36,среднее,1,женат / замужем,0,F,сотрудник,0,48772,операции с жильем,операции с недвижимостью
15822,5,5,418.199982,418,29,31,31,среднее,1,женат / замужем,0,F,сотрудник,0,77552,сделка с подержанным автомобилем,операции с автомобилем
15916,5,5,2286.262752,2286,30,37,37,среднее,1,женат / замужем,0,F,сотрудник,0,256698,покупка недвижимости,операции с недвижимостью
16211,5,5,387.317579,387,33,35,35,среднее,1,гражданский брак,1,F,госслужащий,0,126102,на проведение свадьбы,проведение свадьбы
20452,5,5,268.425464,268,37,38,38,начальное,3,женат / замужем,0,F,сотрудник,0,212545,заняться высшим образованием,получение оборазования
20837,5,5,2386.600221,2386,28,35,35,среднее,1,женат / замужем,0,F,компаньон,0,204241,жилье,операции с недвижимостью
21156,5,5,1690.018117,1690,54,59,59,среднее,1,женат / замужем,0,M,сотрудник,0,269068,операции со своей недвижимостью,операции с недвижимостью


### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [10]:
# формирование датасета с данными об образовании заемщиков и удаление дубликатов

data_education = data[['education', 'education_id']].drop_duplicates()
#display(data_education.head())

data_education_pivot = data.pivot_table(index='education', values='education_id', aggfunc='mean')
data_education_pivot = data_education_pivot.sort_values('education_id')
display(data_education_pivot)

# формирование датасета с данными о семейном положении заемщиков и удаление дубликатов

data_family_status = data[['family_status', 'family_status_id']].drop_duplicates()
# display(data_family_status.head())

data_family_status_pivot = data.pivot_table(index='family_status', values='family_status_id', aggfunc='mean')
data_family_status_pivot = data_family_status_pivot.sort_values('family_status_id')
display(data_family_status_pivot)

# формирование датасета с данными о целях кредита и удаление дубликатов

data_purpose = data[['purpose', 'purpose_category']].drop_duplicates()
# display(data_purpose.head())

# формирование датасета с данными о количестве детей заемщиков и удаление дубликатов

data_children = data[['children', 'new_children']].drop_duplicates()
# display(data_children.head())

# формирование датасета с данными отрудовом стаже заемщиков и удаление дубликатов

data_days_employed = data[['days_employed', 'new_days_employed']].drop_duplicates()
# display(data_days_employed.head())

# формирование датасета с данными о возрасте заемщиков и удаление дубликатов

data_dob_years = data[['dob_years', 'new_dob_years']].drop_duplicates()
# display(data_dob_years.head())

Unnamed: 0_level_0,education_id
education,Unnamed: 1_level_1
высшее,0
среднее,1
неоконченное высшее,2
начальное,3
ученая степень,4


Unnamed: 0_level_0,family_status_id
family_status,Unnamed: 1_level_1
женат / замужем,0
гражданский брак,1
вдовец / вдова,2
в разводе,3
не женат / не замужем,4


In [11]:
# удаление из основного датафрейма data колонок, сохраненных ранее в отдельном датасете

data = data.drop(axis=1, columns=['children', 'days_employed', 'check_years', 'dob_years', 'education', 
                                  'family_status', 'purpose'])
data.head(10)

Unnamed: 0,new_children,new_days_employed,new_dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,получение оборазования
4,0,14177,56,1,1,F,пенсионер,0,158616,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,получение оборазования
8,2,6929,36,0,1,F,сотрудник,0,95856,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,операции с недвижимостью


### Шаг 2.6. Категоризация дохода.

In [12]:
# создание функции для строки для категоризации дохода заемщиков

def income_category (row):
    total_income = row['total_income']
    
    if 0 <= total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    if total_income >= 1000001:
        return 'A'
    
# применение функции для строки для категоризации дохода заемщиков

data['total_income_category'] = data.apply(income_category, axis=1)

# изменение порядка колонок основного датасета data

data = data.loc[:, ['new_children', 'new_days_employed', 'new_dob_years', 'education_id', 
                    'family_status_id', 'gender', 'income_type', 'debt', 'total_income_category',
                    'total_income', 'purpose_category']]

# формирование датасета с данными о доходах заемщиков и удаление дубликатов

data_total_income = data[['total_income', 'total_income_category']].drop_duplicates()

# удаление из основного датафрейма data колонки total_income, сохраненной ранее в отдельном датасете

data = data.drop(axis=1, columns='total_income')
data.head(10)

Unnamed: 0,new_children,new_days_employed,new_dob_years,education_id,family_status_id,gender,income_type,debt,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,B,получение оборазования
4,0,14177,56,1,1,F,пенсионер,0,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,C,получение оборазования
8,2,6929,36,0,1,F,сотрудник,0,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,C,операции с недвижимостью


#### Проверяем наличие зависимости между количеством детей и возвратом кредита в срок.

При построении сводной таблицы по количеству детей выявлены заемщики с 20-ю детьми в семье. На первый взгляд данных вглядят аномальными, в том числе и потому, что среди таких заемщиков встречаются те, у которых возраст находится в диапазоне 20-30 лет. Однако есть нюансы:
1. дети могут быть приемными;
2. может быть указано общее количество несовершеннолетних детей заемщика независимо от количества браков/зарегистрированных отношений, так все они находятся на иждевении заемщика, а для банка критично общее количество иждивенцев заемщика.
3. в России зарегистрированы и даже внесены в книгу рекордов семьи с 20-ю детьми, что в целом подтверждает возможность существования таких семей.

Так как доля таких заемщиков из всего массива данных составляет всего 0,35% (76/21525), было решено оставить эти данные без изменения.

In [13]:
# строим сводную таблицу по количеству детей у заемщиков

data_pivot_chidren = data.pivot_table(index='new_children', columns='debt', 
                                     values='new_dob_years', aggfunc='count')
# display(data_pivot_chidren)

# display(data['new_children'].max()) # проверяем максимальное значение количества детей в одной семье (20)
# display(data[data['new_children'] >=10]) # проверяем количество заемщиков с максимальным количеством детей
# в одной семье (76)

# определяем общее количество заемщиков и среди них долю должников

data_pivot_chidren['total_clients'] = data_pivot_chidren[0]+data_pivot_chidren[1]
data_pivot_chidren['share_debt'] = data_pivot_chidren[1]/data_pivot_chidren['total_clients']

# переводим полученные данные о доле должников в проценты с помощью функции для строки

def percent(row):
    share = row['share_debt']
    if share > 0:
        return f'{share:.2%}'
    else:
        return share

data_pivot_chidren['share_debt_%'] = data_pivot_chidren.apply(percent, axis=1)
                                                          
display(data_pivot_chidren)

debt,0,1,total_clients,share_debt,share_debt_%
new_children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,13086.0,1063.0,14149.0,0.075129,7.51%
1,4420.0,445.0,4865.0,0.09147,9.15%
2,1861.0,194.0,2055.0,0.094404,9.44%
3,303.0,27.0,330.0,0.081818,8.18%
4,37.0,4.0,41.0,0.097561,9.76%
5,9.0,,,,
20,68.0,8.0,76.0,0.105263,10.53%


Общий тренд исследования зависимости между количеством детей у заемщика и возвратом кредита в срок позволяет утверждать, что чем меньше детей у заемщика, тем ниже вероятность наступления просрочки по кредиту. 

У заемщиков без детей явно выраженная более низкая доля должников по сравнению со всеми остальными категориями заемщиков. В целом, такая разница составляет от 0,67 до 3,02 процентных пункта, но при этом разница между бездетными заемщиками (7,51%) и заемщиками с одним ребенком  (9,15%) показывает резкий рост на 1,64 процентных пункта. 

Среди всех заемщиков с детьми наиболее распространёнными являются варианты с одним, двумя или тремя детьми. Из них
следует обратить внимание на семьи с тремя детьми, так как в этой категории заемщиков доля должников наименьшая - всего 8,18% , что на 0,97 процентных пункта ниже, чем у заемщиков с одним ребенком (9,15%) и на 1,26 процентных пункта ниже, чем у заемщиков с двумя детьми (9,44%). 
Соответственно именно в отношении заемщиков с тремя детьми динамика темпов роста доли должников значительно сокращается до 0,67 процентных пункта по сравнению с бездетными заемщиками.

По данным исследования шаг роста доли должников среди заемщиков с детьми в среднем составляет 0,60 процентных пункта, а медианое значение равно 0,77 процентных пункта.

#### Проверяем начилие зависимости между семейным положением и возвратом кредита в срок

In [14]:
# объединяем основной датасет data c дополнительным data_family_status

data_family = data.merge(data_family_status, on='family_status_id', how='left')

# меняем порядок колонок в созданном датасете data_family

data_family = data_family.loc[:, ['new_children', 'new_days_employed', 'new_dob_years', 'education_id', 
                    'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income_category',
                    'purpose_category']]

# display(data_family.head(20))

# строим сводную таблицу по семейному положению заемщиков

data_family_pivot = data_family.pivot_table(index=['family_status_id', 'family_status'], columns='debt', 
                                     values='new_dob_years', aggfunc='count')

data_family_pivot = data_family_pivot.sort_values('family_status_id')

# display(data_family_pivot)

# определяем общее количество заемщиков и среди них долю должников

data_family_pivot['total_clients'] = data_family_pivot[0]+data_family_pivot[1]
data_family_pivot['share_debt'] = data_family_pivot[1]/data_family_pivot['total_clients']

# переводим полученные данные о доле должников в проценты с помощью функции для строки

def percent(row):
    share = row['share_debt']
    if share > 0:
        return f'{share:.2%}'
    else:
        return share

data_family_pivot['share_debt_%'] = data_family_pivot.apply(percent, axis=1)
                                                          
display(data_family_pivot)

Unnamed: 0_level_0,debt,0,1,total_clients,share_debt,share_debt_%
family_status_id,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,женат / замужем,11449,931,12380,0.075202,7.52%
1,гражданский брак,3789,388,4177,0.09289,9.29%
2,вдовец / вдова,897,63,960,0.065625,6.56%
3,в разводе,1110,85,1195,0.07113,7.11%
4,не женат / не замужем,2539,274,2813,0.097405,9.74%


Все участвовавшие в исследование категории заемщиков можно разделить на 3 условных группы:
1. Одинокие, состоявшие в браке - в среднем доля должников составила 6,84%
2. Пары, состоящие в браке - в среднем доля должников составила  8,41%
3. Одинокие, не состоявшие в браке - доля должников составила 9,74%

Усредненный шаг роста доли должников среди групп заемщиков составляет 1,45 процентных пункта.

При этом анализ всех заемщиков в целом, независимо от групп, показывает, что наиболее предпочтительными клиентами для банка являются:
1. вдовы/вдовцы с долей должников всего 6,56%
2. разведенные заемщики с долей должников 7,11%
3. женатые/замужние пары с долей должников 7,52%

Наименее же привлекательными клиентами для банка являются две категории заемщиков:
1. лица, состоящие в гражданском браке с долей должников 9,29%
2. не женатые/не замужние заемщики с долей должников 9,74%

#### Проверяем наличие зависимости между уровнем дохода и возвратом кредита в срок

In [15]:
# создаем новый датасет data_income

data_income = data.loc[:, ['new_children', 'new_days_employed', 'new_dob_years', 'education_id', 
                    'family_status_id', 'gender', 'income_type', 'debt', 'total_income_category',
                    'purpose_category']]

# display(data_income.head(20))

# создаем функцию для строки с расшифровкой стоимостного диапазона категорий дохода

def income (row):
    total_income = row['total_income_category']
    
    if total_income == 'E':
        return 'менее 30 000'
    if total_income == 'D':
        return 'от 30 000 до 50 000'
    if total_income == 'C':
        return 'от 50 000 до 200 000'
    if total_income == 'B':
        return 'от 200 000 до 1 000 000'
    if total_income == 'A':
        return 'более 1 000 000'

# добавляем к датасету новую колонку с расшифровкой стоимостного диапазона категорий дохода
    
data_income['income'] = data_income.apply(income, axis=1)

# display(data_income.head())

# меняем порядок колонок в созданном датасете data_income


data_income = data_income.loc[:, ['new_children', 'new_days_employed', 'new_dob_years', 'education_id', 
                    'family_status_id', 'gender', 'income_type', 'debt', 'total_income_category',
                    'income', 'purpose_category']]

# display(data_income.head())

# строим сводную таблицу по доходу заемщиков

data_income_pivot = data_income.pivot_table(index=['total_income_category', 'income'],
                                    columns='debt', values='new_dob_years', aggfunc='count')

data_income_pivot = data_income_pivot.sort_values('total_income_category')

# display(data_income_pivot)

# определяем общее количество заемщиков и среди них долю должников

data_income_pivot['total_clients'] = data_income_pivot[0]+data_income_pivot[1]
data_income_pivot['share_debt'] = data_income_pivot[1]/data_income_pivot['total_clients']

# переводим полученные данные о доле должников в проценты с помощью функции для строки

def percent(row):
    share = row['share_debt']
    if share > 0:
        return f'{share:.2%}'
    else:
        return share

data_income_pivot['share_debt_%'] = data_income_pivot.apply(percent, axis=1)
                                                          
display(data_income_pivot)

Unnamed: 0_level_0,debt,0,1,total_clients,share_debt,share_debt_%
total_income_category,income,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,более 1 000 000,23,2,25,0.08,8.00%
B,от 200 000 до 1 000 000,4686,356,5042,0.070607,7.06%
C,от 50 000 до 200 000,14726,1360,16086,0.084546,8.45%
D,от 30 000 до 50 000,329,21,350,0.06,6.00%
E,менее 30 000,20,2,22,0.090909,9.09%


Общая выборка данных для исследования состоит из сведений о 21525 заемщиках. Среди них подавляющую долю (16086 человек или 68,41%) составляют заемщики с доходом категории С (от 50к до 200к). Доля должников в этой категории заемщиков равна 8,45%, то есть просрочка по сроку уплаты кредита возникает примерно у каждого 12-го заемщика из этой категории.

Наиболее полярные по доходам группы заемщиков А и Е с доходами более 1 млн (25 человек) и менее 30к (22 человека) соответственно показывают схожие результаты в отношении доли должников среди своих категорий: 8,00% для категории А и 9,09% для категории Е. 

Разница в доле должников между категориями заемщиков A и E составляет 1,09 процентных пункта, однако, в абсолютных величинах в обоих случаях должником становится каждый 10-й заемщик. Обобщенные данные так же показывают, что средняя доля должников среди этих категорий составляет 8,55%, что всего на 0,10 процентных пункта выше, чем среди должников категории С.

Несмотря на значительную разницу между количеством заемщиков в категории В (5042 человека) и категории D (350 человек) результаты в отношении доли должников среди них близки между собой: 7,06% для категории B и 6,00% для категории D. 

Разница в доле должников между категориями заемщиков B и D составляет 1,06 процентных пункта, что равно 2-м заемщикам, так как в категории B должником становится каждый 14-й заемщик, а в категории D - каждый 16-й.

Обобщенные данные категорий B и D так же показывают, что средняя доля должников среди этих категорий составляет 6,53%, что существенно ниже доли должников наибольшей категории заемщиков: на 1,92 процентных пункта.

По результатам исследования можно сделать вывод о том, что прямой зависимости между ростом доходов заемщиков и снижением вероятности возникновения задолженности по возврату кредита в срок нет. Однако определены категории заемщиков со значительно более низкой долей задолжеников среди всех исследуемых - это заемщики категорий B с доходом от 200к до 1 млн и заемщики категории D с доходом от 30к до 50к.

#### Проверяем влияние цели кредита его возврат в срок

In [16]:
# строим сводную таблицу по целям кредита заемщиков

data_purpose_pivot = data.pivot_table(index='purpose_category', columns='debt', 
                                     values='new_dob_years', aggfunc='count')

# display(data_purpose_pivot)

# определяем общее количество заемщиков и среди них долю должников

data_purpose_pivot['total_clients'] = data_purpose_pivot[0]+data_purpose_pivot[1]
data_purpose_pivot['share_debt'] = data_purpose_pivot[1]/data_purpose_pivot['total_clients']

# переводим полученные данные о доле должников в проценты с помощью функции для строки

def percent(row):
    share = row['share_debt']
    if share > 0:
        return f'{share:.2%}'
    else:
        return share

data_purpose_pivot['share_debt_%'] = data_purpose_pivot.apply(percent, axis=1)
                                                          
display(data_purpose_pivot)

debt,0,1,total_clients,share_debt,share_debt_%
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
операции с автомобилем,3912,403,4315,0.093395,9.34%
операции с недвижимостью,10058,782,10840,0.07214,7.21%
получение оборазования,3652,370,4022,0.091994,9.20%
проведение свадьбы,2162,186,2348,0.079216,7.92%


На первый взгляд распределение долей должников в зависимости от цели кредита выглядит достаточно понято, так как все показатели близки между собой:
1. Операции с недвижимостью - доля должников составила 7,21%
2. Проведение свадьбы - доля должников составила 7,92%
3. Получение образования - доля должников составила 9,20%
4. Операции с автомобилем - доля должников составила 9,34%

Наименее подверженные просрочке цели кредита - это операции с недвижимостью и проведение свадьбы, тогда как в отношении кредитов на образование и на операции с автомобилями вероятность просрочки резко возрастает от 1,99 до 2,13 процентных пунктов.

Исходя из выборки данных половину всех кредитов составляют займы для операций с недвижимостью: 10840 сделок из 21525 или 50,36%. Далее идут операции с автомобилями - 4315 сделок или 20,04%, затем получение образования - 4022 сделок или 18,69% и проведение свадьбы - 2348 сделок или 10,91%.

Если размер выборки операций с недвижимостью (около 10800) принять за 100% и масштабировать остальные выборки по целям кредита до её размеров для большей наглядности, то можно получить следующие данные:
1. Операции с автомобилем - увеличение в 2,5 раз до 10788 или до 23,35%
2. Получение образования - увеличение в 2,7 раз до 10859 или до 24,84%
3. Проведение свадьбы - увеличение в 4,6 раза до 10801 или до 36,43%

При масштабировании исходных данных становится очевидно, что наиболее редкая по данным выборки сделка с целью кредита проведение свадьбы при кратном увеличении числа сделок для банка становится наиболее рискованной, так как вероятность невозврата кредита в срок резко возрастает и может достигать 36,43%. Оставшиеся две категории целей кредита операции с недвижимостью и получение образования при увеличении числа сделок растут примерно одинаково в отношении друг друга и могут достигать 23,35% и 24,84% соответсвенно.

Таким образом, из предоставленных данных можно сделать вывод о том, что, в целом, зависимость между целью кредита и сроком возврата его в срок незначительная. Средний показатель доли должников равен 8,42%, а разница между целями кредита составляет  1-2 процентных пункта. 
Из всех представленных вариантов сделки с недвижимостью имеют наименьший показатель, равный 7,21%, и являются наиболее надежными для банка.
Кроме того, при оценке вероятности наступления просрочки в зависимости от цели кредита рекомендуется учитывать изменение результатов при масштабировании выборки.

### Шаг 2.7. Категоризация целей кредита.

выполнено в шаге 2.4, так как данные в колонке purpose были расценены мной как смысловые дубликаты.

### Ответы на вопросы.

##### Вопрос 1: Влияет ли семейное положение на факт погашения кредита в срок?

ответ дан выше

##### Вывод 2: Влияет ли количество детей клиента на факт погашения кредита в срок?

ответ дан выше

## Общий вывод:

Исследованаие показало, что и семейное положение клиентов, и наличие у них детей имеет непосредственное и значительное влияние на факт погашения кредита в срок. В целом наиболее ярко в исследовании выделяются следующие категории заемщиков:
1. Заемщики без детей - среди них доля должников составляет 7,51%, что является наименьшем показателем среди всех заемщиков.
2. Заемщики с тремя детьми - среди них доля должников составляет 8,18% и является наименьшей среди всех заемщиков с детьми.
3. Среди семейных заемщиков (в том числе бывших ранее семейными, то есть разведенными и вдовцами/вдовами)доля должников находится в диапазоне от 6,56% до 7,52%, тогда как среди одиноких заемщиков и лиц, состоящих в гражданском браке доля долдников составляет 9,74% и 9,29% соответственно.

Помимо факторов, указанных выше, в исследовании были рассмотрены такие факторы как уровень дохода заемщиков и цель кредита. 
В отношении доходов заемщиков можно сделать вывод о том, что прямой зависимости между этим фактором и снижением вероятности возникновения задолженности по возврату кредита в срок нет. Однако были определены категории заемщиков со значительно более низкой долей задолжеников среди всех исследуемых - это заемщики категорий B с доходом от 200к до 1 млн и заемщики категории D с доходом от 30к до 50к.

При анализе влияния такого фактора как цель кредита на срок возврата кредита можно сделать вывод о том, что, в целом, такая зависимость незначительная. Средний показатель доли должников равен 8,42%, а разница в долях должников в зависимости от цели кредита составляет 1-2 процентных пункта. Из всех представленных вариантов сделки с недвижимостью имеют наименьший показатель, равный 7,21%, и являются наиболее надежными для банка.
Кроме того, при оценке вероятности наступления просрочки в зависимости от цели кредита рекомендуется учитывать изменение результатов при масштабировании выборки.
