# Исследование надежности заемщиков.

# Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

In [1]:
# импорт библиотек(и)
import pandas as pd

In [2]:
try:
    bank_data = pd.read_csv('C:/Users/Mike/Desktop/YP/Sprint3/data.csv')
except:
    bank_data = pd.read_csv('/datasets/data.csv')

bank_data.info()
bank_data.sample(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19368,0,-1190.364481,49,среднее,1,гражданский брак,1,M,компаньон,0,227807.836151,сыграть свадьбу
2092,0,,46,высшее,0,Не женат / не замужем,4,F,сотрудник,0,,строительство собственной недвижимости
3750,0,-5925.187717,47,среднее,1,женат / замужем,0,F,сотрудник,0,108584.918816,высшее образование
7001,0,-1994.488302,51,среднее,1,гражданский брак,1,F,сотрудник,0,151031.960071,получение образования
5878,2,-1536.208255,32,среднее,1,женат / замужем,0,F,компаньон,0,108739.18763,получение высшего образования
2268,2,-3986.090696,34,среднее,1,гражданский брак,1,F,сотрудник,0,83794.393738,профильное образование
8432,0,,67,среднее,1,женат / замужем,0,F,пенсионер,0,,образование
7296,0,-316.873466,22,неоконченное высшее,2,Не женат / не замужем,4,M,сотрудник,0,57509.527622,операции с недвижимостью
11094,0,-3506.868862,66,высшее,0,Не женат / не замужем,4,F,компаньон,0,183123.525033,операции со своей недвижимостью
9632,1,-4527.247243,45,среднее,1,гражданский брак,1,F,сотрудник,0,105975.080047,образование


### Шаг 2.1 Заполнение пропусков

In [3]:
# Есть пропуски? - Да
display(bank_data[bank_data['days_employed'].isna()])
display(bank_data[bank_data['total_income'].isna()])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


* В столбцах "days_employed" и "total_income" есть пропуски "NaN" (2174 в каждом столбце).


In [4]:
# Какая доля пропусков?
mis_val_d = 2174 / 21525
display(f'Доля пропусков: {mis_val_d:.1%}')

'Доля пропусков: 10.1%'

#### Проверил какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

#### Причина пропусков значений: человеческий фактор, ошибки переноса в ПО.

#### В данном примере заполнить пропуски лучше медианным значением.
#### Это связано с тем, что некоторые значения сильно выделяются среди большинства.

In [5]:
# Замена NaN на медианные значение в двух столбцах:
bank_data['days_employed'] = bank_data['days_employed'].fillna(bank_data.groupby('income_type')['days_employed'].transform("median"))
bank_data['total_income'] = bank_data['total_income'].fillna(bank_data.groupby('income_type')['total_income'].transform("median"))

#### Связь с 'income_type' прописана, значение заполнено точнее в каждой группе.

In [6]:
# проверим на пропуски среди всех данных:
bank_data.isna().mean()

children            0.0
days_employed       0.0
dob_years           0.0
education           0.0
education_id        0.0
family_status       0.0
family_status_id    0.0
gender              0.0
income_type         0.0
debt                0.0
total_income        0.0
purpose             0.0
dtype: float64

#### Пропусков не замечено.

### Шаг 2.2 Проверка данных на аномалии и исправления.

In [7]:
bank_data['children'] = bank_data['children'].replace(20, 2)
bank_data['children'] = bank_data['children'].replace(-1, 1)

* Столбец "children" значения "20", "-1". Исправлено.

In [8]:
bank_data['days_employed'] = abs(bank_data['days_employed'])

* Столбец "days_employed" присутствуют отрицательные значения. Заменены на положительные.

In [9]:
inc_type_gr = bank_data.groupby('income_type')['dob_years'].median()

bank_data.loc[(bank_data['income_type'] == 'безработный') & (bank_data['dob_years'] == 0), 'dob_years'] = 38
bank_data.loc[(bank_data['income_type'] == 'в декрете') & (bank_data['dob_years'] == 0), 'dob_years'] = 39
bank_data.loc[(bank_data['income_type'] == 'госслужащий') & (bank_data['dob_years'] == 0), 'dob_years'] = 40
bank_data.loc[(bank_data['income_type'] == 'компаньон') & (bank_data['dob_years'] == 0), 'dob_years'] = 39
bank_data.loc[(bank_data['income_type'] == 'пенсионер') & (bank_data['dob_years'] == 0), 'dob_years'] = 60
bank_data.loc[(bank_data['income_type'] == 'предприниматель') & (bank_data['dob_years'] == 0), 'dob_years'] = 42
bank_data.loc[(bank_data['income_type'] == 'сотрудник') & (bank_data['dob_years'] == 0), 'dob_years'] = 39
bank_data.loc[(bank_data['income_type'] == 'студент') & (bank_data['dob_years'] == 0), 'dob_years'] = 22

* Столбец "dob_years". 101 пропущенное(0) значение. Исправлено, задействован столбец income_type.


In [10]:
display(bank_data['days_employed'].min())
display(bank_data['days_employed'].max())
bank_data['days_employed'] = bank_data['days_employed'] / 24

24.14163324048118

401755.40047533

* !Бонусом, столбец "dob_years", есть шестизначные значения... Из них видно что кто-то работал сотнями лет? Явный артефакт.
* Исправлено.

In [11]:
bank_data = bank_data.loc[bank_data['gender'] != 'XNA']

* Столбец "gender". Есть значение 'XNA'. Исключил его из выборки.

* Столбец "purpose" много неявных дублей. Нужно привести к одинаковым категориям. Будет исправлено дальше.


In [12]:
display(bank_data.sample(15))
bank_data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4060,0,14134.236186,52,среднее,1,Не женат / не замужем,4,F,пенсионер,0,118599.872418,получение образования
1357,0,46.82003,32,высшее,0,Не женат / не замужем,4,M,сотрудник,0,131776.782925,строительство собственной недвижимости
19780,2,54.15405,40,высшее,0,в разводе,3,F,компаньон,0,110241.61691,образование
9943,0,38.642553,46,среднее,1,женат / замужем,0,F,сотрудник,0,44289.171628,покупка недвижимости
16195,0,35.880181,43,среднее,1,гражданский брак,1,F,сотрудник,0,66175.832104,свой автомобиль
6717,0,5.791336,24,среднее,1,женат / замужем,0,M,сотрудник,0,143907.938046,недвижимость
21371,0,15232.601738,58,среднее,1,женат / замужем,0,F,пенсионер,0,99249.076469,операции с жильем
10820,0,35.140352,41,высшее,0,Не женат / не замужем,4,M,сотрудник,0,260650.390719,на покупку подержанного автомобиля
21506,1,64.843746,33,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,145541.99332,свадьба
12496,0,126.176361,49,высшее,0,женат / замужем,0,M,сотрудник,1,162161.177474,строительство жилой недвижимости


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     21524 non-null  float64
 2   dob_years         21524 non-null  int64  
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21524 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


#### Уделено вниманий аномальным значениям.

### Шаг 2.3. Изменение типов данных.

In [13]:
bank_data['total_income'] = bank_data['total_income'].astype('int')
bank_data['days_employed'] = bank_data['days_employed'].astype('int')

* Заменим тип данных у 'total_income' и 'days_employed':
* В ТЗ не указано про 'days_employed', но по логике считается день полностью отработанным, а не на какую-то его часть ;)

In [14]:
# Что в итоге?
bank_data.info()
bank_data.sample(15)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21524 non-null  int64 
 1   days_employed     21524 non-null  int64 
 2   dob_years         21524 non-null  int64 
 3   education         21524 non-null  object
 4   education_id      21524 non-null  int64 
 5   family_status     21524 non-null  object
 6   family_status_id  21524 non-null  int64 
 7   gender            21524 non-null  object
 8   income_type       21524 non-null  object
 9   debt              21524 non-null  int64 
 10  total_income      21524 non-null  int64 
 11  purpose           21524 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6351,0,66,39,СРЕДНЕЕ,1,женат / замужем,0,F,сотрудник,0,123145,покупка жилья для сдачи
1164,0,456,57,среднее,1,гражданский брак,1,F,госслужащий,0,153017,ремонт жилью
14651,0,65,23,высшее,0,гражданский брак,1,F,сотрудник,0,142594,ремонт жилью
13887,0,14924,62,среднее,1,женат / замужем,0,M,пенсионер,0,158709,на покупку автомобиля
18193,1,7,28,среднее,1,женат / замужем,0,M,компаньон,0,73060,профильное образование
7085,1,91,32,среднее,1,женат / замужем,0,F,сотрудник,0,148367,покупка жилья
586,0,22,35,высшее,0,женат / замужем,0,F,сотрудник,0,196808,строительство недвижимости
4274,0,165,46,СРЕДНЕЕ,1,женат / замужем,0,M,компаньон,1,184625,автомобили
14771,1,159,54,среднее,1,в разводе,3,F,сотрудник,0,138783,свой автомобиль
14839,1,116,42,высшее,0,женат / замужем,0,F,компаньон,0,270859,на покупку подержанного автомобиля


* А вот и видны изменения.

### Шаг 2.4. Удаление дубликатов.

In [15]:
# неявные дубликаты? Убрал
bank_data['education'] = bank_data['education'].str.lower()

* Столбец "education". Присутствуют неявные дубликаты. Разные регистры. Исправлено.

In [16]:

display(bank_data.duplicated().sum())
bank_data = bank_data.drop_duplicates().reset_index(drop=True)

71

* Явные дубликаты удалены, индексы восстановлены.

In [17]:
display(bank_data.sample(10))
bank_data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21204,1,78,47,среднее,1,гражданский брак,1,M,компаньон,1,277862,сыграть свадьбу
11608,0,91,37,среднее,1,женат / замужем,0,M,компаньон,0,197217,жилье
16904,0,14225,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,281086,получение высшего образования
2137,0,292,49,среднее,1,женат / замужем,0,F,госслужащий,0,320370,операции с недвижимостью
11601,0,21,57,высшее,0,женат / замужем,0,M,сотрудник,0,258177,покупка коммерческой недвижимости
18459,1,303,39,среднее,1,Не женат / не замужем,4,M,компаньон,0,133155,высшее образование
7568,0,64,51,высшее,0,женат / замужем,0,F,компаньон,0,172357,покупка коммерческой недвижимости
21012,1,142,36,высшее,0,гражданский брак,1,F,сотрудник,0,304224,покупка жилья для сдачи
16572,0,29,49,высшее,0,женат / замужем,0,M,сотрудник,0,280333,получение высшего образования
2535,0,71,53,среднее,1,женат / замужем,0,M,сотрудник,1,144991,дополнительное образование


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21453 non-null  int64 
 1   days_employed     21453 non-null  int64 
 2   dob_years         21453 non-null  int64 
 3   education         21453 non-null  object
 4   education_id      21453 non-null  int64 
 5   family_status     21453 non-null  object
 6   family_status_id  21453 non-null  int64 
 7   gender            21453 non-null  object
 8   income_type       21453 non-null  object
 9   debt              21453 non-null  int64 
 10  total_income      21453 non-null  int64 
 11  purpose           21453 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


* Выбор метода поиска и удаления(изменения) дубликатов основывался на анализе данных.
* К явным дубликатам свой подход, к неявным этот подход не применялся, так как они бы не нашлись. 
* Неявные приводились к одному регистру и всё, вопрос решён.
* Причины появления дублей: человеческий фактор, ПО.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [18]:
#Создание 2 новых датафреймов:
data_pivot1 = bank_data.pivot_table(index=['debt'], columns='education', values = 'education_id', aggfunc='count')
data_pivot1 = data_pivot1.fillna(0)
display(data_pivot1)

data_pivot2 = bank_data.pivot_table(index=['debt'], columns='family_status', values = 'family_status_id', aggfunc='count')
display(data_pivot2)

education,высшее,начальное,неоконченное высшее,среднее,ученая степень
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,4972.0,251.0,675.0,13808.0,6.0
1,278.0,31.0,68.0,1364.0,0.0


family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2536,1110,896,3762,11408
1,274,85,63,388,931


* Созданы два новых датафрейма, в которых:
** 1)каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
** 2)каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.

In [19]:
# Оставим нужные столбцы
del bank_data['education']
#del bank_data['family_status']
bank_data.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,351,42,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,167,36,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,234,33,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,171,32,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,38,27,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,119,43,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,6,50,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,288,35,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,91,41,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


* Удалены из исходного датафрейма столбцы education и family_status,
* Оставлены только их идентификаторы: education_id и family_status_id. 
* P.S. Новые датафреймы — это те самые «словари» (не путайте с одноимённой структурой данных в Python), к которым вы сможете обращаться по идентификатору.

### Шаг 2.6. Категоризация дохода.

In [20]:
# Создадим функцию для формирования нового столбца:
def total_income_category(total_income):
    """
    total_income_category с категориями:
    Возвращает группу по значению  total_income, используя правила:
    - 0–30000 — 'E';
    - 30001–50000 — 'D';
    - 50001–200000 — 'C';
    - 200001–1000000 — 'B';
    - 1000001 и выше — 'A'.
    """
    #tot_inc = bank_data['total_income']
    
    if 0 <= total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    if 1000001 <= total_income:
        return 'A'

* Функция готова, осталось её применить!

In [21]:
# применим функцию на новом столбце
bank_data['total_income_category'] = bank_data['total_income'].apply(total_income_category)
bank_data.sample(15)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
9363,0,64,38,0,гражданский брак,1,F,компаньон,0,172357,на проведение свадьбы,C
19353,1,61,44,1,гражданский брак,1,M,компаньон,1,302680,на проведение свадьбы,B
10523,0,14159,56,1,гражданский брак,1,F,пенсионер,0,68653,на проведение свадьбы,C
1553,0,2,21,2,Не женат / не замужем,4,F,сотрудник,0,97947,покупка жилья,C
18132,0,16248,65,2,гражданский брак,1,M,пенсионер,0,122706,покупка коммерческой недвижимости,C
10596,1,14514,52,1,женат / замужем,0,F,пенсионер,0,87419,покупка своего жилья,C
511,0,48,50,1,гражданский брак,1,F,компаньон,0,111119,автомобиль,C
14539,0,64,48,1,женат / замужем,0,M,компаньон,1,172357,строительство жилой недвижимости,C
11243,2,182,47,1,женат / замужем,0,M,сотрудник,0,218970,на покупку своего автомобиля,B
19485,0,113,47,0,женат / замужем,0,M,компаньон,0,347388,на покупку автомобиля,B


* Столбец явился на свет. Тому пример из 15 случайных строк <i>BIGDATA</i>.

### Шаг 2.7. Категоризация целей кредита.

In [22]:
# Поехали!
# Функция для нужнд формирования столбца:
def purpose_category(purpose):
    if 'автомобил' in purpose:
        return 'операции с автомобилем'
    if 'недвижимост' in purpose:
        return 'операции с недвижимостью'
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образован' in purpose:
        return 'получение образования'

* Функция готова, применим её ниже!

In [23]:
# 7ое чудо света, явись!
bank_data['purpose_category'] = bank_data['purpose'].apply(purpose_category)

display(bank_data.sample(15))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
3395,0,8,26,1,женат / замужем,0,F,компаньон,0,84150,на покупку подержанного автомобиля,C,операции с автомобилем
8399,0,64,55,1,женат / замужем,0,F,компаньон,0,172357,свой автомобиль,C,операции с автомобилем
9223,0,29,61,0,женат / замужем,0,M,сотрудник,1,150941,недвижимость,C,операции с недвижимостью
6922,2,80,29,1,женат / замужем,0,F,компаньон,0,87426,получение дополнительного образования,C,получение образования
5805,2,65,39,1,женат / замужем,0,M,сотрудник,0,142594,покупка жилья для семьи,C,операции с недвижимостью
15341,1,77,26,1,женат / замужем,0,M,госслужащий,0,122201,операции со своей недвижимостью,C,операции с недвижимостью
13047,0,16586,63,1,гражданский брак,1,F,пенсионер,0,206059,сыграть свадьбу,B,проведение свадьбы
8233,0,14233,67,1,женат / замужем,0,M,пенсионер,0,75126,ремонт жилью,C,операции с недвижимостью
1267,0,92,28,0,Не женат / не замужем,4,M,сотрудник,0,204709,ремонт жилью,B,операции с недвижимостью
10478,0,32,41,1,гражданский брак,1,M,сотрудник,0,166520,дополнительное образование,C,получение образования


### Долго ждать не пришлось. Новый столбец готов!

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [24]:
# построение сводной таблицы:
data_pivot3 = bank_data.pivot_table(index=['debt'], columns='children', values = 'family_status_id', aggfunc='count')

* Таблица готова

In [25]:
# проверка
display(data_pivot3.isna().sum())
data_pivot3 = data_pivot3.fillna(0)
display(data_pivot3)

children
0    0
1    0
2    0
3    0
4    0
5    1
dtype: int64

children,0,1,2,3,4,5
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,13027.0,4410.0,1926.0,303.0,37.0,9.0
1,1063.0,445.0,202.0,27.0,4.0,0.0


* данные готовы для работы с ними.

In [26]:
test_pivot1 = bank_data.pivot_table(index=['children'], values='debt', aggfunc='mean')

display(test_pivot1)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075444
1,0.091658
2,0.094925
3,0.081818
4,0.097561
5,0.0


In [27]:
display(f'Вероятность невозврата кредита 7.54%, когда нет детей')

'Вероятность невозврата кредита 7.54%, когда нет детей'

In [28]:
display(f'Вероятность невозврата кредита 9.16%, когда 1 ребенок')

'Вероятность невозврата кредита 9.16%, когда 1 ребенок'

In [29]:
display(f'Вероятность невозврата кредита 9.49%, когда 2 ребенка')

'Вероятность невозврата кредита 9.49%, когда 2 ребенка'

In [30]:
display(f'Вероятность невозврата кредита 8.18%, когда 3 ребенка')

'Вероятность невозврата кредита 8.18%, когда 3 ребенка'

In [31]:
display(f'Вероятность невозврата кредита 9.75%, когда 4 ребенка')

'Вероятность невозврата кредита 9.75%, когда 4 ребенка'

In [32]:
display(f'Вероятность невозврата кредита 0%, когда 5 детей')

'Вероятность невозврата кредита 0%, когда 5 детей'

##### Вывод 1:

В среднем прослеживается тенденция по увеличению возможности невозрата кредита. Связь в количестве детей и возврате кредита прослеживается.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [33]:
test_pivot2 = bank_data.pivot_table(index=['family_status_id'], values='debt', aggfunc='mean')

display(test_pivot2)

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075452
1,0.093494
2,0.065693
3,0.07113
4,0.097509


In [34]:
display(f'Вероятность невозврата кредита в статусе "Не женат / не замужем" - 9.75%')

'Вероятность невозврата кредита в статусе "Не женат / не замужем" - 9.75%'

In [35]:
display(f'Вероятность невозврата кредита в статусе "в разводе" - 7.11%')

'Вероятность невозврата кредита в статусе "в разводе" - 7.11%'

In [36]:
display(f'Вероятность невозврата кредита в статусе "вдовец / вдова" - 6.56%')

'Вероятность невозврата кредита в статусе "вдовец / вдова" - 6.56%'

In [37]:
display(f'Вероятность невозврата кредита в статусе "гражданский брак" - 9.34%')

'Вероятность невозврата кредита в статусе "гражданский брак" - 9.34%'

In [38]:
display(f'Вероятность невозврата кредита в статусе "женат / замужем" - 7.54%')

'Вероятность невозврата кредита в статусе "женат / замужем" - 7.54%'

##### Вывод 2:

В статусах "Не женат / не замужем" и "гражданский брак" высоки риски по невозврату кредита.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [39]:
# функция для столбца:
def income_group(row):
    
    income = row['total_income']

    if income <= 55000:
        return '0-55 тыс.'
    
    if income <= 120000 and income > 55000:
        return '55-120 тыс.'
    
    if income <= 200000 and income > 120000:
        return '120-200 тыс.'
    
    if income >= 200000:
        return '> 200 тыс.'

* Функция готова для работы.

In [40]:
bank_data['income_gr'] = bank_data.apply(income_group, axis=1)

* Применение функции для нового столбца.

In [41]:
test_pivot3 = bank_data.pivot_table(index=['income_gr'], values='debt', aggfunc='mean')

display(test_pivot3)

Unnamed: 0_level_0,debt
income_gr,Unnamed: 1_level_1
0-55 тыс.,0.060345
120-200 тыс.,0.087047
55-120 тыс.,0.082845
> 200 тыс.,0.070667


In [42]:
display(f'Вероятность невозврата кредита при доходе "0-55 тыс." - 6.0%')

'Вероятность невозврата кредита при доходе "0-55 тыс." - 6.0%'

In [43]:
display(f'Вероятность невозврата кредита при доходе "55-120 тыс." - 8.28%')

'Вероятность невозврата кредита при доходе "55-120 тыс." - 8.28%'

In [44]:
display(f'Вероятность невозврата кредита при доходе "120-200 тыс." - 8.7%')

'Вероятность невозврата кредита при доходе "120-200 тыс." - 8.7%'

In [45]:
display(f'Вероятность невозврата кредита при доходе "> 200 тыс." - 7.1%')

'Вероятность невозврата кредита при доходе "> 200 тыс." - 7.1%'

##### Вывод 3:

Люди с меньшим доходом ответственнее подходят к своим обязательствам перед банком.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [46]:
test_pivot4 = bank_data.pivot_table(index=['purpose_category'], values='debt', aggfunc='mean')

display(test_pivot4)

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,0.09359
операции с недвижимостью,0.07234
получение образования,0.0922
проведение свадьбы,0.080034


In [47]:
display(f'Вероятность невозврата кредита в статусе  по "операции с автомобилем" - 9.35%')

'Вероятность невозврата кредита в статусе  по "операции с автомобилем" - 9.35%'

In [48]:
display(f'Вероятность невозврата кредита в статусе по "операции с недвижимостью" - 7.23%')

'Вероятность невозврата кредита в статусе по "операции с недвижимостью" - 7.23%'

In [49]:
display(f'Вероятность невозврата кредита в статусе  по "получение образования" - 9.22%')

'Вероятность невозврата кредита в статусе  по "получение образования" - 9.22%'

In [50]:
display(f'Вероятность невозврата кредита в статусе по "проведение свадьбы" - 8.0%')

'Вероятность невозврата кредита в статусе по "проведение свадьбы" - 8.0%'

##### Вывод 4:

Менее рисковые кредиты : по операциям с недвижимостью и на проведение свадьбы.

## Общий вывод:

Была проделана большая работа. Выглядит пока не очень, но работает) 
По делу:
    Данные были подготовлены для работы и произведен их анализ. По интересующим вопросам выше были озвучены ответы.
Для себя же остался один вопрос, как мне кажется, нигде не было упора на его решение. Это на аномалию в данных по количеству отработанных дней (сотни лет). Надеюсь в дальнейшим задания будут более детально проработанными и с возможностью отхождения от ТЗ.
    Честно говоря, ожидал от вывода значительных рассхождений, а вышло иначе.

Описание клиента склонного к просрочке:
* 1. Четверо детей;
* 2. Семейное положение - "не женат / не замужем";
* 3. Доход "120-200 тыс.";
* 4. Цель кредита - "операции с автомобилем".