# Описание проекта:
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
# Ход работы:
 - Шаг 1. Откройте таблицу и изучите общую информацию о данных

 - Шаг 2. Предобработка данных
В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце вы обработаете на следующем этапе. Найдите другой столбец и заполните пропущенные значения в нём медианным значением:
опишите, какие пропущенные значения вы обнаружили;
проверьте, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;
приведите возможные причины появления пропусков в данных;
объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.
В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце days_employed. Для реальных данных это нормально. Обработайте значения в столбцах с аномалиями и опишите возможные причины появления таких данных. После обработки аномалий заполните пропуски в days_employed медианными значениями по этому столбцу.
Замените вещественный тип данных в столбце total_income на целочисленный, например, с помощью метода astype().
Если в данных присутствуют строки-дубликаты, удалите их. Также обработайте неявные дубликаты. Например, в столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите такие значения к одному регистру. После удаления дубликатов сделайте следующее:
поясните, как выбирали метод для поиска и удаления дубликатов в данных;
приведите возможные причины появления дубликатов.
Создайте два новых датафрейма, в которых:
каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.
Удалите из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. Новые датафреймы — это те самые «словари» (не путайте с одноимённой структурой данных в Python), к которым вы сможете обращаться по идентификатору.
На основании диапазонов, указанных ниже, создайте столбец total_income_category с категориями:
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.
Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.
Создайте функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
'операции с автомобилем',
'операции с недвижимостью',
'проведение свадьбы',
'получение образования'.
Например, если в столбце purpose находится подстрока 'на покупку автомобиля', то в столбце purpose_category должна появиться строка 'операции с автомобилем'.
Вы можете использовать собственную функцию и метод apply(). Изучите данные в столбце purpose и определите, какие подстроки помогут вам правильно определить категорию.
 - Шаг 3. Ответьте на вопросы
Ответы на вопросы можно разместить в ячейках тетрадок Jupyter Notebook с типом markdown.
Есть ли зависимость между количеством детей и возвратом кредита в срок?
Есть ли зависимость между семейным положением и возвратом кредита в срок?
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?
Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.
Шаг 4. Напишите общий вывод
Оформление: Задание выполните в Jupyter Notebook. Программный код заполните в ячейках типа code, текстовые пояснения — в ячейках типа markdown. Примените форматирование и заголовки.
 - Описание данных
children — количество детей в семье
days_employed — общий трудовой стаж в днях
dob_years — возраст клиента в годах
education — уровень образования клиента
education_id — идентификатор уровня образования
family_status — семейное положение
family_status_id — идентификатор семейного положения
gender — пол клиента
income_type — тип занятости
debt — имел ли задолженность по возврату кредитов
total_income — ежемесячный доход
purpose — цель получения кредита

# Исследование надежности заемщиков.

### Шаг 1. Обзор данных

In [1]:
import pandas as pd
import math
df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')
print (df.info())
print (df.head(20))
print (df.tail(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None
    children  days_employed  dob_years            education  education_id  \
0          1   -8437.673028         42               высшее             0   
1          1

1) после вызова df.info() видим, что в таблици 12 колонок и 21525 строк, колонки 'days_employed'
(стаж) и 'total_income'(доход) имеют явные пропуски.


2) чехарда в столбцах  'total_income'(доход) и 'days_employed'(стаж), это не целые(int) числа, а (float)
 в первом случае предположу, что из числовых выражений дат приёма были вычтены даты увольнения.
 во втором скорее всего ошибка переноса, просто превратим в целые числа.

3) 'id'-12 пенсионер, который хочет свадьбу - это достойно уважения, проверим долю подобных случаев, 
когда неясен стаж и доход. ПО ЗАДАНИЮ подставим медианные значения ибо их не проверить, а в 
 реальной жизни можно составить список и отправить надоработку, с конечной пометкой
call-центр

4) в столбце 'purpos' категорийные значения представлениы в свободном виде и мы это исправим.

5) также проверим столбцы с численными значениями на элементы с отрицательным значением.



### Шаг 2.1 Заполнение пропусков

In [2]:
df.isna().sum()# найдём явные пропуски...

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [3]:
df[df['days_employed'].isna()]# ... и посмотрим на этих гаждан.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [4]:
df['days_employed'] = df['days_employed'].fillna(value=df['days_employed'].median())
df['total_income'] = df['total_income'].fillna(value=df['total_income'].median())
print(df.isna().sum()) #тут и выведем повтоно проверку по пропускам избавимся от пропусков.

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


Задание: проверьте, какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

Ответ: в столбцах days_employed и total_income по 2174 пропуска, почти 1/10.


Задание: приведите возможные причины появления пропусков в данных.

Ответ: Вижу одну основную причину зачастую люди работают в "чёрную" соответственно получают нелегальный
 или полулегальный "серый" доход. Соответственно стаж у таких граждан не копится, а зачастую и трудовой
книжки нет. Номинально код выше это показывает - кредиты набрали не студенты-практиканты (на сколько я знаю кредит на учёбу
теперь можно брать). 


Задание: объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Ответ: если подставить среднне арифметическое (.mean()) код отработает с максимальными значениями, это всё равно, что считать 
среднюю з/п по стране с учетом получки Сечина и Миллера. Медиана находит среднюю величину, так если бы цифры выстроили по возрастанию.

### Шаг 2.2 Проверка данных на аномалии и исправления.

In [5]:
df = df.drop(['days_employed'], axis = 1) # удалим столбец стажа ('days_employed') т.к. его данные повреждены, а проверить их нет возможности.

In [6]:
#df['education'] = df['education'].str.lower()
#print (df.head(5))# переведём в нижний регистр колонку 'education' и проверим что получилось.

In [7]:
df['education'] = df['education'].str.lower()
df.head(5)# переведём в нижний регистр колонку 'education' и проверим что получилось.

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [8]:
# выведем уникальные значения по каждому столбцу с категорийными значениями.
print(df.children.unique())
print(df.dob_years.unique())# и хоть это не категория проверим на совершеннолетних.
print(df.education.unique())
print(df.education_id.unique())
print(df.family_status.unique())
print(df.family_status_id.unique())
print(df.gender.unique())
print(df.income_type.unique())
print(df.debt.unique())
print(df.purpose .unique())

[ 1  0  3  2 -1  4 20  5]
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']
[0 1 2 3 4]
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
[0 1 2 3 4]
['F' 'M' 'XNA']
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
[0 1]
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство ж

 'children' - '-1'ребёнок исправим по модулю. В 20 придётся поверить - возможно приёмные, а кредит по гос.программе. 
 'education' - тут в роде всё хорошо.
 'education_id' - при близком рассмотрении таблицы предположу, что это словарь, где значению 'education' соответствует       категория.
 'family_status' - тут всё хорошо, хоть позиция гражданского брака и вызывает сомнения, юридически силу имеет такая запись.
 'family_status_id' - тоже что и 'education_id' - словарь c 'family_status'.
 'gender' - 'XNA' - в раскладке 'qwerty', 'F' находится в треуггольнике из 3х этих букв, предположу, что неудачная манипуляция.
 'income_type' - тут в роде всё хорошо.
 'debt' - тут в роде всё хорошо.
 'purpose' - тут каша и мы её разребём.

In [9]:
#работа с 'children':
df['children'] = abs (df['children'])
print(df.children.unique()) # сразу проверим 

[ 1  0  3  2  4 20  5]


In [10]:
# Заменим 20 на 2 - скорее всего опечатка. 20 детей - это слишком!
df['children'] = df['children'].replace(20,2)
print(df.children.unique()) # сразу проверим 

[1 0 3 2 4 5]


In [11]:
#работа с 'gender':
df['gender'] = df['gender'].replace('XNA','F')
print(df.gender.unique())# сразу проверим.

['F' 'M']


### Шаг 2.3. Изменение типов данных.

In [12]:
df['total_income'] = df['total_income'].astype('int') # изменим...
df.info()
df.head(5)#...и проверим колонку дохода 'total_income'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   dob_years         21525 non-null  int64 
 2   education         21525 non-null  object
 3   education_id      21525 non-null  int64 
 4   family_status     21525 non-null  object
 5   family_status_id  21525 non-null  int64 
 6   gender            21525 non-null  object
 7   income_type       21525 non-null  object
 8   debt              21525 non-null  int64 
 9   total_income      21525 non-null  int32 
 10  purpose           21525 non-null  object
dtypes: int32(1), int64(5), object(5)
memory usage: 1.7+ MB


Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу



### Шаг 2.4. Удаление дубликатов.

In [13]:
df.duplicated().sum() #дубликаты.


71

In [14]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum() #удалим дубликаты.

0

Вопрос: Приведите возможные причины появления дубликатов.

Ответ: Наиболее вероятной причиной является повторные одобренные заявки. Данные обезличены, т.е. не просматриваются id заявителей
 и хоть мы и избавились от 71 дубликата, скорее всего в датафрейме ещё есть неявные дублирующие позиции. Например, хотел мужчина 
 купить машину и заявку ему одобрили, а через полгода он уже женился и у него родился ребёнок, он подаёт ещё одну заявку. 
 Стаж вырос и возраст уже скорее всего другой.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [15]:
education_dict = df[['education', 'education_id']] # создаём датафрейм по образованию.
education_dict = education_dict.drop_duplicates().reset_index(drop=True)# удвлим дубликаты, что бы просматривалось правило.
print (education_dict)            

             education  education_id
0               высшее             0
1              среднее             1
2  неоконченное высшее             2
3            начальное             3
4       ученая степень             4


In [16]:
family_status_dict = df[['family_status', 'family_status_id']] # создаём датафрейм так же как и в предыдущем случае .
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)# удвлим дубликаты, что бы просматривалось правило.
print (family_status_dict)            

           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  Не женат / не замужем                 4


In [17]:
df= df.drop(['family_status'], axis = 1)
df= df.drop(['education'], axis = 1)
df.info() #удалим и проверим столбцы, по заданию.
df.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   dob_years         21454 non-null  int64 
 2   education_id      21454 non-null  int64 
 3   family_status_id  21454 non-null  int64 
 4   gender            21454 non-null  object
 5   income_type       21454 non-null  object
 6   debt              21454 non-null  int64 
 7   total_income      21454 non-null  int32 
 8   purpose           21454 non-null  object
dtypes: int32(1), int64(5), object(3)
memory usage: 1.4+ MB


Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья


### Шаг 2.6.Категоризация дохода.

In [18]:
# На основании диапазонов, указанных ниже, создайте столбец total_income_category с категориями:
# 0–30000 — 'E';
# 30001–50000 — 'D';
# 50001–200000 — 'C';
# 200001–1000000 — 'B';
# 1000001 и выше — 'A'.
# Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'

def total_income_category(total_income):
    if total_income < 30000:
        return 'E'
    if 30001 <= total_income < 50000:
        return 'D'
    if 50001 <= total_income < 200000:
        return 'C'
    if 200001 <= total_income < 1000000:
        return 'B'
    return 'A'


df['total_income_category'] = df['total_income'].apply(total_income_category)

# проверим, что все ок
df['total_income_category'].value_counts() #проверим, что получилось


C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

Вывод: И хоть численность категории 'C' велика, з.п. от 50 до 200тыс очень размыта, а на втором месте категория 'B' с получками
 под 1 млн. Пирамиде Маслоу эта инфография точно не соответствует, зато точно передаёт потребительские свойства среднего класса.

### Шаг 2.7. Категоризация целей кредита.

In [19]:
#значения 'purpose'
print (df['purpose'].value_counts()) #составим список для переработки.

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

<div class="alert alert-block alert-info">Исправляю. Предыдущий код-писанину не удаляю, что бы было легче понять что было до исправления. </div>

In [20]:
def purpose_category (purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'недвиж' in purpose or 'жиль' in purpose:
        return 'операции с недвидимостью'
    if 'свад' in purpose:
        return 'проведение свадьбы'
    if 'образов' in purpose:
        return 'получение образования'
    return 'категория не определена'
df['purpose_category'] = df['purpose'].apply(purpose_category)
print (df['purpose_category'].value_counts()) # и ещё раз всё проверим


операции с недвидимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64


Вывод: Операций с недвижимостью больше всего.

In [21]:
# Для счета разделим семьи по группам наличия детей. 1 и 2 ребёнка достаточно частое явление, по уществующему Г.К. 
# семьи где больше 3х детей считаются многодетными
def children_category(children):
    if children == 1:
        return '1 ребенок'
    if children == 2:
        return '2 ребенка'
    if children >= 3:
        return 'Много детей'
    return 'Нет детей'

df['children_category'] = df['children'].apply(children_category)
print (df['children_category'].value_counts())

Нет детей      14091
1 ребенок       4855
2 ребенка       2128
Много детей      380
Name: children_category, dtype: int64


### Ответы на вопросы.

##### Вопрос 1:  Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
def children_quantity(index):
    return str(round((index.sum() / index.count()) * 100, 2)) + '%'
# построим сводную таблицу для ответа на вопрос
data_pivot = df.pivot_table(index=['children_category'], values=['debt'], aggfunc=['sum', 'count', children_quantity])
# сортируем, чтобы сразу видеть у кого ситуация лучше
data_pivot = data_pivot.sort_values(by=('children_quantity', 'debt'))
print (data_pivot)

                    sum  count children_quantity
                   debt   debt              debt
children_category                               
Нет детей          1063  14091             7.54%
Много детей          31    380             8.16%
1 ребенок           445   4855             9.17%
2 ребенка           202   2128             9.49%


##### Вывод 1:

В семьях где нет детей просроченных кредитов меньше и это логично.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [23]:
df.head(5)

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвидимостью,1 ребенок
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,1 ребенок
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвидимостью,Нет детей
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,Много детей
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,Нет детей


In [24]:

def make_proportion(index):
    return str(round((index.sum() / index.count()) * 100, 2)) + '%'
data_family = df.merge(family_status_dict, on='family_status_id', how='left')
# построим сводную таблицу с формулой.
debt_procent= data_family.pivot_table(index=['family_status'], values=['debt'], aggfunc=['sum', 'count', make_proportion])
# отсортируем
debt_procent = debt_procent.sort_values(by=('make_proportion', 'debt'))
print (debt_procent)


                       sum  count make_proportion
                      debt   debt            debt
family_status                                    
вдовец / вдова          63    959           6.57%
в разводе               85   1195           7.11%
женат / замужем        931  12339           7.55%
гражданский брак       388   4151           9.35%
Не женат / не замужем  274   2810           9.75%


<div class="alert alert-block alert-info"> V2 Исправляю. Предыдущий код не удаляю, так же как и в предыдущий раз. Сейчас метод подсчёта вернулся к прежнему состоянию и всё работает - просто дописал несколько строк. Остальные задания ниже переделаны на этот же манер.</div>

##### Вывод 2:

Интересная ситуация, но вообщем-то логичная, объясним логически:

1)Не женатые имеют самую большую просрочку, потому что нет поддержки. 

2)В гражданском браке, хоть и в браке кошелёк у каждого свой и кто-то 1 тащит этот тяжелый груз. 

3)У женатых хоть и есть поддержка, скорее всего есть дети у большинства и это накладывает свой отпечаток.

4)В разводе кредит берётся очень осознанно, скорее всего его покрывают алименты.

5)Что касается печальных случаев, в браке у пар существует общий капитал и если нас почил кто-то 1, другой волен распорядиться
"кассой" по своему усмотрению. 

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [27]:

def make_proportion(index):
    return str(round((index.sum() / index.count()) * 100, 2)) + '%'
# построим сводную таблицу с формулой
data_total_income = df.pivot_table(index=['total_income_category'], values=["debt"], aggfunc=['sum', 'count', make_proportion])
# сортируем
total_income_procent = data_total_income.sort_values(by=('make_proportion','debt'))
print (total_income_procent)


                        sum  count make_proportion
                       debt   debt            debt
total_income_category                             
D                        21    350            6.0%
B                       356   5041           7.06%
A                         2     25            8.0%
C                      1360  16016           8.49%
E                         2     22           9.09%


<div class="alert alert-block alert-info">Исправляю. Предыдущий код не удаляю, так же как и в предыдущий раз. Сейчас метод подсчёта немного другой, за то так точно не валится код.</div>

##### Вывод 3:

Из подсчетов видим, что хуже всего отдают кредиты граждане с доходом меньше 30тыс, только по Новосибирску, неофициальный
прожиточный минимум на конец 2021 года 28тыс. Граждане с доходом до 50 тыс лучше всего считают деньги и любят чувствовать себя
стабильно и уверенно  - по сути на таких понятие кредит и ориентирован. Дальше идут зажиточные крестьяне, похоже 
деньги они считают хуже всего, обеспеченные люди могут себе позволить.

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [28]:

def make_proportion(index):
    return str(round((index.sum() / index.count()) * 100, 2)) + '%'
# построим сводную таблицу с формулой
data_total_income = df.pivot_table(index=['purpose_category'], values=["debt"], aggfunc=['sum', 'count', make_proportion])
# сортируем
purpose_category_procent = data_total_income.sort_values(by=('make_proportion', 'debt'))
print (purpose_category_procent)


                          sum  count make_proportion
                         debt   debt            debt
purpose_category                                    
операции с недвидимостью  782  10811           7.23%
проведение свадьбы        186   2324            8.0%
получение образования     370   4013           9.22%
операции с автомобилем    403   4306           9.36%


<div class="alert alert-block alert-info">Исправляю. Предыдущий код не удаляю, так же как и в предыдущий раз. Сейчас метод подсчёта немного другой, за то так точно не валится код.</div>

##### Вывод 4:

   Лучше всего оплачивается ипатека - операции с недвижимостью, и оно в полне понятно ноша это долгая и с накопленным капиталлом 
тяжело прощаться. Такие вещи, как наследство и материнский капитал очень облегчают выплаты, гаждане охотно гасят кредиты, а 
банки на этом вполне себе зарабатывают. Хуже всего себя проявляют операции с автомобилями - думаю бизнесмены-таксисты портят 
статистику. С образованием тоже всё понятно - студентом быть тяжело. Свадьбы думаю объяснить тоже можно, иногда она не окупается, а иногда всё спускается на медовый месяц, радует что большинство ведут себя разумно - брак очень ответственная часть жизни.

## Общий вывод:

   Человека которого банк мог бы рассмотреть, как идеального клиента - это человек в браке, без детей и выплачивающий ипатеку.
Худшие варианты для банка это таксист с кредитом на автомобиль и студент - в полне может быть, что кто-то из этого большинства
одни и теже люди. Так же отметим, что хуже всего платят кредиты граждане с низким уровнем дохода.

   Среди всех подсчетов считаю неожиданным результат среди граждан из категории 'вдовец/вдова' - 6.57%, самый низкий процент по
просроченным кредитам.

Также хочу отметить группу риска:

Не женат / не замужем		9.75%

2 ребенка                   9.45%

операции с автомобилем      9.36%

гражданский брак	    	9.35%

получение образования       9.22%