# Проект: Исследование надежности заемщиков

**Описание исследования:**

Заказчиком проекта является кредитный отдел банка. Необходимо разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

**Цель исследования:**

Провести анализ данных для последующего построения модели кредитного скоринга.

**Задачи исследования:**
* Изучить общую информацию о данных
* Провести предобработку данных
* Ответить на поставленные вопросы 
* Сформулировать выводы


**Исходные данные:**

Статистика о платежеспособности клиентов, предоставленная кредитным отделом банка. В нашем распоряжении следующие сведения: 

*'children'* - количество детей в семье

*'days_employed'* - общий трудвой стаж в днях

*'dob_years'* - возраст клиента

*'education'* - уровень образования

*'education_id'* - идентификатор уровня образования

*'family_status'* - семейное положение 

*'family_status_id'* - идентификатор семейного положения

*'gender'* - пол клиента

*'income_type'* - тип занятости 

*'debt'* - имел ли зажолженность по возврату кредитов

*'total_income'* - ежемесячный доход

*'purpose'* - цель получения кредита

**Разделим исследование на части**

***Часть 1. Изучение общей информации:***
* [1. Изученеие файлов с данными, получение общей информации, загрузка библиотек.](#step1)

***Часть 2. Подготовка данных:***
* [1. Нахождение и ликвидация пропусков и аномалий](#step2_begin)
* [2. Приведение данных к нужным типам.](#step2_types)
* [3. Поиск и удаление дубликатов](#step2_duble)
* [4. Категоризация данных](#step2_columns)

***Часть 3. Ответы на вопросы:***
* [1. Есть ли зависимость между количеством детей и возвратом кредита в срок?](#step3_1)
* [2. Есть ли зависимость между семейным положением и возвратом кредита в срок?](#step3_2)
* [3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#step3_3)
* [4. Как разные цели кредита влияют на его возврат в срок?](#step3_4)

***Часть 4. Общий вывод:***
* [Вывод](#step4)

<a id = 'step1'></a>
# Шаг 1. Открываем таблицу, изучаем общую информацию о данных

In [1]:
#импортируем нужные библиотеки
import pandas as pd
import os

In [2]:
#считываем файл

if os.path.exists('data.csv'):
    data = pd.read_csv('data.csv') # локальный путь
else:
    data = pd.read_csv('/datasets/data.csv') # путь указанный в проекте 

In [3]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data[(data['dob_years']>40) &(data['gender']=='F')]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.971920,операции с жильем
13,0,-1846.641941,54,неоконченное высшее,2,женат / замужем,0,F,сотрудник,0,130458.228857,приобретение автомобиля
14,0,-1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127.911772,покупка жилой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем


In [5]:
#общая информация о файле
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Называния столбцов выгялдят корректно.</b></font><br>

In [6]:
 data.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

<a id = 'step2_begin'></a>
# Шаг 2. Предобработка данных

In [7]:
#проверяем данные на наличие пропусков
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Значения пропущены в столбцах:</b></font><br>
<font color='black'><b>days_employed - общий трудовой стаж;</b></font><br>
<font color='black'><b>total_income  - ежемесячный доход.</b></font><br>

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Aномалии<br><b>В задании упоминается, что в даннных могут встречатся аномалии, например, отриательное количество дней трудового стажа, что мы и наблюдаем в столбце 'days_employed'. К тому же, отрицательных значений большая часть - 15906. Всего строк - 21525.</b></font><br> 

In [8]:
negative = data[data['days_employed'] < 0]['children'].count()
negative 

15906

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Возможно, "минус" возник из-за некорректно прописаной формулы подсчета количесвта дней в Excel'e. Аргументом в пользу неверного расчета дней является так же и то, что при переводе количества дней в количество лет мы получаем стаж работы, продолжительность которого заставляет задуматься, является ли вообще данный столбец хоть сколько-нибудь полезным.</b></font><br> 

<font color='black'><b>Так, максимальный стаж работы равен 1100 годам:</b></font><br> 

In [9]:
max_days_in_year = data['days_employed'].max() / 365
max_days_in_year

1100.6997273296713

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Минимальный стаж работы равен -50 годам:</b></font><br> 

In [10]:
min_days_in_year = data['days_employed'].min() / 365
min_days_in_year

-50.38068465909146

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b> Допустим, что значение, которое при переводе в года дает нам 1100 лет, - это выброс, а "минус" был поставлен случайно при заполнении данных (заполнением могли заниматься разные люди, возможно, кто-то ставил "тире" перед значением), и его можно игнорировать. Тогда медианным значением стажа работы в годах является 6 лет, что похоже на правду.</b></font><br> 
    
<font color='black'><b> Добавлю, что при таком диапазоне данных использовать mean() нецелесообразно, т.к. "выбросы" сильно влияют на значение выборочного среднего, смещая его в свою строну.</b></font><br> 

In [11]:
data['days_employed'].abs().median() / 365

6.0115631969279315

In [12]:
data['days_employed'].abs().mean() / 365 

183.32802440225305

<font color='Blue' size = +1><b>Комментарий </b></font><br>

<font color='black'><b> Еще одна деталь: количество пропущенных значений в столбцах 'days_employed' и  'total_income' одинаково. К тому же, если имеется пропуск в столбце со стажем работы, то будет пропуск и в столбце с ежемесячным доходом.</b></font><br> 

<font color='black'><b>Здесь же проверяем долю пропущенных значений в каждом из столбцов. Она равна 10%, что не так уж и мало.</b></font><br> 

In [13]:
data_1 = data[data['days_employed'].isna()]

In [14]:
data_2 = data[data['total_income'].isna()]

In [15]:
#проверяем, получаем ли в итоге один и тот же датафрэйм
print(data_1.equals(data_2))

True


In [16]:
#доля пропусков
data['days_employed'].isna().sum() / data.shape[0] 

0.10099883855981417

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b> На данном этапе можно заменить пропуски в столбце 'days_employed' медианным значением, заменив предварительно отрицательные значения на положительные (закомментированный код). Но я не вижу, как этот столбец с сомнительными данными может помочь в дальнейшем, поэтому считаю, что его можно удалить.</b></font><br>

In [17]:
data = data.drop(columns = ['days_employed'],axis = 1)

In [18]:
#функция, заполняющая пропуски в столбце медианным значением

def fill_by_median(group):
    group = group.fillna(group.median())
    return group

In [19]:
#заполняем пропуски медианным значением в столбце 'total_income'
data['total_income'] = data.groupby('income_type')['total_income'].apply(fill_by_median)

In [20]:
#убедимся, что избавились от пропусков
data.isna().sum()

children            0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

<a id = 'step2_types'></a>

In [21]:
#меняем вещестенный тип данных в столбце 'total_income' на целочисленный
data['total_income'] = data['total_income'].astype('int')

In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   dob_years         21525 non-null  int64 
 2   education         21525 non-null  object
 3   education_id      21525 non-null  int64 
 4   family_status     21525 non-null  object
 5   family_status_id  21525 non-null  int64 
 6   gender            21525 non-null  object
 7   income_type       21525 non-null  object
 8   debt              21525 non-null  int64 
 9   total_income      21525 non-null  int64 
 10  purpose           21525 non-null  object
dtypes: int64(6), object(5)
memory usage: 1.8+ MB


<a id = 'step2_duble'></a>

In [23]:
#напишем цикл, который будет анализировать все столбцы и подсчитывать частоту появляения 
#уникального значения в каждом из них
columns = data.columns
for column in columns:
    print(data[column].value_counts())
    print()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее    

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Самый простой вывод на данном этапе - перевести в нижний регстр все значения в столбце "education". То же самое  проделаем и со столбцом "family_status" - регистр в этом столбце не должен повлиять на анлиз данных, но сдеаем это для единообразия в датафрейме.</b></font><br>

In [24]:
#переведем в нижний регистр столбец 'education'
data['education'] = data['education'].str.lower()

In [25]:
#переведем в нижний регистр столбец 'family_status'
data['family_status'] = data['family_status'].str.lower()

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b> Столбец "children".Бросаются в глаза значения количества детей 20 и -1. C "минусом" перед 1 всё проще - скорее всего, в строке опечатка, а количестов детей равно 1. Что касается строк с 20 детьми - здесь либо также опечатка, и количество детей на самом деле равно 2, либо есть кто-то один очень многодетный, а остальные строки - это дубликаты. При выводе данных становится понятно, что, вероятнее всего, это просто ошибка при заполненииданных или выгрузке данных, поэтому заменим значения в столбце "cgildren" с -1 на 1, а с 20 на 2.</b></font><br>

In [26]:
data['children'] = data['children'].abs().replace(20,2)
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b> Перейдем к столбцу с возрастом клиентов "dob_years". 101 клиент имеет возраст равный 0. При этом, если мы посмотрим на данные, здесь встречаются вполне платежеспособные клиенты с различными семейными статусами и количесвтом детей. Можно заменить значение 0 на медианное значение по возрасту, т.к. нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок, а не его возраст.</b></font><br>

In [27]:
data[data['dob_years'] == 0]

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,71291,автомобиль
149,0,0,среднее,1,в разводе,3,F,сотрудник,0,70176,операции с жильем
270,3,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166,ремонт жилью
578,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620,строительство собственной недвижимости
1040,0,0,высшее,0,в разводе,3,F,компаньон,0,303994,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...
19829,0,0,среднее,1,женат / замужем,0,F,сотрудник,0,142594,жилье
20462,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193,покупка своего жилья
20577,0,0,среднее,1,не женат / не замужем,4,F,пенсионер,0,129788,недвижимость
21179,2,0,высшее,0,женат / замужем,0,M,компаньон,0,240702,строительство жилой недвижимости


In [28]:
dob_years_median = data['dob_years'].median()
dob_years_median 

42.0

In [29]:
data['dob_years'] = data['dob_years'].replace(0,dob_years_median)

<font color='Blue' size = +1><b>Комментарий</b></font><br>
<font color='black'><b>Дубли могли появится из-за человеческого фактора. К примеру, первый раз клиент пытался провести денежные операции в кредитном отделе банка онлайн через приложение, но затем обратился в банк лично.</b></font><br> 

<font color='black'><b>Неявные дубликаты мы уже отыскали с помощью метода 'value_counts()', примененнный в цикле ко всем столбцам датафрейма. Так мы обнаружили, что одни и те же наименования в столбце 'education' были записаны заглавными и строчными буквами.Это было легко исправить с помощью метода 'str.lower()'.</b></font><br>

<font color='black'><b>Теперь перйдем к явным дубликатам. Идентифицируем их, применив метод 'duplicated()' ко всему датафрейму, а затем подсчитаем строки cо значением True. После этого удаляем строки- дубликаты, используя 'drop_duplicates()' </b></font><br>

In [30]:
#проверим данные на наличие явных дубликатов и подсчитаем их
data.duplicated().sum()

72

In [31]:
#удалим строки-дубликаты (с удалением старых индексов и формированием новых)
data = data.drop_duplicates().reset_index(drop = True)

In [32]:
data.duplicated().sum()

0

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Также вызывает интерес третий гендер "XNA". Посмотрим на эту строку</b></font><br> 

In [33]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10684,0,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b> Кроме гендера, ничего подозрительного в этой строке нет. Можно было бы её удалить, но пока оставим.</b></font><br>

<font color='black'><b> Далее пойдем по заданию, а к столбцу "purpose" еще  вернемся</b></font><br>

<a id = 'step2_columns'></a>

In [34]:
#создаем датафрейм со столбцами 'education_id' и 'education'
education_dict = data[['education_id','education']].drop_duplicates().reset_index(drop = True) 

In [35]:
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [36]:
#создаем датафрейм со столбцами 'family_status_id' и 'family_status'
family_dict = data[['family_status_id','family_status']].drop_duplicates().reset_index(drop = True)

In [37]:
family_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [38]:
#удаляем колонки 'education' и 'family_status'
data = data.drop(columns = ['education','family_status'],axis = 1)
data.columns

Index(['children', 'dob_years', 'education_id', 'family_status_id', 'gender',
       'income_type', 'debt', 'total_income', 'purpose'],
      dtype='object')

In [39]:
#Добавим столбец 'total_income_category' для категоризаии доходов клиентов

#Создаем список с категориями и диапазонами доходов
incomes = [['E',0,30000],['D',30001,50000],['C',50001,200000],['B',200001,1000000],['A',1000001]]

#В цикле для списка incomes поставим доходу каждого из клиентов соответсвующую категорию
for elem in incomes:
    try:
        data.loc[(data['total_income'] >= elem[1]) & (data['total_income'] <= elem[2]),'total_income_category'] = elem[0]
    except:  
         print(f'Неверный диапазон в списке: {elem}')

#Случай с категорией А обработаем отдельно отдельно            
data.loc[data['total_income'] >= 1000001, 'total_income_category'] = 'A'

Неверный диапазон в списке: ['A', 1000001]


In [40]:
data.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [41]:
#Создаём функцию, которая на основании данных из столбца purpose сформирует новый столбец 'purpose_category'
def purpose_category(purpose_name):
    wedding = ['свадьба', 'на проведение свадьбы', 'сыграть свадьбу']
    
    car = ['на покупку своего автомобиля',
           'автомобиль',
           'сделка с подержанным автомобилем',
           'свой автомобиль',
           'на покупку подержанного автомобиля',
           'автомобили',                             
           'на покупку автомобиля',                   
           'приобретение автомобиля',
           'сделка с автомобилем']
    
    education = ['заняться высшим образованием',
                'дополнительное образование',
                'высшее образование',
                'образование',                              
                'получение дополнительного образования',     
                'получение образования',                     
                'профильное образование',                    
                'получение высшего образования',             
                'заняться образованием']
    
    if purpose_name in wedding:
        return 'проведение свадьбы'
    elif purpose_name in car:
        return 'операции с автомобилем'
    elif purpose_name in education:
        return 'получение образования'
    else:
        return 'операции с недвижимостью'
        

In [42]:
data['purpose_category'] = data['purpose'].apply(purpose_category)

# Шаг 3. Ответы на вопросы

<a id = 'step3_1'></a>
<font color='black' size = +1><b>3.1.Есть ли зависимость между количеством детей и возвратом кредита в срок?</b></font><br>

In [43]:
#Смотрим процент должников в каждой из групп по количеству детей
part = data.groupby('children')['debt'].sum() / data['children'].value_counts()

for i in range(len(part)):
    print(f'Количество детей - {part.index[i]}')
    print(f'Процент должников - {part.values[i]:.2%}')
    print()

Количество детей - 0
Процент должников - 7.54%

Количество детей - 1
Процент должников - 9.17%

Количество детей - 2
Процент должников - 9.49%

Количество детей - 3
Процент должников - 8.18%

Количество детей - 4
Процент должников - 9.76%

Количество детей - 5
Процент должников - 0.00%



<font color='Blue' size = +1><b>Комментарий </b></font><br>
    
<font color='black'><b> Для групп с количеством детей, равным 4 и 5, выборка не репрезентативна, т.к. их численность не превышает значение даже в 100 человек.<br>
Если мы сравниваем группы с количеством детей от 1 до 3 человек с группой бездетных клиентов, то мы видим, что среди людей с детьми должников больше примерно на 2%. Тогда можно сделать вывод, что вероятность невыплаты кредита не на много, но выше, если у клиента имеются дети.</b></font><br> 
    
<font color='black'><b>Задейсвтуем группы с 4 и 5 детьми. Для этого добавим новый столбец в исходную таблицу, который будет свидетельствовать о налиичи ребенка у клиента банка.</b></font><br> 

In [44]:
#Добавляем новый столбец 'have_children' в исходный датафрейм со значением False
data['have_children'] = False

#Если у клиента банка один ребёнок или больше, то в столбце 'have_children' пищем True
data.loc[data['children'] >=1,'have_children'] = True

In [45]:
#найдем долю неплательщиков среди клиентов без детей и с детьми
data.groupby('have_children')['debt'].sum()/data['have_children'].value_counts()


have_children
False    0.075444
True     0.092082
dtype: float64

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Вывод тот же</b></font><br> 

<a id = 'step3_2'></a>
<font color='black' size = +1><b>3.2.Есть ли зависимость между семейным положением и возвратом кредита в срок?</b></font><br>

In [46]:
# Сперва еще раз посмотрим, какие имеются группы по семейному положению
family_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [47]:
#Посмотрим их численность
data['family_status_id'].value_counts()

0    12339
1     4150
4     2810
3     1195
2      959
Name: family_status_id, dtype: int64

In [48]:
#Смотрим процент должников в каждой из групп по cемейному статусу
parts = data.groupby('family_status_id')['debt'].sum() / data['family_status_id'].value_counts()

for i in range(len(parts)):
    print(f'id семейного положения - {parts.index[i]}')
    print(f'Процент должников - {parts.values[i]:.2%}')
    print()

id семейного положения - 0
Процент должников - 7.55%

id семейного положения - 1
Процент должников - 9.35%

id семейного положения - 2
Процент должников - 6.57%

id семейного положения - 3
Процент должников - 7.11%

id семейного положения - 4
Процент должников - 9.75%



<font color='Blue' size = +1><b>Комментарий </b></font><br>
    
<font color='black'><b>Самыми ненадежными оказались люди без партнера - среди них 9.75% должников. В процентном соотнощении не далеко от них ушли по этому показателю клиенты, состоящие в гражданском браке, но не будем забывать, что их гораздо больше. Сравнивать между собой группы сложно, поэтому поступим аналогично первому пункту: создадим новый столбец 'have_partner', в котором будет зафиксировано наличие у клиента партнера. Далее будем сравнивать клиентов, состоящих в отношениях с клиентами, не состоящими в отношениях.</b></font><br>


In [49]:
#Добавляем новый столбец 'have_partner' в исходный датафрейм со значением False
data['have_partner'] = False

#Если у клиента банка есть партнер, то в столбце 'have_partner' пишем True
data.loc[data['family_status_id'] <=1,'have_partner'] = True

In [50]:
data.groupby('have_partner')['debt'].sum().sort_values(ascending=False)

have_partner
True     1319
False     422
Name: debt, dtype: int64

In [51]:
data['have_partner'].value_counts()

True     16489
False     4964
Name: have_partner, dtype: int64

In [52]:
data.groupby('have_partner')['debt'].sum().sort_values(ascending=False)/data['have_partner'].value_counts()

have_partner
True     0.079993
False    0.085012
dtype: float64

<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Хоть и не на много, но все-таки вероятность попасться на недобросовестного клиента выше, если он не состоит в отношениях.</b></font><br>


<a id = 'step3_3'></a>
<font color='black' size = +1><b>3.3.Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</b></font><br>

In [53]:
#Посмотрим на численность каждой из групп
income_count = data.groupby('total_income_category')['children'].count()
income_count

total_income_category
A       25
B     5042
C    16014
D      350
E       22
Name: children, dtype: int64

In [54]:
#число должников в каждой из категорий
income_debt_count = data.groupby('total_income_category')['debt'].sum()
income_debt_count

total_income_category
A       2
B     356
C    1360
D      21
E       2
Name: debt, dtype: int64

  
<font color='Blue' size = +1><b>Комментарий </b></font><br>
<font color='black'><b>Ответим на вопрос: какой процент людей из каждой группы по уровню дохода имеет задолженности?</b></font><br>


In [55]:
for i in range(len(income_count)):
    print(f'Процент должников в группе {income_debt_count.index[i]} - {(income_debt_count.values[i] / income_count.values[i]):.1%}')

Процент должников в группе A - 8.0%
Процент должников в группе B - 7.1%
Процент должников в группе C - 8.5%
Процент должников в группе D - 6.0%
Процент должников в группе E - 9.1%


<font color='Blue' size = +1><b>Комментарий </b></font><br>
    
<font color='black'><b>Мы видим, что картина примерно одинаковая, но всё-таки больше должников встречается среди самых бедных клиентов банка. Однако с полной уверенностью о надежности клиента судить по этим данным нельзя.</b></font><br>

<a id = 'step3_4'></a>
<font color='black' size = +1><b>3.4.Как разные цели кредита влияют на его возврат в срок?</b></font><br>

<font color='blue' size = +1><b>Комментарий студента</b></font><br>
</b></font><font color='black'><b>Для начала попробуем прямо ответить на поставленный вопрос, применяя ту же логику, что и в предыдущих вопросах.

In [56]:
#численность каждой группы по целям кредита
purpose_category_count = data.groupby('purpose_category')['debt'].count()
purpose_category_count

purpose_category
операции с автомобилем       4306
операции с недвижимостью    10811
получение образования        4013
проведение свадьбы           2323
Name: debt, dtype: int64

In [57]:
#число должников в каждой из категорий
debt_purpose_category = data.groupby('purpose_category')['debt'].sum()
debt_purpose_category

purpose_category
операции с автомобилем      403
операции с недвижимостью    782
получение образования       370
проведение свадьбы          186
Name: debt, dtype: int64

In [58]:
for i in range(len(debt_purpose_category)):
    print(f'{purpose_category_count.index[i]} - {(debt_purpose_category.values[i] / purpose_category_count.values[i]):.1%}')

операции с автомобилем - 9.4%
операции с недвижимостью - 7.2%
получение образования - 9.2%
проведение свадьбы - 8.0%


<font color='blue' size = +1><b>Комментарий студента</b></font><br>
<font color='black'><b> Видим, что кредиты, взятые с разной целью, не выплачивают примерно в равной мере - в около 8 процентах случаев. Однако автомобильные кредиты, на первый взгляд, рискуют быть невыплаченными больше остальных. Воспользуемся сводными таблицами.

In [59]:
pivot_purposes = data.pivot_table(index = 'purpose_category',columns = 'total_income_category', values = 'debt', aggfunc='sum')
pivot_purposes

total_income_category,A,B,C,D,E
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
операции с автомобилем,0,86,307,10,0
операции с недвижимостью,1,172,601,6,2
получение образования,1,70,297,2,0
проведение свадьбы,0,28,155,3,0


In [60]:
#В процентном соотошении
purpose_percentage = pivot_purposes.div(purpose_category_count.values.reshape(-1,1))*100
purpose_percentage

total_income_category,A,B,C,D,E
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
операции с автомобилем,0.0,1.997213,7.129587,0.232234,0.0
операции с недвижимостью,0.00925,1.590972,5.559153,0.055499,0.0185
получение образования,0.024919,1.744331,7.400947,0.049838,0.0
проведение свадьбы,0.0,1.205338,6.672406,0.129143,0.0


In [61]:
data.groupby('total_income_category')['purpose_category'].value_counts()

total_income_category  purpose_category        
A                      операции с недвижимостью      17
                       получение образования          4
                       операции с автомобилем         2
                       проведение свадьбы             2
B                      операции с недвижимостью    2569
                       операции с автомобилем      1031
                       получение образования        897
                       проведение свадьбы           545
C                      операции с недвижимостью    8046
                       операции с автомобилем      3199
                       получение образования       3031
                       проведение свадьбы          1738
D                      операции с недвижимостью     168
                       получение образования         76
                       операции с автомобилем        72
                       проведение свадьбы            34
E                      операции с недвижимостью      11


<font color='blue' size = +1><b>Комментарий студента</b></font><br>
    
<font color='black'><b> Интересная ситуация получается, если мы посмотрим, какие кредиты остаются не выплаченными в группах с различными доходами. Из таблицы purpose_percentage видно, что если клиент находится в категории А или С, то хуже всего он выплачивает кредит за получение образования. При том, что эти операции не являются самыми популярными.Клиенты из категорий B и D чаще остаются в должниках, если берут кредит на автомобиль, а клиенты категории E испытывают проблемы при выплатах за операции с недвижимостью.


<a id = 'step4'></a>
# Шаг 4. Общий вывод

<font color='black'><b> Данные довольно неравномерные, по этой причине сложно сравнивать клиентов, представляющих различные группы.Т.е. нельзя с полной уверенностью сказать, что, к примеру, клиенты с доходом выше среднего точно надежнее клиентов со средним доходом, потому что вторых практически в 3 раза больше.Однако,какие-то выводы сделать все-таки можно. 
Исходя из получившихся соотношений, будем считать, что наличие детей у клиента усиливает риск невыплаты взятой суммы. Также можно отметить, что люди, состоящие в отношениях, являются более ответственными и погашают кредиты вовремя чаще. Меньше всего стоит доверять, ожидаемо, людям с низким уровнем дохода. И также добавим, что в общем, кредиты на операции с автомобилями, не выплачивают чаще кредитов, взятых с другими целями.</b></font><br>