# Исследование надежности заемщиков


<b>Цель проекта:</b> определение факторов, потенциально влияющих на своевременную выплату кредита

<b>Этапы реализации проекта:</b>

[1. Подготовительный этап](#preparing)

[2. Предобработка данных](#preprocessing)

[3. Анализ данных](#analysis)

[4. Вывод](#conclusion)


<a id="preparing"> </a>

## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

data = pd.read_csv('/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<a id="preprocessing"> </a>

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [14]:
data.duplicated().sum()

54

In [15]:
data = data.drop_duplicates()

**Задание 15. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [16]:
data['education'] = data['education'].str.lower()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

<a id="analysis"> </a>

## Исследуйте данные и ответьте на вопросы

**Задание 19. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

Для начала посмотрим на общую статистику наличия долгов

In [22]:
#выясним общее количество должников

data['debt'].value_counts() 

0    19616
1     1732
Name: debt, dtype: int64

In [23]:
#найдем количестов клиентов

all_clients = data.shape[0] 
debtors = 1732
display(all_clients)

21348

In [24]:
#найдем общий процент задолжников от числа клиентов

debtors / all_clients * 100

8.113172194116546

Подавляющее большинство клиентов банка стремится не иметь долгов, процент должников составляет 8%. Гипотеза: данный процент характеризует среднестатистического клиента, следовательно, данные невозврата долгов по отдельным группам будут примерно соответствовать данному проценту

Перейдем к рассмотрению влияния фактора наличия детей на невозврат кредита

In [25]:
#посмотрим на зависимость выдачи кредита от количества детей

data.groupby('children')['debt'].count()

children
0    14107
1     4809
2     2052
3      330
4       41
5        9
Name: debt, dtype: int64

Подавляющее большинство кредитов выдано клиентам без детей. Многодетные клиенты берут кредиты (или получают одобрение) несравнимо реже. Ввиду значительного разрыва в данных, логично не выделять многодетных клиентов в отдельную группу, а разделить всех клиентов на тех, кто имеет детей, и тех, кто их не имеет

In [26]:
#разделим всех клиентов на 2 подкатетогии в зависимости от наличия детей

def categorize_children(children):
    if children == 0: 
        return 'детей нет'
    return 'есть дети'

data['children_category'] = data['children'].apply(categorize_children) 
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,детей нет
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,детей нет
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,детей нет
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,есть дети
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,детей нет


In [27]:
#создадим таблицу, в которой рассмотрим зависимость просрочки кредита от наличия детей

children_influence = data.groupby(by=['children_category'],as_index=False)['children'].count()
children_influence

Unnamed: 0,children_category,children
0,детей нет,14107
1,есть дети,7241


In [28]:
#cоздадим временную таблицу для переноса ее столбца в ранее созданную таблицу

temp = data[data['debt'] == 1].groupby(by=['children_category'],as_index=False)\
['debt'].count()
temp

Unnamed: 0,children_category,debt
0,детей нет,1063
1,есть дети,669


In [29]:
#добавляем в таблицу столбец с информацией о подкатегориях клиентов с долгами

children_influence['having_debts'] = temp['debt']
children_influence

Unnamed: 0,children_category,children,having_debts
0,детей нет,14107,1063
1,есть дети,7241,669


In [30]:
#добавляем в таблицу столбец с процентом должников от числа имеющих 
#кредит в каждой из подкатегории

children_influence['percent_of_having_debts'] = children_influence['having_debts'] \
/ children_influence['children'] * 100
children_influence

Unnamed: 0,children_category,children,having_debts,percent_of_having_debts
0,детей нет,14107,1063,7.535266
1,есть дети,7241,669,9.239055


In [31]:
#добавляем в таблицу столбец с процентом клиентов каждой подкатегории 
#от общего числа клиентов

children_influence['share of clients'] = children_influence['children'] \
/ all_clients * 100
children_influence

Unnamed: 0,children_category,children,having_debts,percent_of_having_debts,share of clients
0,детей нет,14107,1063,7.535266,66.081132
1,есть дети,7241,669,9.239055,33.918868


In [32]:
#добавляем в таблицу столбец с процентом должников от общего числа имеющих кредит

children_influence['share of debtors'] = children_influence['having_debts'] \
/ debtors * 100
children_influence

Unnamed: 0,children_category,children,having_debts,percent_of_having_debts,share of clients,share of debtors
0,детей нет,14107,1063,7.535266,66.081132,61.374134
1,есть дети,7241,669,9.239055,33.918868,38.625866


In [33]:
#переименуем столбец, чтобы отражал общее число клиентов в данной категории

children_influence = children_influence.rename(columns={'children': 'overall_clients'})
children_influence

Unnamed: 0,children_category,overall_clients,having_debts,percent_of_having_debts,share of clients,share of debtors
0,детей нет,14107,1063,7.535266,66.081132,61.374134
1,есть дети,7241,669,9.239055,33.918868,38.625866


In [34]:
data.pivot_table(index='children', columns='debt', values='purpose', aggfunc='count', fill_value=0)

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13044,1063
1,4365,444
2,1858,194
3,303,27
4,37,4
5,9,0


Таблица показывает, что клиенты без детей составляют более половины всех должников, однако их процентное соотношение также велико среди общего числа клиентов. Процент должников с детьми несколько выше, чем процентное соотношение клиентов с детьми среди всех клиентов. Это же подтверждают и данные по проценту должников в каждой из подкатегорий. 
Дополнительно посмотрим на возможную зависимость с другой категорией, тесно связанной с фактором наличия детей - семейным положенением

In [35]:
#посмотрим на семейное положение клиентов с детьми и без

clients_families_children = data.groupby('children_category') \
['family_status'].value_counts() 
clients_families_children

children_category  family_status        
детей нет          женат / замужем          7473
                   гражданский брак         2741
                   Не женат / не замужем    2262
                   вдовец / вдова            847
                   в разводе                 784
есть дети          женат / замужем          4793
                   гражданский брак         1405
                   Не женат / не замужем     534
                   в разводе                 405
                   вдовец / вдова            104
Name: family_status, dtype: int64

Большинство клиентов кредитного отдела банка состоят в официальном браке

In [36]:
#посмотрим отдельно на категории должников

debtors_families_children = data[data['debt'] == 1].groupby('children_category') \
['family_status'].value_counts() 
debtors_families_children

children_category  family_status        
детей нет          женат / замужем          516
                   гражданский брак         229
                   Не женат / не замужем    210
                   в разводе                 55
                   вдовец / вдова            53
есть дети          женат / замужем          411
                   гражданский брак         156
                   Не женат / не замужем     63
                   в разводе                 29
                   вдовец / вдова            10
Name: family_status, dtype: int64

In [37]:
#выясним, какой процент должников составляют клиенты с детьми и без, 
#имеющие различный семейный статус

debtors_families_children / clients_families_children * 100 

children_category  family_status        
детей нет          Не женат / не замужем     9.283820
                   в разводе                 7.015306
                   вдовец / вдова            6.257379
                   гражданский брак          8.354615
                   женат / замужем           6.904857
есть дети          Не женат / не замужем    11.797753
                   в разводе                 7.160494
                   вдовец / вдова            9.615385
                   гражданский брак         11.103203
                   женат / замужем           8.575005
Name: family_status, dtype: float64

Общие данные показывают, что большая часть семейных клиентов-должников все же не имеет детей. Отсутствие детей также характерно для лиц, живующих в гражданском браке или не имеющих партнера. Вычисление процента должников по каждому семейному статусу показываеь, что кредиты хуже выплачивают именно незамужние/неженатые клиенты и клиенты, состоящие в гражданском браке и имеющие детей. Должники, не состоящие в браке, лидируют в группе клиентов без детей, хотя их соотношение несколько ниже неженатых клиентов с детьми. Лучше всего кредиты выплачивают семейные клиенты без детей. 

**Вывод:** Клиенты, не имеющие детей, получают большее число кредитов и, соответственно, они составляют большую часть должников. Однако, если смотреть ситуацию с выплатой долгов по группам в отдельности, выяснится, что клиенты с детьми реже вовремя погашают кредиты. Большая часть клиентов с детьми или без - это женатые люди, однако худшие выплаты демонстрируют именно клиенты c детьми, не состоящие в зарегистрированных брачных отношениях или не имеющих семейного опыта.

**Задание 20. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [38]:
#посмотрим еще раз на имеющиеся категории

data['family_status'].value_counts()

женат / замужем          12266
гражданский брак          4146
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
Name: family_status, dtype: int64

Как и следовало из предыдущего исследования, большая часть клиентов - это женатые люди. В данном случае также можно попытаться объединить семейные статусы в группы, однако, принимая во внимание, что большая часть категорий так или иначе связана с опытом брака, а также сложность отнесения категории "гражданский брак" в такие большие группы, как женатые или неженатые клиенты, рассмотрим взаимозависимость на имеющихся данных без их группировки

In [39]:
#создаем таблицу для выявления зависимости
family_influence = data.groupby(by=['family_status'],as_index=False) \
['family_status_id'].count() 
family_influence

Unnamed: 0,family_status,family_status_id
0,Не женат / не замужем,2796
1,в разводе,1189
2,вдовец / вдова,951
3,гражданский брак,4146
4,женат / замужем,12266


In [40]:
#добавляем в нее столбцы по аналогии с таблицей о наличии детей

temp = data[data['debt'] == 1].groupby(by=['family_status'],as_index=False) \
['debt'].count()
temp

Unnamed: 0,family_status,debt
0,Не женат / не замужем,273
1,в разводе,84
2,вдовец / вдова,63
3,гражданский брак,385
4,женат / замужем,927


In [41]:
family_influence['having_debts'] = temp['debt']
family_influence

Unnamed: 0,family_status,family_status_id,having_debts
0,Не женат / не замужем,2796,273
1,в разводе,1189,84
2,вдовец / вдова,951,63
3,гражданский брак,4146,385
4,женат / замужем,12266,927


In [42]:
family_influence['percent_of_having_debts'] = family_influence['having_debts'] \
/ family_influence['family_status_id'] * 100
family_influence

Unnamed: 0,family_status,family_status_id,having_debts,percent_of_having_debts
0,Не женат / не замужем,2796,273,9.763948
1,в разводе,1189,84,7.06476
2,вдовец / вдова,951,63,6.624606
3,гражданский брак,4146,385,9.286059
4,женат / замужем,12266,927,7.557476


In [43]:
family_influence['share of clients'] = family_influence['family_status_id'] \
/ all_clients * 100
family_influence

Unnamed: 0,family_status,family_status_id,having_debts,percent_of_having_debts,share of clients
0,Не женат / не замужем,2796,273,9.763948,13.097246
1,в разводе,1189,84,7.06476,5.569608
2,вдовец / вдова,951,63,6.624606,4.45475
3,гражданский брак,4146,385,9.286059,19.421023
4,женат / замужем,12266,927,7.557476,57.457373


In [44]:
family_influence['share of debtors'] = family_influence['having_debts'] \
/ debtors * 100
family_influence

Unnamed: 0,family_status,family_status_id,having_debts,percent_of_having_debts,share of clients,share of debtors
0,Не женат / не замужем,2796,273,9.763948,13.097246,15.762125
1,в разводе,1189,84,7.06476,5.569608,4.849885
2,вдовец / вдова,951,63,6.624606,4.45475,3.637413
3,гражданский брак,4146,385,9.286059,19.421023,22.228637
4,женат / замужем,12266,927,7.557476,57.457373,53.52194


In [45]:
family_influence = family_influence.rename(columns={'family_status_id': 'overall_clients'})
family_influence

Unnamed: 0,family_status,overall_clients,having_debts,percent_of_having_debts,share of clients,share of debtors
0,Не женат / не замужем,2796,273,9.763948,13.097246,15.762125
1,в разводе,1189,84,7.06476,5.569608,4.849885
2,вдовец / вдова,951,63,6.624606,4.45475,3.637413
3,гражданский брак,4146,385,9.286059,19.421023,22.228637
4,женат / замужем,12266,927,7.557476,57.457373,53.52194


**Вывод:** Согласно таблице, хуже кредит погашают клиенты, не состоящие ранее в официальном браке. Опыт брачных отношений несколько улучшает подход клиентов к своеременной выплате кредита.

**Задание 21. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [46]:
# составляем таблицу по аналогии с предыдущими заданиями

income_influence = data.groupby(by=['total_income_category'],as_index=False) \
['total_income'].count()
income_influence

Unnamed: 0,total_income_category,total_income
0,A,25
1,B,5014
2,C,15938
3,D,349
4,E,22


In [47]:
temp = data[data['debt'] == 1].groupby(by=['total_income_category'],as_index=False) \
['debt'].count()
temp

Unnamed: 0,total_income_category,debt
0,A,2
1,B,354
2,C,1353
3,D,21
4,E,2


In [48]:
income_influence['having_debts'] = temp['debt']
income_influence

Unnamed: 0,total_income_category,total_income,having_debts
0,A,25,2
1,B,5014,354
2,C,15938,1353
3,D,349,21
4,E,22,2


In [49]:
income_influence['percent_of_having_debts'] = income_influence['having_debts'] \
/ income_influence['total_income'] * 100
income_influence

Unnamed: 0,total_income_category,total_income,having_debts,percent_of_having_debts
0,A,25,2,8.0
1,B,5014,354,7.060231
2,C,15938,1353,8.489145
3,D,349,21,6.017192
4,E,22,2,9.090909


In [50]:
income_influence['share of clients'] = income_influence['total_income'] \
/ all_clients * 100
income_influence

Unnamed: 0,total_income_category,total_income,having_debts,percent_of_having_debts,share of clients
0,A,25,2,8.0,0.117107
1,B,5014,354,7.060231,23.486978
2,C,15938,1353,8.489145,74.658048
3,D,349,21,6.017192,1.634814
4,E,22,2,9.090909,0.103054


In [51]:
income_influence['share of debtors'] = income_influence['having_debts'] \
/ debtors * 100
income_influence

Unnamed: 0,total_income_category,total_income,having_debts,percent_of_having_debts,share of clients,share of debtors
0,A,25,2,8.0,0.117107,0.115473
1,B,5014,354,7.060231,23.486978,20.438799
2,C,15938,1353,8.489145,74.658048,78.117783
3,D,349,21,6.017192,1.634814,1.212471
4,E,22,2,9.090909,0.103054,0.115473


In [52]:
income_influence = income_influence.rename \
(columns={'total_income': 'overall_clients'})
income_influence

Unnamed: 0,total_income_category,overall_clients,having_debts,percent_of_having_debts,share of clients,share of debtors
0,A,25,2,8.0,0.117107,0.115473
1,B,5014,354,7.060231,23.486978,20.438799
2,C,15938,1353,8.489145,74.658048,78.117783
3,D,349,21,6.017192,1.634814,1.212471
4,E,22,2,9.090909,0.103054,0.115473


Наибольший процент невозвратов по кредиту приходится на самую малочисленную кредитную группу с наименьшим доходом, а также, что ожидаемо - на самую большую группу клиентов со средним доходом. Следом идут клиенты из группы "А, которые, несмотря на высокий доход, не стремятся оплачивать кредит вовремя. Несколько лучшие показатели показывают клиенты с доходом выше среднего, а также противоположная им категория клиентов с доходами ниже среднего.

Дополнительно посмотрим, какие категории занятости представлены в группах доходов

In [53]:
clients_positions = data.groupby(['total_income_category']) \
['income_type'].value_counts()
clients_positions

total_income_category  income_type    
A                      компаньон            15
                       сотрудник            10
B                      сотрудник          2360
                       компаньон          1733
                       пенсионер           552
                       госслужащий         366
                       предприниматель       2
                       безработный           1
C                      сотрудник          8511
                       компаньон          3275
                       пенсионер          3089
                       госслужащий        1060
                       безработный           1
                       в декрете             1
                       студент               1
D                      пенсионер           164
                       сотрудник           136
                       компаньон            25
                       госслужащий          24
E                      пенсионер            15
                     

В самых многочисленных категориях "B", "C" большая часть клиентов приходится на сотрудников. В категориях лиц с доходом ниже среднего преобладают пенсионеры, а в категории с самым высоким доходом лидируют компаньоны. Посмотрим отдельно на расклад с должниками

In [54]:
debtors_positions = data[data['debt'] == 1].groupby(['total_income_category']) \
['income_type'].value_counts()
debtors_positions

total_income_category  income_type
A                      компаньон        2
B                      сотрудник      196
                       компаньон      109
                       пенсионер       31
                       госслужащий     18
C                      сотрудник      846
                       компаньон      262
                       пенсионер      176
                       госслужащий     67
                       безработный      1
                       в декрете        1
D                      сотрудник       12
                       пенсионер        7
                       госслужащий      1
                       компаньон        1
E                      пенсионер        2
Name: income_type, dtype: int64

In [55]:
debtors_positions / clients_positions * 100

total_income_category  income_type    
A                      компаньон           13.333333
                       сотрудник                 NaN
B                      безработный               NaN
                       госслужащий          4.918033
                       компаньон            6.289671
                       пенсионер            5.615942
                       предприниматель           NaN
                       сотрудник            8.305085
C                      безработный        100.000000
                       в декрете          100.000000
                       госслужащий          6.320755
                       компаньон            8.000000
                       пенсионер            5.697637
                       сотрудник            9.940078
                       студент                   NaN
D                      госслужащий          4.166667
                       компаньон            4.000000
                       пенсионер            4.268293
       

Как видно, ситуация несколько отличается от общих характеристик клиентов. В самой большой категории "С" имеют долги единственные представители подкатегорий "безработный" и "в декрете". В целом в самых больших группах "В" и "С" должниками становятся представители самого большого класса сотрудников. Нарушителями кредитных договоров в диаметрально противоположных классах становятся только пенсионеры и компаньоны, в то время как пенсионеры с доходом ниже среднего выплачивают кредиты лучше, чем специалисты. 

Также рассмотрим взаимосвязь дохода и стажа.

In [56]:
#приведем значения в столбце с днями стажа к числовым значениям 
#и переведем в годовое исчисление

data['years_employed'] = data['days_employed'].astype('int') / 365

In [57]:
data['years_employed'] = data['years_employed'].astype('int')
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети,23
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети,11
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет,15
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети,11
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет,932
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,детей нет,2
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,детей нет,7
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,детей нет,0
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,есть дети,18
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,детей нет,5


В данных заметны аномалии: посмотрим, какие значения могут быть неверными

In [58]:
years = list(data['years_employed'])
years

[23,
 11,
 15,
 11,
 932,
 2,
 7,
 0,
 18,
 5,
 11,
 2,
 1000,
 5,
 5,
 2,
 4,
 6,
 1096,
 27,
 3,
 0,
 4,
 0,
 927,
 996,
 7,
 1,
 1,
 1000,
 919,
 4,
 12,
 4,
 12,
 1079,
 0,
 17,
 1,
 1,
 2,
 7,
 3,
 11,
 3,
 2,
 6,
 7,
 9,
 3,
 969,
 19,
 9,
 11,
 9,
 1000,
 1014,
 6,
 0,
 11,
 6,
 8,
 21,
 3,
 0,
 4,
 2,
 1000,
 5,
 2,
 7,
 926,
 7,
 4,
 14,
 8,
 6,
 1,
 985,
 8,
 0,
 0,
 4,
 4,
 19,
 0,
 1051,
 925,
 1022,
 0,
 4,
 13,
 4,
 3,
 4,
 1,
 4,
 4,
 999,
 949,
 1,
 1072,
 3,
 2,
 1003,
 5,
 0,
 4,
 2,
 5,
 1,
 35,
 5,
 16,
 4,
 6,
 1,
 10,
 7,
 1047,
 4,
 4,
 0,
 15,
 2,
 0,
 6,
 14,
 1038,
 989,
 2,
 1,
 3,
 943,
 11,
 4,
 980,
 5,
 7,
 4,
 8,
 4,
 953,
 5,
 5,
 1000,
 3,
 15,
 13,
 7,
 1078,
 2,
 9,
 0,
 4,
 3,
 992,
 954,
 30,
 1016,
 5,
 3,
 10,
 20,
 6,
 3,
 1,
 19,
 991,
 1019,
 0,
 26,
 12,
 24,
 4,
 4,
 997,
 5,
 1084,
 3,
 0,
 4,
 22,
 0,
 1012,
 13,
 0,
 2,
 0,
 4,
 0,
 922,
 7,
 1058,
 0,
 0,
 4,
 33,
 3,
 0,
 15,
 17,
 4,
 7,
 916,
 4,
 997,
 3,
 2,
 0,
 937,
 1,
 16,
 1,
 

In [59]:
sort_years = set(years)
sort_years

{0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 48,
 50,
 900,
 901,
 902,
 903,
 904,
 905,
 906,
 907,
 908,
 909,
 910,
 911,
 912,
 913,
 914,
 915,
 916,
 917,
 918,
 919,
 920,
 921,
 922,
 923,
 924,
 925,
 926,
 927,
 928,
 929,
 930,
 931,
 932,
 933,
 934,
 935,
 936,
 937,
 938,
 939,
 940,
 941,
 942,
 943,
 944,
 945,
 946,
 947,
 948,
 949,
 950,
 951,
 952,
 953,
 954,
 955,
 956,
 957,
 958,
 959,
 960,
 961,
 962,
 963,
 964,
 965,
 966,
 967,
 968,
 969,
 970,
 971,
 972,
 973,
 974,
 975,
 976,
 977,
 978,
 979,
 980,
 981,
 982,
 983,
 984,
 985,
 986,
 987,
 988,
 989,
 990,
 991,
 992,
 993,
 994,
 995,
 996,
 997,
 998,
 999,
 1000,
 1001,
 1002,
 1003,
 1004,
 1005,
 1006,
 1007,
 1008,
 1009,
 1010,
 1011,
 1012,
 1013,
 1014,
 1015,
 1016,
 1017,
 1018,
 1019,
 1020,
 1021,
 1022,
 1023,
 1

In [60]:
sorted(sort_years)

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 48,
 50,
 900,
 901,
 902,
 903,
 904,
 905,
 906,
 907,
 908,
 909,
 910,
 911,
 912,
 913,
 914,
 915,
 916,
 917,
 918,
 919,
 920,
 921,
 922,
 923,
 924,
 925,
 926,
 927,
 928,
 929,
 930,
 931,
 932,
 933,
 934,
 935,
 936,
 937,
 938,
 939,
 940,
 941,
 942,
 943,
 944,
 945,
 946,
 947,
 948,
 949,
 950,
 951,
 952,
 953,
 954,
 955,
 956,
 957,
 958,
 959,
 960,
 961,
 962,
 963,
 964,
 965,
 966,
 967,
 968,
 969,
 970,
 971,
 972,
 973,
 974,
 975,
 976,
 977,
 978,
 979,
 980,
 981,
 982,
 983,
 984,
 985,
 986,
 987,
 988,
 989,
 990,
 991,
 992,
 993,
 994,
 995,
 996,
 997,
 998,
 999,
 1000,
 1001,
 1002,
 1003,
 1004,
 1005,
 1006,
 1007,
 1008,
 1009,
 1010,
 1011,
 1012,
 1013,
 1014,
 1015,
 1016,
 1017,
 1018,
 1019,
 1020,
 1021,
 1022,
 1023,
 1

In [61]:
data[data['years_employed'] >= 900].groupby('income_type').count()
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети,23
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети,11
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет,15
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети,11
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет,932
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью,есть дети,12
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем,детей нет,942
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью,есть дети,5
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем,есть дети,8


Большое количество лет стажа превышает нормальные значения, однако это характерно только для безработных и пенсионеров. Проверим, насколько часто пенсионеры и безработные получают кредит и как часто они его не возвращают

In [62]:
data.groupby('income_type')['debt'].value_counts()

income_type      debt
безработный      0          1
                 1          1
в декрете        1          1
госслужащий      0       1365
                 1         86
компаньон        0       4675
                 1        374
пенсионер        0       3604
                 1        216
предприниматель  0          2
сотрудник        0       9968
                 1       1054
студент          0          1
Name: debt, dtype: int64

Данными по безработным можно пренебречь: среди клиентов их всего двое, однако пенсионеры хотя и не составляют самый большой процент клинтов, тем не менее они - третьи по числу пользователей кредитными услугами банка и числу невозвратов. Абсолютно все данные по их трудовому стажу искажены, однако сам их статус неработающего человека получающего пенсию позволяет также не учитывать данные по ним. 

In [63]:
#разделим клиентов на группы исходя из их опыта

def categorize_experience(years):
    if years == 0: 
        return 'нет опыта'
    elif 1 <= years <= 3:
        return 'небольшой опыт'
    elif 4 <= years <= 10:
        return 'средний опыт'
    elif 11 <= years < 51:
        return 'большой опыт'
    else:
        pass


In [64]:
data['experience_category'] = \
data['years_employed'].apply(categorize_experience)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed,experience_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети,23,большой опыт
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети,11,большой опыт
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет,15,большой опыт
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети,11,большой опыт
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет,932,
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,детей нет,2,небольшой опыт
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,детей нет,7,средний опыт
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,детей нет,0,нет опыта
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,есть дети,18,большой опыт
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,детей нет,5,средний опыт


In [65]:
clients_experience = data.groupby(['experience_category']) \
['income_type'].value_counts()
clients_experience

experience_category  income_type    
большой опыт         сотрудник          1666
                     компаньон           589
                     госслужащий         423
небольшой опыт       сотрудник          3564
                     компаньон          1577
                     госслужащий         279
                     предприниматель       2
                     студент               1
нет опыта            сотрудник          1126
                     компаньон           597
                     госслужащий          94
средний опыт         сотрудник          4666
                     компаньон          2286
                     госслужащий         655
                     в декрете             1
Name: income_type, dtype: int64

Как видно из полученных данных, наиболее охотно берут кредиты или начинающие специалисты, или уже получившие средний опыт работы.

In [66]:
debtors_experience = data[data['debt'] == 1].groupby(['experience_category']) \
['income_type'].value_counts()
debtors_experience

experience_category  income_type
большой опыт         сотрудник       92
                     компаньон       27
                     госслужащий     20
небольшой опыт       сотрудник      411
                     компаньон      144
                     госслужащий     21
нет опыта            сотрудник      139
                     компаньон       47
                     госслужащий      7
средний опыт         сотрудник      412
                     компаньон      156
                     госслужащий     38
                     в декрете        1
Name: income_type, dtype: int64

In [67]:
debtors_experience / clients_experience * 100

experience_category  income_type    
большой опыт         госслужащий          4.728132
                     компаньон            4.584041
                     сотрудник            5.522209
небольшой опыт       госслужащий          7.526882
                     компаньон            9.131262
                     предприниматель           NaN
                     сотрудник           11.531987
                     студент                   NaN
нет опыта            госслужащий          7.446809
                     компаньон            7.872697
                     сотрудник           12.344583
средний опыт         в декрете          100.000000
                     госслужащий          5.801527
                     компаньон            6.824147
                     сотрудник            8.829833
Name: income_type, dtype: float64

Лучшую статистику по возвратам кредитов показывают опытные специалисты. Государственные служащие в целом также стремятся не допускать долгов. Хуже всего ситуация обстоит с сотрудниками, однако процент их невыплат уменьшается с увеличением стажа работы. Также рассмотрим зависимость стажа и уровня дохода. 

In [68]:
clients_experience_income = \
data.groupby(['experience_category'])['total_income_category'].value_counts()
clients_experience_income

experience_category  total_income_category
большой опыт         C                        1875
                     B                         762
                     D                          32
                     A                           8
                     E                           1
небольшой опыт       C                        3895
                     B                        1463
                     D                          60
                     A                           3
                     E                           2
нет опыта            C                        1358
                     B                         433
                     D                          23
                     A                           2
                     E                           1
средний опыт         C                        5720
                     B                        1803
                     D                          70
                     A                 

Чаще всего кредиты берут клиенты со средним доходом или доходом выше среднего, не отработавшие более 10 лет. Проверим, соотносится ли это с долговой ситуацией.

In [69]:
debtors_experience_income = data[data['debt'] == 1].groupby(['experience_category']) \
['total_income_category'].value_counts()
debtors_experience_income

experience_category  total_income_category
большой опыт         C                        106
                     B                         31
                     D                          2
небольшой опыт       C                        448
                     B                        121
                     D                          6
                     A                          1
нет опыта            C                        147
                     B                         43
                     D                          3
средний опыт         C                        475
                     B                        128
                     D                          3
                     A                          1
Name: total_income_category, dtype: int64

In [70]:
debtors_experience_income / clients_experience_income * 100

experience_category  total_income_category
большой опыт         A                              NaN
                     B                         4.068241
                     C                         5.653333
                     D                         6.250000
                     E                              NaN
небольшой опыт       A                        33.333333
                     B                         8.270677
                     C                        11.501926
                     D                        10.000000
                     E                              NaN
нет опыта            A                              NaN
                     B                         9.930716
                     C                        10.824742
                     D                        13.043478
                     E                              NaN
средний опыт         A                         8.333333
                     B                         7.099279
     

Из данных видно, что лучше всех выплачивают кредиты специалисты с большим опытом и высоким доходом. Худшую статистику показывают богатые начинающие специалисты, составляющие небольшую подгруппу. В категориях клиентов с начальным опытом и без него лидируют должники со средними доходами и доходами ниже среднего, в то время как в группе сотрудников, уже набравших достаточный опыт, больше всего должников со средним доходом и выше. 

**Вывод:** наихудшие выплаты демонстрируют клиенты с самым низким доходом, преимущественно представленные пенсионерами, клиенты-компаньоны с самыми высокими доходами, а также сотрудники среднего класса - наиболее многочисленная группа клиентов. Не отличаются хорошей кредитной историей клиенты без работы и находящиеся в декрете, однако их доля среди общего числа клиентов довольно мала. Также замечена корелляция выплат кредита с трудовым стажем: чем выше опыт сотрудника и его доход, тем реже он допускает появление долгов. Чаще всего должниками становятся клиенты с начальным и отсутствием опыта, имеющие средний доход. 

**Задание 22. Как разные цели кредита влияют на его возврат в срок?**

Цель кредита в наибольшей степени влияет на портрет потенциального клиента и(или) должника. Именно поэтому подкатегории данной группы будет рассматриваться в максимальной взаимосвязи с другими данными. 
Одна из категорий данных, которая не рассматривалась ранее - возраст. Рассмотрим ее более внимательно.



In [71]:
# проверим, какие категории возрастов представлены среди клиентов

sorted(data['dob_years'].unique())

[0,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75]

In [72]:
#0 лет явно является ошибкой. 
#Проверим, как много клиентов имеют данный возраст

data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed,experience_category
99,0,346541.618895,0,среднее,1,женат / замужем,0,F,пенсионер,0,71291,автомобиль,C,операции с автомобилем,детей нет,949,
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176,операции с жильем,C,операции с недвижимостью,детей нет,7,средний опыт
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166,ремонт жилью,C,операции с недвижимостью,есть дети,5,средний опыт
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620,строительство собственной недвижимости,C,операции с недвижимостью,детей нет,1090,
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994,свой автомобиль,B,операции с автомобилем,детей нет,3,небольшой опыт
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,1572.328285,0,среднее,1,женат / замужем,0,F,сотрудник,0,142594,жилье,C,операции с недвижимостью,детей нет,4,средний опыт
20462,0,338734.868540,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193,покупка своего жилья,B,операции с недвижимостью,детей нет,928,
20577,0,331741.271455,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788,недвижимость,C,операции с недвижимостью,детей нет,908,
21179,2,108.967042,0,высшее,0,женат / замужем,0,M,компаньон,0,240702,строительство жилой недвижимости,B,операции с недвижимостью,есть дети,0,нет опыта


In [73]:
#100 клиентов не указали возраста. 
#Чтобы предположить их возраст, посмотрим, в каких профессиональных категориях они состоят.
#Например, из этого логично предположить, что возраст пенсионера должен быть выше, 
#чем должность сотрудника

data[data['dob_years'] == 0]['income_type'].value_counts()
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed,experience_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети,23,большой опыт
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети,11,большой опыт
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет,15,большой опыт
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети,11,большой опыт
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет,932,
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,детей нет,2,небольшой опыт
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,детей нет,7,средний опыт
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,детей нет,0,нет опыта
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,есть дети,18,большой опыт
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,детей нет,5,средний опыт


In [74]:
# вставим пропущенные значения медианными по категориям 

for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['dob_years'] == 0), 'dob_years'] = \
    data.loc[(data['income_type'] == t), 'dob_years'].median()


In [75]:
#проверим на клиентах с индексами 99 и 149 - пенсионер и сотрудник соответственно

display(data.loc[99, 'dob_years']  )
data.loc[149, 'dob_years']  

60.0

39.0

In [76]:
#сгруппируем всех клиентов по возрастным категориям:

def categorize_age(age):
    if age <= 30: 
        return 'до 30 лет'
    elif age <= 55:
        return '31-55 лет'
    return 'старше 56 лет'

In [77]:
data['years_category'] = data['dob_years'].apply(categorize_age)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category,years_employed,experience_category,years_category
0,1,8437.673028,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,есть дети,23,большой опыт,31-55 лет
1,1,4024.803754,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,есть дети,11,большой опыт,31-55 лет
2,0,5623.42261,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,детей нет,15,большой опыт,31-55 лет
3,3,4124.747207,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,есть дети,11,большой опыт,31-55 лет
4,0,340266.072047,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,детей нет,932,,31-55 лет
5,0,926.185831,27.0,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,детей нет,2,небольшой опыт,до 30 лет
6,0,2879.202052,43.0,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,детей нет,7,средний опыт,31-55 лет
7,0,152.779569,50.0,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,детей нет,0,нет опыта,31-55 лет
8,2,6929.865299,35.0,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,есть дети,18,большой опыт,31-55 лет
9,0,2188.756445,41.0,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,детей нет,5,средний опыт,31-55 лет


Вернемся к целям кредита. Для начала посмотрим на общую статистику по данной группе.

In [78]:
# составляем таблицу по аналогии с предыдущими заданиями

purpose_influence = data.groupby(by=['purpose_category'],as_index=False) \
['purpose'].count()
purpose_influence

Unnamed: 0,purpose_category,purpose
0,операции с автомобилем,4281
1,операции с недвижимостью,10754
2,получение образования,3989
3,проведение свадьбы,2324


In [79]:
temp = data[data['debt'] == 1].groupby(by=['purpose_category'],as_index=False) \
['purpose'].count()
temp

Unnamed: 0,purpose_category,purpose
0,операции с автомобилем,400
1,операции с недвижимостью,780
2,получение образования,369
3,проведение свадьбы,183


In [80]:
purpose_influence['having_debts'] = temp['purpose']
purpose_influence

Unnamed: 0,purpose_category,purpose,having_debts
0,операции с автомобилем,4281,400
1,операции с недвижимостью,10754,780
2,получение образования,3989,369
3,проведение свадьбы,2324,183


In [81]:
purpose_influence['percent_of_having_debts'] = \
purpose_influence['having_debts'] / purpose_influence['purpose'] * 100
purpose_influence

Unnamed: 0,purpose_category,purpose,having_debts,percent_of_having_debts
0,операции с автомобилем,4281,400,9.343611
1,операции с недвижимостью,10754,780,7.253115
2,получение образования,3989,369,9.250439
3,проведение свадьбы,2324,183,7.874355


In [82]:
purpose_influence['share of clients'] = \
purpose_influence['purpose'] / all_clients * 100
purpose_influence

Unnamed: 0,purpose_category,purpose,having_debts,percent_of_having_debts,share of clients
0,операции с автомобилем,4281,400,9.343611,20.053401
1,операции с недвижимостью,10754,780,7.253115,50.374742
2,получение образования,3989,369,9.250439,18.685591
3,проведение свадьбы,2324,183,7.874355,10.886266


In [83]:
purpose_influence['share of debtors'] = \
purpose_influence['having_debts'] / debtors * 100
purpose_influence

Unnamed: 0,purpose_category,purpose,having_debts,percent_of_having_debts,share of clients,share of debtors
0,операции с автомобилем,4281,400,9.343611,20.053401,23.094688
1,операции с недвижимостью,10754,780,7.253115,50.374742,45.034642
2,получение образования,3989,369,9.250439,18.685591,21.30485
3,проведение свадьбы,2324,183,7.874355,10.886266,10.56582


In [84]:
purpose_influence = \
purpose_influence.rename(columns={'purpose': 'overall_clients'})
purpose_influence

Unnamed: 0,purpose_category,overall_clients,having_debts,percent_of_having_debts,share of clients,share of debtors
0,операции с автомобилем,4281,400,9.343611,20.053401,23.094688
1,операции с недвижимостью,10754,780,7.253115,50.374742,45.034642
2,получение образования,3989,369,9.250439,18.685591,21.30485
3,проведение свадьбы,2324,183,7.874355,10.886266,10.56582


Наиболее востребованной целью взятия кредита оказались операции с недвижимостью - на них приходится половина всех кредитов и чуть менее половины возвратов, однако внутри группы здесь меньше допускают задолженности. Следующими популярными категориями являются операции с автомобилем и получение образования: однако именно в этих категории обнаруживается наибольший процент должников. Меньше всего берут кредитов на проведение свадеб, а процент невыплат в этой категории также не является самым высоким. 
Рассмотрим каждую группу наиболее подробно, ведь именно цель кредита может повлиять на платежеспособность человека в конкретной ситуации. 

Для начала выявим зависимость от пола клиента

In [85]:
#сгруппируем клиентов по полу и цели

clients_gender = data.groupby('purpose_category')['gender'].value_counts()
clients_gender

purpose_category          gender
операции с автомобилем    F         2845
                          M         1436
операции с недвижимостью  F         7048
                          M         3705
                          XNA          1
получение образования     F         2650
                          M         1339
проведение свадьбы        F         1564
                          M          760
Name: gender, dtype: int64

Чаще кредиты вне зависимость от их целевого назначения берут клиенты женского пола. Рассмотрим, соответствует ли это ситуации с должниками.

In [86]:
#находим число должников и вычисляем их процент в каждой подгруппе

debtors_gender = \
data[data['debt'] == 1].groupby('purpose_category')['gender'].value_counts()

In [87]:
debtors_gender / clients_gender * 100

purpose_category          gender
операции с автомобилем    F          8.154657
                          M         11.699164
операции с недвижимостью  F          6.299659
                          M          9.068826
                          XNA             NaN
получение образования     F          7.773585
                          M         12.173264
проведение свадьбы        F          6.841432
                          M         10.000000
Name: gender, dtype: float64

Статистика говорит об обратном: в каждой из подкатегорий именно мужчины менее охотно возвращают кредиты - в среднем на 4%.  Особенно высоки показатели в таких категориях как получение образования и операции с автомобилем. 

Также рассмотрим взаимосвязь с возрастом клиентов

In [88]:
clients_age = data.groupby('purpose_category')['years_category'].value_counts()
clients_age

purpose_category          years_category
операции с автомобилем    31-55 лет         2704
                          старше 56 лет      895
                          до 30 лет          682
операции с недвижимостью  31-55 лет         6725
                          старше 56 лет     2116
                          до 30 лет         1913
получение образования     31-55 лет         2414
                          старше 56 лет      860
                          до 30 лет          715
проведение свадьбы        31-55 лет         1459
                          старше 56 лет      474
                          до 30 лет          391
Name: years_category, dtype: int64

Чаще всего за кредитами обращается население среднего возраста. Что интересно, самая маленькая категория клиентов, получающая кредиты на образование - это молодое поколение.

In [89]:
debtors_age = \
data[data['debt'] == 1].groupby('purpose_category')['years_category'].value_counts()

In [90]:
debtors_age / clients_age * 100

purpose_category          years_category
операции с автомобилем    31-55 лет          9.578402
                          до 30 лет         12.316716
                          старше 56 лет      6.368715
операции с недвижимостью  31-55 лет          7.301115
                          до 30 лет          9.827496
                          старше 56 лет      4.773157
получение образования     31-55 лет          9.154930
                          до 30 лет         13.006993
                          старше 56 лет      6.395349
проведение свадьбы        31-55 лет          8.087731
                          до 30 лет          9.718670
                          старше 56 лет      5.696203
Name: years_category, dtype: float64

Данные показывают, что хуже всего выплаты во всех категориях осуществляют клиенты младше 30 лет - в особенности, при операциях с автомобилем или получении образования. Во всех случаях, поколение 56+ реже встречается среди должников в своих группах. 

Рассмотрим связь операций с образованием.

In [91]:
clients_education = data.groupby('purpose_category')['education'].value_counts()
clients_education

purpose_category          education          
операции с автомобилем    среднее                3040
                          высшее                 1033
                          неоконченное высшее     153
                          начальное                55
операции с недвижимостью  среднее                7560
                          высшее                 2667
                          неоконченное высшее     378
                          начальное               144
                          ученая степень            5
получение образования     среднее                2874
                          высшее                  928
                          неоконченное высшее     131
                          начальное                55
                          ученая степень            1
проведение свадьбы        среднее                1617
                          высшее                  600
                          неоконченное высшее      79
                          начальное 

In [92]:
debtors_education = \
data[data['debt'] == 1].groupby('purpose_category')['education'].value_counts()

In [93]:
debtors_education / clients_education * 100

purpose_category          education          
операции с автомобилем    высшее                  6.485963
                          начальное              10.909091
                          неоконченное высшее    10.457516
                          среднее                10.230263
операции с недвижимостью  высшее                  4.836895
                          начальное              11.111111
                          неоконченное высшее     8.994709
                          среднее                 7.949735
                          ученая степень               NaN
получение образования     высшее                  5.926724
                          начальное               9.090909
                          неоконченное высшее     9.160305
                          среднее                10.334029
                          ученая степень               NaN
проведение свадьбы        высшее                  4.500000
                          начальное              14.285714
          

Большинство кредитов берут клиенты, имеющие среднее образование, однако лучше всего кредиты выплачивают те, кто имеет законченное высшее образование или даже ученую степень. В операциях с автомобилями и образованием все клиенты, кроме тех, кто получил высшее образование, примерно в равной степени оказываются в должниках. Хуже всего выплачивают кредиты по недвижимости с начальным или неоконченным высшим образованием, а безусловным лидером среди должников, которые взяли кредиты на свадьбу, оказываются лица, чье образование завершилось на этапе начальной школы. 

Посмотрим на семейное положение должников по целям кредита.

In [94]:
clients_family = \
data.groupby('purpose_category')['family_status'].value_counts()
clients_family

purpose_category          family_status        
операции с автомобилем    женат / замужем          2719
                          Не женат / не замужем     635
                          гражданский брак          430
                          в разводе                 279
                          вдовец / вдова            218
операции с недвижимостью  женат / замужем          6972
                          Не женат / не замужем    1586
                          гражданский брак          989
                          в разводе                 672
                          вдовец / вдова            535
получение образования     женат / замужем          2575
                          Не женат / не замужем     575
                          гражданский брак          403
                          в разводе                 238
                          вдовец / вдова            198
проведение свадьбы        гражданский брак         2324
Name: family_status, dtype: int64

В трех категориях из четырех большинство клиентов имеют официальный семейный статус или неженаты. Кредит на получение свадьбы берут только лица, проживающие в гражданском браке

In [95]:
debtors_family = \
data[data['debt'] == 1].groupby('purpose_category')['family_status'].value_counts()
debtors_family

purpose_category          family_status        
операции с автомобилем    женат / замужем          226
                          Не женат / не замужем     82
                          гражданский брак          51
                          в разводе                 21
                          вдовец / вдова            20
операции с недвижимостью  женат / замужем          486
                          Не женат / не замужем    129
                          гражданский брак          91
                          в разводе                 46
                          вдовец / вдова            28
получение образования     женат / замужем          215
                          Не женат / не замужем     62
                          гражданский брак          60
                          в разводе                 17
                          вдовец / вдова            15
проведение свадьбы        гражданский брак         183
Name: family_status, dtype: int64

In [96]:
debtors_family / clients_family * 100

purpose_category          family_status        
операции с автомобилем    женат / замужем           8.311879
                          Не женат / не замужем    12.913386
                          гражданский брак         11.860465
                          в разводе                 7.526882
                          вдовец / вдова            9.174312
операции с недвижимостью  женат / замужем           6.970740
                          Не женат / не замужем     8.133670
                          гражданский брак          9.201213
                          в разводе                 6.845238
                          вдовец / вдова            5.233645
получение образования     женат / замужем           8.349515
                          Не женат / не замужем    10.782609
                          гражданский брак         14.888337
                          в разводе                 7.142857
                          вдовец / вдова            7.575758
проведение свадьбы        гражданский

Данные подтверждают сделанный ранее вывод о взаимосвязи должников и их семейного положения: основными неплательщиками остаются неженатые клиенты или клиенты, состоящие в гражданском браке. Особенно велик процент невыплат такими должниками в категориях "получение образования" и "операции с автомобилями". Дополнительно посмотрим, как влияет фактор наличия детей на выплату кредитов по категориям.

In [97]:
clients_children = data.groupby(['purpose_category', 'children_category']) \
['family_status'].value_counts()
clients_children

purpose_category          children_category  family_status        
операции с автомобилем    детей нет          женат / замужем          1651
                                             Не женат / не замужем     518
                                             гражданский брак          282
                                             вдовец / вдова            201
                                             в разводе                 195
                          есть дети          женат / замужем          1068
                                             гражданский брак          148
                                             Не женат / не замужем     117
                                             в разводе                  84
                                             вдовец / вдова             17
операции с недвижимостью  детей нет          женат / замужем          4239
                                             Не женат / не замужем    1287
                                 

In [98]:
debtors_children = \
data[data['debt'] == 1].groupby(['purpose_category', 'children_category'])['family_status'].value_counts()
debtors_children

purpose_category          children_category  family_status        
операции с автомобилем    детей нет          женат / замужем          119
                                             Не женат / не замужем     64
                                             гражданский брак          28
                                             вдовец / вдова            19
                                             в разводе                 13
                          есть дети          женат / замужем          107
                                             гражданский брак          23
                                             Не женат / не замужем     18
                                             в разводе                  8
                                             вдовец / вдова             1
операции с недвижимостью  детей нет          женат / замужем          279
                                             Не женат / не замужем     95
                                             

In [99]:
debtors_children / clients_children * 100

purpose_category          children_category  family_status        
операции с автомобилем    детей нет          Не женат / не замужем    12.355212
                                             в разводе                 6.666667
                                             вдовец / вдова            9.452736
                                             гражданский брак          9.929078
                                             женат / замужем           7.207753
                          есть дети          Не женат / не замужем    15.384615
                                             в разводе                 9.523810
                                             вдовец / вдова            5.882353
                                             гражданский брак         15.540541
                                             женат / замужем          10.018727
операции с недвижимостью  детей нет          Не женат / не замужем     7.381507
                                             в развод

Данные показывают, что во всех категориях задолжают банку чаще клиенты, несостоящие в брачных отношениях, но имеющие детей. 


Наконец, рассмотрим показатели дохода, стажа и профессионального статуса.

In [100]:
clients_income = data.groupby('purpose_category')['total_income_category'].value_counts()
clients_income 

purpose_category          total_income_category
операции с автомобилем    C                        3183
                          B                        1022
                          D                          72
                          A                           2
                          E                           2
операции с недвижимостью  C                        8000
                          B                        2558
                          D                         168
                          A                          17
                          E                          11
получение образования     C                        3015
                          B                         890
                          D                          75
                          E                           5
                          A                           4
проведение свадьбы        C                        1740
                          B                         544


Абсолютно во всех категориях большинство кредитов берут клиенты со средним доходом, и далее - с доходами выше и ниже среднего. 

In [101]:
debtors_income = \
data[data['debt'] == 1].groupby('purpose_category')['total_income_category'].value_counts()
debtors_income

purpose_category          total_income_category
операции с автомобилем    C                        305
                          B                         85
                          D                         10
операции с недвижимостью  C                        599
                          B                        172
                          D                          6
                          E                          2
                          A                          1
получение образования     C                        297
                          B                         69
                          D                          2
                          A                          1
проведение свадьбы        C                        152
                          B                         28
                          D                          3
Name: total_income_category, dtype: int64

In [102]:
debtors_income / clients_income * 100

purpose_category          total_income_category
операции с автомобилем    A                              NaN
                          B                         8.317025
                          C                         9.582155
                          D                        13.888889
                          E                              NaN
операции с недвижимостью  A                         5.882353
                          B                         6.724003
                          C                         7.487500
                          D                         3.571429
                          E                        18.181818
получение образования     A                        25.000000
                          B                         7.752809
                          C                         9.850746
                          D                         2.666667
                          E                              NaN
проведение свадьбы        A          

Зависимость дохода и выплаты долгов различается в зависимости от цели кредита. Так, больше всего должников с операциями по автомобилям приходится на людей с доходом ниже среднего. Вовремя не выплачивают ипотеку или другие кредиты, связанные с недвижимостью, представители немногочисленного класса "Е", а должниками в группе "Получение образования" становятся клиенты противоположного класса "А". Принимая во внимание, что лица с низкими или очень высокими доходами составляют меньшинство клиентов, можно сказать, что основными должниками в этих категориях являются все же клиенты со средним доходом. Основной долг на проведение свадьбы ложится на клиентов со средним доходом и доходами ниже среднего. 

Рассмотрим, какие профессиональные категории клиентов пользуются услугами кредитования тех или иных операций.

In [103]:
clients_position = \
data.groupby('purpose_category')['income_type'].value_counts()
clients_position

purpose_category          income_type    
операции с автомобилем    сотрудник          2156
                          компаньон          1048
                          пенсионер           792
                          госслужащий         284
                          в декрете             1
операции с недвижимостью  сотрудник          5585
                          компаньон          2531
                          пенсионер          1881
                          госслужащий         753
                          безработный           2
                          предприниматель       1
                          студент               1
получение образования     сотрудник          2066
                          компаньон           947
                          пенсионер           720
                          госслужащий         256
проведение свадьбы        сотрудник          1215
                          компаньон           523
                          пенсионер           427
        

Распределение основных профессиональных категорий является одинаковым для всех целей кредита: это сотрудники, далее - компаньоны, пенсионеры и госслужащие. 

In [104]:
debtors_position = \
data[data['debt'] == 1].groupby('purpose_category')['income_type'].value_counts()
debtors_position

purpose_category          income_type
операции с автомобилем    сотрудник      242
                          компаньон       84
                          пенсионер       51
                          госслужащий     22
                          в декрете        1
операции с недвижимостью  сотрудник      484
                          компаньон      167
                          пенсионер       92
                          госслужащий     36
                          безработный      1
получение образования     сотрудник      228
                          компаньон       72
                          пенсионер       48
                          госслужащий     21
проведение свадьбы        сотрудник      100
                          компаньон       51
                          пенсионер       25
                          госслужащий      7
Name: income_type, dtype: int64

In [105]:
debtors_position / clients_position * 100

purpose_category          income_type    
операции с автомобилем    в декрете          100.000000
                          госслужащий          7.746479
                          компаньон            8.015267
                          пенсионер            6.439394
                          сотрудник           11.224490
операции с недвижимостью  безработный         50.000000
                          госслужащий          4.780876
                          компаньон            6.598183
                          пенсионер            4.891015
                          предприниматель           NaN
                          сотрудник            8.666070
                          студент                   NaN
получение образования     госслужащий          8.203125
                          компаньон            7.602957
                          пенсионер            6.666667
                          сотрудник           11.035818
проведение свадьбы        госслужащий          4.430380
      

Высокий процент в данной таблице имеет клиент, находящийся в декрете и взявший кредит на авто, а также безработный с кредитом на недвижимость, однако число представителей декретных и безработных групп в таблице слишком мало, чтобы делать единозначные выводы. В более крупных группах наибольший процент должников приходится на сотрудников и затем - на компаньонов, исключение составляют лишь клиенты, взявшие кредит на свадьбу - здесь первенство среди должников имеют именно компаньоны. 

В завершение, рассмотрим зависимость от стажа. 

In [106]:
clients_experience = \
data.groupby('purpose_category')['experience_category'].value_counts()
clients_experience

purpose_category          experience_category
операции с автомобилем    средний опыт           1487
                          небольшой опыт         1122
                          большой опыт            522
                          нет опыта               358
операции с недвижимостью  средний опыт           3870
                          небольшой опыт         2716
                          большой опыт           1350
                          нет опыта               935
получение образования     средний опыт           1460
                          небольшой опыт          995
                          большой опыт            493
                          нет опыта               321
проведение свадьбы        средний опыт            791
                          небольшой опыт          590
                          большой опыт            313
                          нет опыта               203
Name: experience_category, dtype: int64

Больше всего кредитов на все цели берут молодые специалисты - преимущественно с опытом 4-10 лет, а также их младшие по профессиональному статусу коллеги.

In [107]:
debtors_experience = data[data['debt'] == 1].\
    groupby('purpose_category')['experience_category'].value_counts()
debtors_experience / clients_experience * 100

purpose_category          experience_category
операции с автомобилем    большой опыт            7.088123
                          небольшой опыт         11.497326
                          нет опыта              12.569832
                          средний опыт            9.280430
операции с недвижимостью  большой опыт            3.481481
                          небольшой опыт          9.830633
                          нет опыта              10.160428
                          средний опыт            7.183463
получение образования     большой опыт            7.707911
                          небольшой опыт         12.060302
                          нет опыта              11.214953
                          средний опыт            8.698630
проведение свадьбы        большой опыт            5.431310
                          небольшой опыт         10.169492
                          нет опыта               8.374384
                          средний опыт            8.091024
Name: expe

Во всех группах, кроме проведения свадьбы, худшие показатели по выплатам демонстрируют клиенты с небольшим опытом или только его приобретающие. Основными должниками среди клиентов, взявших кредит на свадьбу, также являются начинающие специалисты, однако процент тех, кто уже получил профессиональный стаж от 4 лет, здесь равен проценту клиентов без опыта работы. 

**Вывод:** 
Рассмотрение данных по отдельным целям кредитов показали наличие единых тенденций и подтвердили ранее сделанные выводы по отдельным категориям. Так, например, среднестатистический клиент кредитного отдела банка является замужней женщиной средних лет без ребенка, состоявшаяся в своем профессиональном опыте как сотрудник, получившая среднее или несколько реже - высшее образование и имеющая средний доход. 
Основной портрет должника, берущего кредит на любые цели, можно описать следующим образом: это преимущественно мужчины, молодые клиенты с детьми, не состоящие в официальных брачных отношениях, не имеющие образования выше среднего, с низким или средним доходом, безработные или сотрудники, только набирающие профессиональный опыт или готовящиеся его получить. Наибольшие отличия прослеживаются среди группы клиентов, берущих кредит на свадьбу: в эту категорию входят только клиенты, живущие в гражданском браке, а среди должников значительное число представлено компаньонами и лицами с большим опытом, чем в остальных категориях.

**Задание 23. Приведите возможные причины появления пропусков в исходных данных.**

*Ответ:* в данной таблице мы встретили пропуски или ошибки данных в следующих группах:

   1) Стаж. Ввиду того, что стаж исчислялся в днях, можно предположить, что произошла ошибка во время подсчета (что гораздо легче сделать, чем исчисляя стаж в годах). Вероятно, произошла техническая или человеческая ошибка, поскольку весь стаж пенсионеров превышал допустимые показатели (например, была неверно проставлена запятая - и вместо 1000,00 дней трудового стажа пенсионеры получили 10000 дней и т.д.). Пустующие ячейки, с одной стороны, могли в действительности обозначать отсутствие опыта, или же сотрудник/клиент забыл подсчитать и внести информацию о стаже.
   
   2) Возраст и доход. Вероятно, здесь ошибка носила человеческий или технический характер: данный пункт мог быть пропущен сотрудником (например, карточку клиента заполняли разные сотрудника банка, или планировалось внести информацию позже), а система поставила 0 или пропуск по умолчанию, т.к. информация о дате рождения и доходе имеет обязательный характер для выдачи кредита. 

**Задание 24. Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.**

*Ответ:* ввиду наличия аномалий, когда одно или несколько значений, не представленных в данной категории в значительной степени, могут серьезным образом повлиять на результат. Например, медианное значение честнее отразит зарплаты в компании, где сотрудники получают зарплату в одном интервале, а руководство, составляющее меньшую часть штата компании, получает зарплату, в несколько раз превышающую доход подчиненных. Кроме того, это позволит избежать серьезного искажения данных при возникновении аномалий, вызванных человеческим или техническим фактором. 

<a id="conclusion"> </a>

## Общий вывод.

В ходе исследования был рассмотрен ряд факторов, потенциально влияющих на своевременную выплату кредита:

Гипотеза 1: наличие детей влияет на своевременную выплату кредита - подтверждена. Данные показали, что кредитополучатели, не имеющие детей, более ответственно подходят к выплате кредита. Доля должников с детьми на 2% выше доли клиентов с кредитной задолженностью, не имеющих детей (9,2 и 7,5% соответственно). Также следует отметить, что хуже всего выплачивают кредиты те клиенты с детьми, которые не состояли ранее в браке: в частности, в группах клиентов с детьми, не являющихся женатыми/замужними или живущих в гражданском браке, доля должников составляет около 11%, в то время как наилучшие показатели демонстрируют клиенты, не имеющие детей, но при этом состоящие на данный момент или ранее в официальном браке (в данных категориях доля должников не превышает 7%). 

Гипотеза 2: семейное положение влияет на своевременную выплату кредита - подтверждена. Согласно полученным данным, клиенты, имеющие супружеский опыт, более ответственно относятся к выплате кредита. В группах клиентов, не состоящих ранее в зарегистрированном браке (незамужние/неженатые клиенты и клиенты в гражданском браке), доля должников в среднем на 2% выше по сравнению с группами замужних, вдовых и разведенных клиентов (неженатые - 9,76%, в гражданском браке - 9,29%, в официальном браке - 7,56%, в разводе - 7,06%, потерявшие супруга - 6,62%).  

Гипотеза 3: уровень и источник дохода влияют на своевременную выплату кредита - частично подтверждена. Наибольший процент невозвратов (9%) приходится на группу с минимальными доходом. Тем не менее, прямой зависимости между наличием долга и уровнем дохода не выявлено: в числе лидирующих среди должников групп также находятся клиенты с самыми большими доходами (8%), в то время как клиенты, у которых доход несколько превышает минимальный, являются, согласно данным, наиболее ответственными клиентами (6% должников). Ввиду этого, следует отметить неоднородность выборки и недостаточность данных по заемщикам с высокими и низкими доходами, как и отдельным профессиональным категориям (пенсионеры, безработные, клиенты в декрете), чтобы сделать однозначные выводы о влиянии дохода и его источника на выплату кредитов. В рамках данной гипотезы также проведено исследование влияния дополнительного фактора профессионального стажа на выплату кредита по всем категориях дохода, итоги которого подтвердили пропорциональную зависимость опыта работы и наличия долгов: вне зависимости от уровня дохода чаще всего допускают невыплаты именно клиенты с отсутствием опытом или небольшим опытом (в разных группах дохода этот показатель варьировался от 8 до 33%), в то время как более опытные сотрудники не выплачивают кредиты реже (максимальные доли должников в группе клиентов со средним (4-10 лет) и большим (от 11 лет) опытом трудовой деятельности составляют 8 и 6 % соответственно).

Гипотеза 5: целевое назначение кредита влияет на своевременную его выплату - подтверждена. Полученные данные продемонстрировали, что примерно на 2% чаще должниками становятся клиенты, которые берут кредиты для совершения операций с автомобилем (9,35%) или получения образования (9,25%) по сравнению с клиентами, которые заключают сделки с недвижимостью (7,25%) или планируют проведение свадьбы (7,87%). В то же время, с целью доказательства данной гипотезы были рассмотрены дополнительные факторы, имеющие потенциальное влияние на выплату кредита (пол, возраст, образование), которые выявили единые тенденции (в дополнение уже к рассмотренным выше). Так, вне зависимости от цели кредита чаще должниками становятся мужчины, чем женщины (средняя разница по отдельным категориям целей кредита - 3,5%), представители молодого поколения до 30 лет (средняя разница - 2,7%), а наилучшие выплаты демонстрируют клиенты, имеющие полное высшее образование (не более 6,5%  в каждой из категорий) однако, в данном вопросе стоит отметить достаточную нерепрезентативность выборки, особенно в случае с начальным и незаконченным высшим образованием).

Общие рекомендации: 
1) Для составления более точного портрета должника необходимо собрать более репрезентативную выборку, в частности, по таким категориям, как образование, доход и его источник, количество детей.

2) Разницы между долей должников по отдельным категориям и группам не являются значительными: они различаются в среднем только на 2-3%, а процент клиентов, имеющих задолженности, в каждой из групп, как правило, находится в промежутке от 12 до 5% - что в среднем довольно близко к общей доле всех должников среди клиентов банка - 8%.

Таким образом, полученные данные продемонстрировали наличие определенных зависимостей, однако при построении модели кредитного скоринга рекомендуется проведение дополнительных исследований, которые могут показать более явные различия в группах клиентов или подтвердить истинность полученных результатов. 