# Исследование надёжности заёмщиков

## Загрузка данных и изучение основной информации

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Считаем данные из csv-файла и сохраним в переменную `data`
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [3]:
# Выведем первые 20 строчек датафрейма `data` на экран
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# Выведем основную информацию о датафрейме с помощью метода `info()`
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод.** Датафрейм содержит 21525 строк и 12 столбцов. Названия столбцов корректные, стиль выдержан. Имеются пропущенные значения в столбцах `days_employed` и `total_income`. Два столбца имеют тип данных `float`, пять столбцов - `int` и 5 столбцов - `object`.

## Предобработка данных

### Удаление пропусков

In [5]:
# Выведем количество пропущенных значений для каждого столбца
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В столбцах `days_employed` и `total_income` по 2174 пропущенных значений.  
Столбец `total income` хранит данные о доходах, столбец `days_employed` - о типе занятости.  
Пропуски в данных об общем трудовом стаже в днях могут иметь место по нескольким причинам: 1) клиент ещё не имеет трудового стажа, 2) клиент не имеет официального места работы, работает неофициально, 3) предприятие, на котором человек работал, обанкротилось или расформировано, и официальная информация не поступила в ПФ, 4) клиент вообще не работает и другие причины. Пропуски в данных о ежемесячном доходе могут иметь место из-за нежелания клиента указывать свой реальный доход (особенно в случае высоких доходов) или в случае отсутствия официально подтвержденного дохода.

Можно было бы заполнить пропущенные значения средним значением. Но среднее значение количественных переменных может неверно представлять среднюю величину, так как некоторые крайние значения могут сильно отличаться от остальных. Например, самый высокий доход у нескольких человек может быть в десятки раз выше, чем у рядом находящихся в ранге людей в выборке. И это исказит значение средней величины в большую сторону. Более правильным в таком случае использовать медианное значение, которое находится посередине ранжированного ряда значений. То есть в нашем случае у половины людей доход ниже медианного значения, а у другой половины - выше. Медианное значение наиболее точно отобразит значение среднего дохода в этой выборке. Итак, лучшее решение для количественных переменных - заполнить пропуски медианным значением.
На сумму дохода сильнее всего влияет тип занятости.  
Заполним пропуски в этом столбце медианным значением по каждому типу из столбца `income type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` заполнем медианным доходом среди всех записей с тем же типом.  
Предварительно проверим уникальные значения в столбце `total_income`.

In [6]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [7]:
# Заполним пропуски в столбце `total_income` медианными значениями по каждому типу занятости `income_type`
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

In [8]:
# Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [9]:
# Убедимся, что все пропуски заполнены
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Обработка аномальных значений

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Судя по первичным данным, таким артефактом является отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода abs().

In [10]:
data['days_employed'] = data['days_employed'].abs()

Рассмотрим столбец `days_employed`. Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [11]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получены аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть.

Рассмотрим столбец `children`. Выведем перечень уникальных значений в этом столбце.

In [12]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [13]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [14]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Изменение типов данных

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [15]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

Судя по первым 20 строкам датафрейма, в столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру.

In [16]:
data['education'] = data['education'].str.lower()

Проверим датафрейм на явные дубликаты. Выведем на экран количество строк-дубликатов в датафрейме.

In [17]:
data.duplicated().sum()

71

Найдено 71 строки явных дубликатов. Удалим их.

In [18]:
data = data.drop_duplicates()

Проверим остальные столбцы. Выведем уникальные значения столбцов `family_status`, `gender`, `income_type`, `purpose`.

In [19]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [20]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [21]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

В столбце `purpose`, содержащем цель кредита, имеется множество по сути одинаковых значений, записанных по-разному. Необходимо привести их к единому виду. Для этого выполним категоризацию данных. Категоризацию данных выполним также по отношению к столбцу `total_income`, содержащем сведения о доходах.

### Категоризация данных

Создадим в датафрейме `data` столбец `total_income_category` с категориями:  
- 0-30000 - `'E'`;
- 30001-50000 - `'D'`;
- 50001-200000 - `'C'`;
- 200001-1000000 - `'B'`;
- 1000001 и выше - `'A'`.

In [22]:
# Напишем функцию для определения категорий по доходам
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [23]:
# Для заполнения столбца `total_income_category` применим метод `apply()`
data['total_income_category'] = data['total_income'].apply(categorize_income)

Вернёмся к столбцу `purpose`. Создадим на его основе новый столбец `purpose_category`, в который войдут следующие категории:  
- 'операции с автомобилем';
- 'операции с недвижимостью';
- 'проведение свадьбы';
- 'получение образования'.  

Для этого будем проверять вхождение подстроки в строку в столбце `purpose`.

In [24]:
# Напишем собственную функцию
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [25]:
# Применим функцию к столбцу `purpose`
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

In [26]:
# Проверим
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


**Вывод.** Пропущенные значения в столбцах `days_employed` и `total_income` заполнены. Аномальные значения (отрицательные) в столбце `days_employed` обработаны. Тип данных в столбце `total_income` изменён. Явные дубликаты удалены, неявные дубликаты обработаны, выполнена категоризация данных в столбцах `total_income` и `purpose`.

## Исследование данных

### Влияние количества детей на возврат кредита в срок

Создадим новый датафрейм, куда войдут столбцы `cildren` и `debt`. Сохраним её как `data_children`. Выведем на экран первые 10 строк нового датафрейма.

In [27]:
data_children = data[['children', 'debt']]
data_children.head(10)

Unnamed: 0,children,debt
0,1,0
1,1,0
2,0,0
3,3,0
4,0,0
5,0,0
6,0,0
7,0,0
8,2,0
9,0,0


In [28]:
# Проверим уникальные значения в столбце `debt`
data_children['debt'].unique()

array([0, 1], dtype=int64)

В столбце `debt` только два уникальных значения. Сгруппируем данные в датафрейме `data_children` по количеству детей в семье. Для каждой группы найдём общее число клиентов `total_clients_ch` с помощью метода `count()`.

In [29]:
total_clients_ch = data_children.groupby('children')['debt'].count()
total_clients_ch

children
0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: debt, dtype: int64

По сгруппированным данным найдём число клиентов, имевших задолженность по кредиту `debtor_ch` с помощью метода `sum`.

In [30]:
debtor_ch = data_children.groupby('children')['debt'].sum()
debtor_ch

children
0    1063
1     444
2     194
3      27
4       4
5       0
Name: debt, dtype: int64

Объединим два `Series` в один `DataFrame`.

In [31]:
data_pivot_children = pd.DataFrame({
    'total_clients_ch': total_clients_ch,
    'debtor_ch': debtor_ch
})
data_pivot_children

Unnamed: 0_level_0,total_clients_ch,debtor_ch
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14091,1063
1,4808,444
2,2052,194
3,330,27
4,41,4
5,9,0


В каждой группе по количеству детей в семье рассчитаем долю клиентов, имевших задолженность по кредиту `part_debtor_ch`, разделив число клиентов, имевших задолженность по кредиту `debtor_ch` на общее число клиентов в каждой группе `total_clients_ch`.

In [32]:
data_pivot_children['part_debtor_ch'] =  data_pivot_children['debtor_ch'] / data_pivot_children['total_clients_ch']
data_pivot_children

Unnamed: 0_level_0,total_clients_ch,debtor_ch,part_debtor_ch
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


Семьи, имеющие 5 детей, во всех случаях вернули кредит в срок. Но таких семей в имеющихся данных слишком мало, чтобы делать четкие выводы. Среди остальных семей разница в доле семей, не допускавших задолженностей, невелика. Несколько реже других допускали просрочку по кредитам семьи, не имеющие детей. В остальных случаях не наблюдается вообще никакой зависимости.  
В итоговой сводной таблице зависимости между количеством детей и возвратом кредита в срок обратим внимание, что три группы клиентов - семьи с 0, 1 и 2 детьми являются самыми многочисленными (величина даже самой малочисленной из них в несколько раз больше величины трех оставшихся групп вместе взятых). Поэтому рассмотрим эти три группы отдельно. Как видно, с ростом числа детей в этих группах растет и доля кредитов, не выплаченных вовремя. Следовательно, всё же зависимость возврата кредита в срок от числа детей в семье имеется, и она обратная: с ростом числа детей в семье снижается доля вовремя выплаченных кредитов.

### Влияние семейного положения на возврат кредита в срок

Создадим новый датафрейм, куда войдут столбцы `family_status`, `family_status_id` и `debt`. Сохраним его как `data_family`. Выведем на экран первые 10 строк нового датафрейма.

In [33]:
data_family = data[['family_status', 'family_status_id', 'debt']]
data_family.head(10)

Unnamed: 0,family_status,family_status_id,debt
0,женат / замужем,0,0
1,женат / замужем,0,0
2,женат / замужем,0,0
3,женат / замужем,0,0
4,гражданский брак,1,0
5,гражданский брак,1,0
6,женат / замужем,0,0
7,женат / замужем,0,0
8,гражданский брак,1,0
9,женат / замужем,0,0


Сгруппируем данные в датафрейме `data_family` по семейному положению. Для каждой группы найдём общее число клиентов `total_clients_f` с помощью метода `count()`.

In [34]:
total_clients_f = data_family.groupby('family_status')['debt'].count()
total_clients_f

family_status
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
гражданский брак          4134
женат / замужем          12261
Name: debt, dtype: int64

Для каждой группы клиентов по семейному положению найдём число клиентов, имевших задолженность по кредиту `debtor_f`.

In [35]:
debtor_f= data_family.groupby('family_status')['debt'].sum()
debtor_f

family_status
Не женат / не замужем    273
в разводе                 84
вдовец / вдова            63
гражданский брак         385
женат / замужем          927
Name: debt, dtype: int64

Объединим два `Series` в один `DataFrame`.

In [36]:
data_pivot_family = pd.DataFrame({
    'total_clients_f': total_clients_f,
    'debtor_f': debtor_f
})
data_pivot_family

Unnamed: 0_level_0,total_clients_f,debtor_f
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,2796,273
в разводе,1189,84
вдовец / вдова,951,63
гражданский брак,4134,385
женат / замужем,12261,927


В каждой группе клиентов по семейному положению рассчитаем долю клиентов, имевших задолженность по кредиту `part_debtor_f`, разделив число клиентов, имевших задолженность по кредиту `debtor_f` на общее число клиентов в каждой группе `total_clients_f`. Выполним сортировку полученных данных в порядке возрастания доли клиентов, имевших задолженность по кредиту, с помощью метода `sort_values()`.

In [37]:
data_pivot_family['part_debtor_f'] = data_pivot_family['debtor_f'] / data_pivot_family['total_clients_f']
data_pivot_family.sort_values(by='part_debtor_f')

Unnamed: 0_level_0,total_clients_f,debtor_f,part_debtor_f
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,951,63,0.066246
в разводе,1189,84,0.070648
женат / замужем,12261,927,0.075606
гражданский брак,4134,385,0.09313
Не женат / не замужем,2796,273,0.097639


В группах клиентов по семейному положению наблюдается заметное различие значений доли клиентов, допускавших просрочки по кредиту. В группе со статусом "вдовец/вдова" доля клиентов, имевших задолженность по кредиту, составляет только 6.62 %, в группе со статусом "в разводе" эта доля составляет 7,06 %, в группе "женат/замужем" - 7,56 %. А в группах "гражданский брак и "не женат/не замужем" эта доля составляет более 9 % (9,31 и 9,76 % соответственно). Можно предположить, что статус "гражданский брак" и "не женат/не замужем" более свойственен молодым людям, ещё не имеющим стабильного дохода и сформировавшейся внутренней ответственности. А, например, статус "вдовец/вдова" - это статус зрелых, ответственных людей, имеющих постоянный доход и при оформлении кредита адекватно оценивающих свои финансовые возможности. Итак, возвращаемость кредита в срок имеет заметную зависимость от семейного положения клиента. Заёмщики, состоящие или состоявшие в браке, реже допускают задолженность по кредитам.  
В данном случае общая численность разных групп клиентов сопоставима, поэтому выборку считаем сбалансированной, и вывод объективным.

### Влияние уровня дохода на возврат кредита в срок

Создадим новый датафрейм `data_income`, куда войдут столбцы `total_income`, `total_income_category`  и `debt`. Выведем на экран первые 10 строк нового датафрейма.

In [38]:
data_income = data[['total_income', 'total_income_category', 'debt']]
data_income.head(10)

Unnamed: 0,total_income,total_income_category,debt
0,253875,B,0
1,112080,C,0
2,145885,C,0
3,267628,B,0
4,158616,C,0
5,255763,B,0
6,240525,B,0
7,135823,C,0
8,95856,C,0
9,144425,C,0


Сгруппируем данные в датафрейме `data_income` по категориям уровня дохода клиентов. Рассчитаем в этом датафрейме медианный доход в каждой группе клиентов с использованием метода `median()`, общее число клиентов методом `count()` и число клиентов, имевших задолженность по кредиту, методом `sum()`. Для применения методов к столбцам датафрейма используем метод `agg()`.

In [39]:
data_income_grouped = data_income.groupby('total_income_category').agg(
    {
        'total_income': 'median',
        'debt': ['count', 'sum']
    }
)
data_income_grouped

Unnamed: 0_level_0,total_income,debt,debt
Unnamed: 0_level_1,median,count,sum
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,1223042.0,25,2
B,257558.0,5014,354
C,130355.0,15921,1353
D,43929.0,349,21
E,26431.0,22,2


Добавим в датафрейм `data_income_grouped` новый столбец `part_debtor`, в котором посчитаем долю клиентов, имевших задолженность по кредиту, в каждой группе клиентов по уровню дохода, разделив число клиентов, имевших задолженность, на общее число клиентов в группе.

In [40]:
data_income_grouped['part_debtor'] = data_income_grouped['debt']['sum'] / data_income_grouped['debt']['count']
data_income_grouped

Unnamed: 0_level_0,total_income,debt,debt,part_debtor
Unnamed: 0_level_1,median,count,sum,Unnamed: 4_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,1223042.0,25,2,0.08
B,257558.0,5014,354,0.070602
C,130355.0,15921,1353,0.084982
D,43929.0,349,21,0.060172
E,26431.0,22,2,0.090909


Выполним сортировку в датафрейме `data_income_grouped` по возрастанию значений столбца `part_debtor`.

In [41]:
data_income_grouped.sort_values(by='part_debtor')

Unnamed: 0_level_0,total_income,debt,debt,part_debtor
Unnamed: 0_level_1,median,count,sum,Unnamed: 4_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
D,43929.0,349,21,0.060172
B,257558.0,5014,354,0.070602
A,1223042.0,25,2,0.08
C,130355.0,15921,1353,0.084982
E,26431.0,22,2,0.090909


Как видно из таблицы, меньше всего просрочек по кредиту (6,01 %) допускали клиенты из категории D с медианным доходом 43929. Больше всего (9,09 %) было просрочек по кредиту в категории Е с медианным доходом 26431, то есть с самыми низкими доходами. Группы с самыми высокими доходами A, B и C расположились посередине рейтинга по частоте просрочек по кредиту, и то не по порядку. Явной зависимости между уровнем доходов и возвратом кредита в срок не просматривается.  

Вернёмся к таблице `data_income_grouped` и выполним сортировку по числу клиентов `debt count`, для этого в качестве аргумента `by=` передадим кортеж из столбца и подстолбца таблицы. Сортировку выполним в порядке убывания.

In [42]:
data_income_grouped.sort_values(by=('debt', 'count'), ascending=False)

Unnamed: 0_level_0,total_income,debt,debt,part_debtor
Unnamed: 0_level_1,median,count,sum,Unnamed: 4_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
C,130355.0,15921,1353,0.084982
B,257558.0,5014,354,0.070602
D,43929.0,349,21,0.060172
A,1223042.0,25,2,0.08
E,26431.0,22,2,0.090909


Как видно из таблицы, самые многочисленные группы клиентов - группы B и С с медианным доходом средней величины. Остальные группы с самыми высокими и самыми низкими доходами составляют очень незначительную часть клиентов, поэтому выводы можно делать по двум самым многочисленным группам. А эти две группы показывают, что клиенты с более высоким доходом (257558) допускают просрочки в 7,06 % случаев, а клиенты с более низким доходом (130355) допускают просрочки в 8,50 % случаев, то есть чаще. Таким образом, имеется прямая зависимость между уровнем дохода и возвратом кредита в срок: чем выше уровень дохода, тем вероятнее возврат кредита в срок.

### Влияние цели кредита на возврат кредита в срок

Создадим датафрейм data_purpose, в который войдут столбцы purpose, purpose_category и debt. Выведем на экран первые 10 строк нового датафрейма.

In [43]:
data_purpose = data[['purpose', 'purpose_category', 'debt']]
data_purpose.head(10)

Unnamed: 0,purpose,purpose_category,debt
0,покупка жилья,операции с недвижимостью,0
1,приобретение автомобиля,операции с автомобилем,0
2,покупка жилья,операции с недвижимостью,0
3,дополнительное образование,получение образования,0
4,сыграть свадьбу,проведение свадьбы,0
5,покупка жилья,операции с недвижимостью,0
6,операции с жильем,операции с недвижимостью,0
7,образование,получение образования,0
8,на проведение свадьбы,проведение свадьбы,0
9,покупка жилья для семьи,операции с недвижимостью,0


Сгруппируем данные в датафрейме `data_purpose` по категориям целей кредита `purpose_category`. Для каждой группы найдём общее число клиентов `total_clients_p` с помощью метода `count()`.

In [44]:
total_clients_p = data_purpose.groupby('purpose_category')['debt'].count()
total_clients_p

purpose_category
операции с автомобилем       4279
операции с недвижимостью    10751
получение образования        3988
проведение свадьбы           2313
Name: debt, dtype: int64

Найдём число клиентов, допускавших просрочки по кредитам, `debtor_p` с помощью метода `sum().

In [45]:
debtor_p = data_purpose.groupby('purpose_category')['debt'].sum()
debtor_p

purpose_category
операции с автомобилем      400
операции с недвижимостью    780
получение образования       369
проведение свадьбы          183
Name: debt, dtype: int64

Составим сводную таблицу зависимости между целями кредита и долей должников среди клиентов путём объединения двух `Series` в один `DataFrame`

In [46]:
data_pivot_purpose = pd.DataFrame({
    'total_clients_p': total_clients_p,
    'debtor_p': debtor_p
    })
data_pivot_purpose

Unnamed: 0_level_0,total_clients_p,debtor_p
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,4279,400
операции с недвижимостью,10751,780
получение образования,3988,369
проведение свадьбы,2313,183


Добавим в таблицу `data_pivot_purpose` новый столбец `part_debtor_p`, в котором рассчитаем, какова доля клиентов, имевших задолженность по кредиту, по отношению к общему числу клиентов в каждой группе по целям кредита `part_debtor_p`, разделив число клиентов с просрочками по кредиту `debtor_p` на общее число клиентов в группе `total_clients`. Выполним сортировку полученных данных в порядке возрастания доли клиентов, имевших задолженность по кредиту, с помощью метода `sort_values()`.

In [47]:
data_pivot_purpose['part_debtor_p'] = data_pivot_purpose['debtor_p'] / data_pivot_purpose['total_clients_p']
data_pivot_purpose.sort_values(by='part_debtor_p')

Unnamed: 0_level_0,total_clients_p,debtor_p,part_debtor_p
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,0.072551
проведение свадьбы,2313,183,0.079118
получение образования,3988,369,0.092528
операции с автомобилем,4279,400,0.09348


Между целями кредита и его возвратом имеется очевидная зависимость. Кредиты, взятые на операции с недвижимостью и на проведение свадьбы, имеют просрочку только в 7,26 и 7,91 % случаев соответственно. А по кредитам на получение образования и на операции с автомобилем заметно чаще имеются задолженности - в 9,25 и 9,35 % случаев соответственно. Это более рискованные для банка категории заёмщиков по целям кредита.  
В данном случае общая численность разных групп клиентов сопоставима, поэтому выборку считаем сбалансированной, и вывод объективным.

# Общий вывод

1. В ходе выполнения данного проекта исходные данные изучены, очищены от пропусков, аномальных значений, дубликатов.   
2. Были сделаны предположения о зависимости возвратов кредитов в срок от различных факторов. В итоге сформулированы следующие выводы:
    - зависимость возврата кредита в срок от числа детей в семье имеется, и она обратная: с ростом числа детей в семье снижается доля вовремя выплаченных кредитов;
    - имеется зависимость возвращаемости кредитов от семейного положения клиентов: состоящие или состоявшие в браке клиенты возвращают кредиты лучше, чем холостые или состоящие в гражданском браке;
    - имеется прямая зависимость между уровнем дохода и возвратом кредита в срок: чем выше уровень дохода, тем вероятнее возврат кредита в срок;
    - цели кредита влияют на возвращаемость кредита в срок: лучше всего проявляют себя клиенты, взявшие кредит на операции с недвижимостью и на проведение свадьбы, а клиенты, берущие кредит на получение образования и на операции с автомобилем, более рискованны для банка.

Итак, возврат кредита в срок зависит от количества детей в семье, от семейного положения, от уровня дохода, от целей кредита. Поэтому при выдаче кредита необходимо рассматривать все факторы в комплексе.