# Исследование надежности заемщиков.

## Получение и изучение данных

### Поставленная задача и исходные данные

От Заказчика, кредитного отдела банка, поставлена следующая задача:
- разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Входные данные от банка — статистика о платёжеспособности клиентов, представлена датасете `data.csv`. 

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных**
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

### Обзор данных

Открытие таблицы и изучение общей информации о данных

<ins>Импортируем библиотеку pandas и получим общую информацию о данных</ins>

In [1]:
import pandas as pd
df = pd.read_csv('https://code.s3.yandex.net/datasets/research_reliability.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Из анализа данным методом видно:
- в `days_employed` (общий трудовой стаж в днях) есть пропуски значений, тип вещественный (дробные числа) - для корректного анализа необходимо заполнить пропуски, поменять тип на целые числа.
- в `total_income` (ежемесячный доход) есть пропуски значений, тип вещественный (дробные числа) - для корректного анализа необходимо заполнить пропуски, для значений в ячейках необходимо либо поменять тип на целые числа, либо округлить до второго знака после запятой, но т.к. копейки на оценку платежеспособности не влияют, то поменяем тип на целочисленный.

<ins>Выведем на экран первые 50 строк</ins>

In [2]:
display (df.head(50))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Из анализа данным методом видно:
- в `days_employed` (общий трудовой стаж в днях) присутствуют нереальные значения:
    - положительный трудовой стаж значительно превышает возраст человека
    - трудовой стаж со знаком минус
- в `total_income` (ежемесячный доход) вызывает сомнение необходимость в кредите на обучение у человека с ежемесячным доходом 754240 (в строке 39), но нельзя утверждать, что это невозможно. Есть предположение, что это годовой доход.

Ниже приведено доказательство, что весь положительный трудовой стаж превышает возраст клиентов и составляет 18% ко всем заполненным.

In [3]:
df.loc[df['days_employed']>(df['dob_years']*365), 'days_employed'].count()

3445

In [4]:
df.loc[df['days_employed']>0, 'days_employed'].count()

3445

In [5]:
big_employed = df.loc[df['days_employed']>0, 'days_employed'].count()

part_big_employed = big_employed/df['days_employed'].count()

f'Доля необъяснимых значений ко всем заполненным в столбце days_employed: {part_big_employed:.0%}'

'Доля необъяснимых значений ко всем заполненным в столбце days_employed: 18%'

<ins>Получим сводку числовых значений:</ins>
- количество переменных в наборе данных,
- среднее значение,
- стандартное отклонение,
- минимальное значение,
- максимальное значение,
- 1-й процентиль, 2-й процентиль, 3-й процентиль столбцов с числовыми значениями.

In [6]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Из анализа данным методом видно:
- в `children` (количество детей в семье) присутствуют нереальные значения:    
    - отрицательное количество,
    - сомнительно наличие 20 детей,
- в `dob_years` (возраст клиента в годах) присутствуют нереальные значения:    
    - значения равные нулю, возможно так заполнено, когда возраст неизвестен
- в `days_employed` (общий трудовой стаж в днях) — подтвердились все предыдущие наблюдения,
- в `total_income` (ежемесячный доход) — подтвердились все предыдущие наблюдения.

## Предобработка данных

### Заполнение пропусков

Обнаружены пропуски в столбцах `days_employed`(общий трудовой стаж в днях) и `total_income`(ежемесячный доход).
Тип данных в этих столбцах - вещественные числа.

Определим, какую долю составляют пропущенные значения в каждом из столбцов с пропусками:

In [7]:
columns_with_NaN = ['days_employed','total_income']
for column in columns_with_NaN:    
    print (f'Доля пропущенных значений в столбце {column}: {df[column].isna().mean().round(3)}')

Доля пропущенных значений в столбце days_employed: 0.101
Доля пропущенных значений в столбце total_income: 0.101


Доля существенная, поэтому пропущенные значения необходимо заполнить для дальнейшего анализа.

Возможные причины появления пропусков в данных:
- технические (сбой в программе)
- клиент не указал свои данные

В столбцах `days_employed` и `total_income` содержатся количественные переменные (их можно сравнить).
Заполнить пропуски медианным значением для количественных переменных лучше, чем средним, т.к. некоторые значения в столбцах сильно выделяются среди большинства.

Для получения более объективной информации о трудовом стаже и ежемесячном доходе заполним пропуски в столбцах `days_employed` и `total_income` медианным значением по столбцу.

In [8]:
days_employed_median = df['days_employed'].median()
total_income_median = df['total_income'].median()
df['days_employed'] = df['days_employed'].fillna(value=days_employed_median)
df['total_income'] = df['total_income'].fillna(value=total_income_median)
print (f'Медианное значение в столбце days_employed: {days_employed_median}')
print (f'Медианное значение в столбце total_income: {total_income_median}')

Медианное значение в столбце days_employed: -1203.369528770489
Медианное значение в столбце total_income: 145017.93753253992


Проверим остались ли пропуски:

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропусков нет.

### Проверка данных на аномалии и исправления.

В данных обнаружены аномалии следующие аномалии.

1) В столбце `days_employed` положительный трудовой стаж значительно превышает возраст человека. Возможные причины - сбой в программе, т.к. вычислить закономерность здесь не представляется возможным.

2) Отрицательное количество дней трудового стажа в столбце `days_employed` и детей в семье в столбце `children`. Возможные причины - при заполнении датасета вручную знак "-" использовался в качестве тире.

3) Сомнительно наличие 20 детей в столбце `children`. Возможные причины - программный сбой или человеческая ошибка, предполагаю, число детей было записано 2,0.

<ins>Обработаем 1-ую группу аномальных значений</ins>
- проверим какой теперь процент после заполнения пропусков в предыдущем шаге:

In [10]:
big_employed = df.loc[df['days_employed']>(df['dob_years']*365), 'days_employed'].count()

part_big_employed = big_employed/df['days_employed'].count()

f'Доля необъяснимых значений ко всем заполненным в столбце days_employed: {part_big_employed:.0%}'

'Доля необъяснимых значений ко всем заполненным в столбце days_employed: 16%'

Процент стал меньше, однако он всё равно значительный. Пренебрегать данными из-за технической ошибки нельзя. Оставим без изменений.

<ins>Обработаем 2-ую группу аномальных значений</ins>
- в столбцах `days_employed` и `children` - все отрицательные значения сделаем положительными методом abs():

In [11]:
df['days_employed'] = df['days_employed'].abs()
df['children'] = df['children'].abs()

Проверим результат обработки:

In [12]:
days_employed_min = df['days_employed'].min()
children_min = df['children'].min()
print (f'Минимальное значение в столбце days_employed: {days_employed_min}')
print (f'Минимальное значение в столбце children: {children_min}')

Минимальное значение в столбце days_employed: 24.14163324048118
Минимальное значение в столбце children: 0


Значения положительные. Обработка выполнена верно.

<ins>Обработаем 3-юю группу аномальных значений</ins>

Сгруппируем уникальные значения в столбце `children`, отсортировав их по возрастанию и сравним количество клиентов с 20 детьми с другими клиентами

In [13]:
df.groupby('children',dropna=False)['children'].agg(['count'])

Unnamed: 0_level_0,count
children,Unnamed: 1_level_1
0,14149
1,4865
2,2055
3,330
4,41
5,9
20,76


Резкий скачок от 5 до 20 детей говорит о явной аномалии, т.к. если бы рожать много детей было бы нормой, то между количеством 5 и 20 были бы и другие значения.

Если бы количество детей 20 встретилось единожды, можно было бы принебречь данными об этом клиенте из-за необъяснимой ошибки. 

Максимальное количество клиентов - люди без детей, далее количество клиентов уменьшается пропорционально количеству детей. И после числа детей 5 резко увеличивается (клиенты с 20 детьми).

Здесь точно ошибка, и т.к. количество детей 20 встречается 76 раз, то это скорее всего ошибка в знаке после запятой.

Определим долю клиентов с 20 детьми к общему количеству клиентов.

In [14]:
children_20_count = df.loc[df['children'] == 20, 'children'].count()
part_children_20 = children_20_count/df.shape[0]
f'Доля клиентов с 20 детьми: {part_children_20:.2%}'

'Доля клиентов с 20 детьми: 0.35%'


Я бы пообщался с заказчиком или автором датасета и предложил бы 2 решения:
- заменить 20 на 2
- удалить данные аномалии, т.к. их процент низок по сравнению с общим количеством клиентов

Более реалистичным выглядит вариант с заменой 20 на 2. Остановимся на нём и выполним замену:

In [15]:
df.loc[df['children'] == 20, 'children'] = 2

Проверим результат:

In [16]:
df.groupby('children',dropna=False)['children'].agg(['count'])

Unnamed: 0_level_0,count
children,Unnamed: 1_level_1
0,14149
1,4865
2,2131
3,330
4,41
5,9


Теперь информация о количестве детей без аномалий.

In [17]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.479721,60277.957929,43.29338,0.817236,0.972544,0.080883,165159.5
std,0.755528,133301.583103,12.574584,0.548138,1.420324,0.272661,97866.07
min,0.0,24.141633,0.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.608174,33.0,1.0,0.0,0.0,107798.2
50%,0.0,1808.053434,42.0,1.0,0.0,0.0,145017.9
75%,1.0,4779.587738,53.0,1.0,1.0,0.0,195543.6
max,5.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Посмотрим, как изменилась информация о типах данных:

In [18]:
df.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

В столбцах `days_employed` (общий трудовой стаж в днях), `dob_years` (возраст клиента в годах) и `total_income` (ежемесячный доход) тип данных вещественный (дробные числа). Для корректного анализа, учитывая описание данных от заказчика, необходимо поменять тип данных в этих ячейках на целые числа.

### Изменение типов данных.

Для изменения типов данных применим метод astype:

In [19]:
df['days_employed'] = df['days_employed'].astype('int')
df['dob_years'] = df['dob_years'].astype('int')
df['total_income'] = df['total_income'].astype('int')

После обработки аномалий посмотрим, как изменилась общая информация о данных:

In [20]:
df.dtypes

children             int64
days_employed        int32
dob_years            int32
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int32
purpose             object
dtype: object

### Удаление дубликатов.

Узнаем, сколько явных дубликатов в датасете

In [21]:
df.duplicated().sum()

54

Удалим явные дубликаты

In [22]:
df = df.drop_duplicates().reset_index(drop=True)

Проверка

In [23]:
df.duplicated().sum()

0

Явные дубликаты отсутствуют.

Неявные дубликаты нужно проверить в столбцах с типом данных objects:
- `education`
- `family_status`
- `gender`
- `income_type`
- `purpose`

Проверим на неявные дубликаты столбец `education`:

In [24]:
df['education'].value_counts()

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

В столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к одному регистру.

In [25]:
df['education'] = df['education'].str.lower()

Проверка

In [26]:
df['education'].value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

В столбце  `education` неявные дубликаты отсутствуют.

Проверим на неявные дубликаты столбец `family_status`:

In [27]:
df['family_status'].value_counts()

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

В столбце  `family_status` неявные дубликаты отсутствуют.

Проверим на неявные дубликаты столбец `gender`:


In [28]:
df['gender'].value_counts()

F      14189
M       7281
XNA        1
Name: gender, dtype: int64

В столбце  `gender` неявные дубликаты отсутствуют.

Проверим на неявные дубликаты столбец `income_type`:

In [29]:
df['income_type'].value_counts()

сотрудник          11091
компаньон           5080
пенсионер           3837
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

В столбце  `income_type` неявные дубликаты отсутствуют.

Проверим на неявные дубликаты столбец `purpose`:

In [30]:
df['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

В столбце  `purpose` неявные дубликаты отсутствуют. Однако названия схожие есть. Займемся ими позже.

Метод для поиска дубликатов выбирал выбирал следующим образом:
- Способ 1. Для поиска явных дубликатов использовал метод duplicated(). В сочетании с методом sum() он возвращает количество дубликатов. Если выполнить метод duplicated() без подсчёта суммы, на экране будут отображены все строки. Там, где есть дубликаты, будет значение True, где дубликата нет — False.
- Способ 2. Для поиска неявных дубликатов использовал метод value_counts(), который анализирует столбец, выбирает каждое уникальное значение и подсчитывает частоту его встречаемости в списке. Метод необходимо применять к объекту Series. Результат его работы – список пар «значение-частота», отсортированные по убыванию. Все дубликаты, которые встречаются чаще других, оказываются в начале списка.

Возможные причины появления дубликатов
- копирование строк,
- заполнение данные с включенной кнопкой "Caps Lock".

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма, в которых:
- каждому уникальному значению из `education` соответствует уникальное значение `education_id` — в первом;
- каждому уникальному значению из `family_status` соответствует уникальное значение `family_status_id` — во втором.

In [31]:
df_education = df[['education_id','education']]
df_family_status = df[['family_status_id','family_status']]

Избавимся от дубликатов

In [32]:
df_education = df_education.drop_duplicates().reset_index(drop=True)
df_family_status = df_family_status.drop_duplicates().reset_index(drop=True)

Удалим из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: `education_id` и `family_status_id`.

In [33]:
df = df.drop(['education', 'family_status'], axis=1)

Проверка

In [34]:
df_education

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [35]:
df_family_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


In [36]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Новые датафреймы — это те самые «словари» (не путаем с одноимённой структурой данных в Python), к которым можно обращаться по идентификатору.

### Категоризация дохода.

На основании диапазонов, указанных ниже, создадим столбец `total_income_category` с категориями:


Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.

Создадим функцию, на вход которой попадает доход, а возвращает она категорию дохода.

Доход разобьём по следующим диапазонам:
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.

In [37]:
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'     

Проверка

In [38]:
total_income_category(5000)

'E'

In [39]:
total_income_category(35000)

'D'

In [40]:
total_income_category(60000)

'C'

In [41]:
total_income_category(210000)

'B'

In [42]:
total_income_category(1500000)

'A'

Написанная функция работает корректно.

Создадим столбец `total_income_category` с категориями дохода, описанными выше, и в его ячейках запишем значения, возвращаемые функцией. Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.

Применим метод `apply()`.

In [43]:
df['total_income_category'] = df['total_income'].apply(total_income_category)

Проверка

In [44]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Всё получилось.

### Категоризация целей кредита.

Посмотрим на уникальные значения в столбце `purpose`

In [45]:
df['purpose'].value_counts()

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
покупка жилья для сдачи                   652
операции с жильем                         652
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          625
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории (выделены серым цветом):
- `'операции с автомобилем'` включая:
     - автомобиль
     - сделка с подержанным автомобилем
     - свой автомобиль
     - на покупку подержанного автомобиля
     - автомобили
     - на покупку автомобиля
     - приобретение автомобиля
     - сделка с автомобилем
- `'операции с недвижимостью'` включая:
    - операции с недвижимостью
    - покупка коммерческой недвижимости
    - операции с жильем
    - покупка жилья для сдачи
    - операции с коммерческой недвижимостью
    - жилье
    - покупка жилья
    - покупка жилья для семьи
    - строительство собственной недвижимости
    - недвижимость
    - операции со своей недвижимостью
    - строительство жилой недвижимости
    - покупка недвижимости
    - покупка своего жилья
    - строительство недвижимости
    - ремонт жилью
    - покупка жилой недвижимости
- `'проведение свадьбы'` включая:
    - свадьба
    - на проведение свадьбы
    - сыграть свадьбу
- `'получение образования'` включая:
    - заняться высшим образованием
    - высшее образование
    - образование
    - получение дополнительного образования
    - получение образования
    - профильное образование
    - получение высшего образования
    - заняться образованием

Создадим новый столбец `purpose_category`, применим метод `apply()`.

In [46]:
def purpose_category(purpose):
    if 'жиль' in purpose or 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'автом' in purpose:
        return 'покупка автомобиля'
    if 'образ' in purpose:
        return 'получение образования'
    if 'свад' in purpose:
        return 'проведение свадьбы'
        
df['purpose_category'] = df['purpose'].apply(purpose_category)

Проверим.

In [47]:
df.head(50)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,покупка автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Всё верно.

## Ответы на вопросы.

### Вопрос 1. Есть ли зависимость между количеством детей и возвратом кредита в срок?

По исходным данным от заказчика столбец `debt` означает "имел ли задолженность по возврату кредитов". Посмотрим, какие уникальные значения в этом столбце:

In [48]:
df['debt'].value_counts()

0    19730
1     1741
Name: debt, dtype: int64

На всякий случай можно уточнить у заказчика, что означают 0 и 1 в этом столбце. Приму по смыслу 0 - задолженности не имел, 1 - задолженность имел.

Т.к. в столбце `'debt'` только 0 и 1, то долю по возврату можно посчитать как среднее арифметическое функцией mean.

Создадим сводную таблицу с долей и количеством должников по возврату кредита в зависимости от количества детей.

In [49]:
df.pivot_table(index='children', values='debt', aggfunc={'count','mean'})

Unnamed: 0_level_0,count,mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14107,0.075353
1,4856,0.091639
2,2128,0.094925
3,330,0.081818
4,41,0.097561
5,9,0.0


Вывод 1:

Чаще всего возвращают кредит в срок клиенты с 5 детьми, но их доля мала по сравнению с остальными, поэтому судить данной категории клиентов не стоит, также мала доля с 3 и 4 детьми.

_Объективно - клиенты без детей чаще возвращают кредит в срок, чем клиенты с 1 и 2 детьми._

### Вопрос 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

Создадим сводную таблицу с долей и количеством должников по возврату кредита в зависимости от семейного положения.

In [50]:
df_family_debt = df.groupby('family_status_id')['debt'].agg(['count','mean'])
df_family_debt

Unnamed: 0_level_0,count,mean
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,12344,0.075421
1,4163,0.093202
2,959,0.065693
3,1195,0.07113
4,2810,0.097509


Для большей информативности объединим сводную таблицу `df_family_debt` с ранее созданным словарём `df_family_status`.

In [51]:
df_family = df_family_status.merge(df_family_debt, on='family_status_id', how='left')
df_family

Unnamed: 0,family_status_id,family_status,count,mean
0,0,женат / замужем,12344,0.075421
1,1,гражданский брак,4163,0.093202
2,2,вдовец / вдова,959,0.065693
3,3,в разводе,1195,0.07113
4,4,Не женат / не замужем,2810,0.097509


Вывод 2:

Чаще всего возвращают кредит в срок вдовцы и клиенты в разводе, но их доля мала по сравнению с остальными, поэтому судить данным категориям клиентов не стоит.

_Объективно - женатые / замужние клиенты чаще возвращают кредит в срок, чем в гражданском браке и не женатые / не замужем._

### Вопрос 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Создадим сводную таблицу с долей и количеством должников по возврату кредита в зависимости от категорий дохода.

Категории дохода ранее были разбиты по следующим диапазонам:
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.

In [52]:
total_income_debt = df.groupby('total_income_category')['debt'].agg(['count','mean'])
total_income_debt

Unnamed: 0_level_0,count,mean
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25,0.08
B,5041,0.070621
C,16033,0.084825
D,350,0.06
E,22,0.090909


Вывод 3:

Пренебрегая категориями с сильно низкими и сильно высокими зарплатами (A, E, D из-за малого количества клиентов) можно сделать вывод: _клиенты со средним доходом (категория С - 50001–200000) менее надежные, чем клиенты с уровнем дохода на ступень выше (категория В  200001–1000000)._

### Вопрос 4. Как разные цели кредита влияют на его возврат в срок?

Создадим сводную таблицу с долей и количеством должников по возврату кредита в зависимости от целей кредита.

In [53]:
df.pivot_table(index='purpose_category', values='debt', aggfunc={'count','mean'})

Unnamed: 0_level_0,count,mean
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с недвижимостью,10814,0.072314
покупка автомобиля,4308,0.093547
получение образования,4014,0.092177
проведение свадьбы,2335,0.079657


Вывод 4:

_Чаще всего в срок возвращают кредит на операции с недвижимостью и проведение свадьбы, а вот на образование и автомобиль доля должников больше._ 

## Общий вывод:

По итогам исследования по задаче заказчика выснилось, что семейное положение и количество детей клиента влияет на факт погашения кредита в срок:
- женатые / замужние клиенты чаще возвращают кредит в срок,
- клиенты без детей чаще возвращают кредит в срок, чем клиенты с детьми.

Также дополнительно для заказчика представлено влияние уровня дохода и целей клиентов на факт погашения кредита в срок:
- клиенты со средним доходом (категория С - 50001–200000) менее надежные, чем клиенты с уровнем дохода на ступень выше (категория В  200001–1000000),
- чаще всего в срок возвращают кредит на операции с недвижимостью и проведение свадьбы, а вот на образование и автомобиль доля должников больше.

Заказчику предоставлены результаты исследования для построении модели кредитного скоринга.