# 01. Предобработка данных

# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Информация о клиентах банка содержится в файле `data.csv`. 

**Задачей исследования** является нахождение зависимостей между семейным положением, количество детей, уровнем дохода, целью получения кредита и возвратом кредита в срок.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-общей-информации" data-toc-modified-id="Изучение-общей-информации-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение общей информации</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Изменение-названия-столбцов" data-toc-modified-id="Изменение-названия-столбцов-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Изменение названия столбцов</a></span></li><li><span><a href="#Исправление-ошибок-в-данных" data-toc-modified-id="Исправление-ошибок-в-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Исправление ошибок в данных</a></span></li><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Обработка пропусков</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-2.7"><span class="toc-item-num">2.7&nbsp;&nbsp;</span>Категоризация данных</a></span></li></ul></li><li><span><a href="#Исследование-данных" data-toc-modified-id="Исследование-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследование данных</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Изучение общей информации

Импортируем необходимые для исследования библиотеки.

In [1]:
import pandas as pd
from pymystem3 import Mystem
m = Mystem()

Информация о клиентах банка содержится в файле `data.csv`. Преобразуем данные из файла в таблицу и посмотрим первые 5 строк:

In [2]:
data = pd.read_csv('/datasets/data.csv')
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Описание данных:

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

Посмотрим общую информацию о данных в таблице

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Проанализируем вариативность данных в столбцах `children`, `education`, `family_status`, `gender` и `income_type`:

In [5]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [6]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [7]:
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [8]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [9]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

**Вывод** 

**Необходима предобработка данных, а именно:**
1. Необходимо изменить названия столбцов (название столбца должно отражать суть содержащихся в нем данных):
    - `children` на `children_count`,
    - `total_income` на `month_income`.
2. Решить проблему с неверным значением пола ('XNA') в столбце `gender`.
3. Разобраться с природой возникновения пропусков в столбцах `days_employed` и `month_income`.
4. Заменить тип данных в столбцах `days_employed` и `month_income` на целочисленный.
5. Преобразовать строковые значения столбца `education` к одному регистру (нижнему).
6. Разобраться с отрицательными значениями в столбцах `children_count` и `days_employed`, и нулевыми значениями в столбце `dob_years`.
7. Устранить ошибки с нереалистичными значениями в столбце `days_employed`

## Предобработка данных

### Изменение названия столбцов

Создадим список с новыми названиями столбцов:

In [10]:
new_columns = ['children_count', 'days_employed', 'dob_years', 'education', 'education_id', 'family_status', 
               'family_status_id', 'gender', 'income_type', 'debt', 'month_income', 'purpose']

Изменим названия столбцов в исходной таблице на новые:

In [11]:
data.set_axis(new_columns, axis='columns', inplace=True)

Посмотрим на внесенные изменения (столбцы с индексами 0 и 10):

In [12]:
print(data.columns[0], data.columns[10])

children_count month_income


**Вывод** 

Изменили названия столбцов на более понятные. 


### Исправление ошибок в данных

В первом шаге отметили, что в столбце `children_count` содержатся отрицательные значения. Всего 47 строк со значением '-1'. 

In [13]:
#Проверим какого возраста клиенты, у которых отрицательные значения в столбце 'children_count'
data[data['children_count']==-1].groupby('dob_years')['children_count'].count()

dob_years
23    1
26    1
27    1
28    2
30    1
31    2
32    2
33    2
34    3
35    1
37    2
38    2
40    2
41    2
42    2
43    1
44    2
46    3
48    1
50    2
51    1
53    1
54    2
55    1
57    2
59    1
61    1
63    1
64    1
69    1
Name: children_count, dtype: int64

По возрасту клиентов можно сделать вывод: все они могли бы иметь ребенка, поэтому значение '-1' ошибочно и его необходимо изменить на '1'.

In [14]:
data['children_count'] = data['children_count'].replace(-1, 1)

In [15]:
#Убеждаемся, что "отрицательных детей" больше нет 
data['children_count'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children_count, dtype: int64

Вызывают сомнения и 76 клиентов, у которых по 20 детей.

In [16]:
#Проверим какого возраста клиенты, у которых 20 детей
data[data['children_count']==20].groupby('dob_years')['children_count'].count()

dob_years
0     1
21    1
23    1
24    1
25    1
26    1
27    2
29    2
30    3
31    2
32    2
33    2
34    3
35    2
36    2
37    4
38    1
39    1
40    4
41    2
42    3
43    2
44    2
45    3
46    3
48    1
49    3
50    3
51    1
52    1
53    1
54    1
55    1
56    5
57    1
59    2
60    1
61    1
62    1
64    1
69    1
Name: children_count, dtype: int64

По возрасту клиентов можно сделать вывод: все они точно не могли иметь по 20 детей, а принимая во внимание то, что в столбце `children_count` присутствуют только значения {0,1,2,3,4,5,20}, поэтому '20' ошибочно и его необходимо заменить на '2'.

In [17]:
data['children_count'] = data['children_count'].replace(20, 2)

In [18]:
#Проверяем выполненые преобразования
data['children_count'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children_count, dtype: int64

**Вывод**

Внесли изменения в строки из таблицы с некорректными и отрицательными значениями в столбце `children_count`.

### Обработка пропусков

1. При анализе общей информации о данных в таблице, замечаем, что в столбцах `days_employed` и `month_income` имеются пропущенные значения. Проверим наличие пропусков и посчитаем их количество:

In [19]:
data.isna().sum()

children_count         0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
month_income        2174
purpose                0
dtype: int64

Информация о пропусках подтвердилась (по **2174** в каждом из вышеназванных стобцов).
Теперь найдем количество строк, в которых пропущенные значения содержатся в столбцах `days_employed` и `month_income` одновременно:

In [20]:
data[(data['days_employed'].isna())&(data['month_income'].isna())].shape[0]

2174

Вновь получили **2174**. Это означает, что во всех строках таблицы, в которых в столбце `days_employed` значение пропущено, в столбце `month_income` значение также пропущено, и наоборот. Другими словами, нет таких строк, в которых пропущено только одно значение. 

Одной из возможных причин появления пропусков в столбцах `days_employed` и `month_income` может быть факт того, что клиент банка официально не трудоустроен (и никогда не был) и, как следствие, не имеет официального ежемесячного дохода.

Однако, посмотрев на информацию из столбца `income_type` (тип занятости клиентов) в строках с пропущенными значениями, видим, что каждый из клиентов имеет место работы (или находится на пенсии). По этой причине, предположение о том, что клиент официально не трудоустроен (не бывает госслужащих без заключенного трудового договора) или никогда не был трудоустроен (пенсию получают за трудовой стаж) не правомерно.

In [21]:
data[data['days_employed'].isna()]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Можем сделать предварительный вывод о том, что данные пропуски не случайны и клиенты намеренно скрыли информацию от банка.

Строк, содержащих пропущенные значения, примерно 10% от общего количества, поэтому их игнорирование и удаление может привести к ошибочным результатам исследования. С другой стороны, в задачи исследования не входит нахождение той или иной зависимости от трудового стажа клиента, поэтому можем удалить столбец `days_employed`. 
Сгруппируем таблицу по типу занятости и найдем медианный доход для каждого. В столбце `month_income` заполним пропущенные значения нулями, а затем нули заменим на рассчитанную ранее медианную зарплату в соответствии с типом занятости.

In [22]:
#Находим медианные значения месячного дохода для каждого типа занятости
income_median = data.groupby('income_type')['month_income'].median()

In [23]:
income_median

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: month_income, dtype: float64

In [24]:
#Заполним пропуски нулями в столбце 'month_income'
data['month_income'] = data['month_income'].fillna(0)

In [25]:
#Функция на вход получает строку таблицы и если в столбце 'month_income' стоит 0, 
#то меняет его на медианное значение в соответствии с типом, указанным в столбце 'income_type'
def add_median_income(row):
    income_type = row['income_type']
    month_income = row['month_income']
    if month_income == 0:
        return income_median[income_type]
    else:
        return month_income

In [26]:
#Применяем функцию для каждой строки таблицы
data['month_income'] = data.apply(add_median_income, axis=1)

In [27]:
#Удаляем столбец 'days_employed', содержащий пропущенные значения
data.dropna(axis='columns', inplace=True)

In [28]:
#Проверим пропуски после заполнения
data.isna().sum()

children_count      0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
month_income        0
purpose             0
dtype: int64

2. Теперь посмотрим на строку таблицы, в столбе `gender` которой содержится непонятное значение 'XNA':

In [29]:
data[data['gender']=='XNA']

Unnamed: 0,children_count,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,month_income,purpose
10701,0,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


В данном ситуации допущена случайная ошибка, значение пола клиента некорректное. Изменим ошибочное значение на наиболее популярный пол.

In [30]:
#Находим самый популярный пол
data['gender'].value_counts().idxmax()

'F'

In [31]:
#Заменяем ошибочное значение
data['gender'] = data['gender'].replace('XNA', 'F')

3. Рассмотрим столбец `dob_years`.

In [32]:
data['dob_years'].value_counts()[0]

101

Видим, что 101 клиент банка с возрастом "0".

In [33]:
#Рассмотрим более подробно этих клиентов
data[data['dob_years']==0].head(10)

Unnamed: 0,children_count,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,month_income,purpose
99,0,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
1149,0,0,среднее,1,женат / замужем,0,F,компаньон,0,201852.430096,покупка недвижимости
1175,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования
1386,0,0,высшее,0,женат / замужем,0,M,госслужащий,0,240523.618071,сделка с автомобилем
1890,0,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,142594.396847,жилье
1898,0,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля


Сгруппируем данные по семейному положению и найдем медианное значение возраста клиента для каждого типа. После этого заменим нули на медианные значения.

In [34]:
data['dob_years'] = data.groupby('family_status')['dob_years'].transform(lambda x: x.replace(0, x.median()))

**Вывод**

1. Обнаружили в таблице пропущенные значения
2. Рассмотрели возможные причины возникновения пропусков, выбрали наиболее вероятную.
3. Заполнили пропущенные значения и объяснили, почему именно нулями.
4. Решили проблему с некорректным значением пола и нулевыми значениями возраста клиентов.

### Замена типа данных

Посмотрим еще раз на типы данных, содержащихся в таблице:

In [35]:
data.dtypes

children_count        int64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
month_income        float64
purpose              object
dtype: object

Информация о дробной части ежемесячного дохода клиента является избыточной для нашего исследования, поэтому преобразуем тип данных столбца `month_income` в целочисленный.

In [36]:
data['month_income'] = data['month_income'].astype('int')

Проверяем, прошли ли преобразования:

In [37]:
data.dtypes

children_count       int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
month_income         int64
purpose             object
dtype: object

**Вывод**

В столбце `month_income` преобразовали вещественный тип данных в целочисленный: убрали избыточную информацию о дробной части месячного дохода клиентов.

### Обработка дубликатов

Посмотрим, есть в таблице повторяющиеся строки:

In [38]:
data.duplicated().sum()

55

Прежде чем удалять дубликаты, преобразуем строковые значения в столбце `education` таблицы к единому виду - нижнему регистру.

In [39]:
data['education'] = data['education'].str.lower()

Посмотрим, изменилось ли количество дубликатов в таблице после проведенных преобразований:

In [40]:
data.duplicated().sum()

72

Действительно **их стало больше**. Теперь удалим из таблицы повторяющиеся строки и проверим их отсутствие:

In [41]:
data = data.drop_duplicates().reset_index(drop=True)

In [42]:
data.duplicated().sum()

0

**Вывод**

Произвели обработку дубликатов. Сначала использовали метод поиска "полных дубликатов", затем, принимая во внимание информацию из Шага 1 о том, что в столбце `education` содержатся строки разного регистра, преобразовали все к одному виду (нижнему регистру) и повторили поиск дубликатов. Наконец, удалили повторы из таблицы.

Данная таблица формировалась, скорее всего, после заполнения клиентами заявок (электронных форм) на получение кредита. Некоторые пользователи могли заполнить анкету несколько раз, в связи с чем, в исследуемой таблице появились одинаковые строки. Также во время отправки анкеты от пользователя на сервер, могла возникнуть техническая ошибка из-за чего данные продублировались при занесении в базу данных.

### Лемматизация

Рассмотрим информацию: на какие цели клиенты берут кредиты.

In [43]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     767
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Из всего многообразия целей, можно выделить 4 категории:
- свадьба
- недвижимость
- автомобиль
- образование

Проведем лемматизацию и разобьем цели по категориям. Используя библиотеку `pymystem3` приведем все слова, находящиеся в столбце `purpose` к словарной форме (для существительных — именительный падеж, единственное число, для прилагательных — именительный падеж, единственное число, мужской род, а для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного вида). Это позволит слова в различных временах, родах и числах привести к одному виду, в котором их удобно обрабатывать (в нашем случае искать и определять категорию). 

In [44]:
#функция на вход принимает цель взятия кредита, 
#а на выходе выдает категорию этой цели

def find_lemma_category(row):
    lemmas = m.lemmatize(row)
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'недвижимость' in lemmas or 'жилье' in lemmas:
        return 'недвижимость'
    if 'автомобиль' in lemmas:
        return 'автомомобиль'
    if 'образование' in lemmas:
        return 'образование'

Создаем столбец для категории и находим ее для каждой строки таблицы/

In [45]:
data['purpose_category'] = data['purpose'].apply(find_lemma_category)

In [46]:
#посмотрим, насколько успешно сработала функция
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
children_count      21453 non-null int64
dob_years           21453 non-null int64
education           21453 non-null object
education_id        21453 non-null int64
family_status       21453 non-null object
family_status_id    21453 non-null int64
gender              21453 non-null object
income_type         21453 non-null object
debt                21453 non-null int64
month_income        21453 non-null int64
purpose             21453 non-null object
purpose_category    21453 non-null object
dtypes: int64(6), object(6)
memory usage: 2.0+ MB


**Вывод**

Провели лемматизацию информации в столбце целей получения кредита `purpose` и разбили их по категориям.

### Категоризация данных

В таблице избыточная информация об образовании (столбцы - `education` и `education_id`) и о семейном положении (столбцы - `family_status` и `family_status_id`). Не нужно постоянно наблюдать какое образование клиента или его семейное положение. Эту информацию необходимо хранить отдельно и, при необходимости, обращаться к ней по индексу 'education_id' и 'family_status_id' соответственно. Разделим таблицу на несколько частей.

In [47]:
#Первая часть будет содержать информацию об образовании
education_dict = data[['education_id', 'education']]

In [48]:
education_dict.head()

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


Уберем из таблицы `education_dict` дубликаты:

In [49]:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)

In [50]:
#Теперь таблица выглядит так
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [51]:
#Вторая часть будет содержать информацию о семейном положении
family_status_dict = data[['family_status_id', 'family_status']]

In [52]:
family_status_dict.head(5)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак


Уберем из таблицы `family_status_dict` дубликаты:

In [53]:
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)

In [54]:
#Теперь таблица выглядит так
family_status_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Добавим в основную таблицу категорию, которую определим исходя из количества детей.

In [55]:
#Разделим количество детей по категориям:
def children_category(children):
    if children == 0:
        return 'без детей'
    if 1 <= children <=2:
        return 'малодетный'
    if children >= 3:
        return 'многодетный'

In [56]:
#Создадим новый столбец для категории детей
data['children_category'] = data['children_count'].apply(children_category)

Также добавим в таблицу `data` категорию дохода клиента.

Разделим доход по категориям, так, чтобы в каждой категории было примерно равное количество клиентов:

In [57]:
data['month_income_category'] = pd.qcut(data['month_income'], 4, labels=["низкий", "средний","выше среднего", "высокий"])

In [58]:
#В последней части оставим все остальное, кроме 'family_status' и 'education'
data_new = data[['children_count', 'children_category', 'dob_years', 'education_id', 'family_status_id', 'gender', 
                 'income_type', 'debt', 'month_income', 'month_income_category', 'purpose', 'purpose_category']]

In [59]:
data_new.head(5)

Unnamed: 0,children_count,children_category,dob_years,education_id,family_status_id,gender,income_type,debt,month_income,month_income_category,purpose,purpose_category
0,1,малодетный,42,0,0,F,сотрудник,0,253875,высокий,покупка жилья,недвижимость
1,1,малодетный,36,1,0,F,сотрудник,0,112080,средний,приобретение автомобиля,автомомобиль
2,0,без детей,33,1,0,M,сотрудник,0,145885,выше среднего,покупка жилья,недвижимость
3,3,многодетный,32,1,0,M,сотрудник,0,267628,высокий,дополнительное образование,образование
4,0,без детей,53,1,1,F,пенсионер,0,158616,выше среднего,сыграть свадьбу,свадьба


**Вывод**

Провели категоризацию данных и выделили два словаря, содержащие информацию об образовании клиента (`education_dict`) и его семейном положении (`family_status_dict`).

## Исследование данных

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Сгруппируем таблицу по `children_category` и посчитаем количество клиентов, у которых были задолженности по возврату. Добавим столбец `ratio,%`, в котором содержится процентное отношение количества клиентов, имевших задолженности по возврату, к общему количеству клиентов.

Чтобы исключить дублирование кода, напишем функцию `debt_by_category`.

In [60]:
def debt_by_category(df, category):
    data_debt = df.groupby(category).agg({'debt':['count', 'sum']})
    data_debt['debt', 'ratio,%'] = ((data_debt['debt', 'sum'] / data_debt['debt', 'count']) * 100).round(2)
    data_debt.columns = ['count', 'sum', 'ratio,%']
    display(data_debt.sort_values(by='ratio,%'))

In [61]:
#Посмотрим таблицу
debt_by_category(data, 'children_category')

Unnamed: 0_level_0,count,sum,"ratio,%"
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без детей,14090,1063,7.54
многодетный,380,31,8.16
малодетный,6983,647,9.27


**Вывод**

На практике получаем, что зависимость между наличием детей и возвратом кредита в срок присутствует. % возврата кредита в срок у клиентов без детей выше чем у клиентов с детьми. А у клиентов, имеющих 1-2 детей, проблем с возвратом кредита больше, чем у многодетных.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Сгруппируем таблицу по семейному положению и посчитаем количество клиентов, у которых были задолженности по возврату.

In [62]:
debt_by_category(data, 'family_status')

Unnamed: 0_level_0,count,sum,"ratio,%"
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,959,63,6.57
в разводе,1195,85,7.11
женат / замужем,12339,931,7.55
гражданский брак,4150,388,9.35
Не женат / не замужем,2810,274,9.75


**Вывод**

Как и в предыдущем случае, замечаем незначительную зависимость между семейным положением и возвратом кредита в срок. У вдов/вдовцов дела с возвратом кредита в срок обстоят лучше, чем у неженатых клиентов или состоящих в гражданском браке.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Сгруппируем таблицу по категории ежемесячного дохода и посчитаем количество клиентов, у которых были задолженности по возврату.

In [63]:
debt_by_category(data, 'month_income_category')

Unnamed: 0_level_0,count,sum,"ratio,%"
month_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий,5363,383,7.14
низкий,5364,427,7.96
выше среднего,5248,448,8.54
средний,5478,483,8.82


**Вывод**

В данном случае видим, что меньше всего проблем с возвратом кредита в срок у тех, у кого низкие доходы и у тех, у кого самые высокие. А вот у обладателей среднего дохода возникают проблемы со сроками платы за кредит.

- Как разные цели кредита влияют на его возврат в срок?

Сгруппируем таблицу по категории целей получения кредита и посчитаем количество клиентов, у которых были задолженности по возврату.

In [64]:
debt_by_category(data, 'purpose_category')

Unnamed: 0_level_0,count,sum,"ratio,%"
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
недвижимость,10811,782,7.23
свадьба,2323,186,8.01
образование,4013,370,9.22
автомомобиль,4306,403,9.36


**Вывод**

Снова наблюдаем незначительную разницу с процентом возврата кредита в срок. Клиенты, взявшие кредиты на покупку нежвижимости или на свадьбу, в меньшем количестве случаем остаются в должниках чем те, кто брал кредиты на образование или покупку автомобиля.

## Общий вывод

1. Считали таблицу из файла и изучили общую информацию. "Посмотрели на данные глазами", обозначили явные проблемы, наметили план обработки ошибок.
2. Нашли пропуски в таблице. Выдвинули предположения о причинах их возникновения. Заполнили пропущенные значения.
3. Изменили типы данных в некоторых столбцах на более подходящие.
4. Нашли и убрали повторяющиеся строки. Указали возможные причины появления повторов в таблице.
5. Провели лемматизацию данных о целях взятия кредита. Разблили цели на категории.
6. Обнаружили избыточную информацию в таблице. Разделили исходную таблицу на 3 части.
7. Нашли зависимости между: 
    - наличием детей и возвратом кредита в срок
    - семейным положением и возвратом кредита в срок
    - уровнем дохода и возвратом кредита в срок
    - целями взятия кредита и его возвратом в срок