# Проект по теме "Предобработка данных"

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение, уровень дохода, цель кредита и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## План выполнения проекта

1. <b> Откройте таблицу и изучите общую информацию о данных </b> <i> (путь к файлу: /datasets/data.csv) </i>
1. <b> Предобработка данных </b>
    1. определите и заполните пропущенные значения:
        1. <i> опишите, какие пропущенные значения вы обнаружили; </i>
        1. <i> приведите возможные причины появления пропусков в данных; </i>
        1. <i> объясните, по какому принципу заполнены пропуски; </i>
    1. замените вещественный тип данных на целочисленный:
        1. <i> поясните, как выбирали метод для изменения типа данных; </i>
    1. удалите дубликаты:
        1. <i> поясните, как выбирали метод для поиска и удаления дубликатов в данных; </i>
        1. <i> приведите возможные причины появления дубликатов; </i>
    1. выделите леммы в значениях столбца с целями получения кредита:
        1. <i> опишите, как вы проводили лемматизацию целей кредита; </i>
    1. категоризируйте данные:
        1. <i> перечислите, какие «словари» вы выделили для этого набора данных, и объясните, почему. </i>
1. <b> Ответьте на вопросы </b>  <i> (ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат) </i>
    1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
    1. Есть ли зависимость между семейным положением и возвратом кредита в срок?
    1. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
    1. Как разные цели кредита влияют на его возврат в срок?
1. <b> Напишите общий вывод </b>

## Шаг 1. Откройте таблицу и изучите общую информацию о данных

In [1]:
import pandas as pd
import math
import sys

In [2]:
try:
    # clients_credit = pd.read_csv('/Users/Andrejkolesnik/PycharmProjects/project_Data_Preprocessing/data.csv')
    clients_credit = pd.read_csv('/datasets/data.csv')
    print(clients_credit.info())
    print(clients_credit.columns)
    print(clients_credit.head(10))
except:
    print('Проблемы со считыванием файла.')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None
Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')
   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высше

Названия столбцов корректны: в них нет пробелов и символов за пределами латиницы, цифр и символа подчеркивания. Однако, мы видим, что имеются пропуски данных в столбцах days_employed и total_income, от которых нужно будет избавиться, а также установить причину их появления. Также видим, что эти же столбцы имеют вещественный тип данных, который мы позже заменим на целочисленный.

## Шаг 2. Предобработка данных
### Определите и заполните пропущенные значения

Пройдемся по всем столбцам таблицы, отыщем в них аномальные и пропущенные значения и заменим их. Начнем со столбца children — количество детей.

In [3]:
print(clients_credit['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


При рассмотрении информации о столбце children мы видим несколько аномальных значений. Отчетливо замечаем отрицательное количество детей (-1) целых 47 раз, а также 20 детей в 76 случаях из 21525. Считаю верным решением заменить данные в этом столбце следующим образом: -1 на 1, а 20 на 2 (причина: опечатка человека, вносящего данные в таблицу).

In [4]:
clients_credit['children'] = clients_credit['children'].replace(-1, 1)
clients_credit['children'] = clients_credit['children'].replace(20, 2)
print(clients_credit['children'].value_counts())

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


Следующий столбец days_employed (трудовой стаж, выраженный в днях) имеет пропущенные значения.

In [5]:
print(clients_credit['days_employed'].describe())

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64


Видим, что около двух тысяч значений в столбце пропущено (21525 записей всего, в этом столбце их всего 19351). Возможно, они возникли из-за отсутствия возможности на месте посмотреть стаж в трудовой книжке. Однако, есть и иные проблемы. Адекватные значения переменной (стаж до 70 лет к примеру, то есть около 25 тысяч дней) являются отрицательными. Причина понятна: скорее всего, при подсчете стажа работы человека из даты начала работы вычли текущую дату, а не наоборот. Все положительные же значения не являются сколь угодно реалистичными. Решим этот вопрос так: все положительные значения (и изначальные пропуски) заменим на медиану всех отрицательных значений. После этого просто сделаем все значения положительными, сменив знак. Выбор медианы вместо среднего обусловлен тем, что есть люди с опытом работы гораздо выше среднего (и даже намного выше 75-й перцентили), они смещают среднее сильно в большую сторону.

In [6]:
neg_true_median = clients_credit[clients_credit['days_employed'] < 0]['days_employed'].median()
# медиана по "реальным" значениям, с минусом

def days_emp_corr(d_emp): # функция замены значений
    if d_emp > 0 or math.isnan(d_emp):
        return -neg_true_median
    return -d_emp

clients_credit['days_employed'] = clients_credit['days_employed'].apply(days_emp_corr)
print(clients_credit['days_employed'].describe())

count    21525.000000
mean      2164.281083
std       2006.061675
min         24.141633
25%       1025.608174
50%       1630.019381
75%       2518.168900
max      18388.949901
Name: days_employed, dtype: float64


Перейдем к столбцу dob_years, показывающий возраст клиента в годах.

In [7]:
print(clients_credit['dob_years'].describe())
print(clients_credit[(clients_credit['dob_years'] > 0) & (clients_credit['dob_years'] < 18)])
# кредит можно получить лишь с 18 лет, моложе 18 никого нет, Empty DataFrame, все хорошо

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


Мы видим часть записей с возрастом 0 лет. Очевидно, так заменили пропуски. Они, скорее всего, возникли из-за того, что клиент просто не указал свой возраст в анкете. Заменим нулевой возраст на значение, равное 18 годам + стажу работы в годах, а затем округлим его, потому что при игнорировании этого факта получается перекос в сторону меньшего возраста. В остальном же столбец проблем не имеет.

In [8]:
# mean_nonzero = round(clients_credit[(clients_credit['dob_years'] > 0)]['dob_years'].mean())
clients_credit['dob_years'] = clients_credit['dob_years'].replace(0, 18 + round(clients_credit['days_employed'] / 365.25))
print(clients_credit['dob_years'].describe())

count    21525.000000
mean        43.403484
std         12.299707
min         18.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64


Далее идет столбец education (образование клиента).

In [9]:
print(clients_credit['education'].value_counts())

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


Видим явные повторы значений, которые не должны быть в разных категориях. Приведем значения к нижнему регистру.

In [10]:
clients_credit['education'] = clients_credit['education'].str.lower()
print(clients_credit['education'].value_counts())

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


Теперь с этим столбцом все хорошо. Следом идет столбец education_id, кодирующий столбец education числами.

In [11]:
print(clients_credit['education_id'].value_counts())

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64


Количество записей в категориях совпадают с теми, что мы видели в столбце education. Значит, кодирование корректное. Подробнее рассмотрим столбец family_status, связанный с семейным положением клиента.

In [12]:
print(clients_credit['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


Здесь почти нет никаких проблем, лишь стоит привести все строки к нижнему регистру для унификации.

In [13]:
clients_credit['family_status'] = clients_credit['family_status'].str.lower()
print(clients_credit['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


Аналогично предыдущей паре столбцов мы видим пару family_status и family_status_id. Проверяем корректность кодирования.

In [14]:
print(clients_credit['family_status_id'].value_counts())

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64


Количество записей в каждой категории совпало с ранее увиденными. Следующий на очереди столбец — gender (пол человека).

In [15]:
print(clients_credit['gender'].value_counts())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


Случай пола XNA единичный на более чем 21 тысячу записей, поэтому считаю допустимым заменить значение XNA на F, как на самое популярное значение в столбце. 

In [16]:
clients_credit['gender'] = clients_credit['gender'].replace('XNA', 'F')
print(clients_credit['gender'].value_counts())

F    14237
M     7288
Name: gender, dtype: int64


В столбце income_type записан тип занятости клиента, рассмотрим его значения.

In [17]:
print(clients_credit['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64


Никаких аномалий нет. Далее анализируем значения в debt — столбце, где указано, имел ли клиент задолженность по возврату кредитов.

In [18]:
print(clients_credit['debt'].value_counts())

0    19784
1     1741
Name: debt, dtype: int64


И снова нет никаких аномалий. Еще один столбец с пропусками — total_income — ежемесячный доход клиента. Некоторые значения пропущены, возможно, из-за нежелания человека публиковать размер личных доходов.

In [19]:
print(clients_credit['total_income'].describe().apply(lambda x: format(x, 'f')))
# добавили apply, чтоб избежать экспоненциальной нотации

count      19351.000000
mean      167422.302208
std       102971.566448
min        20667.263793
25%       103053.152913
50%       145017.937533
75%       203435.067663
max      2265604.028723
Name: total_income, dtype: object


Не очень правильно заменять пропуски в зарплате средним или медианным значением всего столбца. Получится так, что и пенсионер, и студент, и компаньон получат одинаковую зарплату. Постараемся заполнить столбец доходов более разумно и не очень сложно. Предлагается заменять пропуск на медианное (зарплаты, как правило, имеют выбросы на концах распределения, поэтому не выбираем среднее) значение в своей категории income_type.

In [20]:
clients_credit['total_income'] = clients_credit.groupby('income_type')['total_income'].transform(lambda group: group.fillna(group.median()))
print(clients_credit['total_income'].describe().apply(lambda x: format(x, 'f')))

count      21525.000000
mean      165225.324514
std        98043.665491
min        20667.263793
25%       107798.172619
50%       142594.396847
75%       195549.940861
max      2265604.028723
Name: total_income, dtype: object


Наконец, столбец purpose — цель получения кредита.

In [21]:
print(clients_credit['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Уже видим, что многие значения близки друг к другу, их нужно объединить в осмысленные категории. Сделаем лемматизацию чуть позднее. Явных аномалий в столбце не наблюдается. Еще раз посмотрим на общую информацию о наших данных.

In [22]:
print(clients_credit.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


Итак, мы избавились от пропусков в данных, а также от аномалий в них.

### Замените вещественный тип данных на целочисленный

На этом этапе мы работаем лишь с двумя столбцами — days_employed и total_income, имеющими тип данных float64. Заменим этот тип данных в столбцах на int64, то есть на целочисленный. Сделаем это с помощью метода astype(), потому что в обоих столбцах данных мы уже имеем числовой тип данных.

In [23]:
clients_credit['days_employed'] = clients_credit['days_employed'].astype(int)
clients_credit['total_income'] = clients_credit['total_income'].astype(int)
print(clients_credit.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB
None


Теперь мы отчетливо видим, что в данных присутствуют лишь значения типа object или int64, что и требовалось.

### Удалите дубликаты

Пришло время разобраться с дубликатами в таблице. Сначала узнаем их количество. Для этого воспользуемся методом duplicated(), получим с его помощью Series со значениями True или False. Затем считая количество True в последовательности, узнаем количество полных дубликатов.

In [24]:
print(clients_credit.duplicated().sum())

71


Удалим дубликаты с помощью метода drop_duplicates(). Вместе с этим удалятся и индексы записей. Чтобы восстановить их естественный порядок, используем метод reset_index(drop=True), где drop=True имеет смысл удаления старой ("дырявой") последовательности индексов.

In [25]:
clients_credit = clients_credit.drop_duplicates().reset_index(drop=True)
print(clients_credit.duplicated().sum()) # количество дубликатов после удаления

0


Дубликаты исчезли. По моему мнению, они могли появиться по двум причинам. Во-первых, ошибка системы или человека, который заполняет данные. Во-вторых, сам клиент мог прийти дважды (подумав, что про него забыли в банке) и дважды написать одни и те же данные в разных анкетах.

### Выделите леммы в значениях столбца с целями получения кредита

Как было ранее показано, в столбце purpose мы имеем много разных уникальных текстовых значений. Еще раз выведем их на экран.

In [26]:
print(clients_credit['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Их, однако, можно разделить на вполне логичные группы. Уже можно сказать, какие они будут: свадьба, жилье/недвижимость (категории можно было бы и разделить, но чаще всего жильем называется как раз собственная недвижимость), автомобиль, образование. Проведем лемматизацию строк в этом столбце. Для этого воспользуемся лемматизатором на русском языке Mystem из библиотеки pymystem3.

In [27]:
try:
    from pymystem3 import Mystem # импортируем лемматизатор на русском языке
except:
    print('Кажется, не установлена библиотека pymystem3.')
    sys.exit()


m = Mystem()

def pur_cat(purpose):
    lemmas = m.lemmatize(purpose)
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'образование' in lemmas:
        return 'образование'
    if ('жилье' in lemmas) or ('недвижимость' in lemmas):
        return 'жилье / недвижимость'
    print('Кажется, у нас есть новая категория, о которой мы не знали.')
    sys.exit()

clients_credit['purpose'] = clients_credit['purpose'].apply(pur_cat) # произошла лемматизация...
print(clients_credit['purpose'].value_counts())

жилье / недвижимость    10811
автомобиль               4306
образование              4013
свадьба                  2324
Name: purpose, dtype: int64


По сути, мы применяли функцию pur_cat к каждой строке, которая искала конкретное слово в лемматизированной строке. Я выбрал именно pymystem3.Mystem() в качестве инструмента для анализа вместо nltk.stem.SnowballStemmer('russian'), потому что мне нужно было "вытащить" из каждой строки именно начальную форму слов, а не их основы.

### Категоризируйте данные

Многие столбцы имеют набор значений, которые вполне логично объединить в несколько категорий. Помимо столбца purpose, значения которого мы уже категоризировали, к ним относятся такие столбцы, как стаж работы клиента, его возраст и уровень дохода. Начнем со столбца days_employed. Вспомним значения в нем.

In [28]:
print(clients_credit['days_employed'].describe())

count    21454.000000
mean      2165.674187
std       2009.112833
min         24.000000
25%       1023.000000
50%       1630.000000
75%       2523.000000
max      18388.000000
Name: days_employed, dtype: float64


Будем считать стаж малым, если он меньше 3 лет, средним — от 3 до 7 лет, большим — от 7 лет. Такое разграничение мотивировано тем, что 25-я и 75-я перцентиль как раз находится около этих значений. Вполне разумно считать стаж нижней четверти клиентов малым, а верхней — большим (тогда половина всех клиентов будет находиться в категории среднего стажа). Назовем новый столбец days_employed_categ.

In [29]:
def empl_group(days_employed):
    if days_employed < 3*365:
        return 'малый'
    if days_employed > 7*365:
        return 'большой'
    return 'средний'

clients_credit['days_employed_categ'] = clients_credit['days_employed'].apply(empl_group)

Проделаем ту же работу со столбцом уровня дохода, предварительно посмотрев на разброс значений в нем.

In [30]:
print(clients_credit['total_income'].describe().apply(lambda x: format(x, 'f')))

count      21454.000000
mean      165319.572294
std        98187.303486
min        20667.000000
25%       107623.000000
50%       142594.000000
75%       195820.250000
max      2265604.000000
Name: total_income, dtype: object


Будем считать доход низким, если он менее 100 тысяч в месяц, высоким — более 200 тысяч в месяц (здесь снова границы выбраны из условия того, что примерно половина клиентов должны быть в среднем классе). Иначе назовем доход средним. Запишем категоризацию в столбец total_income_level.

In [31]:
def inc_level(total_income):
    if total_income < 100000:
        return 'низкий'
    if total_income > 200000:
        return 'высокий'
    return 'средний'

clients_credit['total_income_level'] = clients_credit['total_income'].apply(inc_level)

Категоризируем, наконец, возраст клиента. 

In [32]:
print(clients_credit['dob_years'].describe())

count    21454.000000
mean        43.381700
std         12.295139
min         18.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64


Считаем, что клиент молодой, если ему менее 30 лет, пожилой — если ему более 60 лет. Остальных клиентов назовем средними. Столбец dob_years_categ будет отображать эту категоризацию.

In [33]:
def age_categ(dob_years):
    if dob_years < 30:
        return 'молодой'
    if dob_years > 60:
        return 'пожилой'
    return 'средний'

clients_credit['dob_years_categ'] = clients_credit['dob_years'].apply(age_categ)

Итак, убедимся, что все шаги категоризации данных проделаны корректно.

In [34]:
print(clients_credit.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
children               21454 non-null int64
days_employed          21454 non-null int64
dob_years              21454 non-null int64
education              21454 non-null object
education_id           21454 non-null int64
family_status          21454 non-null object
family_status_id       21454 non-null int64
gender                 21454 non-null object
income_type            21454 non-null object
debt                   21454 non-null int64
total_income           21454 non-null int64
purpose                21454 non-null object
days_employed_categ    21454 non-null object
total_income_level     21454 non-null object
dob_years_categ        21454 non-null object
dtypes: int64(7), object(8)
memory usage: 2.5+ MB
None


Новые столбцы созданы успешно.

In [35]:
print(clients_credit.head(10))

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
4         0           1630         53   среднее             1   
5         0            926         27    высшее             0   
6         0           2879         43    высшее             0   
7         0            152         50   среднее             1   
8         2           6929         35    высшее             0   
9         0           2188         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

Кажется, все значения в новых столбцах присвоены верно.

## Шаг 3. Ответьте на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

Воспользуемся методом сводных таблиц pivot_table() с аргументами index='children' (по значениям в каком столбце будет группировка), columns='debt' (значения этого столбца будут сами являться столбцами новой сводной таблицы), values='family_status_id' (здесь, на самом деле, можно использовать любой столбец, потому что мы будем считать лишь количество записей, а не, к примеру, сумму чисел), aggfunc='count' (собственно, функция подсчета количества записей).

In [36]:
pivot_1 = clients_credit.pivot_table(index='children', columns='debt', values='family_status_id', aggfunc='count')
pivot_1[1] = pivot_1[1].fillna(0)
pivot_1['percent_of_bad'] = round(100 * pivot_1[1] / (pivot_1[0] + pivot_1[1]), 2)
display(pivot_1)

debt,0,1,percent_of_bad
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,7.54
1,4410.0,445.0,9.17
2,1926.0,202.0,9.49
3,303.0,27.0,8.18
4,37.0,4.0,9.76
5,9.0,0.0,0.0


После добавления нового столбца percent_of_bad видим, что среди тех клиентов, у которых нет детей, есть лишь 7.54%, которые не очень хорошо платят по счетам. При наличии детей ситуация меняется, ведь доля таких неплательщиков возрастает (в среднем) до 9.5 процентов. Это логично, ведь клиенту без детей можно не думать о том, как прокормить других, эти деньги исправно идут на погашение кредитов. Исключение составляет группа тех, у кого трое детей, здесь доля тех, у кого с оплатой кредита были проблемы, меньше. Однако, в этой категории всего 330 человек, поэтому эту долю (8.18%) можно считать достаточно нестабильной.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

Снова будем использовать метод pivot_table(), лишь заменим аргумент index на 'family_status'.

In [37]:
pivot_2 = clients_credit.pivot_table(index='family_status', columns='debt', values='family_status_id', aggfunc='count')
pivot_2[1] = pivot_2[1].fillna(0)
pivot_2['percent_of_bad'] = round(100 * pivot_2[1] / (pivot_2[0] + pivot_2[1]), 2)
display(pivot_2)

debt,0,1,percent_of_bad
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,7.11
вдовец / вдова,896,63,6.57
гражданский брак,3763,388,9.35
женат / замужем,11408,931,7.55
не женат / не замужем,2536,274,9.75


На этот раз различия в столбце percent_of_bad также есть. Лучше всех погашают кредиты вдовы и вдовцы, вполне неплохо справляются также и разведенные, и женатые / замужние клиенты. Намного хуже дела идут у людей в гражданском браке и неженатых / незамужних. На этом этапе анализа данных мне сложно объяснить чем-то такой результат.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

При ответе на этот вопрос, наконец, стало понятно, для чего мы категоризировали данные в некоторых столбцах. Ведь теперь нам нужно проанализировать столбец с уровнем дохода, то есть непрерывной величиной. Используем pivot_table() с аргументом index='total_income_level'.

In [38]:
pivot_3 = clients_credit.pivot_table(index='total_income_level', columns='debt', values='family_status_id', aggfunc='count')
pivot_3[1] = pivot_3[1].fillna(0)
pivot_3['percent_of_bad'] = round(100 * pivot_3[1] / (pivot_3[0] + pivot_3[1]), 2)
display(pivot_3)

debt,0,1,percent_of_bad
total_income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий,4709,358,7.07
низкий,4109,354,7.93
средний,10895,1029,8.63


При взгляде на столбец percent_of_bad можно заметить, что, во-первых, клиенты с высоким доходом возвращают кредит чаще, чем остальные. Это вполне логично. Во-вторых, однако, низкооплачиваемые клиенты возвращают кредиты даже лучше среднеобеспеченных людей. Это можно объяснить несколькими способами. С одной стороны, деление на бедных и богатых было очень условно, поэтому результат сильно зависит от установленных порогов. С другой же, бедные, взяв кредит, четко и досконально знают свои траты на месяц, поэтому меньше вероятность того, что они не смогут заплатить по счетам. Среднеобеспеченные люди иногда могут позволить себе много лишних и ненужных трат, которые могут привести к невозможности выплаты кредита.

### Как разные цели кредита влияют на его возврат в срок?

Для ответа на вопрос снова построим сводную таблицу. Методы и аргументы такие же, что и ранее, за исключением аргумента index='purpose'.

In [39]:
pivot_4 = clients_credit.pivot_table(index='purpose', columns='debt', values='family_status_id', aggfunc='count')
pivot_4[1] = pivot_4[1].fillna(0)
pivot_4['percent_of_bad'] = round(100 * pivot_4[1] / (pivot_4[0] + pivot_4[1]), 2)
display(pivot_4)

debt,0,1,percent_of_bad
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,9.36
жилье / недвижимость,10029,782,7.23
образование,3643,370,9.22
свадьба,2138,186,8.0


Здесь категоризация была довольно четкой, поэтому результаты более достоверны. Если клиенты берут кредит на жилье или недвижимость, то чаще обычного они возвращают его. К "возвращаемым" категориям можно отнести кредит на свадьбу. Кредиты же на покупку автомобиля и образование возвращаются заметно хуже (между собой в равной степени). Кредиты на жилье и недвижимость возвращаются, потому что у большинства это единственный кредит в жизни, причем очень необходимый. Большинство сил и средств после получения кредита направляются только на его погашение. Расходы на свадьбу часто покрываются очень легко с помощью подарков молодоженам. Остальные категории не являются главными и приоритетными в жизни, потому на погашение кредитов по ним не обращается должного внимания.

## Шаг 4. Напишите общий вывод

В ходе выполнения проекта было выполнено несколько задач, а именно

- произведена предобработка данных, включающая в себя удаление дубликатов, заполнение пропусков, замену аномальных данных на подходящие, замену вещественных типов данных на целочисленные, лемматизацию одного из столбцов данных для последующего анализа и категоризацию данных;

- были получены развернутые и аргументированные выводы о влиянии некоторых факторов на факт погашения кредита в срок:

    1.  Между <i>наличием детей</i> и возвратом кредита в срок <b>есть явно прослеживаемая зависимость</b>. Если дети у клиента отсутствуют, то процент неплательщиков оказывается близок к 7.54, а если дети есть, то такая доля клиентов составляет от 8.18 (для трех детей) до 9.76 (для четырех), исключая данные для малого количество клиентов в группе. Результат легко связать с реальностью: клиент без детей, как правило, не кормит других, деньги исправно идут на погашение кредитов.
    1. Между <i>семейным положением</i> и возвратом кредита в срок тоже <b>есть зависимость</b>. Если клиент является вдовцом или вдовой, то 6.57 процентов имеют проблемы с возвратом кредита, среди тех, кто разведен, процент находится в районе 7.11, женатые и замужние клиенты не платят по кредиту вовремя в 7.55 процентах случаев. Более проблемными в этом плане категориями являются те, кто состоит в гражданском браке (9.35%) и неженатые / незамужние клиенты (9.75%). Почему возникли именно такие различия в категориях, сказать сложно. Однако они определенно есть.
    1. Между <i>уровнем дохода</i> и возвратом кредита в срок также <b>зависимость присутствует</b>. Действительно, люди с высоким ежемесячным доходом лишь в 7.07 процентах случаев имеют проблемы с погашением кредита, а со средним существенно больше — 8.63 процента. Особняком стоит показатель группы клиентов с низким доходом — 7.93 процента, что больше, чем в группе богатых людей. Результат, однако, подтверждается реальностью. С одной стороны, богатые имеют меньше проблем по причине, собственно, высокого заработка. С другой же стороны, низкооплачиваемые клиенты дорожат каждым рублем своей зарплаты, поэтому они серьезней обычного подходят к выплатам по кредиту.
    1. Разные <i>цели кредита</i> <b>действительно влияют</b> на его возврат в срок. Если клиент берет кредит на жилье или прочую недвижимость, то доля невозврата колеблется на уровне 7.23%. Далее идет кредит на свадьбу (8%). Наконец, доля клиентов с проблемами по кредитам составляет 9.36%, если кредит взят на покупку автомобиля, и 9.22%, если на образование. Этому различию между категориями есть четкое реальное объяснение. Чаще всего, если у людей всего один кредит в жизни, то он всеми силами клиента будет возвращен. Обычно такие одиночные кредиты берутся на жилье и недвижимость. Затраты на свадьбу легко "отбивается" с помощью подарков от гостей. Автомобили и образование, чаще всего, не являются главные покупками в жизни, поэтому очередь до их погашения наступает очень не скоро.