# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Результаты исследования будут учтены при построении модели кредитного скоринга.

**Цель исследования** — ответить на вопросы:

  1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
  2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
  3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
  4. Как разные цели кредита влияют на его возврат в срок?

**Ход исследования**

Входные данные от банка — статистика о платёжеспособности клиентов — получены из файла data.csv. О качестве данных ничего не известно. Поэтому перед тем, как отвечать на вопрсоы исследования и делать вывод, понадобится обзор данных.

Проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки, поищем возможность исправить самые критичные ошибки данных.

После ответа на поставленные в исследовании вопросы, сделаем общией вывод.

Таким образом, исследование пройдёт в четыре этапа:

  1. Обзор данных
  2. Предобработка данных
  3. Ответы на вопросы исследования
  4. Общий вывод

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных" data-toc-modified-id="Обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Исправление-количественных-значений" data-toc-modified-id="Исправление-количественных-значений-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Исправление количественных значений</a></span><ul class="toc-item"><li><span><a href="#Столбец-children" data-toc-modified-id="Столбец-children-2.1.1"><span class="toc-item-num">2.1.1&nbsp;&nbsp;</span>Столбец children</a></span></li><li><span><a href="#Столбец-days_employed" data-toc-modified-id="Столбец-days_employed-2.1.2"><span class="toc-item-num">2.1.2&nbsp;&nbsp;</span>Столбец days_employed</a></span></li><li><span><a href="#Столбец-dob_years" data-toc-modified-id="Столбец-dob_years-2.1.3"><span class="toc-item-num">2.1.3&nbsp;&nbsp;</span>Столбец dob_years</a></span></li></ul></li><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Обработка пропусков</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Обработка дубликатов</a></span><ul class="toc-item"><li><span><a href="#Явные-дубликаты" data-toc-modified-id="Явные-дубликаты-2.4.1"><span class="toc-item-num">2.4.1&nbsp;&nbsp;</span>Явные дубликаты</a></span></li><li><span><a href="#Неявные-дубликаты" data-toc-modified-id="Неявные-дубликаты-2.4.2"><span class="toc-item-num">2.4.2&nbsp;&nbsp;</span>Неявные дубликаты</a></span></li></ul></li><li><span><a href="#Исправление-категориальных-значений" data-toc-modified-id="Исправление-категориальных-значений-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Исправление категориальных значений</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-2.7"><span class="toc-item-num">2.7&nbsp;&nbsp;</span>Категоризация данных</a></span><ul class="toc-item"><li><span><a href="#Столбец-children" data-toc-modified-id="Столбец-children-2.7.1"><span class="toc-item-num">2.7.1&nbsp;&nbsp;</span>Столбец children</a></span></li><li><span><a href="#Столбец-total_income" data-toc-modified-id="Столбец-total_income-2.7.2"><span class="toc-item-num">2.7.2&nbsp;&nbsp;</span>Столбец total_income</a></span></li></ul></li></ul></li><li><span><a href="#Ответы-на-вопросы-исследования" data-toc-modified-id="Ответы-на-вопросы-исследования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Ответы на вопросы исследования</a></span><ul class="toc-item"><li><span><a href="#Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Есть ли зависимость между наличием детей и возвратом кредита в срок?</a></span></li><li><span><a href="#Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Есть ли зависимость между семейным положением и возвратом кредита в срок?</a></span></li><li><span><a href="#Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</a></span></li><li><span><a href="#Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?" data-toc-modified-id="Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Как разные цели кредита влияют на его возврат в срок?</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Обзор данных

Составим первое впечатление о входных данных.

In [1]:
# Импортируем библиотеки
import pandas as pd
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [2]:
# Читаем файл с данными и сохраняем в датафрейм df
df = pd.read_csv('data.csv')

In [3]:
# Обзор датафрейма, получаем первые 10 строк
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# Обзор датафрейма, получаем общую информацию
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов различных типов данных: `object`, `int64`, `float64`.

Согласно документации к данным:

  * `children` — количество детей в семье
  * `days_employed` — общий трудовой стаж в днях
  * `dob_years` — возраст клиента в годах
  * `education` — уровень образования клиента
  * `education_id` — идентификатор уровня образования
  * `family_status` — семейное положение
  * `family_status_id` — идентификатор семейного положения
  * `gender` — пол клиента
  * `income_type` — тип занятости
  * `debt` — имел ли задолженность по возврату кредитов
  * `total_income` — ежемесячный доход
  * `purpose` — цель получения кредита
  
Нарушений стиля в именовании колонок нет.

В колонках `days_employed` и `total_income` количество значений отличается от других колонок. То есть в данных встречаются пропуски.

Тип данных в колонке `days_employed` — вещественный, судя по документации должен быть целочисленным.

Значения в колонке `days_employed` либо отрицательные, либо аномально высокие. Вероятно, отрицательные значения возникли из-за технической ошибки при подсчете в источнике данных. Аномальные значения могут быть получены из источника, который ведет подсчет не в днях (как в таблице), а в часах.

В колонке `total_income` данные имеют 6 знаков после запятой, такой точности в случае суммы в рублях с копейками быть не должно, в данных может быть ошибка.

In [5]:
# Обзор датафрейма, получаем описательную статистику числовых столбцов
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Столбец children**

Минимальное значение количества детей -1 ошибочное. Максимальное значение очень большое, но однозначно об ошибке не говорит.

**Столбец days_employed**

Минимальное значение стажа около 50 лет, но со знаком минус. Среди отрицательных значений аномалий нет. Такие значения заменим на модули, чтобы избавиться от знака минус.

Максимальное значение в 1100 лет стажа аномально. Приняв, что это значение в часах, получим около 46 лет стажа. Версия о том, что аномальные значения приведены в часах подтверждается. Верхней границей возьмем значение 30000, соответствующее примерно 82 годам стажа (возраст 100 лет). Все значения выше примем за ошибочные и разделим на 24 часа, приведя к дням.

**Столбец dob_years**

Минимальное значение возраста в годах 0 - то есть клиенту нет года. Это аномальное значение.

**Столбец total_income**

Максимальное значение очень большое, но однозначно об ошибке не говорит.

In [6]:
# Оценим количество ошибочных значений в столбце children
df['children'].value_counts().sort_values(ascending=False)

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Максимальных значений 20 детей оказалось 76, скорее всего, эти данные ошибочны. Вероятно, это значение "2,0" из базы данных, которое некорректно интерпретировано как "20".

**Выводы**

В каждой строке таблицы — анонимные данные о клиентах кредитного отдела банка. Колонки описывают семейное положение, занятость, личные качества, финансовое состояние и цель получения кредита для каждого клиента. 

Предварительно можно утверждать, что данных достаточно для ответа на поставленные вопросы и вывода.

В колонке `children` исправить отрицательные и аномальные значения.

В колонке `days_employed` исправить отрицательные и аномальные значения, изменить тип данных на целочисленный.

В колонке `dob_years` нулевые значения заменить на усредненные.

В колонке `total_income` округлить значения до 2 знаков после запятой. Нужно устранить проблемы с пропусками в данных.

## Предобработка данных

### Исправление количественных значений

#### Столбец children

In [7]:
# Проверим количество строк датафрейма, где количество детей указано меньше 0
df.loc[df['children'] < 0, 'children'].count()

47

Вероятно, 47 строк с данными получены от источника с ошибкой в подсчете количества детей. Такие значения заменим на модули, чтобы избавиться от знака минус.

In [8]:
# Избавимся от отрицательных значений столбца children
df['children'] = df['children'].apply(abs)

In [9]:
# Заменим аномальные значения столбца children 20 на 2
df.loc[df['children'] == 20, 'children'] = 2

# Проверим значения столбца после исправления данных
df['children'].value_counts().sort_values(ascending=False)

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

#### Столбец days_employed

In [10]:
# Избавляемся от отрицательных значений столбца days_employed
df['days_employed'] = df['days_employed'].apply(abs)

In [11]:
# Приводим аномальные значения столбца days_employed к правильным значениям
df.loc[df['days_employed'] > 30000, 'days_employed'] = df.loc[df['days_employed'] > 30000, 'days_employed'] / 24

In [12]:
# Проверяем исправление данных
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


#### Столбец dob_years

In [13]:
# Проверим количество строк датафрейма, где возраст менее 18 лет
df.loc[df['dob_years'] < 18, 'dob_years'].count()

101

In [14]:
# Проверим, что все строки с возврастом менее 18 лет на самом деле нули
df.loc[(df['dob_years'] < 18) & (df['dob_years'] != 0), 'dob_years'].count()

0

101 строка содежит возраст клиента равный 0, что говорит об ошибке в данных. Вероятно, такая ошибка могла появится после заполнения нулями отсутствующих значений. Обработаем ошибочные данные как пропуски. Заменим нули на средние значения возраста, рассчитанное для каждого типа занятости.

In [15]:
# Получаем все типы занятости для клиентов с нулевыми значениями в столбце возраст
# Определяем средние значения возраста для каждого типа занятости, выводим значения
# Заполняем полученными величинами пропуски в строках с соответствующими типами занятости
for income_type in df['income_type'].unique():
    mean = df.loc[df['income_type'] == income_type, 'dob_years'].mean()
    df.loc[(df['dob_years'] ==0) & (df['income_type'] == income_type), 'dob_years'] = mean

In [16]:
# Проверяем исправление нулевых значений в столбце dob_years
df.loc[df['dob_years'] == 0, 'dob_years'].count()

0

**Вывод**

Отрицательные значения в колонках `children` и `days_employed` заменены положительными, аномальные значения в этих же колонках приведены к корректным.

Нулевые значения в колонке `dob_years` заменены на усредненные.

### Обработка пропусков

In [17]:
# Подсчитаем пропуски в данных
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Как было отмечено выше, пропуски встречаются только в столбцах `days_employed` и `total_income`. Объем отсутсвующих данных существенный - 10%. Отсутствующие данные в этих столбцах могут повлиять на результаты исследования. Поскольку число пропусков для обоих столбцов совпадает, попробуем найти причину отсутствия данных. Выясним, есть ли определенные категории клиентов, у которых данные отсутствуют или пропуски распределены равномерно по всей таблице.

In [18]:
# Проверим, что пропуски в 2-х колонках действительно у одних и тех же клиентов
df_nan_filtered = df[df['days_employed'].isna()]
df_nan_filtered = df_nan_filtered[df_nan_filtered['total_income'].isna()]
len(df_nan_filtered)

2174

Проверка подтвердила, что у 2174 клиентов пропущены данные сразу в двух столбцах (`days_employed` и `total_income`).

Из этого можно сделать два вывода:

  1. Такие клиенты не имеют трудового стажа и ежемесячного дохода.
  2. Это результат технической ошибки - данные не было заведены или выгрузились некорректно.

In [19]:
# Выведем список первых 10 строк списка клиентов с пропусками в 2-х столбцах
df_nan_filtered.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65.0,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41.0,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63.0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50.0,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54.0,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21.0,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52.0,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32.0,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50.0,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52.0,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


По первым строкам видно, что тип занятости `income_type` этих клиентов самый разный (`пенсионер`, `госслужащий`, `компаньон`, `сотрудник`). Клиенты с таким статусом не могут иметь отсутствующий трудовой стаж и ежемесячный доход.

Для 2174 клиентов данные отсутствуют в результате технической ошибки.

Для продолжения исследования заполним пропуски в столбцах `days_employed` и `total_income` характерными значениями. По логике, наибольшее влияние на эти столбцы оказывает тип занятости в столбце `income_type`. Найдем среднее значение общего трудового стажа и медианный ежемесячный доход для каждого типа занятости. Полученные значения используем для заполненения пропущенных данных клиентов, исходя из их типа занятости.

In [20]:
# Рассчитаем средние значения трудового стажа и медианные значения
# дохода для каждого типа занятости. В строки с пропусками значений
# трудового стажа и дохода записывает расчетные значения
df['days_employed_mean'] = df.groupby('income_type')['days_employed'].transform('mean')
df['total_income_median'] = df.groupby('income_type')['total_income'].transform('median')

df.loc[df['days_employed'].isna(), 'days_employed'] = df['days_employed_mean']
df.loc[df['total_income'].isna(), 'total_income'] = df['total_income_median']

In [21]:
# Определяем средние значения трудового стажа для каждого типа занятости, выводим значения
# Определяем медианные значения дохода для каждого типа занятости, выводим значения
# Заполняем полученными величинами пропуски в строках с соответствующими типами занятости
#for income_type in df_nan_filtered['income_type'].unique():
#    mean = df.loc[df['income_type'] == income_type, 'days_employed'].mean()
#    median = df.loc[df['income_type'] == income_type, 'total_income'].median()
#    print(f'Тип: {income_type}, средний стаж: {mean:.0f}, медианный доход: {median:.2f}')
#    df.loc[(df['days_employed'].isna()) & (df['income_type'] == income_type), 'days_employed'] = mean
#    df.loc[(df['total_income'].isna()) & (df['income_type'] == income_type), 'total_income'] = median

In [22]:
# Проверяем заполнение пропусков
df.isna().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
days_employed_mean     0
total_income_median    0
dtype: int64

**Вывод**

Пропуски в датафрейме успешно удалены.

### Замена типа данных

Заменим тип данных в колонке `days_employed` на целочисленный с помощью функции `Pandas DataFrame.astype()`. Для получения более точного результата предварительно округлим до ближайшего целого числа значения колонки.

В колонке `total_income` округлим значения до 2 знаков после запятой.

In [23]:
# Округлим и изменим тип данных в колонке days_employed
df['days_employed'] = df['days_employed'].round().astype('int')

In [24]:
# Округлим значения в колонке total_income
df['total_income'] = df['total_income'].round(2)

In [25]:
# Проверим результат, выведем первые 10 строк датафрейма
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_mean,total_income_median
0,1,8438,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья,2326.499216,142594.396847
1,1,4025,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля,2326.499216,142594.396847
2,0,5623,33.0,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья,2326.499216,142594.396847
3,3,4125,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование,2326.499216,142594.396847
4,0,14178,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу,15208.478802,118514.486412
5,0,926,27.0,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья,2111.524398,172357.950966
6,0,2879,43.0,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем,2111.524398,172357.950966
7,0,153,50.0,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование,2326.499216,142594.396847
8,2,6930,35.0,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы,2326.499216,142594.396847
9,0,2189,41.0,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи,2326.499216,142594.396847


**Вывод**

Замена типа данных и округления проведены успешно.

### Обработка дубликатов

#### Явные дубликаты

In [26]:
# Посчитаем явные строковые дубликаты
df.duplicated().sum()

54

В строках найдено 54 полных дубликата. Вероятно, их появление связано с некорректным объединением баз данных. Удалим такие строки из датафрейма.

In [27]:
# Удаляем явные дубликаты с удалением старых индексов и формированием новых
df = df.drop_duplicates().reset_index(drop=True)

In [28]:
# Проверяем удаление
df.duplicated().sum()

0

В датафрейме явные дубликаты удалены успешно.

#### Неявные дубликаты

Для поиска неявных дубликатов проверим значения в столбцах `education`, `family_status`, `gender`, `income_type`.

In [29]:
# Проверяем уникальные значения в столбцах для поиска неявны дубликатов

# Список столбцов для проверки
columns = ['education', 'family_status', 'gender', 'income_type']

for column in columns:
    print(df[column].sort_values().unique())
    print()

['ВЫСШЕЕ' 'Высшее' 'НАЧАЛЬНОЕ' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Начальное'
 'Неоконченное высшее' 'СРЕДНЕЕ' 'Среднее' 'УЧЕНАЯ СТЕПЕНЬ'
 'Ученая степень' 'высшее' 'начальное' 'неоконченное высшее' 'среднее'
 'ученая степень']

['Не женат / не замужем' 'в разводе' 'вдовец / вдова' 'гражданский брак'
 'женат / замужем']

['F' 'M' 'XNA']

['безработный' 'в декрете' 'госслужащий' 'компаньон' 'пенсионер'
 'предприниматель' 'сотрудник' 'студент']



В столбце `education` найдены неявные дубликаты:

  * `высшее`: 'ВЫСШЕЕ' 'Высшее'
  * `начальное`: 'НАЧАЛЬНОЕ' 'Начальное'
  * `неоконченное высшее`: 'НЕОКОНЧЕННОЕ ВЫСШЕЕ'   'Неоконченное высшее'
  * `среднее`: 'СРЕДНЕЕ' 'Среднее'
  * `ученая степень`: 'УЧЕНАЯ СТЕПЕНЬ' 'Ученая степень'

Вероятно, такие дубликаты возникли при слиянии нескольких баз данных, где использовался ограниченный список значений столбца, но в разных вариантах регистра. Поскольку в других столбцах датафрейма используется нижний регистр, приведем все значения столбца `education` также к нижнему регистру.

В столбце `gender` найдены некорректные значения `XNA`. Выделим их обработку в раздел Исправление качественных значений.

В столбцах `family_status` и `income_type` неявных дубликатов не обнаружено.

In [30]:
# Удалим неявные дубликаты в столбце `education` приведением значений к нижнему регистру
df['education'] = df['education'].str.lower()

In [31]:
# Проверим удаление неявных дубликатов
df['education'].sort_values().unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

**Вывод**

Явные и неявные дубликаты удалены успешно.

### Исправление категориальных значений

Проверим столбец `debt`, содержащий категориальными переменные, поскольку он не был проверен на предыдущих шагах.

Исправим найденные на предыдущем этапе ошибочные значения в столбце `gender`.

In [32]:
# Проверим уникальные значения в столбце debt
df['debt'].sort_values().unique()

array([0, 1])

Некорректных значений не обнаружено.

In [33]:
# Проверим сколько некорректных значений в столбце gender содержится в датафрейме
df.loc[df['gender'] == 'XNA', 'gender'].count()

1

Найдено всего одно некорректное значение пола. Вероятно, обозначение `XNA` указывает на то, что для этого клиента пол неизвестен. Выведем всю строку.

In [34]:
# Выведем строку с некорректным значением в столбце gender
df.loc[df['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_mean,total_income_median
10690,0,2359,24.0,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.16,покупка недвижимости,2111.524398,172357.950966


Определить характерное значение пола не представляется возможным. Строку с некорректным указанием пола в столбце `gender` можно удалить, однако значения столбца `gender` в данном исследовании участия не принимают. Чтобы не потерять данные в других столбцах, строку из датфрейма удалять не будем.

**Вывод**

Категориальные значения в рамках исследования исправления не требуют.

### Лемматизация

Для категоризации клиентов по целям получения кредита соберем леммы уникальных значений столбца `purpose`. Из наиболее часто встречающихся слов сформируем список категорий. Сравним леммы в столбца `purpose` с полученным списком категорий и назначим каждому клиенту категорию в новом столбце `purpose_cat`.

In [35]:
# Получаем список уникальных лемм в столбце purpose по частоте
purpose_unique = m.lemmatize(' '.join(df['purpose'].unique()))
Counter(purpose_unique).most_common()

[(' ', 96),
 ('покупка', 10),
 ('недвижимость', 10),
 ('автомобиль', 9),
 ('образование', 9),
 ('жилье', 7),
 ('с', 5),
 ('операция', 4),
 ('на', 4),
 ('свой', 4),
 ('свадьба', 3),
 ('строительство', 3),
 ('получение', 3),
 ('высокий', 3),
 ('дополнительный', 2),
 ('для', 2),
 ('коммерческий', 2),
 ('жилой', 2),
 ('подержать', 2),
 ('заниматься', 2),
 ('сделка', 2),
 ('приобретение', 1),
 ('сыграть', 1),
 ('проведение', 1),
 ('семья', 1),
 ('собственный', 1),
 ('со', 1),
 ('профильный', 1),
 ('сдача', 1),
 ('ремонт', 1),
 ('\n', 1)]

Наиболее распространенные леммы, которые можно использовать для категоризации целей получения кредита:

  * `недвижимость`
  * `автомобиль`
  * `образование`
  * `жилье`
  * `свадьба`
  * `строительство`
  * `ремонт`

In [36]:
# Определяем фукнцию, которая получает строку с целью кредита,
# лемматизирует ее и сравнивает со списком целей кредита.
# Функция возвращает категорию цели кредита, когда находит
# первое вхождение из списка целей кредита
def get_purpose_cat(purpose_string):
    '''Получает цель кредита в леммах, возвращает категорию из списка'''
    purpose_list = ['недвижимость',
                    'автомобиль',
                    'образование',
                    'жилье',
                    'свадьба',
                    'строительство',
                    'ремонт']
    lemmas = ' '.join(m.lemmatize(purpose_string))
    for purpose in purpose_list:
        if purpose in lemmas:
            return purpose

In [37]:
# Создадим стролбец purpose_cat с категориями целей получения кредита
df['purpose_cat'] = df['purpose'].apply(get_purpose_cat)

In [38]:
# Проверим уникальные категории и число строк в каждой категории в столбце purpose_cat
df['purpose_cat'].value_counts()

недвижимость    6353
жилье           4461
автомобиль      4308
образование     4014
свадьба         2335
Name: purpose_cat, dtype: int64

In [39]:
# Проверим, что категории удалось присвоить для каждой строки
df['purpose_cat'].isna().sum()

0

Леммы `строительство` и `ремонт` не вошли в список категорий, поскольку первым вхождением оказалась более распространенная лемма из списка (`недвижимость` или `жилье`).

В получившемся списке есть синоним категории `недвижимость`: `жилье`. Избавимся от него заменой категории.

In [40]:
# Для удаления категории-синонима заменим категорию 'жилье' на 'недвижимость'
df.loc[df['purpose_cat'] == 'жилье', 'purpose_cat'] = 'недвижимость'

In [41]:
# Проверим уникальные категории и число строк в каждой категории в столбце purpose_cat
df['purpose_cat'].value_counts()

недвижимость    10814
автомобиль       4308
образование      4014
свадьба          2335
Name: purpose_cat, dtype: int64

Категории изменены успешно. Таким образом, для целей исследования будем использовать крупные категории:

  * `недвижимость`
  * `автомобиль`
  * `образование`
  * `свадьба`

**Вывод**

Лемматизация и категоризация целей получения кредита выполнены успешно.

### Категоризация данных

Для ответов на вопросы исследования произведем категоризацию значений в столбцах `children` и `total_income`.
Категоризация значений в столбце `purpose` проведена на предыдущем этапе.

#### Столбец children

Разделим клиентов на категории в зависимости от наличия детей:
  * `нет детей`, если детей нет
  * `есть дети`, если от 1 или 2 ребенка
  * `многодетный`, если 3 и более ребенка

In [42]:
# Определим функцию, которая возвращает категорию в зависимости от количества детей
def get_children_cat(children):
    '''
    Возвращает категорию в завесимости от количества детей:
    - 'нет детей', если значение children = 0;
    - 'есть дети', если значение children от 1 до 2;
    - 'многодетный', если значение children >= 3/
    '''
    if children == 0:
        return 'нет детей'
    elif children >= 1 and children <=2:
        return 'есть дети'
    elif children > 2:
        return 'многодетный'

In [43]:
# Создадим стролбец children_cat с категорией в зависимости от наличия детей
df['children_cat'] = df['children'].apply(get_children_cat)

#### Столбец total_income

Разделим клиентов на категории в зависимости от уровня дохода. Сформируем 5 равных групп, в зависимости от уровня дохода:

  * `очень низкий`
  * `низкий`
  * `средний`
  * `высокий`
  * `очень высокий`

In [44]:
# Список названий уровней дохода
total_income_cat = ['очень низкий', 'низкий', 'средний', 'высокий', 'очень высокий']

# Сделаем разбивку на 5 равных уровней дохода
df['total_income_cat'] = pd.qcut(df['total_income'], 5, labels=total_income_cat)

In [45]:
# Проверим полученные в столбцах children_cat и total_income_cat категории, выведем первые 10 строк датафрейма
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_mean,total_income_median,purpose_cat,children_cat,total_income_cat
0,1,8438,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья,2326.499216,142594.396847,недвижимость,есть дети,очень высокий
1,1,4025,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля,2326.499216,142594.396847,автомобиль,есть дети,низкий
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья,2326.499216,142594.396847,недвижимость,нет детей,средний
3,3,4125,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование,2326.499216,142594.396847,образование,многодетный,очень высокий
4,0,14178,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу,15208.478802,118514.486412,свадьба,нет детей,средний
5,0,926,27.0,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья,2111.524398,172357.950966,недвижимость,нет детей,очень высокий
6,0,2879,43.0,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем,2111.524398,172357.950966,недвижимость,нет детей,очень высокий
7,0,153,50.0,среднее,1,женат / замужем,0,M,сотрудник,0,135823.93,образование,2326.499216,142594.396847,образование,нет детей,средний
8,2,6930,35.0,высшее,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы,2326.499216,142594.396847,свадьба,есть дети,очень низкий
9,0,2189,41.0,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи,2326.499216,142594.396847,недвижимость,нет детей,средний


**Вывод**

Категоризация значений в столбцах `children` и `total_income` проведена успешно.

## Ответы на вопросы исследования

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [46]:
report = df.pivot_table(index='children_cat', columns='debt', values='gender', aggfunc='count')
report.columns = ['no_debt', 'debt']
report['debt_%'] = report['debt'] / (report['debt'] + report['no_debt'])
report.sort_values(by='debt_%', ascending=False)

Unnamed: 0_level_0,no_debt,debt,debt_%
children_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
есть дети,6337,647,0.09264
многодетный,349,31,0.081579
нет детей,13044,1063,0.075353


**Вывод**

Установлена зависимость между наличием детей и возвратом кредита в срок.

**Наличие детей повышает вероятность задолженности** по сравнению с клиентами, у которых нет детей. Доля клиентов, имевших задолженности, для имеющих детей 8,2-9,3%, а для не имеющих детей 7,5%. При этому доля многодетных клиентов, имевших задолженности, ниже, чем доля клиентов с 1 или 2 детьми (8,2% против 9,3%).

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [47]:
report = df.pivot_table(index='family_status', columns='debt', values='gender', aggfunc='count')
report.columns = ['no_debt', 'debt']
report['debt_%'] = report['debt'] / (report['debt'] + report['no_debt'])
report.sort_values(by='debt_%', ascending=False)

Unnamed: 0_level_0,no_debt,debt,debt_%
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,0.097509
гражданский брак,3775,388,0.093202
женат / замужем,11413,931,0.075421
в разводе,1110,85,0.07113
вдовец / вдова,896,63,0.065693


**Вывод**

Установлена зависимость между семейным положение и возвратом кредита в срок.

**Для холостых или находящихся в гражданском браке клиентов отмечается повышенная вероятность задолженности**, по сравнению с клиентами в официально зарегистрированном браке (в том числе прекращенном по тем или иным причинам). Доля клиентов, имевших задолженности, для холостых или в гражданском браке 9,3-9,7%, а для находящихся в браке сейчас или ранее 6,6-7,5%.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [48]:
report = df.pivot_table(index='total_income_cat', columns='debt', values='gender', aggfunc='count')
report.columns = ['no_debt', 'debt']
report['debt_%'] = report['debt'] / (report['debt'] + report['no_debt'])
report.sort_values(by='debt_%', ascending=False)

Unnamed: 0_level_0,no_debt,debt,debt_%
total_income_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
средний,3919,375,0.087331
низкий,3933,361,0.084071
высокий,3933,361,0.084071
очень низкий,3951,344,0.080093
очень высокий,3994,300,0.069865


**Вывод**

Установлена зависимость между уровнем дохода и возвратом кредита в срок.

**Для клиентов со средним уровнем дохода отмечается повышенная вероятность задолженности**. Самая низкая вероятность задолженности у клиентов с очень высоким уровнем дохода. Доля клиентов, имевших задолженности, в категории среднего дохода 8,7%, а в категории очень высокого дохода 7,0%.

### Как разные цели кредита влияют на его возврат в срок?

In [49]:
report = df.pivot_table(index='purpose_cat', columns='debt', values='gender', aggfunc='count')
report.columns = ['no_debt', 'debt']
report['debt_%'] = report['debt'] / (report['debt'] + report['no_debt'])
report.sort_values(by='debt_%', ascending=False)

Unnamed: 0_level_0,no_debt,debt,debt_%
purpose_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3905,403,0.093547
образование,3644,370,0.092177
свадьба,2149,186,0.079657
недвижимость,10032,782,0.072314


**Вывод**

Установлена зависимость между целью кредита и возвратом кредита в срок.

**Для указавших цель кредита автомобиль или образование отмечается повышенная вероятность задолженности**, по сравнению с клиентами, которые указали в качестве цели свадьбу или недвижимость. Доля клиентов, имевших задолженности, для указавших автомобиль или образование 9,2-9,3%, а для указавших свадьбу или недвижимость 7,2-8,0%.

## Общий вывод

По результатам исследования надежности заемщиков были сделаны выводы, которые следует учесть при построении модели кредитного скоринга.

  * **Отмечена зависимость между наличием детей и возвратом кредита в срок.**  
  Наличие детей повышает вероятность задолженности.
  
  
  * **Отмечена зависимость между семейным положение и возвратом кредита в срок.**  
  Отсутствие зарегистрированного брака повышает вероятность задолженности.
  
  
  * **Отмечена зависимость между уровнем дохода и возвратом кредита в срок.**  
  Средний уровень дохода повышает вероятность задолженности.
  
  
  * **Отмечена зависимость между целью кредита и возвратом кредита в срок.**  
  Указание автомобиля или образования в цели кредита повышает вероятность задолженности.