<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных-" data-toc-modified-id="Обзор-данных--1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных <a id="start" rel="nofollow"></a></a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных<a id="preprocessing" rel="nofollow"></a></a></span><ul class="toc-item"><li><span><a href="#Стиль-заголовков" data-toc-modified-id="Стиль-заголовков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Стиль заголовков<a id="headings" rel="nofollow"></a></a></span></li><li><span><a href="#Пропуски-в-данных" data-toc-modified-id="Пропуски-в-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Пропуски в данных<a id="null" rel="nofollow"></a></a></span></li><li><span><a href="#Исправление-данных" data-toc-modified-id="Исправление-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Исправление данных<a id="correction" rel="nofollow"></a></a></span></li><li><span><a href="#Дубликаты" data-toc-modified-id="Дубликаты-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Дубликаты<a id="duplicates" rel="nofollow"></a></a></span></li></ul></li><li><span><a href="#Проверка-гипотез" data-toc-modified-id="Проверка-гипотез-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Проверка гипотез<a id="hypotheses" rel="nofollow"></a></a></span><ul class="toc-item"><li><span><a href="#Зависимость-кредитоспособности-заёмщика-от-наличия-у-него-детей" data-toc-modified-id="Зависимость-кредитоспособности-заёмщика-от-наличия-у-него-детей-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Зависимость кредитоспособности заёмщика от наличия у него детей<a id="children" rel="nofollow"></a></a></span></li><li><span><a href="#Зависимость-кредитоспособности-заёмщика-от-его-семейного-положения" data-toc-modified-id="Зависимость-кредитоспособности-заёмщика-от-его-семейного-положения-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Зависимость кредитоспособности заёмщика от его семейного положения<a id="family" rel="nofollow"></a></a></span></li><li><span><a href="#Зависимость-кредитоспособности-заёмщика-от-его-уровня-дохода" data-toc-modified-id="Зависимость-кредитоспособности-заёмщика-от-его-уровня-дохода-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Зависимость кредитоспособности заёмщика от его уровня дохода<a id="income" rel="nofollow"></a></a></span></li><li><span><a href="#Зависимость-кредитоспособности-заёмщика-от-целей-кредита" data-toc-modified-id="Зависимость-кредитоспособности-заёмщика-от-целей-кредита-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Зависимость кредитоспособности заёмщика от целей кредита<a id="purposes" rel="nofollow"></a></a></span></li></ul></li><li><span><a href="#Итоги-исследования" data-toc-modified-id="Итоги-исследования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Итоги исследования<a id="conclusion" rel="nofollow"></a></a></span></li></ul></div>

# Исследование надежности заёмщиков

Проект для кредитного отдела банка. Нужно разобраться, влияет ли семейное положение, количество детей, уровень дохода клиента и цели кредита на факт его погашения в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — проверить четыре гипотезы:
1. Кредитоспособность заёмщика зависит от наличия у него детей.
2. Кредитоспособность заёмщика зависит от его семейного положения. 
3. Кредитоспособность заёмщика зависит от его уровня дохода.
4. Разные цели кредита влияют на его возрат в срок.

**Ход исследования**

Данные для проведения исследования находятся в файле `data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Затем необходимо проверить данные на ошибки и оценить их влияние на исследование и исправить их.

Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.

## Обзор данных <a id='start'></a>

Импортируем библиотеку `pandas` и необходимые на этапе лемматизации модули:

In [1]:
import pandas as pd
from pymystem3 import Mystem
from collections import Counter

pd.options.mode.chained_assignment = None

Прочитаем файл `data.csv` и сохраним его в переменной `df`:

In [2]:
try:
    df = pd.read_csv('/datasets/data.csv')
except:
    df = pd.read_csv('data.csv')

Выведем на экран первые, последние и случайные пять строк таблицы, а также общую информацию. Создадим для этого собственную функцию:

In [3]:
def total_view(df: pd.DataFrame, n_rows=5, seed=None):
    '''Возвращает первые, случайные и последние строки таблицы (по умолчанию по 5 строк)'''
    return display(pd.concat([
                              df.head(n_rows),
                              df.sample(n_rows, random_state=seed),
                              df.tail(n_rows)
                             ]))

total_view(df)
display(df.describe().T)
df.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
21064,0,400655.639661,55,НАЧАЛЬНОЕ,3,женат / замужем,0,F,пенсионер,0,58574.645855,на покупку подержанного автомобиля
7337,0,-1177.70126,24,высшее,0,Не женат / не замужем,4,M,компаньон,0,508851.036785,покупка коммерческой недвижимости
1993,0,-3154.255254,41,среднее,1,женат / замужем,0,M,компаньон,0,431674.440313,покупка жилья для сдачи
16360,0,,47,среднее,1,гражданский брак,1,F,сотрудник,0,,на проведение свадьбы
4242,0,-2918.295327,32,высшее,0,женат / замужем,0,M,сотрудник,0,288560.977885,покупка жилой недвижимости


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
children,21525.0,0.538908,1.381587,-1.0,0.0,0.0,1.0,20.0
days_employed,19351.0,63046.497661,140827.311974,-18388.949901,-2747.423625,-1203.369529,-291.095954,401755.4
dob_years,21525.0,43.29338,12.574584,0.0,33.0,42.0,53.0,75.0
education_id,21525.0,0.817236,0.548138,0.0,1.0,1.0,1.0,4.0
family_status_id,21525.0,0.972544,1.420324,0.0,0.0,0.0,1.0,4.0
debt,21525.0,0.080883,0.272661,0.0,0.0,0.0,0.0,1.0
total_income,19351.0,167422.302208,102971.566448,20667.263793,103053.152913,145017.937533,203435.067663,2265604.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В датасете 12 колонок и 21525 строк. Тип данных в столбцах — `object`, `int64` и `float64`.

Согласно документации к данным:
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;  
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

Названия колонок записаны в змеином регистре, без пробелов. Из названий понятно какие данные хранятся в столбцах, за исключением `income_type`, что переводится как 'тип дохода', а не 'тип занятости', а также `total_income` - общий доход, а не ежемесячный. Исходя из документации, подходящими названиями для этих столбцов будут `employment_type` и `month_income`.

Количество значений в столбцах `days_employed` и `total_income` равны между собой и меньше количества строк в таблице. Значит, в данных есть пропущенные значения и, возможно, они взаимосвязаны.

В столбце `children` обнаружены артефакты -1 и 20, `days_employed` встречаются данные с отрицательными и слишком большими значениями, в `dob_years` встречаются нулевые значения, в `education` - с разным регистом, у значений в `days_employed` и `total_income` слишком много знаков после плавающей точки, а в `purpose` использованы слова, имеющие общий корень или основу, но в разных формах.

**Выводы**

В каждой строке таблицы — данные о клиенте банка. Колонки описывают личные данные клиентов - количество детей, трудовой стаж, возраст, образование, семейное положение, пол, тип занятости, кредитную историю, ежемесячный доход, а также цель получения кредита.

Предварительно можно утверждать, что, данных для проверки гипотез достаточно. Но прежде чем приступать к проверке, необходимо устранить следующие проблемы в данных:
* Переименовать колонки `income_type` и `total_income`;
* Заменить вещественный тип данных на целочисленный;
* Привести строки к нижнему регистру;
* Лемматизировать строки в столбце `purpose`;
* Проверить уникальные значения в столбцах с категориальными данными, а также найти и обработать 'артефакты' - значения, не отражающие действительность;
* Устранить пропуски и дубликаты.

## Предобработка данных<a id='preprocessing'></a>

### Стиль заголовков<a id='headings'></a>
Выведем на экран названия столбцов:

In [4]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Названия столбцов записаны без нарушения стиля, за исключением столбцов `income_type` и `total_income`. Переименуем их в `employment_type` и `month_income` соответственно:

In [5]:
df = df.rename(columns={'income_type':'employment_type', 'total_income':'month_income'})
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'employment_type',
       'debt', 'month_income', 'purpose'],
      dtype='object')

 ### Пропуски в данных<a id='null'></a>

На этапе обзора данных в столбцах `days_employed` и `month_income` обнаружены пропущенные значения, количество пропусков в указанных столбцах одинаковое. Проверим это явление на взаимосвязь:

In [6]:
print(f"Пропуски в 'days_employed': {df['days_employed'].isna().sum()}",
      f"Пропуски в'month_income': {df['month_income'].isna().sum()}",
      f"Пропуски в обоих колонках одновременно: {df[df['days_employed'].isna()]['month_income'].isna().sum()}",
      sep='\n')


Пропуски в 'days_employed': 2174
Пропуски в'month_income': 2174
Пропуски в обоих колонках одновременно: 2174


Количество строчек таблицы, где в столбцах `days_employed` и `total_income` одновременно пропущены значения, совпадает с общим количеством пропусков в каждом из указанных столбцов. Проверим какой тип занятости у клиентов с пропущенными значениями:

In [7]:
df[df['month_income'].isna()]['employment_type'].unique()

array(['пенсионер', 'госслужащий', 'компаньон', 'сотрудник',
       'предприниматель'], dtype=object)

Среди выбранных клиентов нет безработных и студентов. Все полученные виды деятельности предполагают наличие дохода и трудового стажа. Пропуски могли возникнуть в результате ошибки выгрузки данных или клиенты сами решили не указывать эти данные. Заполним пропуски в колонке `month_income` медианными значениями. Медиану будем считать по каждому типу занятости отдельно, чтобы минимизировать искажение данных.

In [8]:
employment_group = df.groupby('employment_type')
df['month_income'] = employment_group['month_income'].apply(lambda x: x.fillna(x.median()))

Проверим что с пропусками в `month_income` теперь и остались ли пропуски в `days_employed`:

In [9]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
employment_type        0
debt                   0
month_income           0
purpose                0
dtype: int64

Пропущенный трудовой стаж заполним нереальными большими значениями, которые потом обработаются вместе с остальными:

In [10]:
df['days_employed'] = df['days_employed'].fillna(99000)

Убедимся, что в таблице не осталось пропусков:

In [11]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
employment_type     0
debt                0
month_income        0
purpose             0
dtype: int64

### Исправление данных<a id='correction'></a>

Перед устранением дубликатов необходимо привести данные в столбцах к общему виду и устранить неявные дубликаты, так как отличия в регистре, ошибки в словах и артефакты повлияют на результат поиска дубликатов. Начнем по порядку с колонки `children`. Здесь содержатся количественные данные, но уникальных значений должно быть не много, поэтому подойдет метод `unique()`:

In [12]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Среди уникальных значений встречаются отрицательное и слишком большое, чтобы быть правдой, числа. Такие ошибки могли возникнуть при выгрузке данных или вследствие опечатки. Сделаем значения положительными и исправим все значения 20 на 2:

In [13]:
df['children'] = df['children'].abs()
df.loc[(df['children'] == 20), 'children'] = 2

Проверим уникальные значения после внесенных изменений:

In [14]:
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

В столбце `days_employed` встречаются отрицательные значения, большая дробная часть и нереальное количество дней трудового стажа по отношению к возрасту клиента. Сделаем значения столбца `days_employed` положительными, заменим тип данных на int и проверим результат, выведя на экран первые 10 значений:

In [15]:
df['days_employed'] = df['days_employed'].abs()
df['days_employed'] = df['days_employed'].astype('int')
df['days_employed'][:10]

0      8437
1      4024
2      5623
3      4124
4    340266
5       926
6      2879
7       152
8      6929
9      2188
Name: days_employed, dtype: int64

Перед тем, как исправить нереальные по размеру значения в столбце `days_employed`, нужно проверить значения в `dob_years`. Так как количество лет ограничено, подойдет метод `unique()`:

In [16]:
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Посчитаем нулевые значения в `dob_years`:

In [17]:
df[df['dob_years'] == 0]['dob_years'].count()

101

Данные могли пропасть при выгрузке, а также клиент мог не указать свой возраст. Рассчитаем медианный возраст:

In [18]:
df[df['dob_years'] != 0]['dob_years'].median()

43.0

Учитывая, что во многих профессиях пенсионный возраст может наступить раньше 30 лет, рассчитанное значение выглядит подходящим для всех имеющихся в столбце `employment_type` категорий. Заменим нулевые значения на медианное и проверим уникальные значения в `dob_years`:

In [19]:
df.loc[(df['dob_years'] == 0), 'dob_years'] = 43
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

Теперь можно изменить нереальные значения из `days_employed`. Заменим значения, которые превышают возраст клиента, уменьшенный на 14 лет (официальное трудоустройство можно оформить с 14 лет) на значения, его не превышающие. Проверим результат, посчитав количество нереальных значений:

In [20]:
df.loc[(df['days_employed']/365) > (df['dob_years'] - 14), 'days_employed'] = (df['dob_years'] - 14)*365
df[(df['days_employed']/365) > (df['dob_years'] - 14)]['days_employed'].count()

0

Посмотрим уникальные значения столбца `education`:

In [21]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Среди уникальных значений встречаются 'высшее', 'среднее', 'неоконченное высшее', 'начальное' и 'ученая степень', написанные с разным регистром. Приведем все значения к нижнему регистру и проверим уникальные значения:

In [22]:
df['education'] = df['education'].str.lower()
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Сравним количество категорий в `education` и `education_id`. Выведем на экран уникальные значения столбца `education_id`:

In [23]:
df['education_id'].unique()

array([0, 1, 2, 3, 4])

Количество категорий совпадает. Проверим не присвоен ли один и тот же номер разным видам образования:

In [24]:
df[['education', 'education_id']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Все верно.

Посмотрим уникальные значения в `family_status` и `family_status_ id`:

In [25]:
print(df['family_status'].unique(),
      df['family_status_id'].unique(),
      sep='\n')

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
[0 1 2 3 4]


Артефактных значений нет, количество категорий совпадает. Можно привести значения в `family_status` к нижнему регистру:

In [26]:
df['family_status'] = df['family_status'].str.lower()

Проверим не присвоен ли один и тот же номер разным семейным статусам:

In [27]:
df[['family_status', 'family_status_id']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


Все верно.

Проверим уникальные значения столбца `gender`:

In [28]:
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Значение 'XNA' ошибочно. Проверим как часто оно встречается в датафрейме и оценим насколько повлияет на результаты анализа, если строчка окажется дубликатом:

In [29]:
xna_count = df[df['gender'] == 'XNA']['gender'].count()
xna_month_income = df[df['gender'] == 'XNA']['month_income'].sum()
month_income_sum = df['month_income'].sum()
print(f'Количество строк с \'XNA\': {xna_count}')
print(f'Процент доходов клиентов с \'XNA\': {xna_month_income/month_income_sum:.2%}')

Количество строк с 'XNA': 1
Процент доходов клиентов с 'XNA': 0.01%


Значение 'XNA' встречается в датафрейме один раз и сумма дохода этого клиента незначительна по отношению к сумме ежемесячного дохода всех клиентов. Заменим его на значение 'M':

In [30]:
df.loc[(df['gender'] == 'XNA'), 'gender'] = 'M'

Проверим уникальные значения столбца `employment_type`:

In [31]:
df['employment_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Необычных значений и повторов не выявлено.

В столбце `debt` должны быть только значения 1 и 0. Проверим с помощью метода `unique()`:

In [32]:
df['debt'].unique()

array([0, 1])

В столбце `month_income`заменим тип данных на int:

In [33]:
df['month_income'] = df['month_income'].astype('int')
df['month_income'][:10]

0    253875
1    112080
2    145885
3    267628
4    158616
5    255763
6    240525
7    135823
8     95856
9    144425
Name: month_income, dtype: int64

In [34]:
df['month_income'].min()

20667

In [35]:
df['month_income'].max()

2265604

Отрицательных значений нет, минимальное значение не вызывает вопросов, максимальное тоже вполне может существовать, если встречается не слишком часто. Рассчитаем долю клиентов с доходом выше 500 тысяч рублей:

In [36]:
high_income_rate = (df[df['month_income'] >= 500000]['month_income'].count()) / 21525
print(f'Процент клиентов с высоким доходом: {high_income_rate:.2%}')

Процент клиентов с высоким доходом: 1.03%


1,03 % не много, оставим эти строки.

Посмотрим уникальные значения столбца `purpose`:

In [37]:
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Среди уникальных значий много неявных дубликатов. Очевидно, что цели формулировали и вводили сами клиенты, отсюда многообразие одинаковых по смыслу но разных по форме словосочетаний. Данные, содержащиеся в столбце нужны для проверки гипотезы о влиянии разных целей кредита на его возврат в срок. Необходимо будет провести категоризацию данных. Для этого выделим леммы, сохраним их в новый список и посчитаем с помощью специального контейнера `Counter()` из модуля `collections`:

In [38]:
text = ' '.join(df['purpose'])
m = Mystem()
lemmas_flat = m.lemmatize(text)
lemmas_flat[:10]

['покупка',
 ' ',
 'жилье',
 ' ',
 'приобретение',
 ' ',
 'автомобиль',
 ' ',
 'покупка',
 ' ']

In [39]:
lemmas_count = Counter(lemmas_flat).most_common()
lemmas_count

[(' ', 55201),
 ('недвижимость', 6367),
 ('покупка', 5912),
 ('жилье', 4473),
 ('автомобиль', 4315),
 ('образование', 4022),
 ('с', 2924),
 ('операция', 2610),
 ('свадьба', 2348),
 ('свой', 2235),
 ('на', 2233),
 ('строительство', 1881),
 ('высокий', 1375),
 ('получение', 1316),
 ('коммерческий', 1315),
 ('для', 1294),
 ('жилой', 1233),
 ('сделка', 944),
 ('дополнительный', 909),
 ('заниматься', 908),
 ('подержать', 858),
 ('проведение', 777),
 ('сыграть', 774),
 ('сдача', 653),
 ('семья', 641),
 ('собственный', 635),
 ('со', 630),
 ('ремонт', 612),
 ('приобретение', 462),
 ('профильный', 436),
 ('подержанный', 110),
 ('\n', 1)]

Самые часто встречающиеся по смыслу цели: недвижимость, жилье, жилой, автомобиль, образование, свадьба, ремонт. Объединим 'недвижимость', 'жилье', 'жилой' и 'ремонт' в категорию 'недвижимость'. Также будут категории 'автомобиль', 'образование', 'свадьба'. 'ремонт' не будем выделять в отдельную категорию, так как количество клиентов с такой целью менее 3%. Остальные леммы по смыслу являются частью словосочетаний с указанными выше. 

Заменим значения в колонке `purpose` на выделенные категории:

In [40]:
def purpose_categories(variants, word):
    """ Функция для перезаписи значений в столбце df['purpose'] на выбранное в соответствии с категорией.
        
    Принимает в качестве аргументов список значений для проверки и значение, которое перезапишется в ячейку, 
    если будет найдено значение из списка для проверки.
    
    """
    for variant in variants:
        for index in range(len(df)):
            if variant in df.loc[index, 'purpose']:
                df.loc[index, 'purpose'] = word

# создание списков значений для проверки
realty = ['недвиж', 'жил']
car = ['автомоб']
education = ['образов']
wedding = ['свадьб']

variants = [realty, car, education, wedding]
words = ['недвижимость', 'автомобиль', 'образование', 'свадьба']

# применение функции
for variant, word in zip(variants, words):
    purpose_categories(variant, word)

Проверим уникальные значения колонке `purpose`:

In [41]:
df['purpose'].unique()

array(['недвижимость', 'автомобиль', 'образование', 'свадьба'],
      dtype=object)

### Дубликаты<a id='duplicates'></a>

Теперь посчитаем явные дубликаты:

In [42]:
df.duplicated().sum()

408

Удалим дубликаты:

In [43]:
df = df.drop_duplicates()
df.duplicated().sum()

0

In [44]:
total_view(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,employment_type,debt,month_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование
4,0,14235,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба
7554,0,16060,58,среднее,1,женат / замужем,0,F,пенсионер,0,76648,недвижимость
5005,2,758,41,среднее,1,не женат / не замужем,4,M,компаньон,0,267083,автомобиль
10679,0,2329,51,среднее,1,женат / замужем,0,F,компаньон,0,176247,недвижимость
4722,0,2147,44,среднее,1,в разводе,3,M,компаньон,0,388633,недвижимость
20537,0,14600,54,высшее,0,не женат / не замужем,4,F,пенсионер,0,437510,недвижимость


**Выводы**

Предобработка обнаружила следующие проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- разный регистр в строках,
- вещественный тип данных с большим количеством знаков после плавающей точки,
- артефакты (нереальные значения),
- дубликаты — явные (были удалены вместе с пропущенными значениями) и неявные.

На данном этапе были исправлены заголовки, проанализированы и удалены пропуски, строки приведены к нижнему регистру, вещественный тип данных изменен на целочисленный, найдены и исправлены артефакты, проведена лемматизация и категоризация колонки `purpose`.

## Проверка гипотез<a id='hypotheses'></a>

### Зависимость кредитоспособности заёмщика от наличия у него детей<a id='children'></a>

Оценим количество клиентов с разным количеством детей:

In [45]:
df['children'].value_counts()

0    13827
1     4797
2     2115
3      329
4       40
5        9
Name: children, dtype: int64

Количество клиентов с тремя, четырьми и пятью детьми незначительное. Объединим их в одну категорию вместе с клиентами с двумя детьми. Сформируем категории:
* 'бездетные' - клиенты, у которых нет детей;
* 'один ребенок' - клиенты, у которых один ребенок;
* 'два и более детей' - клиенты, у которых больше одного ребенка.

In [46]:
def children_category(child):
    ''' Возвращает название категории по значению количества детей child, используя правила:
    
    'бездетные', если child = 0;
    'один ребенок', если child = 1;
    'два и более детей' во всех остальных случаях.
    
    '''
    if child == 0:
        return 'бездетные'
    if child == 1:
        return 'один ребенок'
    return 'два и более детей'

Запишем результат работы функции в колонку `children_categories`:

In [47]:
df['children_categories'] = df['children'].apply(children_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,employment_type,debt,month_income,purpose,children_categories
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,один ребенок
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,один ребенок
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,бездетные
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,два и более детей
4,0,14235,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,бездетные


Присвоим категории клиентам в зависимости от имевшихся просроченных обязательств по возврату кредитов. Здесь всего две категории:
* 'debt' - если клиент имел задолженность по возврату кредитов;
* 'no_debt' - если клиент не имел задолженность по возврату кредитов.

In [48]:
def debt_category(debt):
    ''' Возвращает название категории по значению просроченных задолженностей debt, используя правила:
    
    'debt', если debt = 1;
    'no_debt' в остальных случаях.
    
    '''
    if debt == 1:
        return 'debt'
    return 'no_debt'

Запишем результат работы функции в колонку `debt_categories`:

In [49]:
df['debt_categories'] = df['debt'].apply(debt_category)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,employment_type,debt,month_income,purpose,children_categories,debt_categories
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,один ребенок,no_debt
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,один ребенок,no_debt
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,бездетные,no_debt
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,два и более детей,no_debt
4,0,14235,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,бездетные,no_debt


Создадим сводную таблицу с количеством клиентов по категориям в зависимости от наличия у клиентов детей и имевшихся просроченных обязательств по кредитам:

In [50]:
df_pivot_children = df.pivot_table(index='children_categories',
                                   columns='debt_categories', 
                                   values='debt',
                                   aggfunc='count')
df_pivot_children

debt_categories,debt,no_debt
children_categories,Unnamed: 1_level_1,Unnamed: 2_level_1
бездетные,1061,12766
два и более детей,233,2260
один ребенок,445,4352


Добавим в сводную таблицу столбец `children_categories_total` с суммой всех клиентов в разрезе категорий по наличию детей:

In [51]:
df_pivot_children['children_categories_total'] = df_pivot_children['debt'] + df_pivot_children['no_debt']
df_pivot_children

debt_categories,debt,no_debt,children_categories_total
children_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
бездетные,1061,12766,13827
два и более детей,233,2260,2493
один ребенок,445,4352,4797


Найдем процент клиентов с имевшейся задолженностью по возврату кредитов в каждой категории по наличию детей и запишем результат в колонку `debt_children_categories_share`:

In [52]:
df_pivot_children['debt_children_categories_share'] = (df_pivot_children['debt'] / 
                                                       df_pivot_children['children_categories_total']) * 100
df_pivot_children

debt_categories,debt,no_debt,children_categories_total,debt_children_categories_share
children_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
бездетные,1061,12766,13827,7.673393
два и более детей,233,2260,2493,9.346169
один ребенок,445,4352,4797,9.276631


**Выводы**

Среди бездетных заемщиков процент допускающих просрочки по кредитам ниже остальных категорий и составляет 7,67 %. Заемщики в категориях с одним ребенком и с двумя и более детьми не возвращают кредиты в срок чаще, в 9,28% и 9,35% случаев соответсвенно.

В целом просроченную задолженность имеет менее 10% клиентов из выборки. А наличие ребенка в семье увеличивает риск невозврата кредита в срок примерно на 1,6%.

### Зависимость кредитоспособности заёмщика от его семейного положения<a id='family'></a>

Посчитаем количество клиентов в категориях с разным семейным статусом:

In [53]:
df['family_status'].value_counts()

женат / замужем          12074
гражданский брак          4123
не женат / не замужем     2784
в разводе                 1193
вдовец / вдова             943
Name: family_status, dtype: int64

Вдовцов и разведенных в выборке гораздо меньше, чем женатых. Для банка было бы информативнее объединить клиентов по семейному статусу исходя из норм закона, устаналивающих вид собственности - совместная у официально зарегистрировавших брак, долевая у всех остальных. Таким образом в категорию 'женатые' войдут клиенты, указавшие семейный статус 'женат / замужем', а в 'холостые' все остальные. Создадим функцию:

In [54]:
def family_categories(number):
    '''Возвращает название категории по номеру из 'family_status_id', используя правила:
    
    'женатые', если number = 0;
    'холостые' в остальных случаях.
    
    '''
    if number == 0:
        return 'женатые'
    return 'холостые'

Запишем результат работы функции в новый столбец `family_categories`:

In [55]:
df['family_categories'] = df['family_status_id'].apply(family_categories)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,employment_type,debt,month_income,purpose,children_categories,debt_categories,family_categories
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,один ребенок,no_debt,женатые
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,один ребенок,no_debt,женатые
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,бездетные,no_debt,женатые
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,два и более детей,no_debt,женатые
4,0,14235,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,бездетные,no_debt,холостые


Создадим сводную таблицу с количеством клиентов по категориям в зависимости от семейного положения и имевшихся у них просроченных обязательств по кредитам: 

In [56]:
df_pivot_family = df.pivot_table(index='family_categories',
                                 columns='debt_categories', 
                                 values='debt',
                                 aggfunc='count')
df_pivot_family

debt_categories,debt,no_debt
family_categories,Unnamed: 1_level_1,Unnamed: 2_level_1
женатые,929,11145
холостые,810,8233


Добавим в сводную таблицу колонку `family_categories_total` с суммой всех клиентов в разрезе категорий по семейному положению: 

In [57]:
df_pivot_family['family_categories_total'] = df_pivot_family['debt'] + df_pivot_family['no_debt']
df_pivot_family

debt_categories,debt,no_debt,family_categories_total
family_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
женатые,929,11145,12074
холостые,810,8233,9043


Найдем процент клиентов с имевшейся задолженностью по возврату кредитов в каждой категории и запишем в колонку `debt_family_categories_share`:

In [58]:
df_pivot_family['debt_family_categories_share'] = (df_pivot_family['debt'] / 
                                                   df_pivot_family['family_categories_total']) * 100
df_pivot_family

debt_categories,debt,no_debt,family_categories_total,debt_family_categories_share
family_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
женатые,929,11145,12074,7.694219
холостые,810,8233,9043,8.957204


**Выводы**

Женатые клиенты допускают просрочку в 7,69% случаев, а холостяки в 8,96%. 

В целом просроченную задолженность имеет менее 9% клиентов из выборки. Риск возникновения просроченной задолженности у холостяков выше на 1,27%.

### Зависимость кредитоспособности заёмщика от его уровня дохода<a id='income'></a>

Существует много мнений и способов деления населения на классы по уровню дохода. Воспользуемся научно обоснованным, с учетом мирового опыта, определением Всероссийского центра уровня жизни с использованием прожиточного минимума (далее - ПМ): 
* 'нищие' - доход до 1 ПМ;
* 'бедные' - доход от 1 до 3 ПМ;
* 'выше бедности' - доход от 3 до 7 ПМ;
* 'средний класс' - доход от 7 до 11 ПМ;
* 'богатые' - доход более 11 ПМ.

ПМ в России в 2021 году значительно отличается от принятого в Москве (11 653 руб. и 18 029 руб. соответственно). Чтобы определиться какое значение ПМ выбрать, проанализируем имеющиеся данные. Минимальное (20 667) и максимальное (2 265 604) значения мы проверили на этапе предобработки, категория 'нищие' не попадает в выборку при любом ПМ. Найдем медианное и среднее арифметическое значения:

In [59]:
df['month_income'].median()

142594.0

In [60]:
int(df['month_income'].mean())

165724

По данным Росстата в Москве средняя зарплата в 2021 году составляет 67 000 руб., а медианная 55 000 руб., а в среднем по России еще меньше. И медианный и средний уровень дохода в выборке выше, чем по Москве. Примем за основу московский прожиточный минимум и создадим функцию:

In [61]:
living_wage = 18029

def income_categories(income):
    '''Возвращает название категории в зависимости от уровня дохода в 'month_income', используя правила:
    
    'бедные', если income < living_wage * 3;
    'выше бедности', если living_wage * 3 <= income < living_wage * 7;
    'средний класс',если living_wage * 7 <= income < living_wage * 11;
    'богатые' во всех остальных случаях.
    
    '''
    if income < (living_wage * 3):
        return 'бедные'
    if (living_wage * 3) <= income < (living_wage * 7):
        return 'выше бедности'
    if (living_wage * 7) <= income < (living_wage * 11):
        return 'средний класс'
    return 'богатые'

Запишем результат работы функции в новый столбец `income_categories`:

In [62]:
df['income_categories'] = df['month_income'].apply(income_categories)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,employment_type,debt,month_income,purpose,children_categories,debt_categories,family_categories,income_categories
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,один ребенок,no_debt,женатые,богатые
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,один ребенок,no_debt,женатые,выше бедности
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,бездетные,no_debt,женатые,средний класс
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,два и более детей,no_debt,женатые,богатые
4,0,14235,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,бездетные,no_debt,холостые,средний класс


Создадим сводную таблицу с количеством клиентов по категориям в зависимости от уровня дохода и имевшихся у них просроченных обязательств по кредитам:

In [63]:
df_pivot_income = df.pivot_table(index='income_categories',
                                 columns='debt_categories', 
                                 values='debt',
                                 aggfunc='count')
df_pivot_income

debt_categories,debt,no_debt
income_categories,Unnamed: 1_level_1,Unnamed: 2_level_1
бедные,34,496
богатые,365,4812
выше бедности,622,6632
средний класс,718,7438


Добавим в сводную таблицу колонку `income_categories_total` с суммой всех клиентов в разрезе категорий по уровню дохода:

In [64]:
df_pivot_income['income_categories_total'] = df_pivot_income['debt'] + df_pivot_income['no_debt']
df_pivot_income

debt_categories,debt,no_debt,income_categories_total
income_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
бедные,34,496,530
богатые,365,4812,5177
выше бедности,622,6632,7254
средний класс,718,7438,8156


Найдем процент клиентов с имевшейся задолженностью по возврату кредитов в каждой категории и запишем результат в колонку `debt_income_categories_share`:

In [65]:
df_pivot_income['debt_income_categories_share'] = (df_pivot_income['debt'] / 
                                                   df_pivot_income['income_categories_total']) * 100
df_pivot_income

debt_categories,debt,no_debt,income_categories_total,debt_income_categories_share
income_categories,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
бедные,34,496,530,6.415094
богатые,365,4812,5177,7.050415
выше бедности,622,6632,7254,8.57458
средний класс,718,7438,8156,8.803335


**Выводы**

Реже всех совершают просрочки по кредитам клиенты из категории 'бедные', среди них 6,42% нарушителей. Риск возникновения просроченной задолженности у клиентов, относящихся к категориям 'средний класс' и 'выше бедности', самый высокий - 8,80% и 8,57% соответственно. 'Богатые' клиенты не возвращают кредиты в срок в 7,05% случаев.

### Зависимость кредитоспособности заёмщика от целей кредита<a id='purposes'></a>

Цели кредитов были категоризированы на этапе предобработки: 'недвижимость', 'автомобиль', 'образование' и 'свадьба'. Создадим сводную таблицу с количеством клиентов по категориям в зависимости от целей кредита и имевшихся у них просроченных обязательств:

In [66]:
df_pivot_purpose = df.pivot_table(index='purpose',
                                  columns='debt_categories', 
                                  values='debt',
                                  aggfunc='count')
df_pivot_purpose

debt_categories,debt,no_debt
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,402,3870
недвижимость,781,9794
образование,370,3594
свадьба,186,2120


Добавим в сводную таблицу колонку `purpose_categories_total` с суммой всех клиентов в разрезе категорий по целям кредита:

In [67]:
df_pivot_purpose['purpose_categories_total'] = df_pivot_purpose['debt'] + df_pivot_purpose['no_debt']
df_pivot_purpose

debt_categories,debt,no_debt,purpose_categories_total
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,402,3870,4272
недвижимость,781,9794,10575
образование,370,3594,3964
свадьба,186,2120,2306


Найдем процент клиентов с имевшейся задолженностью по возврату кредитов в каждой категории и запишем результат в колонку `debt_purpose_categories_share`:

In [68]:
df_pivot_purpose['debt_purpose_categories_share'] = (df_pivot_purpose['debt'] / 
                                                     df_pivot_purpose['purpose_categories_total']) * 100
df_pivot_purpose

debt_categories,debt,no_debt,purpose_categories_total,debt_purpose_categories_share
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,402,3870,4272,9.410112
недвижимость,781,9794,10575,7.385343
образование,370,3594,3964,9.334006
свадьба,186,2120,2306,8.065915


**Выводы**

Задержка по возврату кредитов на автомобиль и образование происходит чаще - в 9,41% и 9,33% случаев соответственно. Риск возникновения просрочек по кредитам на операции с недвижимостью и на свадьбу ниже и составляет 7,39% и 8,07% соответственно.

## Итоги исследования<a id='conclusion'></a>

В ходе исследования были проверены четыре гипотезы и установлено:

1. Наличие ребенка в семье влияет на кредитоспособность клиента. Клиенты с детьми допускают просроченную заложенность чаще, чем бездетные. Так, клиенты с одним ребенком и с двумя и более детьми не возвращают кредиты в срок в 9,28% и 9,35% случаев соответсвенно, а бездетные в 7,67% случаев.

Первая гипотеза полностью подтвердилась.

2. Семейное положение влияет на кредитоспособность клиента. Холостые клиенты допускают просроченную задолженность чаще - в 8,96% случаев, а женатые в 7,69% случаев.

Вторая гипотеза полностью подтвердилась.

3. Уровень дохода клиента влияет на возврат кредита в срок. Чаще всего допускают просроченную задолженность клиенты из категорий 'средний класс' (8,80%) и 'выше бедности' (8,57%), реже всего - 'бедные' (6,42%).

Третья гипотеза полностью подтвердилась.

4. Цель кредита влияет на его возврат в срок. Кредиты на автомобиль и образование возвращают в срок реже, чем кредиты на свадьбу и по операциям с недвижимостью. Так, задержка по возврату кредитов на автомобиль и образование происходит в 9,41% и 9,33% случаев соответственно, а по кредитам на операции с недвижимостью и на свадьбу - в 7,39% и 8,07%.

Четвертая гипотеза полностью подтвердилась.