## 1 Введение

## 1.1 Постановка задачи
**Заказчик** -- кредитный отдел банка  
  
**Задача** -- разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок, а также ответить на вопросы:
- есть ли зависимость между наличием детей и возвратом кредита в срок;
- есть ли зависимость между семейным положением и возвратом кредита в срок;
- есть ли зависимость между уровнем дохода и возвратом кредита в срок;
- как разные цели кредита влияют на его возврат в срок.

## 1.2 Исходные данные

### 1.2.1 Общее описание
Переданные данные от Заказчика -- статистика о платёжеспособности клиентов  
  
Результаты исследования будут учтены при построении модели *кредитного скоринга*, которая будет оценивать способность потенциального заёмщика вернуть кредит банку

### 1.2.2 Переданные файлы
- data.csv  

### 1.2.3 Описание данных
- *children* — количество детей в семье;
- *days_employed* — общий трудовой стаж в днях;
- *dob_years* — возраст клиента в годах;
- *education* — уровень образования клиента;
- *education_id* — идентификатор уровня образования;
- *family_status* — семейное положение;
- *family_status_id* — идентификатор семейного положения;
- *gender* — пол клиента;
- *income_type* — тип занятости;
- *debt* — имел ли задолженность по возврату кредитов;
- *total_income* — ежемесячный доход;
- *purpose* — цель получения кредита.

## 1.3 План обработки и анализа данных

### 1.3.1 Предобработка данных
- обзор данных;
- корректировка имён столбцов (при необходимости);
- обнаружение и удаление пропусков:
 - выявить пропуски;
 - проанализировать причины их появления;
 - заполнить пропуски (приняв решение по алгоритму заполнения), либо удалить их;
- преобразование типов данных столбцов (при необходимости);
- поиск и исправление ошибок (аномальных значений) в данных;
- удаление дубликатов строк.

### 1.3.2 Лемматизация

### 1.3.3 Категорирование

### 1.3.4 Ответы на вопросы

### 1.3.5 Вывод

## 1.4 Пользовательские функции

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from pymystem3 import Mystem

from IPython.core.display import HTML

pd.options.display.float_format = '{:.2f}'.format
pd.options.display.max_rows = 10
#pd.options.display.max_columns = 50
pd.options.mode.chained_assignment = None

In [2]:
def set_cat(row):
    '''
    Функция замены значения цели кредита на категорию цели
    '''
    key = row['purpose']
    return cats_dict[key]

In [3]:
def analisys(feald):
    pt = clients.pivot_table(index=feald, values='debt', aggfunc=['sum', 'count'])
    pt.columns = ['debt', 'count']
    pt['percent'] = pt['debt'] / pt['count'] * 100
    print(pt)

# 2 Основная часть

## 2.1 Предобработка данных

In [4]:
import pandas as pd

In [5]:
clients = pd.read_csv('data.csv')

In [6]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        21525 non-null  int64  
 1   children          21525 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         21525 non-null  int64  
 4   education         21525 non-null  object 
 5   education_id      21525 non-null  int64  
 6   family_status     21525 non-null  object 
 7   family_status_id  21525 non-null  int64  
 8   gender            21525 non-null  object 
 9   income_type       21525 non-null  object 
 10  debt              21525 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           21525 non-null  object 
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


In [7]:
clients.head(10)

Unnamed: 0.1,Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,2,0,-5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,4,0,340266.07,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
5,5,0,-926.19,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья
6,6,0,-2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем
7,7,0,-152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование
8,8,2,-6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы
9,9,0,-2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи


По итогам первого, общего взгляда на данные, можно сделать следующие выводы:
- Набор данных состоит из 12 столбцов и 21525 строк.
- Имена столбцов читабельны, за исключением столбца *dob_years* -- название не соответствувет данным, хранящимся в нём; столбец неоходимо переименовать в *age*.
- Данные в столбцах *days_employed* и *total_income* имеют пропуски. Тип данных float64 для данных столбцов необходимо заменить на int64.

Объем пропусков невелик -- 10,1%, однако существеннен, чтобы их не удалять, а заполнить некоторыми представительными данными. Появление данных пропусков вероятнее всего вызвано следующими причинами:
- человеческим фактором -- не все данные были внесены, либо внесены ошибочные данные, которые система сбора статистики не приняла;
- локальными техническими сбоями -- обрывы связи, некорректные обработки ошибок ввода и т.д.

**Корректировка имён столбцов**

In [8]:
clients.rename(columns={'dob_years':'age'}, inplace=True)
clients.columns

Index(['Unnamed: 0', 'children', 'days_employed', 'age', 'education',
       'education_id', 'family_status', 'family_status_id', 'gender',
       'income_type', 'debt', 'total_income', 'purpose'],
      dtype='object')

**Обнаружение и удаление пропусков**

Ранее было выявлено, что пропуски имеются в столбцах *days_employed* и *total_income*. Удалять строки с пропусками не корректно, потому что пропуски могли возникнуть ошибочно (например, в случае ошибочного ввода трудового стажа), либо, как элемент данных (например, при указании дохода неработающих пенсионеров). Поэтому пропуски будут заменены на медианные значения соответствующих групп клиентов (по категориям столбца *income_type*).

In [9]:
clients.isnull().sum()

Unnamed: 0          0
children            0
days_employed    2174
age                 0
education           0
                 ... 
gender              0
income_type         0
debt                0
total_income     2174
purpose             0
Length: 13, dtype: int64

In [10]:
# Заполнение пропусков значениями медиан по группам
income_types = clients['income_type'].unique()

for i in income_types:
    median = int(clients.loc[(clients['income_type'] == i) & (~clients['days_employed'].isnull()), 'days_employed'].median())
    clients.loc[(clients['income_type'] == i) & (clients['days_employed'].isnull()), 'days_employed'] = median
    
    median = int(clients.loc[(clients['income_type'] == i) & (~clients['total_income'].isnull()), 'total_income'].median())
    clients.loc[(clients['income_type'] == i) & (clients['total_income'].isnull()), 'total_income'] = median

In [11]:
clients.isnull().sum()

Unnamed: 0       0
children         0
days_employed    0
age              0
education        0
                ..
gender           0
income_type      0
debt             0
total_income     0
purpose          0
Length: 13, dtype: int64

**Преобразование типов данных столбцов**

Тип данных столбцов **days_employed** и **total_income** неободимо заменить на int64.

In [12]:
clients['days_employed'] = clients['days_employed'].astype(int)
clients['days_employed']

0         -8437
1         -4024
2         -5623
3         -4124
4        340266
          ...  
21520     -4529
21521    343937
21522     -2113
21523     -3112
21524     -1984
Name: days_employed, Length: 21525, dtype: int32

In [13]:
clients['total_income'] = clients['total_income'].astype(int)
clients['total_income']

0        253875
1        112080
2        145885
3        267628
4        158616
          ...  
21520    224791
21521    155999
21522     89672
21523    244093
21524     82047
Name: total_income, Length: 21525, dtype: int32

**Удаление полных дубликатов строк**

Перед тем, как устранять явные дубликаты данных, проанализируем значения, хранящиеся в наборе данных, устраним или преобразуем аномальные значения.

###### Столбец <u>children</u>

In [14]:
print(clients['children'].unique())

[ 1  0  3  2 -1  4 20  5]


In [15]:
# Количество аномальных значений (-1 и 20)
print('-1: {:.2%}'.format(clients.loc[clients['children'] == -1, 'children'].count() / clients.shape[0]))
print('20: {:.2%}'.format(clients.loc[clients['children'] == 20, 'children'].count() / clients.shape[0]))

-1: 0.22%
20: 0.35%


Поскольку удельный вес аномальных значений невелик, заменим их на медианное значение по столбцу без учёта данных аномалий.

In [16]:
median = int(clients.loc[(clients['children'] != -1) & (clients['children'] != 20), 'children'].median())
clients.loc[(clients['children'] == -1) | (clients['children'] == 20), 'children'] = median

In [17]:
clients['children'].value_counts()

0    14272
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

###### Столбец <u>days_employed</u>

In [18]:
print(clients.sort_values(by='days_employed')['days_employed'].min())
print(clients.sort_values(by='days_employed')['days_employed'].max())

-18388
401755


Диапазон значений данного столбца наталкивает на мысль, что единицей измерения данных столбца являются часы, а не дни. Исходя из этого предположения _левая_ граница диапазона соответствует стажу ~9 лет (из расчета 1971 рабочий час в невисокосном году). Отрицательные значения могли появиться как формат хранения данных хранилища, из которого они были извлечены. Преобразуем их в беззнаковые величины.  
_Правая_ граница диапазона соответствует стажу ~203 года. Это явно аномальное значение. Примем максимальный нормальный трудовой стаж размером 47 лет (для мужчин, работавших от 18 до 65 лет), что равно 92733 рабочих часа (47 лет по 1971 часу и 12 дней в високосных годах). Все значения правого диапазона больше этого значения заменим на него

In [19]:
# Количество аномальных значений слева
print('{:.2%}'.format(clients.loc[clients['days_employed'] < 0, 'days_employed'].count() / clients.shape[0]))

82.08%


In [20]:
clients.loc[clients['days_employed'] < 0, 'days_employed'] = - clients['days_employed']
print('{:.2%}'.format(clients.loc[clients['days_employed'] < 0, 'days_employed'].count() / clients.shape[0]))

0.00%


In [21]:
# Количество аномальных значений справа
print('{:.2%}'.format(clients.loc[clients['days_employed'] > 92733, 'days_employed'].count() / clients.shape[0]))

17.92%


In [22]:
clients.loc[clients['days_employed'] > 92733, 'days_employed'] = 92733
print('{:.2%}'.format(clients.loc[clients['days_employed'] > 92733, 'days_employed'].count() / clients.shape[0]))

0.00%


###### Столбец <u>age</u>

In [23]:
print(clients['age'].unique())

[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]


In [24]:
# Количество аномальных значений (возраст равный 0)
print('{:.2%}'.format(clients.loc[clients['age'] == 0, 'age'].count() / clients.shape[0]))

0.47%


Удельный вес нулевого значения невелик, поэтому заменим его на медианное значение по столбцу без учёта нулевого значения.

In [25]:
median = int(clients.loc[clients['age'] != 0, 'age'].median())
clients.loc[clients['age'] == 0, 'age'] = median
clients.loc[clients['age'] == 0, 'age'].count()

0

###### Столбец <u>education</u>

In [26]:
print(clients['education'].unique())

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


In [27]:
# Преобразование значений столбца к нижнему регистру
clients['education'] = clients['education'].str.lower()
print(clients['education'].unique())

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


###### Столбец <u>education_id</u>

In [28]:
print(clients['education_id'].unique())

[0 1 2 3 4]


Предобработки не требует

###### Столбец <u>family_status</u>

In [29]:
print(clients['family_status'].unique())

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']


Предобработки не требует

###### Столбец <u>family_status_id</u>

In [30]:
print(clients['family_status_id'].unique())

[0 1 2 3 4]


Предобработки не требует

###### Столбец <u>gender</u>

In [31]:
clients['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [32]:
print(clients['gender'].value_counts() / clients.shape[0] * 100)

F     66.14
M     33.86
XNA    0.00
Name: gender, dtype: float64


Две трети заемщиков исследуемого набора данных -- женщины. Поэтому высока вероятность того, что заемщик с гендером 'XNA' -- женщина

In [33]:
clients.loc[clients['gender'] == 'XNA', 'gender'] = 'F'
clients['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

###### Столбец <u>income_type</u>

In [34]:
print(clients['income_type'].unique())

['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']


Предобработки не требует

###### Столбец <u>debt</u>

In [35]:
print(clients['debt'].unique())

[0 1]


Предобработки не требует

###### Столбец <u>total_income</u>

In [36]:
print(clients['total_income'].min())
print(clients['total_income'].max())

20667
2265604


Предобработки не требует.

###### Столбец <u>purpose</u>

In [37]:
print(clients['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


Данные столбца предобработаны -- аномальные значения отсутствуют, значения приведены к нижнему регистру. Вероятнее всего данные столбца вводились заемщиками самостоятельно, при этом многие значения симантически схожи, поэтому требуют дополнительного анализа и обработки

###### Удаление дубликатов

In [38]:
clients.duplicated().sum()

0

In [39]:
clients = clients.drop_duplicates().reset_index(drop=True)
clients.duplicated().sum()

0

***Промежуточный итог***

Количество пропусков в столбцах *days_employed* и *total_income* составило 10,1% от общего числа записей. Данные пропуски удалены не были, поскольку это могло исказить данные. Поэтому пропуски были заменены на медианные значения соответствующих групп клиентов.
  
Было выполнено преобразование типа данных для столбцов *days_employed* и *total_income*.  
  
Были удалены либо заменены аномальные значения в данных, устранены инструментами **pandas** полные дупликаты данных, которые могли возникнуть при их выгрузке из источника данных.

## 2.2 Лемматизация

In [40]:
m = Mystem()

str_dump = clients['purpose'].unique()

# Лемматизация каждой из целей
lemms_dump = []

for i in str_dump:
    lemms_dump.append(m.lemmatize(i))

# Удаление из списков лемм:
# - пробелов;
# - символов перевода строки;
# - символов 'на', 'с', 'со'
lemms = []

for i in lemms_dump:
    l = []
    for j in i:
        if (j != ' ') & (j != '\n') & (j != 'на') & (j != 'с') & (j != 'со'):
            l.append(j)
    lemms.append(l)
    
lemms

[['покупка', 'жилье'],
 ['приобретение', 'автомобиль'],
 ['дополнительный', 'образование'],
 ['сыграть', 'свадьба'],
 ['операция', 'жилье'],
 ['образование'],
 ['проведение', 'свадьба'],
 ['покупка', 'жилье', 'для', 'семья'],
 ['покупка', 'недвижимость'],
 ['покупка', 'коммерческий', 'недвижимость'],
 ['покупка', 'жилой', 'недвижимость'],
 ['строительство', 'собственный', 'недвижимость'],
 ['недвижимость'],
 ['строительство', 'недвижимость'],
 ['покупка', 'подержать', 'автомобиль'],
 ['покупка', 'свой', 'автомобиль'],
 ['операция', 'коммерческий', 'недвижимость'],
 ['строительство', 'жилой', 'недвижимость'],
 ['жилье'],
 ['операция', 'свой', 'недвижимость'],
 ['автомобиль'],
 ['заниматься', 'образование'],
 ['сделка', 'подержанный', 'автомобиль'],
 ['получение', 'образование'],
 ['автомобиль'],
 ['свадьба'],
 ['получение', 'дополнительный', 'образование'],
 ['покупка', 'свой', 'жилье'],
 ['операция', 'недвижимость'],
 ['получение', 'высокий', 'образование'],
 ['свой', 'автомобиль'],
 [

In [41]:
# Выделение основных лемм
s = []

for i in lemms:
    for j in i:
        s.append(j)
        
s = pd.Series(s)
s.value_counts() / s.shape[0] * 100

недвижимость   11.49
покупка        11.49
образование    10.34
автомобиль     10.34
жилье           8.05
                ... 
семья           1.15
ремонт          1.15
собственный     1.15
подержанный     1.15
подержать       1.15
Length: 27, dtype: float64

***Промежуточный итог***

Значения столбца *purpose* лемматизированы и могут быть категорированы.  
Учитывая частоту повторов, можно выделить следующие основные леммы:
- покупка;
- недвижимость;
- автомобиль;
- образование;
- жилье.

Сумма повторов пяти перечисленных лемм равна 50%.  
Также к основным можно отнести леммы **_строительство_** , **_свадьба_** и **_ремонт_** имеющие низкий процент повторов, но в общем объеме лемм являющихся симантически уникальными

## 2.3 Категорирование данных

### 2.3.1 Категорирование целей получения кредита
По результатам анализа лемм целей получения кредита можно выделить следующие категории целей:
 - покупка жилой недвижимости; 
 - покупка коммерческой недвижимости;
 - покупка автомобиля;
 - строительство жилой недижимости
 - образование;
 - свадьба;
 - ремонт.  
 
 
 При этом:
  - если не указан тип недвижимости считается, что она жилая;
  - категория автомобиля (новый, подержанный, личный, коммерческий) значения не имеет;
  - если явно не указано, тип сделки -- покупка (кредит для продажи взять нельзя);
  - категория образования (профильное, дополнительное, высшее) значения не имеет;
  - строительство недвижимости и покупка недвижимости -- разные цели для получения кредита.

In [42]:
#'покупка жилой недвижимости'
#'покупка коммерческой недвижимости'
#'покупка автомобиля'
#'строительство жилой недижимости'
#'образование'
#'свадьба'
#'ремонт'

str_cats = [
    'покупка жилой недвижимости', #['покупка', 'жилье']
    'покупка автомобиля', #['приобретение', 'автомобиль'],
    'образование', #['дополнительный', 'образование'],
    'свадьба', #['сыграть', 'свадьба'],
    'покупка жилой недвижимости', #['операция', 'жилье'],
    'образование', #['образование'],
    'свадьба', #['проведение', 'свадьба'],
    'покупка жилой недвижимости', #['покупка', 'жилье', 'для', 'семья'],
    'покупка жилой недвижимости', #['покупка', 'недвижимость'],
    'покупка коммерческой недвижимости', #['покупка', 'коммерческий', 'недвижимость'],
    'покупка жилой недвижимости', #['покупка', 'жилой', 'недвижимость'],
    'строительство жилой недижимости', #['строительство', 'собственный', 'недвижимость'],
    'покупка жилой недвижимости', #['недвижимость'],
    'строительство жилой недижимости', #['строительство', 'недвижимость'],
    'покупка автомобиля', #['покупка', 'подержать', 'автомобиль'],
    'покупка автомобиля', #['покупка', 'свой', 'автомобиль'],
    'покупка коммерческой недвижимости', #['операция', 'коммерческий', 'недвижимость'],
    'строительство жилой недижимости', #['строительство', 'жилой', 'недвижимость'],
    'покупка жилой недвижимости', #['жилье'],
    'покупка жилой недвижимости', #['операция', 'свой', 'недвижимость'],
    'покупка автомобиля', #['автомобиль'],
    'образование', #['заниматься', 'образование'],
    'покупка автомобиля', #['сделка', 'подержанный', 'автомобиль'],
    'образование', #['получение', 'образование'],
    'покупка автомобиля', #['автомобиль'],
    'свадьба', #['свадьба'],
    'образование', #['получение', 'дополнительный', 'образование'],
    'покупка жилой недвижимости', #['покупка', 'свой', 'жилье'],
    'покупка жилой недвижимости', #['операция', 'недвижимость'],
    'образование', #['получение', 'высокий', 'образование'],
    'покупка автомобиля', #['свой', 'автомобиль'],
    'покупка автомобиля', #['сделка', 'автомобиль'],
    'образование', #['профильный', 'образование'],
    'образование', #['высокий', 'образование'],
    'покупка коммерческой недвижимости', #['покупка', 'жилье', 'для', 'сдача'],
    'покупка автомобиля', #['покупка', 'автомобиль'],
    'ремонт', #['ремонт', 'жилье'],
    'образование'#['заниматься', 'высокий', 'образование']
]

# объединение в одном списке цели получения с соответствующим значением категории цели
cats_dump = []

for i in range(len(str_dump)):
    cats_dump.append([str_dump[i], str_cats[i]])

cats_dict = dict(cats_dump)

In [43]:
# Замена значений цели кредита на категории целей
clients['purpose'] = clients.apply(set_cat, axis=1)

In [44]:
clients['purpose'].unique()

array(['покупка жилой недвижимости', 'покупка автомобиля', 'образование',
       'свадьба', 'покупка коммерческой недвижимости',
       'строительство жилой недижимости', 'ремонт'], dtype=object)

In [45]:
# повторная проверка на наличие дубликатов
clients.duplicated().sum()

0

In [46]:
clients = clients.drop_duplicates().reset_index(drop=True)
clients.duplicated().sum()

0

### 2.3.2 Категорирование заемщиков по уровню дохода
Разделим всех заемщиков на 5 групп по уровню дохода:
- низкий уровень;
- уровень ниже среднего;
- средний уровень;
- уровень выше среднего;
- высокий уровень.

Категорировать будем по квантилям данных. Добавим в набор данных столбец *income_grp* и последующий анализ будем проводить по нему.

In [47]:
# Категории доходов
low_income = clients['total_income'].quantile(0.2)
below_average_income = clients['total_income'].quantile(0.4)
average_income = clients['total_income'].quantile(0.6)
above_average_income = clients['total_income'].quantile(0.8)

def income_cat(row):
    '''
    Функция разделения саемщиков на группы по уровню дохода
    '''
    income = row['total_income']
    if income < low_income:
        return 1
    if income < below_average_income:
        return 2
    if income < average_income:
        return 3
    if income < above_average_income:
        return 4
    #high_income
    return 5

In [48]:
clients['income_grp'] = clients.apply(income_cat, axis=1)
clients['income_grp'].unique()

array([5, 2, 3, 1, 4], dtype=int64)

***Промежуточный итог***

Значения столбцов *purpose* и *total_income* категорированы, значения целей получения кредита заменены на категорию цели, заемщики разеделны на пять групп по уровню доходов.  
  
Предобработка данных завершена. Переходим к аналитической обработке данных и получению ответов на поставленные вопросы

## 2.4 Ответьте на вопросы

**Есть ли зависимость между наличием детей и возвратом кредита в срок**

In [49]:
analisys('children')

          debt  count  percent
children                      
0         1072  14272     7.51
1          444   4818     9.22
2          194   2055     9.44
3           27    330     8.18
4            4     41     9.76
5            0      9     0.00


***Ответ***

Количество детей оказывает очень слабое влияние на возврат кредита в срок. Наилучшими плательщиками по кредитам ожидаемо являются бездетные люди -- среди них самый низкий процент должников. Заемщики с пятью детьми не учитываются из-за малого их количества -- 0,064% от общего числа заёмщиков

**Есть ли зависимость между семейным положением и возвратом кредита в срок**

In [50]:
analisys('family_status')

                       debt  count  percent
family_status                              
Не женат / не замужем   274   2813     9.74
в разводе                85   1195     7.11
вдовец / вдова           63    960     6.56
гражданский брак        388   4177     9.29
женат / замужем         931  12380     7.52


***Ответ***

Семейное положение оказывает слабое влияние на возврат кредита в срок. При этом наиболее отвественными плательщиками являются вдовые заёмщики

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок**

In [51]:
clients['income_grp'] = clients.apply(income_cat, axis=1)
clients['income_grp'].unique()

array([5, 2, 3, 1, 4], dtype=int64)

In [52]:
analisys('income_grp')

            debt  count  percent
income_grp                      
1            345   4305     8.01
2            360   4305     8.36
3            374   4305     8.69
4            360   4305     8.36
5            302   4305     7.02


***Ответ***

Зависимость между уровнем дохода и возвратом кредита в срок очень слабая. При этом заёмщики с высоким уровнем дохода наиболее кредитоспособны, что ожидаемо.

**Как разные цели кредита влияют на его возврат в срок**

In [53]:
analisys('purpose')

                                   debt  count  percent
purpose                                                
образование                         370   4022     9.20
покупка автомобиля                  403   4315     9.34
покупка жилой недвижимости          452   6379     7.09
покупка коммерческой недвижимости   151   1968     7.67
ремонт                               35    612     5.72
свадьба                             186   2348     7.92
строительство жилой недижимости     144   1881     7.66


***Ответ***

Цели кредита оказывают малое влияние на возврат кредита в срок. Единственное, что можно отметить в данном случае -- кредиты на ремонт возвращяются чаще всего

# 3 Вывод

1. По итогам первого, общего взгляда на данные, были выявлены пропуски в столбцах *days_employed* и *total_income* при этом, тип данных *float64* для данных столбцов было решено заменить на *int64*. Количество пропусков в столбцах составило 10,1% от общего числа записей. Удалять данные пропуски было нельзя, поскольку это могло исказить данные. Поэтому пропуски были заменены на медианные значения соответствующих групп клиентов. Значения, содержащиеся в *days_employed*, не соответствовали ожидаемым -- были отрицательные значения, были аномально большие значения.  
  
  
2. Перед тем, как устранять явные дубликаты данных, были проанализированы значения, хранящиеся в наборе данных, были устранены или преобразованы аномальные значения:
 - столбец *children* -- были выявлены аномалии в данных, удельный вес которых оказался невелик, поэтому они были заменены на медианное значение по столбцу без учёта данных аномалий;
 - столбец *days_employed* -- были выявлены аномалии в данных. Диапазон значений данного столбца натолкнул на мысль, что единицей измерения данных столбца являются часы, а не дни. Исходя из этого предположения левая граница диапазона значений столбца соответствовала стажу ~9 лет (из расчета 1971 рабочий час в невисокосном году). Отрицательные значения могли появиться, как формат хранения данных хранилища, из которого они были извлечены. Они были преобразованы в беззнаковые величины. Правая граница диапазона соответствовала стажу ~203 года. Это явно аномальное значение. Максимальный нормальный трудовой стаж был принят размером 47 лет (для мужчин, работавших от 18 до 65 лет), что равно 92733 рабочих часа (47 лет по 1971 часу и 12 дней в високосных годах). Все значения правого диапазона больше этого значения были заменены на него.
 - столбец *dob_years* был переименован в *age* -- были выявлены аномалии в данных, удельный вес которых оказался невелик, поэтому они были заменены на медианное значение по столбцу без учёта данных аномалий;
 - столбец *education* -- были выявлены аномалии в данных, данные столбца были преобразованы к нижнему регистру;
 - столбец *education_id* -- аномалий не выявлено;
 - столбец *family_status* -- аномалий не выявлено;
 - столбец *family_status_id* -- аномалий не выявлено;
 - столбец *gender* -- были выявлена аномалия в данных, аномальное значение было заменено на наиболее вероятное;
 - столбец *income_type* -- аномалий не выявлено;
 - столбец *debt* -- аномалий не выявлено;
 - столбец *total_income* -- аномалий не выявлено;
 - столбец *purpose* -- аномальные значения отсутствуют, значения приведены к нижнему регистру. Вероятнее всего данные столбца вводились заемщиками самостоятельно, при этом многие значения симантически схожи, поэтому требуют дополнительного анализа и обработки.
  
  
3. Инструментами **pandas** были удалены полные дупликаты данных, которые могли возникнуть при их выгрузке из источника данных.
  
  
4. Значения столбца *purpose* были лемматизированы. Были выделены следующие основные леммы:
 - покупка;
 - недвижимость;
 - автомобиль;
 - образование;
 - жилье;
 - строительство;
 - свадьба;
 - ремонт
  
  
5. Значения столбца *purpose* были категорированы. Были выделены следующие категории целей:
 - покупка жилой недвижимости; 
 - покупка коммерческой недвижимости;
 - покупка автомобиля;
 - строительство жилой недижимости
 - образование;
 - свадьба;
 - ремонт.  
 
   Значения целей получения кредита были заменены на категорию цели.
   
   Была выполнено категорирование заемщиков по уровню доходов (по значениям столбца *total_income*). Заемщики были разделены на 5 групп по уровню дохода:
 - низкий уровень;
 - уровень ниже среднего;
 - средний уровень;
 - уровень выше среднего;
 - высокий уровень.  

   Категорирование осуществлялось по квантилям данных. Был добавлен в набор данных столбец *income_grp* и последующий анализ проводился по нему.
  
  
6. **Вопрос**: Есть ли зависимость между наличием детей и возвратом кредита в срок?  
   **Ответ**: Количество детей оказывает очень слабое влияние на возврат кредита в срок. Наилучшими плательщиками по кредитам ожидаемо являются бездетные люди -- среди них самый низкий процент должников. Заемщики с пятью детьми не учитываются из-за малого их количества -- 0,064% от общего числа заёмщиков.  
     
   **Вопрос**: Есть ли зависимость между семейным положением и возвратом кредита в срок?  
   **Ответ**: Семейное положение оказывает слабое влияние на возврат кредита в срок. При этом наиболее отвественными плательщиками являются вдовые заёмщики.  
     
   **Вопрос**: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?  
   **Ответ**: Зависимость между уровнем дохода и возвратом кредита в срок очень слабая. При этом заёмщики с высоким уровнем дохода наиболее кредитоспособны, что ожидаемо.
     
   **Вопрос**: Как разные цели кредита влияют на его возврат в срок?  
   **Ответ**:Цели кредита оказывают малое влияние на возврат кредита в срок. Единственное, что можно отметить в данном случае -- кредиты на ремонт возвращяются чаще всего.
  
  
7. Итак, на вопросы, которые были поставлены Заказчиком, получены однозначные ответы. Для этого переданные Заказчиком данные потребовали частичной предобработки, удаления пропусков, аномальных значений, лемматизации и категорирования.