# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
# Описание данных
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

## Шаг 1. Откроем файл с данными и изучим общую информацию

In [1]:
# Импортируем нужные библиотеки.
import pandas as pd 
from pymystem3 import Mystem
from nltk.stem import SnowballStemmer
from collections import Counter

In [2]:
path_to_db = '/users/danielnodelman/yandex_ds/yandex_projects/credit_score_project/'
# Прочитываем и сохраняем исходный датафрейм в переменной df.
df = pd.read_csv(path_to_db+'data.csv')

In [3]:
# Выводим общую информацию о датафрейме. 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Из информации узнаем о представленных типах данных и их объеме.
Данные в столбцах 'total_income'и 'days_employed' нужно перевести в целочисленные. 
Отсутсвующие значения сразу заметны только в 'total_income' и 'days_employed'.
Название одного из столбцов я переименую для удобства понимания значений внутри него:
* 'total_income' **переименуем** в 'income_total' 

In [4]:
# Смена имени столбца 'total_income' на'income_total'
df = df.rename(columns={'total_income':'income_total'}) 

Теперь можно вывести **первые строки**, чтобы рассмотреть данные внутри датафрейма нагляднее:

In [5]:
# Вывод первых 15 строк таблицы.
df.head(15) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,income_total,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Наблюдения**
* Сразу бросаются в глаза **отрицательные значения** и в столбце 'days_employed'. Если рассмотреть подробно, можно заметить пропуск: 'NaN'
* **Оформление** в столбце 'education' **некорректное**: нужно будет привести к общему виду неоднотипные значения.
* Цели 'purpose' похожи между собой: нужно **лемматизировать** и создать **новый столбец с категориями**. 
* Пропущено значение в столбце 'income_total'. Нужно будет разобраться с пропусками.
* Для ответа на поставленные в исследовании вопросы данные в столбце 'days_employed' не потребуются, **предпологаю**, что от него можно избавиться, но для начала, нужно узнать связан ли он со столбцом 'income_total'.

Получим **общую информацию о значениях** внутри таблицы:

In [6]:
# Вывод описания значений
df.describe() 

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,income_total
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Наблюдения**
* Макимальное значениие внутри столбца 'children' - это  число '20'. Это может быть ошибкой, но кроме этого, минимальное значение это число  '-1'. Это может быть отсутвующая информация. 
* Нужно взять значения 'days_employed' по модулю, чтобы с ними можно было работать. Отметим среднее значение (63046 дней), которое не вписывается в общую картину данных. 
* В 'dob_years' минимальное значение 0. Это могут быть неуказанные данные

Проверим, **существует ли связь** между пропусками в столбце 'days_employed' и в столбце 'income_total':
Для этого создадим для наших данных логическое условие, по которому сделаем вывод о **взаимосвязи нулевых строк** внутри столбцов.

In [7]:
# Вывод общей информации по NULL-ячейкам таблицы.
df[(df['income_total'].isnull() == True) & (df['days_employed'].isnull() == True)].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2174 non-null   int64  
 1   days_employed     0 non-null      float64
 2   dob_years         2174 non-null   int64  
 3   education         2174 non-null   object 
 4   education_id      2174 non-null   int64  
 5   family_status     2174 non-null   object 
 6   family_status_id  2174 non-null   int64  
 7   gender            2174 non-null   object 
 8   income_type       2174 non-null   object 
 9   debt              2174 non-null   int64  
 10  income_total      0 non-null      float64
 11  purpose           2174 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Как мы можем заметить, в строках этих столбцов **взаимно отсуствуют данные**. Перед тем как перейти к заполнению NaN-значений средними, важно учесть, к какой **группе профессий** относятся эти данные. Если не к одной, то нужно будет заполнять пропуски по среднему значению для **каждой** группы. Также посмотрим на группы пофессий по столбцу'income_type' **без пропусков**. Сравним, похожи ли они между собой по распределению значений внутри строк.

In [8]:
# Вывод групп профессий с пропусками.
df[(df['income_total'].isnull() == True) & (df['days_employed'].isnull() == True)]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [9]:
#Вывод групп профессий без пропусков.
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Группы **оказались разными**. Взять среднее для заполнения по одной группе уже не получится. Кроме того, пропуски скорее всего носят случайный характер и распределены равномерно, так как распределение ненулевых значений похоже на распределние с нулевыми значениями. 
Теперь ответим на следущие вопросы:
* Какое количество значений 'days_employed' больше и меньше '0'?
Ответ на этот вопрос поможет нам определиться с модулем значений в столбце. Возможно отрицательные значения могут относится к пенсионерам. В таком случае нужно понять:
* К кому относятся положительные значения в столбце 'days_employed'?

Количество строк 'days_employed' **больше** 0: 
3445

In [10]:
# Количество строк 'days_employed' > 0: 3445.
df[df['days_employed']>0].shape[0]

3445

Количество строк 'days_employed' **меньше** 0: 15906

In [11]:
# Количество строк 'days_employed' < 0: 15906.
df[df['days_employed']<0].shape[0]

15906

 Теперь создадим специальную переменную 'df_pension', куда поместим количество пенсионеров, у которых значение 'days_employed' > 0 и проверим, сколько из них работали больше 20 лет (33000 в метрике 'days_employed'). Затем посчитатем среднее количество отработанных дней пенсионеров, чтобы быть уверенными в наших выводах.

In [12]:
# Создаем переременную с условиями: значение больше 0 и значение == 'пенсионер'.
df_pension = df[(df['days_employed'] > 0) & (df['income_type'] == 'пенсионер')]

Количество пенсионеров со значением 'days_employed' **больше** 0: 3443

In [13]:
# Количество пенсионеров со значением 'days_employed' > 0: 3443.
df_pension.shape[0]

3443

Количество пенсионеров со значением 'days_employed' больше 0, отработавших больше 90 лет: 3443

In [14]:
# Количество пенсионеров отработавших больше 90 лет: 3443.
df_pension[df_pension['days_employed'] > 33000].shape[0]

3443

Значения совпали. Осталось посчитать среднее количество: ~365003,5

In [15]:
# Применяем .mean() для нахождения среднего числа (~365003,5).
df_pension['days_employed'].mean()

365003.49124486075

Исходя из полученных данных можем сделать следущие выводы:
* Из 3445 значений больше 0 только двое не являются пенсионерами.
* Не наблюдаем зависимости между отрицательным значением и пенсионерами.
* **Общий вывод:** cтолбец **'days_employed' можно брать по модулю**, так как отрицательные значения являются ошибкой.

Теперь разберёмся подробнее со значениями в столбцах 'children' и 'dob_years':
* Сравним количество уникальных клиентов с 20 детьми с количеством строк со значением 20. Если случай не уникальный, то скорее всего, клиент хотел ввести число 2, или же число 0. Если клиент заполнял форму с графой возраста, используя клавиатуру компьютера, то по нашему предположению, исходя из того что клавиша с цифрой '0' ближе к клавише 'Enter' чем с цифрой '2' , клиент мог ошибиться, следовательно в дальнейшем,мы заменим все значения '20' на '2'. 
* Узнаем больше о значении '-1' в столбце 'children': посчитаем количество. Если упоминается больше 2-х раз будем считать, что это ошибка.
* То же самое что и с '-1' проделаем со значением '0' в столбце 'dob_years'.

* Количество строк со значением 20 в столбце 'children': 76

In [16]:
# Количество строк со значением 20 в столбце 'children': 76.
df[df['children'] == 20].count()[0]

76

* Количество уникальных клиентов с 20 детьми: 68

In [17]:
# Количество уникальных клиентов с 20 детьми: 68.
len(df[df['children'] == 20]['income_total'].unique())

68

* Количество значений '-1' в столбце 'children': 47

In [18]:
#Количество значений '-1' в столбце 'children': 47.
df[df['children'] == -1].count()[0]

47

* Количество значений '0' в столбце 'dob_years': 101

In [19]:
# Количество значений '0' в столбце 'dob_years': 101.
df[df['dob_years'] == 0].count()[0]

101

Наши предположения подтвердились.
Значения '-1', '0', '20' являются ошибками и их нужно исправить.

После изучения информации нам удалось выяснить, что нужно исправить в данных для проведения исследования:
* Обработать столбец 'days_employed', не смотря на то, что его информация является лишней для того, чтобы ответить на вопросы исследования. 
* Привести к общему виду неоднотипные значения в столбце 'education'.
* Исправить минимальное значение в столбце 'children' с '-1' на '0'.
* Обработать нулевой возраст в столбце 'dob_years'.
* В столбце'children' значения '20' привести к '2'.
* Столбу income_total присвоить целочисленные значения.
* Обработать дубликаты.
* Лемматизировать столбец 'purpose'.
* Создать новый столбец по категориям данных в столбце 'purpose'.
* Категоризировать заёмщиков
* Категоризировать по заёмщиков возрасту


## Шаг 2. Предобработка данных

### Обработка пропусков

Создадим таблицу из данных в столбце 'income_type'. Назовем ее 'income_type_grouped'. Из нее узнаем, кто создает перевес в среднем значении столбца 'days_employed'. Узнаем, можно ли использовать среднее значение и применить к данным метод abs().

In [20]:
# Создаем переменную и передаем ей в скобках функции для подсчета значений внутри датафрейма 'df'. 
income_type_grouped = df.groupby('income_type').agg({'days_employed':['count', 'mean', lambda x: sum(x > 0)]})
# Создаем переменную с названиями столбцов таблицы для удобства восприятия информации.
income_type_grouped_columns = dict(zip(income_type_grouped.columns.levels[1],['Количество строк','Среднее значение','Значения больше 0']))
# Заменяем названия столбцов в таблице.
income_type_grouped = income_type_grouped.rename(columns = income_type_grouped_columns, level = 1)
# Выводим таблицу.
income_type_grouped

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,Количество строк,Среднее значение,Значения больше 0
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,2,366413.652744,2
в декрете,1,-3296.759962,0
госслужащий,1312,-3399.896902,0
компаньон,4577,-2111.524398,0
пенсионер,3443,365003.491245,3443
предприниматель,1,-520.848083,0
сотрудник,10014,-2326.499216,0
студент,1,-578.751554,0


Как мы можем заметить, только в категориях 'безработный' и 'пенсионеры' значения больше '0'. Из этого следует, что мы можем считать среднее и применять метод abs() к данным. 

Теперь мы можем взять значения в столбцах 'days_employed' и 'income_total' по модулю, используя метод abs(). Затем посмотрим на изменения в 'df'.

In [21]:
# Применяем метод abs() к выбранным столбцам. 
df[['days_employed', 'income_total']] =  df[['days_employed', 'income_total']].abs()
# Выводим первые 15 строк.
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,income_total,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Заполним NaN-пропуски в столбцах 'days_employed' и 'income_total'. В столбце 'days_employed' заменим на средний коэффицент по группе 'income_type', умноженнный на возраст в днях. В столбце 'income_total' заменим NaN на среднее значение по зарплате по группе 'income_type'.

In [22]:
# Заполняем пропуски в 'days_employed'.
df['days_employed'] = df.groupby('income_type')['days_employed'].transform(lambda x: x.fillna(x.mean()))
# Заполняем пропуски в 'income_total'.
df['income_total'] = df.groupby('income_type')['income_total'].transform(lambda x: x.fillna(x.mean()))

In [23]:
# Код ревьюера
income_type_grouped = df.groupby('income_type').agg({'days_employed':['count', 'mean', lambda x: sum(x > 0)]})

income_type_grouped_columns = dict(zip(income_type_grouped.columns.levels[1],['Количество строк','Среднее значение','Значения больше 0']))

income_type_grouped = income_type_grouped.rename(columns = income_type_grouped_columns, level = 1)
income_type_grouped

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,Количество строк,Среднее значение,Значения больше 0
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,2,366413.652744,2
в декрете,1,3296.759962,1
госслужащий,1459,3399.896902,1459
компаньон,5085,2111.524398,5085
пенсионер,3856,365003.491245,3856
предприниматель,2,520.848083,2
сотрудник,11119,2326.499216,11119
студент,1,578.751554,1


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  income_total      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Теперь в столбце 'children' заменим значение '-1' на 0. По нашему предположению 20 - это опечатка. Все, что меньше числа 19 и больше числа 2, относим к  многодетным семьям. Поэтому заменяем 20 на 2.

In [25]:
# Замена значений в столбце ['children'].
df['children'] = df['children'].replace(-1, 0)
df['children'] = df['children'].replace(20, 2)

 Перейдем к нулевому возрасту в столбце 'dob_years'. Заполним нулевые значения средними по столбцу 'income_type'. Округлим значение, чтобы сохранить тип данных в этом столбце. 

In [26]:
# Замена значения 0 на среднее по 'income_type'
df['dob_years'] = df.groupby('income_type')['dob_years'].apply(lambda x: x.replace(0, int(x.mean())))
#df['dob_years'] = df.groupby('income_type')['dob_years'].transform(lambda x: x.replace(0, int(x.mean())))

Теперь изменим формат записи значений в столбце 'education' методом lower(). Выведем информацию по данным после обработки пропусков.

In [27]:
# Заменяем формат написания значений в столбце 'education'.
df['education'] = df['education'].str.lower()
# Выводим первые 15 строк датафрейма.
#df.head(15)
# Выводм общую информацию.
df.info()
# Выводим описание значений.
#df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  income_total      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**
Мы заменили все явные пропуски в таблице.

### Замена типа данных

Заменим вещественный тип данных в столбцах 'income_total' и 'days_employed' на целочисленный. Для этого используем метод astype( ). 

In [28]:
# Замена типа данных методом astype().
df['income_total'] = df['income_total'].astype(int)
df['days_employed'] = df['days_employed'].astype(int)

In [29]:
# Вывод типа данных после обработки.
df.dtypes

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
income_total         int64
purpose             object
dtype: object

**Вывод**
Мы изменили тип данных, воспользовавшись методом astype().

### Обработка дубликатов

Дубликаты могут вызвать смещение финальных оценок данных. Их нужно удалить. Удалим явные дубликаты методом drop_duplicates. После чего выведем сумму дубликатов в таблице, чтобы проверить наши действия. Посмотрим на общее количство дубликатов.

In [30]:
# Проверим количество дубликатов
df.duplicated().sum()

71

В таблице 71 явный дубликат. Теперь применим к ней метод drop_duplicates(), чтобы удалить явные дубликаты. Скорее всего они возникили слуайно

In [31]:
# Удаляем явные дубликаты.
df = df.drop_duplicates()

In [32]:
# Проверим сколько явных дубликатов осталось : 0.
df.duplicated().sum()

0

Теперь выведем по очереди уникальные значения в столбцах, в которых возможны неявные дубликаты.

In [33]:
# Выводим уникальные значения и их количество в каждом столбце с возможными дубликатами.
#df['education'].value_counts() #* Нет Неявиных дубликатов.
#df['family_status'].value_counts() #* Нет неявных дубликатов.
#df['gender'].value_counts() #* Есть странное значение XNA(1).
#df['income_type'].value_counts() #* Нет Неявиных дубликатов.
#df['purpose'].value_counts() #* Куча неявных дубликатов, поэтому лемматизируем этот столбец.

Выведем строку со значением 'XNA' в столбце 'gender'.

In [34]:
# Вывод строки со значением 'XNA'
df.loc[df['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,income_total,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Возможно, мы недостаточно хорошо разбираемся в гендерах и значение корректное, но, перед тем как принять решение об исправлении, будем считать значение неопределенным. На ответы на вопросы исследования значение не влияет. На случай замены значения в строке с индексом 10701 создам действие с методом replace().

In [35]:
## На случай замены значения в строке с индексом 10701 ##

#df.loc[df['gender'] == 'M']['gender'].count() # 7280 значений Мale.
#df.loc[df['gender'] == 'F']['gender'].count() # 14174 значений Female.

#df['gender'] = df['gender'].replace('XNA', 'M') # Замена на Мale.
#df['gender'] = df['gender'].replace('XNA', 'F') # Замена на Female.

**Вывод**
Мы удалили все явные дубликаты, воспользовавшись методом drop_duplicates(). Мы можем предположить, что дубликаты были созданы ошибочно, при неаккуратном заполнении данных. Также мы обнаружили одно неявное значение 'XNA' в столбце 'gender'.

### Лемматизация

Столбец 'purpose' нужно лемматизировать, так как в нем содержаться похожие друг на друга данные. Создадим отдельный столбец 'lemmas_purpose', в который поместим результаты для дальнейшей категоризации целей.  Создадим функцию, которая будет лемматизировать вводимые данные. 

In [36]:
# Обозначили Mystem в переменной 'm'.
m = Mystem()

# Лемматизировали методом 'lemmatize' столбец и создали новый.
df['lemmas_purpose'] = df['purpose'].apply(m.lemmatize)
# Выводим первые 15 строк таблицы
df.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,income_total,purpose,lemmas_purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]"
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]"
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]"
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]"
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]"


**Вывод**

Мы произвели лемматизацию при помощи специальной функции. Создали отдельный столбец с ключевыми словами. Теперь можно перейти к категоризации данных.

### Категоризация данных

Проведем категоризацию клиентов. Преобразуем столбец 'lemmas_purpouse', убрав из него предлоги, стоп значения и тд. 
Будем категоризировать возраст 'dob_years', доход 'total_income', и столбец 'purpose'. Категории 'purpose' в соответствии с леммами из столбца 'lemmas_purpose': свадьба, автомобиль, недвижимость, образование. Категории для дохода: низкий, средний, выше среднего, высокий, очень высокий. Здесь мы применяем личную оценку, на основе данных по df.discribe.round() которую в дальнейшем можно будет скорректировать. Категории для возраста: младше 30 , от 31 до 55 включительно , больше 56  включительно. Данные категории мы обозначим в таком виде, чтобы избежать эйджизма.
Для того, чтобы категоризовать данные, мы создадим собственные функции для каждого столбца. 

In [37]:
# Посмотрим на все значения 'lemmas_purpose'.
df['lemmas_purpose'].value_counts()


[автомобиль, \n]                                          972
[свадьба, \n]                                             791
[на,  , проведение,  , свадьба, \n]                       768
[сыграть,  , свадьба, \n]                                 765
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           661
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 651
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строительство,  , собственный,  , недвижимость, \n]      635
[недвижимость, \n]                                        633
[операция,  , со,  , свой,  , недвижимость, \n]           627
[строительство,  , жилой,  , недвижимость, \n]            624
[покупка

In [38]:
# Функция для категорий стобца 'purpose'.
def purpose_cat(purpose_category):
    if 'свадьба' in purpose_category:
        return 'свадьба'
    elif 'автомобиль' in purpose_category:
        return 'автомобиль'
    elif 'недвижимость' in purpose_category:
        return'недвижимость'
    elif 'образование' in purpose_category:
        return 'образование'
    else:
        return 'недвижимость'
# Функция для категорий столбца 'dob_years'.
def dob_years_cat(age):
    if age <= 30:
        return 'младше 30'
    if age >= 31 and age <=55:
        return 'от 31 до 55 включительно'
    if age >= 56:
        return 'больше 56 включительно'
# Функция для категории столбца 'total_income'.
def income_total_cat (total_salary):
    if total_salary >= 20677 and total_salary <= 64145:
        return 'низкий'
    if total_salary > 64145 and total_salary <= 107623:
        return 'средний'
    if total_salary > 107623 and total_salary <= 156044:
        return 'выше среднего'
    if total_salary > 156044 and total_salary <= 195813:
        return 'выскокий'
    if total_salary >= 195813:
        return 'очень высокий'
# Последовательно применяем наши функции к данным внутри табицы 'df'.
df['purpose_category'] = df['lemmas_purpose'].apply(purpose_cat)
df['income_total_category'] = df['income_total'].apply(income_total_cat)
df['dob_years_category'] = df['dob_years'].apply(dob_years_cat)
# Выводим таблицу 'df' после создания категорий.
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,income_total,purpose,lemmas_purpose,purpose_category,income_total_category,dob_years_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость,очень высокий,от 31 до 55 включительно
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,выше среднего,от 31 до 55 включительно
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость,выше среднего,от 31 до 55 включительно
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,очень высокий,от 31 до 55 включительно
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,выскокий,от 31 до 55 включительно
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,"[операция, , с, , жилье, \n]",недвижимость,очень высокий,от 31 до 55 включительно
21521,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,"[сделка, , с, , автомобиль, \n]",автомобиль,выше среднего,больше 56 включительно
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,"[недвижимость, \n]",недвижимость,средний,от 31 до 55 включительно
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,"[на, , покупка, , свой, , автомобиль, \n]",автомобиль,очень высокий,от 31 до 55 включительно


**Вывод**

Мы получили новые столбцы с категориями заёмщиков. Каждая из категорий помогает лучше вопринимать данные внутри таблицы. Эти категории помогут бизнесу проще разбираться в своих клиентах. Категории возраста могут помочь нам предположить уровень ответственности клиента, категории дохода определят состоятельность. Категория причины займа обобщает клиентов. Теперь можно перейти к ответам на вопросы исследования. 

In [39]:
df['income_total_category'].value_counts()

очень высокий    5866
выше среднего    5749
выскокий         4475
средний          4323
низкий           1040
Name: income_total_category, dtype: int64

## Шаг 3. Ответим на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Создадим pivot table с тремя столбцами. В первом будет количество детей, во втором будет количество заемщиков, в третьем будет процент возвратности кредита. Расположим даные в порядке убывания. Таким образом получим 'топ' по зависимости количества детей и возвратности. Чтобы упростить восприятия информации внутри таблицы, напишем функцию, которая будет переводить данные в процентах в удобный вид.

In [40]:
# Создаём таблицу с данными.
children_statistic = df.pivot_table(index = ['children','dob_years_category'], values = 'debt', aggfunc = ('mean', lambda X: X.count()))

# Создаём функцию для отображения процентов.
#def percentation(number):
    #return "{0:.2%}".format(number)

# Создаёем столбец 'debt_average' со средним значением по столбцу 'debt' и приводим его к процентам.
children_statistic['debt_average'] = df['debt'].mean()
children_statistic['debt_average'] = children_statistic['debt_average'].map('{0:.2%}'.format)
# Приводим к процентам
children_statistic['mean'] = children_statistic['mean'].map('{0:.2%}'.format)
# Меняем названия столбцов для удобства восприятия 
children_statistic = children_statistic.rename(columns ={"<lambda_0>":"number of entries", "mean":"average"})
# Выводим данные в порядке убывания
children_statistic.sort_values(by = "number of entries", ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,number of entries,average,debt_average
children,dob_years_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,от 31 до 55 включительно,7953,7.64%,8.12%
0,больше 56 включительно,4032,5.51%,8.12%
1,от 31 до 55 включительно,3467,9.06%,8.12%
0,младше 30,2153,10.87%,8.12%
2,от 31 до 55 включительно,1641,9.02%,8.12%
1,младше 30,1055,10.81%,8.12%
2,младше 30,453,11.26%,8.12%
1,больше 56 включительно,286,5.59%,8.12%
3,от 31 до 55 включительно,277,8.66%,8.12%
3,младше 30,50,6.00%,8.12%


**Вывод**

Клиенты, берущие кредит возрастом больше 56 включительно без детей, являются самыми ответственными плательщиками (5.51%). Самыми безответственными явлляются клиенты младше 30 с 4 детьми. 

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Чтобы ответить на этот вопрос, снова создадим таблицу. На этот раз мы внесем в неё данные из столбца 'family_status'. Принцип структуры таблицы не изменится. Посчитаем среднее значение возвращения кредита среди групп клиентов по семейному положению. 

In [41]:
# Создаём таблицу с данными.
family_statistic = df.pivot_table(index = ['family_status', 'dob_years_category'], values = 'debt', aggfunc = ('mean', lambda X: X.count()))
# Приводим к процентам
family_statistic['mean'] = family_statistic['mean'].map('{0:.2%}'.format)
# Создаёем столбец 'debt_average' со средним значением по столбцу 'debt' и приводим его к процентам.
family_statistic['debt_average'] = df['debt'].mean()
family_statistic['debt_average'] = family_statistic['debt_average'].map('{0:.2%}'.format)
# Меняем названия столбцов для удобства восприятия 
family_statistic = family_statistic.rename(columns ={"<lambda_0>":"number of entries", "mean":"average"})
# Выводим данные в порядке убывания
family_statistic.sort_values(by = "number of entries", ascending = False)


Unnamed: 0_level_0,Unnamed: 1_level_0,number of entries,average,debt_average
family_status,dob_years_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
женат / замужем,от 31 до 55 включительно,8167,7.55%,8.12%
гражданский брак,от 31 до 55 включительно,2665,9.83%,8.12%
женат / замужем,больше 56 включительно,2378,5.34%,8.12%
женат / замужем,младше 30,1794,10.42%,8.12%
Не женат / не замужем,от 31 до 55 включительно,1389,10.37%,8.12%
Не женат / не замужем,младше 30,1014,11.24%,8.12%
в разводе,от 31 до 55 включительно,815,6.38%,8.12%
гражданский брак,младше 30,785,10.70%,8.12%
гражданский брак,больше 56 включительно,701,5.99%,8.12%
вдовец / вдова,больше 56 включительно,607,6.59%,8.12%


**Вывод**

Клиенты, берущие кредит возрастом больше 56 включительно в статусе не женат / не замужем, являются самыми ответственными плательщиками (3.93%). Самыми безответственными явлляются клиенты младше 30 в разводе (14.53%). 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Построим аналогичную таблицу и в этот раз. Будем использовать данные из столбца категорий дохода 'income_total_category', который мы создали ранее. 

In [42]:
# Создаём таблицу с данными.
income_statistic = df.pivot_table(index = ['income_total_category', 'dob_years_category'], values = 'debt', aggfunc = ('mean', lambda X: X.count()))
# Приводим к процентам
income_statistic['mean'] = income_statistic['mean'].map('{0:.2%}'.format)
# Создаёем столбец 'debt_average' со средним значением по столбцу 'debt' и приводим его к процентам.
income_statistic['debt_average'] = df['debt'].mean()
income_statistic['debt_average'] = income_statistic['debt_average'].map('{0:.2%}'.format)
# Меняем названия столбцов для удобства восприятия 
income_statistic = income_statistic.rename(columns ={"<lambda_0>":"number of entries", "mean":"average"})
# Выводим данные в порядке убывания
income_statistic.sort_values(by = "number of entries", ascending = False)


Unnamed: 0_level_0,Unnamed: 1_level_0,number of entries,average,debt_average
income_total_category,dob_years_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
очень высокий,от 31 до 55 включительно,4047,7.09%,8.12%
выше среднего,от 31 до 55 включительно,3392,9.02%,8.12%
выскокий,от 31 до 55 включительно,2925,8.68%,8.12%
средний,от 31 до 55 включительно,2500,8.68%,8.12%
выше среднего,больше 56 включительно,1367,5.63%,8.12%
средний,больше 56 включительно,1026,4.97%,8.12%
выше среднего,младше 30,990,12.12%,8.12%
очень высокий,младше 30,928,8.51%,8.12%
очень высокий,больше 56 включительно,891,5.27%,8.12%
выскокий,младше 30,862,11.37%,8.12%


**Вывод**

Клиенты, берущие кредит с низким доходом возрастом больше 56 включительно, являются самыми ответственными плательщиками (4.96%). Самыми безответственными явлляются клиенты младше 30 с доходом выше среднего (12.12%). 

- Как разные цели кредита влияют на его возврат в срок?

Снова построим таблицу. В этот раз будем использовать данные из столбца с категориями причины заёма 'purpose_category'

In [43]:
# Создаём таблицу с данными.
purpose_statistic = df.pivot_table(index = ['purpose_category', 'dob_years_category',], values = 'debt', aggfunc = ('mean', lambda X: X.count()))
# Приводим к процентам
purpose_statistic['mean'] = purpose_statistic['mean'].map('{0:.2%}'.format)
# Создаёем столбец 'debt_average' со средним значением по столбцу 'debt' и приводим его к процентам.
purpose_statistic['debt_average'] = df['debt'].mean()
purpose_statistic['debt_average'] = purpose_statistic['debt_average'].map('{0:.2%}'.format)
# Меняем названия столбцов для удобства восприятия 
purpose_statistic = purpose_statistic.rename(columns ={"<lambda_0>":"number of entries", "mean":"average"})
# Выводим данные в порядке убывания
purpose_statistic.sort_values(by = "number of entries", ascending = False)


Unnamed: 0_level_0,Unnamed: 1_level_0,number of entries,average,debt_average
purpose_category,dob_years_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
недвижимость,от 31 до 55 включительно,6763,7.29%,8.12%
автомобиль,от 31 до 55 включительно,2723,9.62%,8.12%
образование,от 31 до 55 включительно,2431,9.09%,8.12%
недвижимость,больше 56 включительно,2128,4.75%,8.12%
недвижимость,младше 30,1920,9.79%,8.12%
свадьба,от 31 до 55 включительно,1464,8.27%,8.12%
автомобиль,больше 56 включительно,897,6.35%,8.12%
образование,больше 56 включительно,863,6.49%,8.12%
образование,младше 30,719,12.93%,8.12%
автомобиль,младше 30,686,12.24%,8.12%


**Вывод**

Клиенты, берущие кредит на недвижимость возрастом больше 56 включительно, являются самыми ответственными плательщиками (4.75%). Самыми безответственными явлляются клиенты младше 30, берущие кредит на образование (12.93%). 

## Шаг 4. Общий вывод

В среднем, клиенты возрастом больше 56 включительно отвественно подходят к возрату кредита. Это обусловленно зрелостью, а также устоявшимся статусом в жизни. Безотвественно подходят к возрату кредита клиенты младше 30. Им сложнее всего распределить свой бюджет, чтобы вовремя погасить долг. 