## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

# Оглавление

1. [Шаг 1. Изучение общей информации](#step1)  
2. [Шаг 2. Предобработка данных](#step2)  
3. [Шаг 3. Ответы на вопросы](#step3)  
5. [Шаг 4. Общий вывод](#step4)  

### Шаг 1. Изучение общей информации.  <a id="step1"></a>

In [620]:
# импорт библиотеки pandas
import pandas as pd

# импорт библиотеки pymystem3 для лемматизации
from pymystem3 import Mystem
m = Mystem() 

# импорт библиотеки collections для подсчета лемм
from collections import Counter

# чтение файла с данными с сохранением в data
data = pd.read_csv('/datasets/data.csv')
# получение первых 10 строк таблицы df
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [621]:
# получение общей информации о данных в таблице data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Рассмотрим полученную информацию подробнее.

Всего в таблице 12 столбцов. Подробно разберём, какие в data столбцы и какую информацию они содержат:

* _children_ — тип int64, количество детей в семье
* _days_employed_ — тип float64, общий трудовой стаж в днях. Дробные значения(аж до 14 знаков после запятой) тут не к чему, поэтому приведем поле к int
* _dob_years_ — тип int64, возраст клиента в годах
* _education_ — тип object, уровень образования клиента
* _education_id_ —  тип int64, идентификатор уровня образования
* _family_status_ — тип object, семейное положение
* _family_status_id_ — тип int64, идентификатор семейного положения
* _gender_ — тип object, пол клиента
* _income_type_ — тип object, тип занятости
* _debt_ — тип int64, имел ли задолженность по возврату кредитов. Это поле хранит два значения 1 - имеет задолженность, 0 - не имеет(ниже мы посмотрим так ли это), поэтому тоже переведем это поле к типу bool
* _total_income_ — тип float64, ежемесячный доход. Дробные значения тут также не к чему, поэтому приведем поле к int
* _purpose_ — тип object, цель получения кредита

Количество значений в столбцах различается. Это говорит о том, что в данных есть пустые значения.

###  Рассмотрим данные в столбцах
#### Рассмотрим данные в столбце 'children'

In [622]:
# уникальные значения в столбце 'children'
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Количество детей -1 и 20 похоже на ошибку.

In [623]:
# количество клиентов с детьми -1 и 20
data[data['children'] == -1]['children'].count() + data[data['children'] == 20]['children'].count()

123

-1 и 20 детей - это просто опечатка клиента или оператора. Количество детей скорее всего влияет на выдачу кредита, возможно эти значения неверны и у клиентов нет детей, но поскольку количество таких значений меньше процента, удалим эти строки из выборки. 

#### Рассмотрим данные в столбце 'dob_years'

In [624]:
# уникальные значения в столбце 'dob_years'
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Возраст клиента ноль, младенец кредит взять не может.

In [625]:
# сколько клиентов с возрастом 0
data[data['dob_years'] == 0]['dob_years'].count()

101

Клиентов с возврастом 0 всего полпроцента, поэтому удалим эти строки, чтобы они не искажали результаты.

#### Рассмотрим данные в столбце 'education'

In [626]:
# уникальные значения в столбце 'education'
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Разный регистр помешает нам правильно сгруппировать значения. Будем приводить все значение к одному регистру.

#### Рассмотрим данные в столбце 'family_status'

In [627]:
# уникальные значения в столбце 'family_status'
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

Также приведем значения к одному регистру

#### Рассмотрим данные в столбце 'gender'

In [628]:
# уникальные значения в столбце 'gender'
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Пол XNA ошибочен

In [629]:
# сколько клиентов с полом XNA
data[data['gender']== 'XNA']['gender'].count()

1

Всего один клиент без пола, можем смело его удалить, т.к. одна запись не повлияет на точность выводов. А предсказать пол по имеющимся данным невозможно, никакой корреляции между полом в зависимости от дохода, образования и количества детей, другое дело, если бы были параметры рост, размер стопы, длина волос и тому подобное.

#### Рассмотрим данные в столбце 'income_type'

In [630]:
# уникальные значения в столбце 'income_type'
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Тут всё хорошо, ничего менять не будем.

#### Рассмотрим данные в столбце 'debt'

In [631]:
# уникальные значения в столбце 'debt'
data['debt'].unique()

array([0, 1])

Тут тоже всё хорошо, также ничего менять не будем.

#### Рассмотрим данные в столбце 'purpose'

In [632]:
# уникальные значения в столбце 'purpose'
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Похожие по смыслу причины. Например, 'сыграть свадьбу' и 'на проведение свадьбы' явно одно и тоже, будем леммизировать

#### Рассмотрим данные в столбце 'days_employed' и 'total_income'

In [676]:
# минимальные и максимальные значения в столбце 'days_employed'
extremum_days_employed = data.groupby('income_type').agg({'days_employed':['min','max', 'count']})
extremum_days_employed

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,min,max,count
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в декрете,3296,3296,1
госслужащий,39,15193,1445
компаньон,30,17615,5028
пенсионер,328728,401755,3792
сотрудник,24,18388,10961
студент,578,578,1


Отрицательное количество дней по общему трудовому стажу у всех кроме пенсионеров и безработных.

In [634]:
# сколько отрицательных значений в столбце 'days_employed'
data[data['days_employed'] < 0]['days_employed'].count()

15906

Максимальное значение в данных 401755 - это 1100 лет, столько человек не живет и уж тем более не работает. Максимальный возраст клиента в наших данных 75 лет, а официальное трудоустройство в РФ с 16 лет, поэтому максимальное количество лет трудового стажа примерно 59*365 = 21535. Значит в 'days_employed' присутствуют аномальные значения.

Поскольку отрицательных значений 73%, то удалив их мы потеряем слишком большое количество данных.
Значения столбца 'days_employed' возьмем по модулю и в дальнейшем рассмотрим полученные результаты.

In [635]:
# минимальные и максимальные значения в столбце 'total_income'
extremum_total_income = data.groupby('income_type').agg({'total_income':['min','max','count']})
extremum_total_income

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,min,max
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
безработный,59956.991984,202722.5
в декрете,53829.130729,53829.13
госслужащий,29200.077193,910451.5
компаньон,28702.812889,2265604.0
пенсионер,20667.263793,735103.3
предприниматель,499163.144947,499163.1
сотрудник,21367.648356,1726276.0
студент,98201.625314,98201.63


Что-то безработные очень хорошо зарабатывают, может сидят на дивидендах :-) 

Столбцы 'days_employed' и 'total_income' содержат пропуски, занимательно, что размеры этих столбцов совпадают.
Проверим в одних и тех же строках отсутствуют значения.

In [636]:
# проверка соответствия нулевых строк в столюцах 'days_employed' и 'total_income'
data[(data['days_employed'].isnull() == True) & (data['total_income'].isnull() == True)].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
children            2174 non-null int64
days_employed       0 non-null float64
dob_years           2174 non-null int64
education           2174 non-null object
education_id        2174 non-null int64
family_status       2174 non-null object
family_status_id    2174 non-null int64
gender              2174 non-null object
income_type         2174 non-null object
debt                2174 non-null int64
total_income        0 non-null float64
purpose             2174 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Предположение верно, пропуски в 'days_employed' и 'total_income' совпадают.
Проверим тип занятости клиентов, у которых пропуски, возможно они безработные?

In [637]:
# тип занятости клиентов с пропущенными значениями
data[(data['total_income'].isnull() == True) & (data['days_employed'].isnull() == True)]['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Предположение было неверным, клиенты разные. Можно предположить, что клиенты никогда не работали, или работали неофициально. Но поскольку у них указан тип занятости, то врядли они никогда не работали. Госслужащий точно трудоустроен официально. Скорее всего при сборе данных произошла техническая ошибка. Поскольку у нас есть среди клиентов подобные типы можно взять медиану и заменить пропуски. Но в данных только 2 предпринимателя, на основе одного значения медиана или среднее будет совсем не показательна, поэтому предпринимателей перенесем в похожий тип занятости "компаньон".

### Вывод

Каждая строка таблицы содержит информацию о заемщиках. Несколько проблем, которые нужно решить до того как ответить на вопросы: 
1. типы данных столбцов
2. пропуски в _days_employed_ и _total_income_
3. огромные значения в _days_employed_
4. количество детей -1 и 20 - явно ошибочны
5. нулевой возраст
6. в столбце _education_ разный регистр
7. неопределенный пол XNA
8. _days_employed_ — общий трудовой стаж в днях содержит отрицательные значения
9. _purpose_ содержит одинаковые по смыслу причины, но записанные по разному

# Шаг 2. Предобработка данных  <a id="step2"></a>

### Уберем отрицательные значения в столбце 'days_employed'

In [638]:
# метод приведения к модулю abs() ко всему столбцу 'days_employed'
data[['days_employed']] = data[['days_employed']].abs()
# количество отрицательных значений в столбце
data[data['days_employed']<0]['days_employed'].count()

0

Отрицательных значений в столбце 'days_employed' не осталось

### Обработаем пропуски в 'days_employed' и 'total_income'

Как мы уже выяснили пропуски есть в 'days_employed' и 'total_income'.
Заменим значения медианой по типу занятости, но перед этим заменим тип занятости предпринимателям на тип "компаньон", чтобы получить более валидные результаты.

In [639]:
# замена типа занятости 'предприниматель' на 'компаньон'
data['income_type'] = data['income_type'].replace('предприниматель', 'компаньон')

# текущие значение в столбце 'income_type' после замены
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'студент', 'в декрете'], dtype=object)

In [640]:
# медиана days_employed по типу занятости 
median_days_employed = data.groupby('income_type').agg({'days_employed':['median']})
median_days_employed

Unnamed: 0_level_0,days_employed
Unnamed: 0_level_1,median
income_type,Unnamed: 1_level_2
безработный,366413.652744
в декрете,3296.759962
госслужащий,2689.368353
компаньон,1546.333214
пенсионер,365213.306266
сотрудник,1574.202821
студент,578.751554


In [641]:
# медиана total_income по типу занятости
median_total_income = data.groupby('income_type').agg({'total_income':['median']})
median_total_income

Unnamed: 0_level_0,total_income
Unnamed: 0_level_1,median
income_type,Unnamed: 1_level_2
безработный,131339.751676
в декрете,53829.130729
госслужащий,150447.935283
компаньон,172396.000846
пенсионер,118514.486412
сотрудник,142594.396847
студент,98201.625314


In [642]:
# замена пропусков нулями
data = data.fillna(0)
# функция замены нулевых значений на медиану
def change_null_colums(data, income_type, median_colums):
    data.loc[data['income_type'] == income_type,'days_employed'] = data['days_employed'].replace(0,median_days_employed['days_employed']['median'][median_colums])
    data.loc[data['income_type'] == income_type,'total_income'] = data['total_income'].replace(0,median_total_income['total_income']['median'][median_colums])
# замена нулевых значений в 'days_employed' и 'total_income' на медиану 
change_null_colums(data, 'сотрудник', 5)
change_null_colums(data, 'пенсионер', 4)
change_null_colums(data, 'компаньон', 3)
change_null_colums(data, 'госслужащий', 2)

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий ревьюера</h1>

Молодец, замена пропусков на медианы по группам - это оптимальное решение.
</div>

In [643]:
# проверка на отсутствие пустых строк
data[(data['days_employed'] == 0) & (data['total_income'] == 0)]['income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

Как видим больше не осталось нулевых значений в столбцах 'days_employed' и 'total_income'

### Удалим строки количества детей -1 и 20

In [645]:
# удаление данных о клиентах с количество детей -1
data.drop(data[data['children']== -1].index, inplace=True)
# удаление данных о клиентах с количество детей 20
data.drop(data[data['children']== 20].index, inplace=True)
# проверка удаления количества детей
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

В данных не осталось строк с количеством детей -1 и 20.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий ревьюера</h1>

Хоршо, аномалии убраны
</div>

### Избавимся от ошибочных значений

In [646]:
# удаление данных о клиентах с нулевым возрастом
data.drop(data[data['dob_years']==0].index, inplace=True)
# строки с нулевым возрастом успешно удалены
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [647]:
# удаление одного клиента с полом XNA
data.drop(data[data['gender']=='XNA'].index, inplace=True)
# строки с неопределенным полом успешно удалены
data['gender'].unique()

array(['F', 'M'], dtype=object)

### Обработаем общий трудовой стаж на предмет аномальных значений


In [648]:
# деление общего трудового стажа в днях на 365, для того чтобы получить количество трудового стажа в годах
data['days_employed_year'] = data[data['days_employed'].notnull()]['days_employed']/365
days_employed_year = data.groupby('income_type').agg({'days_employed_year':['mean','min','max']})
days_employed_year

Unnamed: 0_level_0,days_employed_year,days_employed_year,days_employed_year
Unnamed: 0_level_1,mean,min,max
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,1003.873021,924.724567,1083.021476
в декрете,9.032219,9.032219,9.032219
госслужащий,9.099213,0.109463,41.624746
компаньон,5.649135,0.082727,48.261817
пенсионер,1000.154038,900.626632,1100.699727
сотрудник,6.166666,0.066141,50.380685
студент,1.585621,1.585621,1.585621


Очевидно, что у безработных и пенсионеров трудовой стаж превышает длительность жизни в РФ )))

При оценке показателей выделим их в отдельную категорию. Пенсионеры в силу возраста и так скорее всего попадут в категорию с большим стажем, чего не сказать о безработных. Посмотрим сколько безработных в наших данных.

In [652]:
data[data['income_type'] == 'безработный']['income_type'].count()

0

Всего два безработных клиента, также удалим их из данных.

In [651]:
# удаление двух безработных
data.drop(data[data['income_type']=='безработный'].index, inplace=True)
# проверка, что безработных не осталось
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий', 'студент',
       'в декрете'], dtype=object)

Для пенсионеров аномально большие значение не помеха, в дальнейшем мы категоризируем данные и поместим их в группу клиентов с самым большим стажем. А безработных в данных не осталось.

### Приведем значения в столбце 'education' и 'family_status' к одному регистру

In [653]:
# перевод значения 'education' в нижний регистр
data['education'] = data['education'].str.lower()
# значения переведены в нижний регистр
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [654]:
# перевод значения 'family_status' в нижний регистр
data['family_status'] = data['family_status'].str.lower()
# значения переведены в нижний регистр
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий ревьюера</h1>

Отлично, с пропусками и аномалиями верно справились, регистор также унифицирован - это важный момент.
</div>

### Замена типа данных

Заменим тип данных в столбцах 'days_employed', 'total_income', 'debt' методом _astype()_ , так как значения в столбцах числовые, а не строковые, поэтому можно обойтись без метода to_numeric()

In [655]:
# замена типа столбца 'days_employed' на int
data['days_employed'] = data['days_employed'].astype('int')

# замена типа столбца 'total_income' на int
data['total_income'] = data['total_income'].astype('int')

# замена типа столбца 'debt' на bool
data['debt'] = data['debt'].astype('bool')

# результат замены типов данных
data.dtypes

children                int64
days_employed           int64
dob_years               int64
education              object
education_id            int64
family_status          object
family_status_id        int64
gender                 object
income_type            object
debt                     bool
total_income            int64
purpose                object
days_employed_year    float64
dtype: object

### Вывод

Мы избавились от некорректных значений и заполнили пустые строки.

In [656]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,False,255763,покупка жилья,2.537495
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,False,240525,операции с жильем,7.888225
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,False,135823,образование,0.418574
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,False,95856,на проведение свадьбы,18.985932
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,False,144425,покупка жилья для семьи,5.996593


In [657]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21299 entries, 0 to 21524
Data columns (total 13 columns):
children              21299 non-null int64
days_employed         21299 non-null int64
dob_years             21299 non-null int64
education             21299 non-null object
education_id          21299 non-null int64
family_status         21299 non-null object
family_status_id      21299 non-null int64
gender                21299 non-null object
income_type           21299 non-null object
debt                  21299 non-null bool
total_income          21299 non-null int64
purpose               21299 non-null object
days_employed_year    21299 non-null float64
dtypes: bool(1), float64(1), int64(6), object(5)
memory usage: 2.1+ MB


После удаления некоторых строк, данных достаточно, чтобы строить выводы по заданным вопросам.

### Обработка дубликатов

In [658]:
# получение суммарного количества дубликатов в таблице data
data.duplicated().sum()

71

Дубликаты могли образоваться в результате склейки разных файлов с одинаковым набором данных. Или же в результате человеческой ошибки, возможно оператор, который вносил данные, дважды добавил данные о клиенте в базу.

In [659]:
# удаление всех дубликаты из таблицы data специальным методом
data = data.drop_duplicates().reset_index(drop = True)
# аргумент drop со значением True,
# чтобы не создавать столбец со
# старыми значениями индексов

# проверка, что дубликаты отсутствуют
data.duplicated().sum()

0

Для удаления дубликатов использовался метод _drop_duplicates_, т.к. это единственный метод с необходимой функцией, который я знаю.

### Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с данными в столбцах, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. 

### Лемматизация

Поскольку сведения о целях получения кредита важно сохранить для анализа, то проведем лемматизацию, или приведение слова к его словарной форме (лемме).

In [660]:
# функция лемматизации
def split_lemma(purpose):
    lemma = m.lemmatize(purpose)
    return lemma

# лемматизация списка целей получения кредита
data['purpose_lemma'] = data['purpose'].apply(split_lemma)

data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]"


In [661]:
# изучение сколько получилось уникальных причин
# для этого надо столбец data['purpose_lemma'] превратить в список
list_lemmas = []
for elem in data['purpose_lemma']:
    for item in elem:
        list_lemmas.append(item)

unique_lemmas = Counter(list_lemmas)
unique_lemmas

Counter({'покупка': 5837,
         ' ': 33240,
         'жилье': 4411,
         '\n': 21228,
         'приобретение': 457,
         'автомобиль': 4258,
         'дополнительный': 895,
         'образование': 3970,
         'сыграть': 755,
         'свадьба': 2299,
         'операция': 2576,
         'с': 2886,
         'на': 2196,
         'проведение': 759,
         'для': 1282,
         'семья': 636,
         'недвижимость': 6290,
         'коммерческий': 1298,
         'жилой': 1216,
         'строительство': 1862,
         'собственный': 626,
         'подержать': 471,
         'свой': 2212,
         'со': 623,
         'заниматься': 900,
         'сделка': 933,
         'подержанный': 479,
         'получение': 1304,
         'высокий': 1359,
         'профильный': 431,
         'сдача': 646,
         'ремонт': 601})

Выделим существительные из полученного набора уникальных значений:
* покупка
* приобретение
* семья
* строительство
* жилье
* недвижимость
* сделка
* сдача
* ремонт
* автомобиль
* свадьба
* образование
* операция
* получение

Судя по анализу уникальных значений, который мы производили выше, следующие слова можно выделить в категорию "недвижимость":
* покупка
* семья
* строительство
* жилье
* недвижимость
* сделка
* сдача
* ремонт
* операция

В категорию "автомобиль":
* приобретение
* автомобиль

В категорию "образование":
* получение
* образование

В категорию "свадьба":
* проведение
* свадьба

Данные можно категоризовать по следующим целям кредита:
* недвижимость
* автомобиль
* свадьба
* образование

### Вывод

Мы получили список целей получения кредита.
На следующем этапе категоризируем данные, каждой строке в _data['purpose']_ назначим категорию.

### Категоризация данных

#### Разобьем на категории столбец 'purpose'

Выше мы уже обсуждали, что похожие цели кредита сформулированы разными словами, наведём порядок в данных для удобства дальнейшего анализа.

In [662]:
# функция категоризации целей кредита по выделенным выше категориям
def do_group_for_purpose(data):
    if 'жилье' in data:
        return 'недвижимость'
    elif 'покупка' in data:
        return 'недвижимость'
    elif 'семья' in data:
        return 'недвижимость'
    elif 'строительство' in data:
        return 'недвижимость'
    elif 'недвижимость' in data:
        return 'недвижимость'
    elif 'сделка' in data:
        return 'недвижимость'
    elif 'сдача' in data:
        return 'недвижимость'
    elif 'ремонт' in data:
        return 'недвижимость'
    elif 'операция' in data:
        return 'недвижимость'    
    elif 'автомобиль' in data:
        return 'автомобиль'    
    elif 'свадьба' in data:
        return 'свадьба'   
    elif 'образование' in data:
        return 'образование'     
    else:
        return 'неизвестная'
    
# применение функции do_group_for_purpose ко всем значениям столбца purpose_lemma
data['purpose_group'] = data['purpose_lemma'].apply(do_group_for_purpose)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma,purpose_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]",недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]",недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]",свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,False,255763,покупка жилья,2.537495,"[покупка, , жилье, \n]",недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,False,240525,операции с жильем,7.888225,"[операция, , с, , жилье, \n]",недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,False,135823,образование,0.418574,"[образование, \n]",образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,False,95856,на проведение свадьбы,18.985932,"[на, , проведение, , свадьба, \n]",свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,False,144425,покупка жилья для семьи,5.996593,"[покупка, , жилье, , для, , семья, \n]",недвижимость


In [663]:
# проверка, что всем данным присвоены категории для целей кредита
data[data['purpose_group'] == 'неизвестная']['purpose_group'].count()

0

#### Разобьем на классы столбец 'days_employed'

* до 3 лет
* от 3 до 5 лет
* от 5 до 10 лет
* от 10 до 50 лет
* более 50 лет

In [706]:
# функция категоризации по стажу
def do_group_for_days_employed(days):
    if days/365 <= 3:
        return 'до 3 лет'
    if 3< days/365 <= 5:
        return '3-5 лет'
    if 5 < days/365 <= 10:
        return '6-10 лет'
    elif 10 < days/365 <= 50:
        return '11-50 лет'
    elif days/365 > 50:
        return 'более 50 лет'
    return 'стаж неизвестен'
# применение функции do_group_for_days_employed ко всему столбцу 'days_employed'
data['days_employed_group'] = data['days_employed'].apply(do_group_for_days_employed)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma,purpose_group,days_employed_group,dob_years_group,children_group,total_income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]",недвижимость,11-50 лет,30-45 лет,есть дети,от 150 000 до 300 000 рублей
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]",автомобиль,11-50 лет,30-45 лет,есть дети,от 50 000 до 150 000 рублей
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]",недвижимость,11-50 лет,30-45 лет,нет детей,от 50 000 до 150 000 рублей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]",образование,11-50 лет,30-45 лет,есть дети,от 150 000 до 300 000 рублей
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]",свадьба,более 50 лет,45-65 лет,нет детей,от 150 000 до 300 000 рублей


In [707]:
# проверка, что всем данным присвоены категории для стажа
data[data['days_employed_group'] == 'стаж неизвестен']['days_employed_group'].count()

0

In [708]:
# полученное распеределение по группам стажа
data['days_employed_group'].value_counts()

до 3 лет        5666
3-5 лет         4429
6-10 лет        4223
более 50 лет    3793
11-50 лет       3117
Name: days_employed_group, dtype: int64

При такой категоризации получаем примерно одинаковое количество данных по группам стажа для сравнения.

#### Разобьем на классы по возрасту 'dob_years':

* до 35 лет
* 35-45 лет
* 45-55 лет
* более 55 лет

In [712]:
# функция категоризации по возрасту
def do_group_for_dob_years(years):
    if years <= 35:
        return 'до 35 лет'
    elif 35 < years <= 45:
        return '35-45 лет'
    elif 45 < years <= 55:
        return '45-55 лет'
    elif years > 55:
        return 'более 55 лет'
    return 'возраст неизвестен'
# применение функции do_group_for_dob_years ко всему столбцу 'dob_years
data['dob_years_group'] = data['dob_years'].apply(do_group_for_dob_years)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma,purpose_group,days_employed_group,dob_years_group,children_group,total_income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]",недвижимость,11-50 лет,35-45 лет,есть дети,от 150 000 до 300 000 рублей
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]",автомобиль,11-50 лет,35-45 лет,есть дети,от 50 000 до 150 000 рублей
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]",недвижимость,11-50 лет,до 35 лет,нет детей,от 50 000 до 150 000 рублей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]",образование,11-50 лет,до 35 лет,есть дети,от 150 000 до 300 000 рублей
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]",свадьба,более 50 лет,45-55 лет,нет детей,от 150 000 до 300 000 рублей


In [713]:
# проверка, что всем данным присвоены категории для возраста
data[data['dob_years_group'] == 'стаж неизвестен']['dob_years_group'].count()

0

In [714]:
# полученное распеределение по возрастным группам
data['dob_years_group'].value_counts()

до 35 лет       6542
35-45 лет       5582
45-55 лет       4788
более 55 лет    4316
Name: dob_years_group, dtype: int64

Также получили примерно одинаковое количество данных в категориях по возрасту.

#### Разобьем на классы по количеству детей 'children':
* нет детей
* есть дети (>= 1 ребенка)

In [721]:
# функция категоризации по количеству детей
def do_group_for_children(children):
    if children <= 0:
        return 'нет детей'
    elif children >= 1:
        return 'есть дети'
    return 'неизвестно количество детей'
# применение функции do_group_for_children ко всему столбцу 'children'
data['children_group'] = data['children'].apply(do_group_for_children)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma,purpose_group,days_employed_group,dob_years_group,children_group,total_income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]",недвижимость,11-50 лет,35-45 лет,есть дети,от 150 000 до 300 000 рублей
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]",автомобиль,11-50 лет,35-45 лет,есть дети,от 50 000 до 150 000 рублей
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]",недвижимость,11-50 лет,до 35 лет,нет детей,от 50 000 до 150 000 рублей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]",образование,11-50 лет,до 35 лет,есть дети,от 150 000 до 300 000 рублей
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]",свадьба,более 50 лет,45-55 лет,нет детей,от 150 000 до 300 000 рублей


In [722]:
# проверка, что всем данным присвоены категории для количества детей
data[data['children_group'] == 'неизвестно количество детей']['children_group'].count()

0

In [723]:
# полученное распеределение по группам наличия детей
data['children_group'].value_counts()

нет детей    14020
есть дети     7208
Name: children_group, dtype: int64

В данном случае разбить на более равные доли не получилось, так как количество клиентов без детей сильно превалирует над количеством клиентов с детьми. Поэтому будем работать с такими категориями.

#### Разобьем на классы по заработку: 
* <= 100 000
* 100 000 < total_income <= 125 000
* 125 000 < total_income <= 150 000
* 150 000 < total_income <= 200 000
* более 200 000

In [739]:
# функция категоризации по заработку
def do_group_for_total_income(income):
    if income <= 100000:
        return 'до 100 000 рублей'
    elif 100000 < income <= 125000:
        return 'от 100 000 до 125 000 рублей'
    elif 125000 < income <= 150000:
        return 'от 125 000 до 150 000 рублей'
    elif 150000 < income <= 200000:
        return 'от 150 000 до 200 000 рублей'
    elif income > 200000:
        return 'от 200 000 рублей'
    return 'заработок неизвестен'
# применение функции do_group_for_total_income ко всему столбцу 'total_income'
data['total_income_group'] = data['total_income'].apply(do_group_for_total_income)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,purpose_lemma,purpose_group,days_employed_group,dob_years_group,children_group,total_income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,23.116912,"[покупка, , жилье, \n]",недвижимость,11-50 лет,35-45 лет,есть дети,от 200 000 рублей
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,11.02686,"[приобретение, , автомобиль, \n]",автомобиль,11-50 лет,35-45 лет,есть дети,от 100 000 до 125 000 рублей
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,15.406637,"[покупка, , жилье, \n]",недвижимость,11-50 лет,до 35 лет,нет детей,от 125 000 до 150 000 рублей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,11.300677,"[дополнительный, , образование, \n]",образование,11-50 лет,до 35 лет,есть дети,от 200 000 рублей
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,932.235814,"[сыграть, , свадьба, \n]",свадьба,более 50 лет,45-55 лет,нет детей,от 150 000 до 200 000 рублей


In [740]:
# полученное распеределение по группам заработка
data['total_income_group'].value_counts()

от 200 000 рублей               5010
от 150 000 до 200 000 рублей    4718
до 100 000 рублей               4420
от 125 000 до 150 000 рублей    3825
от 100 000 до 125 000 рублей    3255
Name: total_income_group, dtype: int64

Получили примерно одинаковое количество данных в категориях по группам заработка.

### Вывод

Категоризировали данные по следующим данным:
* по количеству детей 
* по стажу работы
* по возрасту 
* по уровню зарплаты

Теперь можно перейти к анализу данных и поиску ответов на заданные вопросы.

# Шаг 3. Ответы на вопросы  <a id="step3"></a>

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [741]:
# расчет процента возвратов по кредитам у клиентов с детьми
children_debit = data[data['children_group'] == 'есть дети']['debt'].sum() * 100/ data[data['children_group'] == 'есть дети'].shape[0]
children_debit

9.225860155382907

In [742]:
# расчет процента возвратов по кредитам у клиентов без детей
free_children_debit = data[data['children_group'] == 'нет детей']['debt'].sum() * 100/ data[data['children_group'] == 'нет детей'].shape[0]
free_children_debit

7.546362339514979

### Вывод

Наличие детей ухудшает платежеспособность клиента. Клиенты без детей имеют меньше задолженностей по кредитам. 

In [743]:
# функция создания вспомогательной таблицы для вычисления зависимости между разными параметрами
# data - dataframe
# index - столбец, по которому происходит группировка данных 
# colums - столбец по значениям которого будет происходить группировка
# values - значения, по которым мы хотим увидеть сводную таблицу
def create_data_pivot(data,index,colums,values):
    # создается таблица data_pivot
    data_pivot = data.pivot_table(index = index, columns = colums, values = values, aggfunc = 'count')
    # расчет процента 
    data_pivot['%'] = (data_pivot[1] / data_pivot[0]) * 100
    # расчет количества клиентов каждой категории
    data_pivot['count_client'] = data_pivot[1] + data_pivot[0]
    return data_pivot

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [744]:
# вычисление зависимости family_status и debt
relationship = create_data_pivot(data, 'family_status', 'debt', 'family_status_id')
relationship

debt,False,True,%,count_client
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
в разводе,1095,84,7.671233,1179
вдовец / вдова,884,62,7.013575,946
гражданский брак,3728,383,10.273605,4111
женат / замужем,11290,922,8.166519,12212
не женат / не замужем,2508,272,10.845295,2780


### Вывод

Клиенты, которые не состоят в браке или состоят в гражданском браке, более склонны к задолженностям, чем остальные - 10%.

Клиенты, которые состоят в официальном браке на второй строчке нашего рейтинга - 8% задолженностей.

Клиенты в разводе и овдовешие наименьшая группа риска - около 7% задолженностей.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [745]:
# вычисление зависимости total_income и debt
relationship = create_data_pivot(data, 'total_income_group', 'debt', 'total_income')
relationship

debt,False,True,%,count_client
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
до 100 000 рублей,4068,352,8.652901,4420
от 100 000 до 125 000 рублей,2969,286,9.632873,3255
от 125 000 до 150 000 рублей,3495,330,9.44206,3825
от 150 000 до 200 000 рублей,4318,400,9.263548,4718
от 200 000 рублей,4655,355,7.626208,5010


### Вывод

Самый высокий процент задолженностей у клиентов с заработком от 100 000 до 200 000 рублей. Но стоит отметить, что клиенты с меньшим заработком, менее 100 000 рублей, имеют хороший процент возврата кредитов, наравне с клиентами с зарплатой более 200 000 рублей.

- Как разные цели кредита влияют на его возврат в срок?

In [746]:
# вычисление зависимости total_income и debt
relationship = create_data_pivot(data, 'purpose_group', 'debt', 'purpose')
relationship

debt,False,True,%,count_client
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,1716,172,10.02331,1888
недвижимость,12070,1001,8.293289,13071
образование,3601,369,10.247154,3970
свадьба,2118,181,8.545798,2299


### Вывод

Более надежные цели кредита - это недвижиомсть и свадьба.

# Шаг 4. Общий вывод <a id="step4"></a>

Исследование показало, что клиенты состоящие в официальном браке, с запрлатой более 200 000 рублей, с целью кредита на покупку недвижимости или проведения свадьбы(хотя они уже женаты, может захотелось торжества) являются самыми надежными.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.