## Этап 1. Получение данных

### 1.1 Импорт библиотеки pandas и чтение данных

In [1]:
import pandas as pd # импорт библиотек pandas 

Прочитаем файл *data.csv* и сохраним его в переменной *bank_data*.

In [2]:
bank_data = pd.read_csv('/datasets/data.csv') # чтение файла с указанием пути и с сохранием в переменную bank_data

### 1.2 Знакомство с данными

Выведем общую информацию о данных таблицы *bank_data*.

In [3]:
bank_data.info() # получение общей информации о данных таблицы. 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Рассмотрим полученную информацию подробнее.

В таблице 12 столбцов:

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

Также следует обратить внимание на то, что *days_employed* и *total_income* имеют пустые значения. Тип данных для них указан как float64, нужно будет перевести их в int64,так как нам необхоимы целые числа по этим столбцам.

Получим первые 15 строк таблицы.

In [4]:
bank_data.head(15) # получение первых 15 строк таблицы *bank_data*

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Как видим значения столбца *days_employed* имеют отрицательные значения, а также имеются аномальные значения, выраженные столетиями,что вызвано скорее всего импортом из разных систем. В дальнейшем необходимо будет привести их в рабочий вид, значения возьмем по модулю. Столбец *education* имеет дубликаты, но с разным регистром, в дальнейшнем приведем регистр к общему виду. Столбец *purpose* включает аналогичные цели взятия кредита, но выраженные разными конструкциями, для них проведем лемматизацию.

Рассмотрим более подробную информацию по таблице.

In [5]:
bank_data.describe() # Вызов подробной информации по таблице

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Здесь мы можем увидеть, что количество детей в столбце *children* имеет отрицательное значение -1, очевидно это ошибка и мы заменим это на 1. Также следует обратить внимание на максимальное количество детей, их здесь 20. Это конечно возможно, но вероятность этого низка, в дальнейшем, если таких значений будет несколько, то заменим это на 2, так как есть вероятность, что это человеческая ошибка и при нажатии на цифровой клавиатуре на клавишу 2, рука менеджера случайно нажимает и цифру 0. Помимо этого хочется обратить внимание на столбец *dob_years*, где у нас указан возраст заемщика, минимальное значение по нему 0. Это может являться как технологической ошибкой, так и человеческой. В дальнейшем восполним эти данные по медианным значениям типа занятости.

**Вывод**

Каждая строка таблицы имеет информацию о зявке на выдачу кредита. Всего их 21525, но не без пропущенных значений. В дальнейшем мы заполним пропуски в общем трудовом стаже и в ежемесячных доходах, разберемся с отрицательными значениями, приведем в порядок данные по количеству детей , рассчитаем медианные значения возраста по типу занятости для пропущенных значений в возрасте клиента, избавимся от дубликатов и проведем лемматизацию. 

##  Этап 2. Предобработка данных

### 2.1 Обработка пропусков

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [6]:
bank_data.isnull().sum() # Сумма пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Общий трудовой стаж в днях и ежемесячный доход имеют по 2174 пропуска. Есть вероятность , что эти пропуски в одних и тех же строках, проверим это:

In [7]:
bank_data[(bank_data['days_employed'].isnull() == True) & (bank_data['total_income'].isnull())==True] # проверка того, что пропущенные значения в общих для *days_employed* и *total_income* 2174 строках

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Пропущенные строки общие для *days_employed* и *total_income*, суммарное количество таких строк - 2174.  Скорее всего пропущенные значения указаны нарочно менеджером, так как вероятно эти заявки от людей, которые работают неофициально, соответственно у них не копится трудовой стаж и не предоставлена справка, подтверждающая официальные доходы. 

Заполним пустые значения в общем трудовом стаже днях медианой по типам занятости.

In [8]:
bank_data['days_employed']= bank_data['days_employed'].fillna(bank_data.groupby('income_type')['days_employed'].transform('median')) # заменяем пустые значения медианой в *days_employed* по *income_type*

Заполним пустые значения ежемесячного дохода медианой по типам занятости.

In [9]:
bank_data['total_income']= bank_data['total_income'].fillna(bank_data.groupby('income_type')['total_income'].transform('median')) # заменяем пустые значения медианой в *total_income* по *income_type*

Выведем общую информацию по таблице, чтобы проверить заполнили ли все пропуски.

In [10]:
bank_data.info() # получение общей информации о таблице bank_data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**

Успешно удалили пропущенные значения в *days_employed* и *total_income*. Теперь наша таблица имеет 21525 заполненных строк. 

### 2.2 Обработка аномальных значений

#### 2.2.1 Обработка значений в столбце количество детей в семье

Проверим количество детей в *bank_data*, где значение указаны -1 и 20.

In [11]:
bank_data['children'].value_counts() # получим уникальные значения по *children*

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Обратим внимание, что количество детей со значением -1 имеется в 47 заявках. Количество детей со значением 20 имеется в 76 заявках, что дает нам право полагать, что это ошибочные значения в результате человечского фактора - случайное нажатие клавиши 0 на цифровой клавиатуре. 

Заменим количество детей, где значение равно -1 на 1.

In [12]:
bank_data['children'] = bank_data['children'].replace(-1, 1) # замена значений в *children*

Заменим количество детей, где значение равно 20 на 2.

In [13]:
bank_data['children'] = bank_data['children'].replace(20, 2) # замена значений в *children*

Проверим внесенные изменения. 

In [14]:
bank_data['children'].value_counts() # получим уникальные значения по *children* , чтоб убедиться, что ненужные значения отсутствуют

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Успешно заменили значения в столбце дети на правильные, теперь в них нет значений -1 и 20. 

#### 2.2.2 Обработка значений в столбце общий трудовой стаж

Теперь заменим значения отрицательных чисел в столбце общий трудовой стаж.

In [15]:
bank_data['days_employed'] = bank_data['days_employed'].abs() # замена отрицательных значений на значения по модулю

Проверим остались ли отрицательные значения .

In [16]:
bank_data.groupby('income_type')['days_employed'].describe() # вывод статистических показателей для столбца *income_type* по *days_employed*

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
безработный,2.0,366413.652744,40855.478519,337524.466835,351969.05979,366413.652744,380858.245699,395302.838654
в декрете,1.0,3296.759962,,3296.759962,3296.759962,3296.759962,3296.759962,3296.759962
госслужащий,1459.0,3328.30835,2652.713016,39.95417,1376.607336,2689.368353,4454.221934,15193.032201
компаньон,5085.0,2055.165652,1950.764283,30.195337,764.432082,1547.382223,2672.323106,17615.563266
пенсионер,3856.0,365025.963652,19909.11543,328728.720605,348802.360364,365213.306266,380751.30114,401755.400475
предприниматель,2.0,520.848083,0.0,520.848083,520.848083,520.848083,520.848083,520.848083
сотрудник,11119.0,2251.736421,2201.767262,24.141633,829.62895,1574.202821,2895.108262,18388.949901
студент,1.0,578.751554,,578.751554,578.751554,578.751554,578.751554,578.751554


Можно заметить, что отрицательных значений больше нет, однако максимальные значения по прежнему присутствуют. Рассмотрим эти значения более подробно. Аномальные значения присутствуют лишь для такого типа занятости как безработный и пенсионер. Это связано с технологической ошибкой импорта, заместо дней указаны часы. Минимальное значение для этих типов занятости 328728. Исправим все строки начинающиеся с этого значения.

In [17]:
bank_data['days_employed'] = bank_data['days_employed'].apply(lambda x : x/24 if x>328728 else( x / 1 )) # изменение столбца *days_employed* с применением apply, для того, чтоб значения были указаны в днях, для значений больше 328728

Познакомимся с данными повнимательнее после внесенных изменений.

In [18]:
bank_data.groupby('income_type')['days_employed'].describe() # вывод статистических показателей для столбца *income_type* по *days_employe

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
безработный,2.0,15267.235531,1702.311605,14063.519451,14665.377491,15267.235531,15869.093571,16470.951611
в декрете,1.0,3296.759962,,3296.759962,3296.759962,3296.759962,3296.759962,3296.759962
госслужащий,1459.0,3328.30835,2652.713016,39.95417,1376.607336,2689.368353,4454.221934,15193.032201
компаньон,5085.0,2055.165652,1950.764283,30.195337,764.432082,1547.382223,2672.323106,17615.563266
пенсионер,3856.0,15209.415152,829.546476,13697.030025,14533.431682,15217.221094,15864.637548,16739.808353
предприниматель,2.0,520.848083,0.0,520.848083,520.848083,520.848083,520.848083,520.848083
сотрудник,11119.0,2251.736421,2201.767262,24.141633,829.62895,1574.202821,2895.108262,18388.949901
студент,1.0,578.751554,,578.751554,578.751554,578.751554,578.751554,578.751554


Привели в порядок значения в столбце общий трудовой стаж в днях. Теперь значения корректны также для пенсионеров и безработных. Ожидаемо для пенсионеров значение минимума является достаточно высоким, так как трудовой опыт у них значительно больше, но также минимальные значения высоки и для безработных, от которых 2 заявки, это связано с тем, что некоторые категории граждан могли иметь увеличенный множитель трудового стажа в связи с родом деятельности, нахождением в армии,а также в связи с регионом трудовой деятельности.

#### 2.2.3 Обработка значений в столбце возраст клиента. 

Посмотрим для каких типов занятости возраст клиента в годах равен 0.

In [19]:
bank_data[bank_data['dob_years'] ==0].groupby('income_type')['dob_years'].count() # подсчет количества строк по *income_type*, где *dob_years* равен 0

income_type
госслужащий     6
компаньон      20
пенсионер      20
сотрудник      55
Name: dob_years, dtype: int64

Общее количество значений равных 0 имеет 101 строка. Нам необходимо заменить эти строки на медианые значения по типам занятости

In [20]:
bank_data['dob_years'] = bank_data.groupby('income_type')['dob_years'].transform(lambda x: x.replace(0, int(x.median()))) # Заменим значения равные 0, на медианные значения по типам занятости

После произведенных действий проверим остались ли строки, значения которых равно 0 в возрасте клиента.


In [21]:
bank_data.groupby('income_type')['dob_years'].min() # подсчет количества строк по *income_type*, где *dob_years* имеет минимальные значения.

income_type
безработный        31
в декрете          39
госслужащий        19
компаньон          19
пенсионер          22
предприниматель    27
сотрудник          19
студент            22
Name: dob_years, dtype: int64

Проделав данную работу избавились от значений равных 0 в трудовом стаже, которые могли появиться как от технологических ошибок, так и от человечского фактора. 

**Вывод**

Успешно заменили на корректные значения в столбце количество детей в семье, исправили отрицательные и аномальные значения в столбце общий трудовой стаж. Заменили значения равные 0 в столбце возраст клиента в годах.

### 2.3 Замена типа данных

Переведем значения в целочисленные c помощью метода astype() для столбцов *days_employed* и *total_income*, так стаж в годах выражается целыми числами, чрезмерная точность не нужна и для дохода.

In [22]:
bank_data['days_employed'] = bank_data['days_employed'].astype('int') # перевод в целочисленные значения столбца *days_employed*

In [23]:
bank_data['total_income'] = bank_data['total_income'].astype('int') # перевод в целочисленные значения столбца *total_income*

Посмотрим на таблицу, изменились ли числа на целые.

In [24]:
bank_data.info() # Общая информация по таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Теперь для *days_employed * и *total_income* тип данных int64, что соответствует целочисленным значениям. Для наглядности посмотрим на первые 15 значений.

In [25]:
bank_data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


**Вывод**

Успешно изменили необходимые значения для столбцов общий трудовой стаж и ежемесячный доход. Данный метод был выбран, так как нам необходимы целочисленные значения в данных столбцах. 

### 2.4 Обработка дубликатов

Проверим есть ли дубликаты строк в нашей таблицы.

In [26]:
bank_data.duplicated().sum() # сумма дубликатов по таблице *bank_data*

54

В таблице 54 явных дубликата, причина проста - банальное задвоение в системе. Необходимо избавиться от них.

In [27]:
bank_data = bank_data.drop_duplicates().reset_index(drop=True) # удаление всех дубликатов из таблицы bank_data специальным методом

Проверим остались ли дубликаты. 

In [28]:
bank_data.duplicated().sum() # сумма дубликатов по таблице *bank_data*

0

Успешно избавились от явных дубликатов, но помимо этого нам нужно решить проблему регистров в столбце образование, посмотрим какие значения имеются в данном столбце

In [29]:
bank_data['education'].value_counts() # ручной поиск дубликатов с учетом регистров

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Видим несколько одинаковых значений ,которые отличаются регистром букв. Такое множество возникает от того, каким способом менеджер вбивает данные при заполнении заявки. Приведем их к нижнему регистру.

In [30]:
bank_data['education'] = bank_data['education'].str.lower() # Перевод к нижнему регистру.

Проверим какие значения остались. 

In [31]:
bank_data['education'].value_counts() # ручной поиск дубликатов с учетом регистров

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Проверим образовались ли новые дубликаты после приведения к общему регистру.

In [32]:
bank_data.duplicated().sum() # сумма дубликатов по таблице *bank_data*

17

Образовалось 17 новых дубликатов избавимся от них.

In [33]:
bank_data = bank_data.drop_duplicates().reset_index(drop=True) # удаление всех дубликатов из таблицы bank_data специальным методом

Проверим остаток дубликатов.

In [34]:
bank_data.duplicated().sum() # сумма дубликатов по таблице *bank_data*

0

**Вывод:**

Проделав данную работу, мы удалили явные дубликаты и привели значения в столбце образование к общему виду по регистру.

### 2.5 Лемматизация

Рассмотрим более подробно столбец *purpose*, в нем хранятся цели получения кредита, выраженные разными словосочетаниями, для которых необходимо провести лемматизацию. 

In [35]:
bank_data['purpose'].value_counts() # посмотрим варианты целей кредита и их количество

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Ознакомившись со столбцом, можно сделать вывод, что менеджеры не выбирают из списка цели получения кредита, а заполняют эти данные собственноручно. Всего ключевых слов можно выделить 5, которые выделим в отдельную перменную.

In [36]:
category = ['недвижимость', 'автомобиль', 'свадьба', 'жилье', 'образование'] # выделим категории в переменную

Импортируем библиотеки нужные для лемматизации.

In [37]:
from pymystem3 import Mystem # импортируем pymystem3
from collections import Counter # импортируем collections
m = Mystem()

Создадим функцию для лемматизации.

In [38]:
def lemmatize(text): # создание функции для лемматизации
    lemma = m.lemmatize(text)
    for word in category:
        if word in lemma:
            lemma = word
    return lemma

In [39]:
bank_data['purpose_category'] = bank_data['purpose'].apply(lemmatize)

Посчитаем количество для каждой категории цели взятия кредита.

In [40]:
bank_data['purpose_category'].value_counts() # подсчет количества для категорий цели взятия кредита

недвижимость    6351
жилье           4460
автомобиль      4306
образование     4013
свадьба         2324
Name: purpose_category, dtype: int64

Переименуем значения жилье в недвижимость, чтоб объединить в одну категорию.

In [41]:
bank_data['purpose_category'] = bank_data['purpose_category'].replace('жилье', 'недвижимость') # переименуем значения жилье в недвижимость

Проверим объединение. 

In [42]:
bank_data['purpose_category'].value_counts() # подсчет количества для категорий цели взятия кредита

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_category, dtype: int64

Посчитаем сумму количества значений в столбце категория цели взятия кредита.

In [43]:
bank_data['purpose'].value_counts().sum() # Посчитаем сумму количества значений в столбце *purpose_category*

21454

**Вывод**

Проверили лемматизацию. Суммарное количество значений в столбце *purpose_category* - 21454, что равняется количеству строк в нашей таблице после удаления дубликатов. Лемматизация была выбрана неслучайно, так как данный алгоритм поиска слов более совершенен для наших целей. По итогу сократили категории до 4, так как они отражают конечную цель получения кредита.

### 2.6 Категоризация данных

Для установления зависимости на поставленные вопросы нам нужны категоризации данных:
* По наличию детей, которые предстоит сделать.
* По уровню дохода, которые предстоит сделать.
* По семейному положению, которые у нас уже имеются.
* По цели взятия кредита, которые у нас уже имеются.
* По наличию задолженоости, которые у нас уже имеются.

Так как поставлен прямой вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?", то достаточно сделать категоризацию такой:
* есть дети
* нет детей

Создадим функцию для этого.

In [44]:
def children_category(children): # функция для определения категории детей
    if children > 0:
        return 'есть дети'
    else:
        return 'нет детей'

In [45]:
bank_data['children_category'] = bank_data['children'].apply(children_category) # использование функции *children_category* с добавлением нового столбца *children_category*

Теперь нам необходимо создать функцию для определения категории по доходам. Есть множество вариантов выделение категорий для данной работы, можно учитывать данные по росстату, по другим исследованиям, можно посмотреть по квантилям нашей выборки, а можно установить собственные категории, что мы и сделаем. Выделим для этого такие категории:
* Низкий уровень дохода - до 50000 рублей.
* Средний уровень дохода - до 150000 рублей.
* Высокий уровень дохода - Выше 150000 рублей.

Создадим функцию для этого.

In [46]:
def total_income_category(total_income): # функция для определения категории детей
    if total_income < 50000:
        return 'низкий уровень дохода'
    elif total_income <150000:
        return 'cредний уровень дохода'
    else:
        return 'высокий уровень дохода'

In [47]:
bank_data['total_income_category'] = bank_data['total_income'].apply(total_income_category) # использование функции *total_income_category* с добавлением нового столбца *total_income_category*

Посмотрим на проделанную работу наглядно и выведем первые 15 строк.

In [48]:
bank_data.head(15) # вывод 15 первых строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_category,total_income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,есть дети,высокий уровень дохода
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,есть дети,cредний уровень дохода
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей,cредний уровень дохода
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,есть дети,высокий уровень дохода
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей,высокий уровень дохода
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,нет детей,высокий уровень дохода
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,нет детей,высокий уровень дохода
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,нет детей,cредний уровень дохода
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,есть дети,cредний уровень дохода
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,нет детей,cредний уровень дохода


**Вывод**

Теперь в нашей таблице, есть вся информация, с помощью которых мы ответим на необходимые вопросы. В частности 4 столбца:
* family_status - семейное положение
* purpose_category - цель кредита
* children_category - дети
* total_income_category - доход
* debt - задолженность

## Этап 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Чтобы ответить на этот вопрос создадим сводную таблицу. 

In [49]:
data_pivot_children = bank_data.pivot_table(index = ['children_category'],columns='debt',values = 'gender', aggfunc='count') # Создаем сводную таблицу 

In [50]:
data_pivot_children['ratio'] = data_pivot_children[1] / (data_pivot_children[1] + data_pivot_children[0]) # Добавление столбца вн

Посмотрим на сводную таблицу и сделаем выводы.

In [51]:
data_pivot_children

debt,0,1,ratio
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
есть дети,6685,678,0.092082
нет детей,13028,1063,0.075438


**Вывод**

Проанализировав таблицу, мы можем сделать вывод, что вероятность задолженности с детьми составляет 9.2 процента, против 7.5 для тех, у кого детей нет. Это связано с тем, что люди, имея финансовые проблемы, больше делают финансовый упор на детей, не исполняя свои обязательства перед банком.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [52]:
data_pivot_family_status = bank_data.pivot_table(index = ['family_status'],columns='debt',values = 'gender', aggfunc='count') # Создаем сводную таблицу 

In [53]:
data_pivot_family_status['ratio'] = data_pivot_family_status[1] / (data_pivot_family_status[1] + data_pivot_family_status[0]) # Добавление столбца вероятности

In [54]:
data_pivot_family_status

debt,0,1,ratio
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,0.097509
в разводе,1110,85,0.07113
вдовец / вдова,896,63,0.065693
гражданский брак,3763,388,0.093471
женат / замужем,11408,931,0.075452


**Вывод**

Те категории заемщиков, кто состоит в официальном браке или когда-либо состоял, более ответственны в своих обязательствах. Можно предположить, что люди в браке создают более тесные связи и обязательства, это также распространяется в дальнейшем и на внешние обязательства.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [55]:
data_pivot_total_income = round(bank_data.pivot_table(index = ['total_income_category'],columns='debt',values = 'gender', aggfunc='count')) # Создаем сводную таблицу 

In [56]:
data_pivot_total_income['ratio'] = data_pivot_total_income[1] / (data_pivot_total_income[1] + data_pivot_total_income[0]) # Добавление столбца вероятности

In [57]:
data_pivot_total_income

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cредний уровень дохода,10296,955,0.084881
высокий уровень дохода,9068,763,0.077612
низкий уровень дохода,349,23,0.061828


**Вывод**

Люди с низким уровнем дохода с наименьшей вероятностью окажутся в должниках, это  связано с тем, что люди больше экономят и правильно составляют свои расходы. Разница между средним уровнем дохода и высоким, составляет 0,7 %. 

- Как разные цели кредита влияют на его возврат в срок?

In [58]:
data_pivot_purpose_category = bank_data.pivot_table(index = ['purpose_category'],columns='debt',values = 'gender', aggfunc='count') # Создаем сводную таблицу 

In [59]:
data_pivot_purpose_category['ratio'] = data_pivot_purpose_category[1] / (data_pivot_purpose_category[1] + data_pivot_purpose_category[0]) # Добавление столбца вероятности

In [60]:
data_pivot_purpose_category

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,0.09359
недвижимость,10029,782,0.072334
образование,3643,370,0.0922
свадьба,2138,186,0.080034


**Вывод**

Заемщики, которые приобретают средства на недвижимость и свадьбу, наиболее ответственны перед банком за свои обязательства. Вероятность просроченного кредита для недвижимость - 7,2 %, для свадьбы 7,9%, в то время как для образования 9.2 %, а для автомобиля 9,4%.

## Этап 4. Общий вывод

Проделав данную работу можно составить портрет наименее вероятного задолжника:
* У заемщика нет детей
* Заемщик состоял, либо состоит в официальном браке.
* Заемщик имеет низкий уровень дохода
* Заемщик берет кредит для целей связанных с недвижимостью, либо на свадьбу

Также составим портрет наиболее вероятного задолжника:
* У заемщика есть дети
* Заемщик не состоял в браке, либо состоит в гражданском браке
* Заемщик имеет средний уровень дохода
* заемщик берет средства на автомобиль, либо образование
