## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Инструкция по выполнению

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

### Шаг 2. Предобработка данных
* определите и заполните пропущенные значения:
* опишите, какие пропущенные значения вы обнаружили;
* приведите возможные причины появления пропусков в данных;
* объясните, по какому принципу заполнены пропуски;
* замените вещественный тип данных на целочисленный:
* поясните, как выбирали метод для изменения типа данных;
* удалите дубликаты:
* поясните, как выбирали метод для поиска и удаления дубликатов в данных;
* приведите возможные причины появления дубликатов;
* выделите леммы в значениях столбца с целями получения кредита:
* опишите, как вы проводили лемматизацию целей кредита;
* категоризируйте данные: перечислите, какие «словари» вы выделили для этого набора данных, и объясните, почему.

В данных могут встречаться артефакты — значения, которые не отражают действительность. Например, отрицательное количество дней трудового стажа. Для реальных данных — это нормально. Нужно описать возможные причины появления таких данных и обработать их.

### Шаг 3. Ответьте на вопросы
* Есть ли зависимость между наличием детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.

### Шаг 4. Напишите общий вывод

#### Описание данных
1. `children` — количество детей в семье
2. `days_employed` — общий трудовой стаж в днях
3. `dob_years` — возраст клиента в годах
4.  `education` — уровень образования клиента
5.  `education_id` — идентификатор уровня образования
6. `family_status` — семейное положение
7. `family_status_id` — идентификатор семейного положения
8. `gender` — пол клиента
9. `income_type` — тип занятости
10. `debt` — имел ли задолженность по возврату кредитов
11. `total_income` — ежемесячный доход
12. `purpose` — цель получения кредита

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pymystem3 import Mystem
from collections import Counter

In [3]:
df = pd.read_csv('/datasets/data.csv')

In [4]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод: 

В результате знакомства с данными удалось обнаружить, что в двух столбцах имеются пропущенные значения, которые необходимо проработать.

### Шаг 2. Предобработка данных

Пропущенные значения у нас есть в колонках `days_employed` и `total_income`. Посчитаем сколько их всех и установим процент пропусков. 

In [6]:
df['days_employed'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: days_employed, dtype: float64

In [7]:
df['total_income'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: total_income, dtype: float64

Как мы видим, количество пропусков вместе с их долей в во всем датафрейме совпадает. Теперь взглянем на датасет только с пропусками и попытаемся найти общую закономерность

In [8]:
nan = df[df['days_employed'].isna() == True]

In [9]:
nan.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5648,0,,46,среднее,1,женат / замужем,0,M,госслужащий,1,,приобретение автомобиля
12850,0,,47,высшее,0,женат / замужем,0,F,сотрудник,0,,недвижимость
4152,1,,29,высшее,0,женат / замужем,0,F,сотрудник,0,,ремонт жилью
13788,0,,36,высшее,0,гражданский брак,1,F,сотрудник,0,,получение образования
18328,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
13233,0,,46,среднее,1,женат / замужем,0,F,компаньон,0,,покупка своего жилья
13880,2,,30,среднее,1,женат / замужем,0,M,сотрудник,0,,операции со своей недвижимостью
974,0,,60,среднее,1,женат / замужем,0,M,сотрудник,0,,высшее образование
3314,0,,23,среднее,1,гражданский брак,1,M,сотрудник,1,,на проведение свадьбы
13635,0,,32,среднее,1,женат / замужем,0,M,сотрудник,1,,получение образования


In [10]:
pd.cut(df['dob_years'], 5).value_counts()

(30.0, 45.0]      8504
(45.0, 60.0]      7057
(15.0, 30.0]      3723
(60.0, 75.0]      2140
(-0.075, 15.0]     101
Name: dob_years, dtype: int64

Как мы видим, у нас есть клиенты, у которых в графе возраст есть отрицательные значения и совсем маленькие. Логично, что тут произошла какая-то ошибка при выкачке данных. Поскольку этих данных совсем мало, то их удаление не повлияет на результаты анализа. 

In [11]:
df = df[df['dob_years'] > 15].reset_index()

In [12]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


В целом, какой-то общей закономерности пропусков не удалось обнаружить

In [14]:
def category(age):
    if age <= 30:
        return 'молодые'
    if age > 30 and age <= 45:
        return 'взрослые'
    if age > 45 and age <= 60:
        return 'пожилые'
    return 'пенсионеры'

In [15]:
df['category'] = df['dob_years'].apply(category)

In [16]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,взрослые
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,пенсионеры
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,взрослые
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,взрослые


Посмотрим для каждой возрастной категории среднее значение по гендерным признакам.

In [17]:
gender_category = df.pivot_table(index = 'category', columns = 'gender', values = 'total_income', aggfunc = 'median')

In [18]:
gender_category

gender,F,M,XNA
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
взрослые,140315.766455,176410.847993,
молодые,130187.630873,162513.291433,203905.157261
пенсионеры,121084.030049,131382.818886,
пожилые,133412.900442,166523.462873,


У нас появилось какое-то лишнее значение в графе `gender`, попробуем глянуть сколькор их.

In [19]:
df['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Можно сразу избавиться от XNA, чтобы это значение не мешало в дальнейшем. 

In [21]:
df = df.query('gender != "XNA"').reset_index()

In [22]:
df.sample(5)

Unnamed: 0,level_0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
13272,13273,13340,0,-397.044256,28,высшее,0,Не женат / не замужем,4,F,сотрудник,0,234937.528382,высшее образование,молодые
10570,10570,10622,0,385664.024835,67,среднее,1,женат / замужем,0,F,пенсионер,0,27776.117526,заняться образованием,пенсионеры
3963,3963,3982,1,-1746.040331,26,Среднее,1,женат / замужем,0,M,сотрудник,0,138606.387392,ремонт жилью,молодые
8840,8840,8882,0,-3029.395445,37,среднее,1,женат / замужем,0,F,компаньон,0,101442.076501,получение высшего образования,взрослые
10111,10111,10156,0,-2982.896056,56,СРЕДНЕЕ,1,в разводе,3,F,компаньон,0,161451.632577,получение высшего образования,пожилые


У нас появились лишние столбцы с индексами, которые не несут никакого смысла. Все это можно удлать.

In [24]:
df = df.drop(['level_0', 'index'], axis = 1)

In [25]:
woman_adult = gender_category['F'][0]
woman_young = gender_category['F'][1]
woman_pensioner = gender_category['F'][2]
woman_old = gender_category['F'][3]
man_adult = gender_category['M'][0]
man_young = gender_category['M'][1]
man_pensioner = gender_category['M'][2]
man_old = gender_category['M'][3]

In [26]:
t = df['gender']
k = df['category']
g = []
for i in range(len(k)):
    if t[i] == 'F'and k[i] == 'взрослые':
        g.append(woman_adult)
    if t[i] == 'F'and k[i] == 'молодые':
        g.append(woman_young)
    if t[i] == 'F'and k[i] == 'пенсионеры':
        g.append(woman_pensioner)
    if t[i] == 'F'and k[i] == 'пожилые':
        g.append(woman_old)
    if t[i] == 'M' and k[i] == 'взрослые':
        g.append(man_adult)
    if t[i] == 'M'and k[i] == 'молодые':
        g.append(man_young)
    if t[i] == 'M'and k[i] == 'пенсионеры':
        g.append(man_pensioner)
    if t[i] == 'M'and k[i] == 'пожилые':
        g.append(man_old)

In [27]:
df['inc_cat'] = pd.Series(g)

In [28]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat
12669,0,390536.736829,44,среднее,1,женат / замужем,0,F,пенсионер,0,41209.690802,покупка своего жилья,взрослые,140315.766455
13305,0,-5162.210556,49,среднее,1,вдовец / вдова,2,F,сотрудник,0,179149.236672,ремонт жилью,пожилые,133412.900442
11364,0,,22,высшее,0,Не женат / не замужем,4,M,компаньон,0,,покупка своего жилья,молодые,162513.291433
3285,2,378220.570013,57,среднее,1,женат / замужем,0,F,пенсионер,0,169524.241683,на покупку автомобиля,пожилые,133412.900442
19191,0,,50,среднее,1,вдовец / вдова,2,F,сотрудник,0,,автомобиль,пожилые,133412.900442
5372,0,-716.685333,34,среднее,1,Не женат / не замужем,4,M,сотрудник,1,246544.986101,строительство собственной недвижимости,взрослые,176410.847993
18555,0,351079.590338,70,начальное,3,гражданский брак,1,F,пенсионер,0,77684.698514,свадьба,пенсионеры,121084.030049
10648,1,-512.986891,37,высшее,0,женат / замужем,0,F,компаньон,0,174396.822139,ремонт жилью,взрослые,140315.766455
1803,0,392935.985217,52,среднее,1,женат / замужем,0,F,пенсионер,0,102393.1421,операции со своей недвижимостью,пожилые,133412.900442
19218,2,,37,высшее,0,женат / замужем,0,M,сотрудник,0,,операции с недвижимостью,взрослые,176410.847993


In [29]:
df['total_income'] = df['total_income'].fillna(df['inc_cat'])

Переведем отрицательные знацения стажа в абсолютные

In [30]:
df['days_employed'] = abs(df['days_employed'])

Считаю, что здесь можно воспользоваться такой же логикой замены пропусков какая была при замене `total_income`

In [31]:
for_days_emp = df.pivot_table(index = 'category', columns = 'gender', values = 'days_employed', aggfunc = 'median')

In [32]:
for_days_emp

gender,F,M
category,Unnamed: 1_level_1,Unnamed: 2_level_1
взрослые,1831.729975,1606.607248
молодые,1097.531171,981.593723
пенсионеры,358166.492161,347977.72719
пожилые,4851.38411,2412.732199


In [33]:
woman_adult_days = for_days_emp['F'][0]
woman_young_days = for_days_emp['F'][1]
woman_pensioner_days = for_days_emp['F'][2]
woman_old_days = for_days_emp['F'][3]
man_adult_days = for_days_emp['M'][0]
man_young_days = for_days_emp['M'][1]
man_pensioner_days = for_days_emp['M'][2]
man_old_days = for_days_emp['M'][3]

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 14 columns):
children            21423 non-null int64
days_employed       19259 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [35]:
c = df['gender']
v = df['category']
h = []
for i in range(len(v)):
    if c[i] == 'F'and v[i] == 'взрослые':
        h.append(woman_adult_days)
    if c[i] == 'F'and v[i] == 'молодые':
        h.append(woman_young_days)
    if c[i] == 'F'and v[i] == 'пенсионеры':
        h.append(woman_pensioner_days)
    if c[i] == 'F'and v[i] == 'пожилые':
        h.append(woman_old_days)
    if c[i] == 'M' and v[i] == 'взрослые':
        h.append(man_adult_days)
    if c[i] == 'M'and v[i] == 'молодые':
        h.append(man_young_days)
    if c[i] == 'M'and v[i] == 'пенсионеры':
        h.append(man_pensioner_days)
    if c[i] == 'M'and v[i] == 'пожилые':
        h.append(man_old_days)

In [36]:
len(h)

21423

In [37]:
df['days'] = pd.Series(h)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые,140315.766455,1831.729975
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые,140315.766455,1831.729975
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые,176410.847993,1606.607248
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые,176410.847993,1606.607248
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,пожилые,133412.900442,4851.38411
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,молодые,162513.291433,981.593723
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,взрослые,140315.766455,1831.729975
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,пожилые,166523.462873,2412.732199
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,взрослые,140315.766455,1831.729975
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,взрослые,176410.847993,1606.607248


In [38]:
df['days_employed'] = df['days_employed'].fillna(df['days'])

In [39]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
1948,1,767.837972,44,среднее,1,женат / замужем,0,F,госслужащий,0,143481.001077,покупка жилья для сдачи,взрослые,140315.766455,1831.729975
3555,0,378511.740175,55,среднее,1,Не женат / не замужем,4,F,пенсионер,0,131561.440129,покупка жилья,пожилые,133412.900442,4851.38411
15724,0,3199.866041,51,высшее,0,женат / замужем,0,F,сотрудник,0,247429.643934,получение образования,пожилые,133412.900442,4851.38411
15027,2,1989.078621,25,высшее,0,женат / замужем,0,F,сотрудник,0,78406.207341,операции с недвижимостью,молодые,130187.630873,1097.531171
9016,0,395.138141,48,высшее,0,гражданский брак,1,F,сотрудник,0,80592.283445,на проведение свадьбы,пожилые,133412.900442,4851.38411
19795,0,5116.575409,42,среднее,1,Не женат / не замужем,4,F,сотрудник,0,256284.782308,свой автомобиль,взрослые,140315.766455,1831.729975
21106,0,4621.408845,48,среднее,1,женат / замужем,0,F,сотрудник,0,83563.991037,покупка жилья,пожилые,133412.900442,4851.38411
7172,0,572.011392,27,неоконченное высшее,2,женат / замужем,0,F,сотрудник,1,110299.463199,жилье,молодые,130187.630873,1097.531171
5815,0,1189.029443,36,среднее,1,женат / замужем,0,F,сотрудник,0,192321.492417,получение дополнительного образования,взрослые,140315.766455,1831.729975
15166,1,1507.480767,24,среднее,1,женат / замужем,0,F,сотрудник,0,115804.352986,покупка коммерческой недвижимости,молодые,130187.630873,1097.531171


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 15 columns):
children            21423 non-null int64
days_employed       21423 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
days                21423 non-null float64
dtypes: float64(4), int64(5), object(6)
memory usage: 2.5+ MB


In [41]:
df.duplicated().sum()

54

In [42]:
df = df.drop_duplicates(keep='first')

In [43]:
df.sample(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
1831,0,2937.500271,27,высшее,0,гражданский брак,1,M,госслужащий,0,373645.344939,сыграть свадьбу,молодые,162513.291433,981.593723
2618,1,884.733576,34,среднее,1,женат / замужем,0,M,компаньон,0,270845.505283,покупка жилой недвижимости,взрослые,176410.847993,1606.607248
1499,2,392107.6836,51,Среднее,1,Не женат / не замужем,4,M,пенсионер,0,259120.571842,покупка жилья для сдачи,пожилые,166523.462873,2412.732199
8235,0,615.774147,46,среднее,1,женат / замужем,0,F,сотрудник,0,26533.42314,покупка коммерческой недвижимости,пожилые,133412.900442,4851.38411
11630,2,6232.139704,44,среднее,1,женат / замужем,0,M,госслужащий,0,388181.416086,сделка с автомобилем,взрослые,176410.847993,1606.607248


Уберем лишние столбцы, которые нам больше не понадобятся.

In [44]:
df = df.drop(['inc_cat', 'days'], axis = 1)

Теперь округлим и заменим тип данных в столбцах `days_employed` и `total_income` для дальнейшего удоства.

In [46]:
df['days_employed'] = round(df['days_employed'], 0)
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = round(df['total_income'], 0)
df['total_income'] = df['total_income'].astype(int)

In [47]:
df.dtypes

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
category            object
dtype: object

In [48]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,1,8438,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,взрослые
1,1,4025,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,взрослые
3,3,4125,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,взрослые
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21418,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224792,операции с жильем,взрослые
21419,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,156000,сделка с автомобилем,пенсионеры
21420,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89673,недвижимость,взрослые
21421,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,взрослые


Для дальнейшего анализа нам необходимо определить леммы, чтобы мы смогли отфильтровать клиентов по причинам займа. 

In [49]:
unique = df['purpose'].unique()

In [50]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [52]:
key = df['purpose']
lem = []
for i in key:
    result = ''.join(m.lemmatize(i)).strip()
    lem.append(result)

df1 = pd.DataFrame(data=lem, columns=['lemmas'])

In [53]:
df1

Unnamed: 0,lemmas
0,покупка жилье
1,приобретение автомобиль
2,покупка жилье
3,дополнительный образование
4,сыграть свадьба
...,...
21364,операция с жилье
21365,сделка с автомобиль
21366,недвижимость
21367,на покупка свой автомобиль


При помощи лемматизации мы определили все значения целей кредитования и сохранили их в отдельном Датафрейме, чтобы все корректно поделить на категории. 

Теперь сделаем категоризацию данных на основе имеющегося Датафрейма после лемматизации.

In [54]:
def uniq(text):
    m.lemmatize(text)
    if ('жилье' in text):
        return 'недвижимость'
    if ('недвижимость' in text):
        return 'недвижимость'
    if ('автомобиль' in text):
        return 'авто'
    if ('образование' in text):
        return 'образование'
    if ('свадьба' in text):
        return 'свадьба'
    return 'прочее'
    
#добавляем в Датафрейм корректные категории целей выдачи кредита для дальнейшего анализа.    
df['for_category'] = df1['lemmas'].apply(uniq)

df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,for_category
0,1,8438,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,взрослые,недвижимость
1,1,4025,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые,авто
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,взрослые,недвижимость
3,3,4125,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,взрослые,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,пожилые,свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255764,покупка жилья,молодые,недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240526,операции с жильем,взрослые,недвижимость
7,0,153,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135824,образование,пожилые,образование
8,2,6930,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95857,на проведение свадьбы,взрослые,свадьба
9,0,2189,41,среднее,1,женат / замужем,0,M,сотрудник,0,144426,покупка жилья для семьи,взрослые,недвижимость


In [55]:
#при помощи метода квантиль определим по уроврню дохода одинаковые категории для классификации клиентов.

df['total_income'].quantile(0.20)

98580.8