## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


## Инструкция по выполнению

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

### Шаг 2. Предобработка данных
* определите и заполните пропущенные значения:
* опишите, какие пропущенные значения вы обнаружили;
* приведите возможные причины появления пропусков в данных;
* объясните, по какому принципу заполнены пропуски;
* замените вещественный тип данных на целочисленный:
* поясните, как выбирали метод для изменения типа данных;
* удалите дубликаты:
* поясните, как выбирали метод для поиска и удаления дубликатов в данных;
* приведите возможные причины появления дубликатов;
* выделите леммы в значениях столбца с целями получения кредита:
* опишите, как вы проводили лемматизацию целей кредита;
* категоризируйте данные: перечислите, какие «словари» вы выделили для этого набора данных, и объясните, почему.

В данных могут встречаться артефакты — значения, которые не отражают действительность. Например, отрицательное количество дней трудового стажа. Для реальных данных — это нормально. Нужно описать возможные причины появления таких данных и обработать их.

### Шаг 3. Ответьте на вопросы
* Есть ли зависимость между наличием детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.

### Шаг 4. Напишите общий вывод


#### Описание данных
1. `children` — количество детей в семье
2. `days_employed` — общий трудовой стаж в днях
3. `dob_years` — возраст клиента в годах
4.  `education` — уровень образования клиента
5.  `education_id` — идентификатор уровня образования
6. `family_status` — семейное положение
7. `family_status_id` — идентификатор семейного положения
8. `gender` — пол клиента
9. `income_type` — тип занятости
10. `debt` — имел ли задолженность по возврату кредитов
11. `total_income` — ежемесячный доход
12. `purpose` — цель получения кредита

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

In [479]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pymystem3 import Mystem
from collections import Counter

In [480]:
df = pd.read_csv('data_b.csv')

In [481]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [482]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод: 

В результате знакомства с данными удалось обнаружить, что в двух столбцах имеются пропущенные значения, которые необходимо проработать.

### Шаг 2. Предобработка данных

Пропущенные значения у нас есть в колонках `days_employed` и `total_income`. Посчитаем сколько их всех и установим процент пропусков. 

In [483]:
df['days_employed'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: days_employed, dtype: float64

In [484]:
df['total_income'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: total_income, dtype: float64

Как мы видим, количество пропусков вместе с их долей в во всем датафрейме совпадает. Теперь взглянем на датасет только с пропусками и попытаемся найти общую закономерность

In [485]:
nan = df[df['days_employed'].isna() == True]

In [486]:
nan.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9183,0,,55,среднее,1,Не женат / не замужем,4,M,компаньон,0,,покупка жилья для семьи
15322,1,,43,высшее,0,женат / замужем,0,F,компаньон,0,,операции с коммерческой недвижимостью
15506,0,,50,среднее,1,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
6416,1,,41,среднее,1,женат / замужем,0,F,компаньон,0,,строительство собственной недвижимости
13816,0,,25,среднее,1,Не женат / не замужем,4,F,госслужащий,0,,жилье
11383,1,,45,высшее,0,женат / замужем,0,M,компаньон,0,,получение высшего образования
360,0,,27,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилья для сдачи
3539,0,,40,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилья
19602,1,,39,среднее,1,женат / замужем,0,F,компаньон,0,,покупка жилой недвижимости
10980,2,,30,среднее,1,женат / замужем,0,F,сотрудник,0,,высшее образование


In [487]:
pd.cut(df['dob_years'], 5).value_counts()

(30.0, 45.0]      8504
(45.0, 60.0]      7057
(15.0, 30.0]      3723
(60.0, 75.0]      2140
(-0.075, 15.0]     101
Name: dob_years, dtype: int64

Как мы видим, у нас есть клиенты, у которых в графе возраст есть отрицательные значения и совсем маленькие. Логично, что тут произошла какая-то ошибка при выкачке данных. Поскольку этих данных совсем мало, то их удаление не повлияет на результаты анализа. 

In [488]:
df = df[df['dob_years'] > 15].reset_index()

In [489]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


В целом, какой-то общей закономерности пропусков не удалось обнаружить

In [490]:
def category(age):
    if age <= 30:
        return 'молодые'
    if age > 30 and age <= 45:
        return 'взрослые'
    if age > 45 and age <= 60:
        return 'пожилые'
    return 'пенсионеры'

In [491]:
df['category'] = df['dob_years'].apply(category)

In [492]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,взрослые
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,пенсионеры
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,взрослые
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,взрослые


Посмотрим для каждой возрастной категории среднее значение по гендерным признакам.

In [493]:
gender_category = df.pivot_table(index = 'category', columns = 'gender', values = 'total_income', aggfunc = 'median')

In [494]:
gender_category

gender,F,M,XNA
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
взрослые,140315.766455,176410.847993,
молодые,130187.630873,162513.291433,203905.157261
пенсионеры,121084.030049,131382.818886,
пожилые,133412.900442,166523.462873,


У нас появилось какое-то лишнее значение в графе `gender`, попробуем глянуть сколькор их.

In [495]:
df['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Можно сразу избавиться от XNA, чтобы это значение не мешало в дальнейшем. 

In [496]:
df = df.query('gender != "XNA"').reset_index()

In [497]:
df.sample(5)

Unnamed: 0,level_0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
16538,16539,16623,0,341315.519351,58,среднее,1,женат / замужем,0,F,пенсионер,0,107893.288611,строительство собственной недвижимости,пожилые
8721,8721,8762,0,-138.523364,59,высшее,0,гражданский брак,1,F,компаньон,0,293672.584812,на проведение свадьбы,пожилые
11544,11545,11602,0,-728.541237,45,высшее,0,женат / замужем,0,F,компаньон,0,432530.63211,строительство собственной недвижимости,взрослые
20604,20605,20704,2,-610.011626,27,среднее,1,женат / замужем,0,F,сотрудник,0,151216.45875,операции с коммерческой недвижимостью,молодые
20554,20555,20654,1,-1812.084854,37,среднее,1,гражданский брак,1,F,сотрудник,0,240127.623122,покупка коммерческой недвижимости,взрослые


У нас появились лишние столбцы с индексами, которые не несут никакого смысла. Все это можно удлать.

In [498]:
df = df.drop(['level_0', 'index'], axis = 1)

In [499]:
woman_adult = gender_category['F'][0]
woman_young = gender_category['F'][1]
woman_pensioner = gender_category['F'][2]
woman_old = gender_category['F'][3]
man_adult = gender_category['M'][0]
man_young = gender_category['M'][1]
man_pensioner = gender_category['M'][2]
man_old = gender_category['M'][3]

In [500]:
t = df['gender']
k = df['category']
g = []
for i in range(len(k)):
    if t[i] == 'F'and k[i] == 'взрослые':
        g.append(woman_adult)
    if t[i] == 'F'and k[i] == 'молодые':
        g.append(woman_young)
    if t[i] == 'F'and k[i] == 'пенсионеры':
        g.append(woman_pensioner)
    if t[i] == 'F'and k[i] == 'пожилые':
        g.append(woman_old)
    if t[i] == 'M' and k[i] == 'взрослые':
        g.append(man_adult)
    if t[i] == 'M'and k[i] == 'молодые':
        g.append(man_young)
    if t[i] == 'M'and k[i] == 'пенсионеры':
        g.append(man_pensioner)
    if t[i] == 'M'and k[i] == 'пожилые':
        g.append(man_old)

In [501]:
df['inc_cat'] = pd.Series(g)

In [502]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat
9246,0,-1086.378928,43,СРЕДНЕЕ,1,женат / замужем,0,M,компаньон,0,140764.504642,строительство собственной недвижимости,взрослые,176410.847993
9348,1,-968.325659,25,среднее,1,женат / замужем,0,F,сотрудник,0,188917.721102,автомобиль,молодые,130187.630873
15048,0,-1765.469604,43,среднее,1,Не женат / не замужем,4,M,сотрудник,0,116668.689955,покупка жилья для семьи,взрослые,176410.847993
13263,1,-585.669288,31,среднее,1,женат / замужем,0,F,госслужащий,0,130671.949813,дополнительное образование,взрослые,140315.766455
1403,1,-482.080149,57,среднее,1,гражданский брак,1,M,сотрудник,0,183284.431185,сыграть свадьбу,пожилые,166523.462873
11964,0,-3426.860671,40,ВЫСШЕЕ,0,гражданский брак,1,M,сотрудник,0,174733.996899,свадьба,взрослые,176410.847993
8349,1,343422.232324,46,высшее,0,женат / замужем,0,F,пенсионер,0,176809.160773,на покупку автомобиля,пожилые,133412.900442
6751,1,-8135.135462,45,среднее,1,Не женат / не замужем,4,F,сотрудник,0,82978.36299,сделка с автомобилем,взрослые,140315.766455
20023,0,-1733.626977,27,Среднее,1,гражданский брак,1,M,сотрудник,0,99939.720476,сыграть свадьбу,молодые,162513.291433
3339,0,-281.843354,27,среднее,1,женат / замужем,0,F,сотрудник,0,143683.031358,операции с коммерческой недвижимостью,молодые,130187.630873


In [503]:
df['total_income'] = df['total_income'].fillna(df['inc_cat'])

Переведем отрицательные знацения стажа в абсолютные

In [504]:
df['days_employed'] = abs(df['days_employed'])

Считаю, что здесь можно воспользоваться такой же логикой замены пропусков какая была при замене `total_income`

In [505]:
for_days_emp = df.pivot_table(index = 'category', columns = 'gender', values = 'days_employed', aggfunc = 'median')

In [506]:
for_days_emp

gender,F,M
category,Unnamed: 1_level_1,Unnamed: 2_level_1
взрослые,1831.729975,1606.607248
молодые,1097.531171,981.593723
пенсионеры,358166.492161,347977.72719
пожилые,4851.38411,2412.732199


In [507]:
woman_adult_days = for_days_emp['F'][0]
woman_young_days = for_days_emp['F'][1]
woman_pensioner_days = for_days_emp['F'][2]
woman_old_days = for_days_emp['F'][3]
man_adult_days = for_days_emp['M'][0]
man_young_days = for_days_emp['M'][1]
man_pensioner_days = for_days_emp['M'][2]
man_old_days = for_days_emp['M'][3]

In [508]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 14 columns):
children            21423 non-null int64
days_employed       19259 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [509]:
c = df['gender']
v = df['category']
h = []
for i in range(len(v)):
    if c[i] == 'F'and v[i] == 'взрослые':
        h.append(woman_adult_days)
    if c[i] == 'F'and v[i] == 'молодые':
        h.append(woman_young_days)
    if c[i] == 'F'and v[i] == 'пенсионеры':
        h.append(woman_pensioner_days)
    if c[i] == 'F'and v[i] == 'пожилые':
        h.append(woman_old_days)
    if c[i] == 'M' and v[i] == 'взрослые':
        h.append(man_adult_days)
    if c[i] == 'M'and v[i] == 'молодые':
        h.append(man_young_days)
    if c[i] == 'M'and v[i] == 'пенсионеры':
        h.append(man_pensioner_days)
    if c[i] == 'M'and v[i] == 'пожилые':
        h.append(man_old_days)

In [510]:
len(h)

21423

In [511]:
df['days'] = pd.Series(h)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые,140315.766455,1831.729975
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые,140315.766455,1831.729975
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые,176410.847993,1606.607248
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые,176410.847993,1606.607248
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,пожилые,133412.900442,4851.38411
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,молодые,162513.291433,981.593723
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,взрослые,140315.766455,1831.729975
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,пожилые,166523.462873,2412.732199
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,взрослые,140315.766455,1831.729975
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,взрослые,176410.847993,1606.607248


In [512]:
df['days_employed'] = df['days_employed'].fillna(df['days'])

In [513]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
14685,2,1328.138947,31,высшее,0,женат / замужем,0,F,компаньон,0,228491.456797,строительство собственной недвижимости,взрослые,140315.766455,1831.729975
14166,0,358166.492161,61,среднее,1,гражданский брак,1,F,пенсионер,0,121084.030049,сыграть свадьбу,пенсионеры,121084.030049,358166.492161
16302,0,758.636052,22,неоконченное высшее,2,гражданский брак,1,F,компаньон,0,128609.886033,автомобили,молодые,130187.630873,1097.531171
2690,0,374433.906699,62,начальное,3,Не женат / не замужем,4,F,пенсионер,0,66151.39642,покупка своего жилья,пенсионеры,121084.030049,358166.492161
10799,0,3616.680375,46,высшее,0,Не женат / не замужем,4,F,компаньон,1,257107.782958,дополнительное образование,пожилые,133412.900442,4851.38411
13710,2,1326.241881,38,среднее,1,женат / замужем,0,F,компаньон,0,136758.451728,покупка жилья для семьи,взрослые,140315.766455,1831.729975
3521,0,1606.607248,40,среднее,1,женат / замужем,0,M,компаньон,0,176410.847993,покупка жилья,взрослые,176410.847993,1606.607248
1103,1,208.945004,33,высшее,0,в разводе,3,F,сотрудник,0,219243.051899,приобретение автомобиля,взрослые,140315.766455,1831.729975
17437,2,264.120544,35,среднее,1,женат / замужем,0,F,сотрудник,0,213702.819101,операции с коммерческой недвижимостью,взрослые,140315.766455,1831.729975
9780,0,183.570863,25,неоконченное высшее,2,Не женат / не замужем,4,M,госслужащий,0,137395.34801,образование,молодые,162513.291433,981.593723


In [514]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 15 columns):
children            21423 non-null int64
days_employed       21423 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
days                21423 non-null float64
dtypes: float64(4), int64(5), object(6)
memory usage: 2.5+ MB


In [515]:
df.duplicated().sum()

54

In [516]:
df = df.drop_duplicates(keep='first')

In [517]:
df.sample(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
997,0,8810.048966,54,среднее,1,женат / замужем,0,F,сотрудник,0,102220.599728,операции со своей недвижимостью,пожилые,133412.900442,4851.38411
18194,0,5160.625652,49,среднее,1,вдовец / вдова,2,F,сотрудник,0,183066.967923,высшее образование,пожилые,133412.900442,4851.38411
12266,1,1606.607248,31,среднее,1,женат / замужем,0,M,сотрудник,1,176410.847993,операции с жильем,взрослые,176410.847993,1606.607248
18527,0,1896.866606,43,высшее,0,женат / замужем,0,F,компаньон,0,164762.705751,ремонт жилью,взрослые,140315.766455,1831.729975
17672,0,515.324817,41,среднее,1,гражданский брак,1,F,сотрудник,1,88866.867449,профильное образование,взрослые,140315.766455,1831.729975


Уберем лишние столбцы, которые нам больше не понадобятся.

In [518]:
df = df.drop(['inc_cat', 'days'], axis = 1)

Теперь округлим и заменим тип данных в столбцах `days_employed` и `total_income` для дальнейшего удоства.

In [519]:
df['days_employed'] = round(df['days_employed'], 0)
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = round(df['total_income'], 0)
df['total_income'] = df['total_income'].astype(int)

In [520]:
df.dtypes

children             int64
days_employed        int32
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int32
purpose             object
category            object
dtype: object

In [521]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,1,8438,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,взрослые
1,1,4025,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,взрослые
3,3,4125,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,взрослые
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21418,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224792,операции с жильем,взрослые
21419,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,156000,сделка с автомобилем,пенсионеры
21420,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89673,недвижимость,взрослые
21421,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,взрослые


Для дальнейшего анализа нам необходимо определить леммы, чтобы мы смогли отфильтровать клиентов по причинам займа. 

In [522]:
unique = df['purpose'].unique()

In [523]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [524]:
key = df['purpose']
lem = []
for i in key:
    result = ''.join(m.lemmatize(i)).strip()
    lem.append(result)

#df1 = pd.DataFrame(data=lem, columns=['lemmas'])

KeyboardInterrupt: 

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [525]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

text = df['purpose']
res = []

def lemmatize(text):
    words = text # разбиваем текст на слова
    for word in words:
        p = morph.parse(word)[0]
        res.append(p.normal_form)

    return res

print(lemmatize(text))

['покупка жильё', 'приобретение автомобиль', 'покупка жильё', 'дополнительное образование', 'сыграть свадьба', 'покупка жильё', 'операции с жилие', 'образование', 'на проведение свадьба', 'покупка жилья для семья', 'покупка недвижимость', 'покупка коммерческой недвижимость', 'сыграть свадьба', 'приобретение автомобиль', 'покупка жилой недвижимость', 'строительство собственной недвижимость', 'недвижимость', 'строительство недвижимость', 'на покупку подержанного автомобиль', 'на покупку своего автомобиль', 'недвижимость', 'приобретение автомобиль', 'на покупку подержанного автомобиль', 'сыграть свадьба', 'операции с коммерческой недвижимость', 'покупка недвижимость', 'образование', 'строительство собственной недвижимость', 'строительство собственной недвижимость', 'строительство жилой недвижимость', 'операции с коммерческой недвижимость', 'жильё', 'на проведение свадьба', 'покупка жильё', 'операции со своей недвижимость', 'на проведение свадьба', 'автомобиль', 'приобретение автомобиль', 

In [526]:
df['lemma'] = pd.Series(res)

In [528]:
len(df['lemma'])

21369

In [533]:
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,lemma
0,1,8438,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,взрослые,покупка жильё
1,1,4025,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые,приобретение автомобиль
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,взрослые,покупка жильё
3,3,4125,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,взрослые,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,пожилые,сыграть свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255764,покупка жилья,молодые,покупка жильё
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240526,операции с жильем,взрослые,операции с жилие
7,0,153,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135824,образование,пожилые,образование
8,2,6930,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95857,на проведение свадьбы,взрослые,на проведение свадьба
9,0,2189,41,среднее,1,женат / замужем,0,M,сотрудник,0,144426,покупка жилья для семьи,взрослые,покупка жилья для семья
