## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Инструкция по выполнению

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

### Шаг 2. Предобработка данных
* определите и заполните пропущенные значения:
* опишите, какие пропущенные значения вы обнаружили;
* приведите возможные причины появления пропусков в данных;
* объясните, по какому принципу заполнены пропуски;
* замените вещественный тип данных на целочисленный:
* поясните, как выбирали метод для изменения типа данных;
* удалите дубликаты:
* поясните, как выбирали метод для поиска и удаления дубликатов в данных;
* приведите возможные причины появления дубликатов;
* выделите леммы в значениях столбца с целями получения кредита:
* опишите, как вы проводили лемматизацию целей кредита;
* категоризируйте данные: перечислите, какие «словари» вы выделили для этого набора данных, и объясните, почему.

В данных могут встречаться артефакты — значения, которые не отражают действительность. Например, отрицательное количество дней трудового стажа. Для реальных данных — это нормально. Нужно описать возможные причины появления таких данных и обработать их.

### Шаг 3. Ответьте на вопросы
* Есть ли зависимость между наличием детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.

### Шаг 4. Напишите общий вывод

#### Описание данных
1. `children` — количество детей в семье
2. `days_employed` — общий трудовой стаж в днях
3. `dob_years` — возраст клиента в годах
4.  `education` — уровень образования клиента
5.  `education_id` — идентификатор уровня образования
6. `family_status` — семейное положение
7. `family_status_id` — идентификатор семейного положения
8. `gender` — пол клиента
9. `income_type` — тип занятости
10. `debt` — имел ли задолженность по возврату кредитов
11. `total_income` — ежемесячный доход
12. `purpose` — цель получения кредита

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

In [234]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pymystem3 import Mystem
from collections import Counter

In [235]:
df = pd.read_csv('/datasets/data.csv')

In [236]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [237]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод: 

В результате знакомства с данными удалось обнаружить, что в двух столбцах имеются пропущенные значения, которые необходимо проработать.

### Шаг 2. Предобработка данных

Пропущенные значения у нас есть в колонках `days_employed` и `total_income`. Посчитаем сколько их всех и установим процент пропусков. 

In [238]:
df['days_employed'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: days_employed, dtype: float64

In [239]:
df['total_income'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: total_income, dtype: float64

Как мы видим, количество пропусков вместе с их долей в во всем датафрейме совпадает. Теперь взглянем на датасет только с пропусками и попытаемся найти общую закономерность

In [240]:
nan = df[df['days_employed'].isna() == True]

In [241]:
nan.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10013,0,,35,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,1,,покупка коммерческой недвижимости
21281,1,,30,высшее,0,женат / замужем,0,F,сотрудник,0,,покупка коммерческой недвижимости
2657,0,,53,среднее,1,в разводе,3,F,сотрудник,0,,получение дополнительного образования
6397,0,,41,высшее,0,гражданский брак,1,F,сотрудник,0,,получение высшего образования
18043,0,,31,ВЫСШЕЕ,0,Не женат / не замужем,4,F,сотрудник,0,,покупка жилья для семьи
20187,0,,65,СРЕДНЕЕ,1,гражданский брак,1,F,пенсионер,0,,сыграть свадьбу
9951,2,,43,среднее,1,женат / замужем,0,M,сотрудник,0,,ремонт жилью
9527,0,,36,среднее,1,женат / замужем,0,M,сотрудник,0,,строительство жилой недвижимости
20272,0,,34,высшее,0,в разводе,3,F,сотрудник,0,,автомобиль
19885,1,,35,среднее,1,женат / замужем,0,F,компаньон,0,,на покупку своего автомобиля


In [242]:
pd.cut(df['dob_years'], 5).value_counts()

(30.0, 45.0]      8504
(45.0, 60.0]      7057
(15.0, 30.0]      3723
(60.0, 75.0]      2140
(-0.075, 15.0]     101
Name: dob_years, dtype: int64

Как мы видим, у нас есть клиенты, у которых в графе возраст есть отрицательные значения и совсем маленькие. Логично, что тут произошла какая-то ошибка при выкачке данных. Поскольку этих данных совсем мало, то их удаление не повлияет на результаты анализа. 

In [243]:
df = df[df['dob_years'] > 15].reset_index()

In [244]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


В целом, какой-то общей закономерности пропусков не удалось обнаружить

In [245]:
def category(age):
    if age <= 30:
        return 'молодые'
    if age > 30 and age <= 45:
        return 'взрослые'
    if age > 45 and age <= 60:
        return 'пожилые'
    return 'пенсионеры'

In [246]:
df['category'] = df['dob_years'].apply(category)

In [247]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,взрослые
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,пенсионеры
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,взрослые
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,взрослые


Посмотрим для каждой возрастной категории среднее значение по гендерным признакам.

In [248]:
gender_category = df.pivot_table(index = 'category', columns = 'gender', values = 'total_income', aggfunc = 'median')

In [249]:
gender_category

gender,F,M,XNA
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
взрослые,140315.766455,176410.847993,
молодые,130187.630873,162513.291433,203905.157261
пенсионеры,121084.030049,131382.818886,
пожилые,133412.900442,166523.462873,


У нас появилось какое-то лишнее значение в графе `gender`, попробуем глянуть сколькор их.

In [250]:
df['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Можно сразу избавиться от XNA, чтобы это значение не мешало в дальнейшем. 

In [251]:
df = df.query('gender != "XNA"').reset_index()

In [252]:
df.sample(5)

Unnamed: 0,level_0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
9798,9798,9843,0,386183.740055,58,среднее,1,женат / замужем,0,F,пенсионер,0,80616.06865,сделка с автомобилем,пожилые
4955,4955,4978,0,-8976.892504,51,среднее,1,женат / замужем,0,M,сотрудник,0,87126.470375,операции со своей недвижимостью,пожилые
890,890,894,0,-1700.034176,53,среднее,1,гражданский брак,1,M,компаньон,0,183824.326733,строительство жилой недвижимости,пожилые
19683,19684,19780,2,-1299.697206,40,высшее,0,в разводе,3,F,компаньон,0,110241.61691,образование,взрослые
7084,7084,7119,0,353207.809226,60,начальное,3,Не женат / не замужем,4,F,пенсионер,0,215864.375057,строительство недвижимости,пожилые


У нас появились лишние столбцы с индексами, которые не несут никакого смысла. Все это можно удлать.

In [253]:
df = df.drop(['level_0', 'index'], axis = 1)

In [254]:
woman_adult = gender_category['F'][0]
woman_young = gender_category['F'][1]
woman_pensioner = gender_category['F'][2]
woman_old = gender_category['F'][3]
man_adult = gender_category['M'][0]
man_young = gender_category['M'][1]
man_pensioner = gender_category['M'][2]
man_old = gender_category['M'][3]

In [255]:
t = df['gender']
k = df['category']
g = []
for i in range(len(k)):
    if t[i] == 'F'and k[i] == 'взрослые':
        g.append(woman_adult)
    if t[i] == 'F'and k[i] == 'молодые':
        g.append(woman_young)
    if t[i] == 'F'and k[i] == 'пенсионеры':
        g.append(woman_pensioner)
    if t[i] == 'F'and k[i] == 'пожилые':
        g.append(woman_old)
    if t[i] == 'M' and k[i] == 'взрослые':
        g.append(man_adult)
    if t[i] == 'M'and k[i] == 'молодые':
        g.append(man_young)
    if t[i] == 'M'and k[i] == 'пенсионеры':
        g.append(man_pensioner)
    if t[i] == 'M'and k[i] == 'пожилые':
        g.append(man_old)

In [256]:
df['inc_cat'] = pd.Series(g)

In [257]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat
8761,0,-3105.14834,37,среднее,1,женат / замужем,0,F,сотрудник,0,296570.811912,строительство собственной недвижимости,взрослые,140315.766455
5026,0,346614.06738,59,среднее,1,гражданский брак,1,F,пенсионер,1,123181.625888,строительство недвижимости,пожилые,133412.900442
19217,0,380597.037252,60,Среднее,1,женат / замужем,0,F,пенсионер,1,149074.729774,дополнительное образование,пожилые,133412.900442
20188,2,-4301.422417,48,среднее,1,женат / замужем,0,M,сотрудник,0,151003.083947,приобретение автомобиля,пожилые,166523.462873
9978,0,-9862.738169,44,среднее,1,женат / замужем,0,M,компаньон,0,232574.050924,профильное образование,взрослые,176410.847993
2761,0,-1453.211233,32,ВЫСШЕЕ,0,женат / замужем,0,F,сотрудник,0,87599.203143,жилье,взрослые,140315.766455
7724,0,348818.856199,65,высшее,0,вдовец / вдова,2,F,пенсионер,0,69250.268071,строительство собственной недвижимости,пенсионеры,121084.030049
18003,0,364183.02472,64,среднее,1,Не женат / не замужем,4,F,пенсионер,0,71498.487486,высшее образование,пенсионеры,121084.030049
880,0,-2308.271667,35,высшее,0,женат / замужем,0,M,госслужащий,0,673040.439784,на покупку своего автомобиля,взрослые,176410.847993
2597,0,,57,среднее,1,в разводе,3,F,пенсионер,0,,приобретение автомобиля,пожилые,133412.900442


In [258]:
df['total_income'] = df['total_income'].fillna(df['inc_cat'])

Переведем отрицательные знацения стажа в абсолютные

In [259]:
df['days_employed'] = abs(df['days_employed'])

Считаю, что здесь можно воспользоваться такой же логикой замены пропусков какая была при замене `total_income`

In [260]:
for_days_emp = df.pivot_table(index = 'category', columns = 'gender', values = 'days_employed', aggfunc = 'median')

In [261]:
for_days_emp

gender,F,M
category,Unnamed: 1_level_1,Unnamed: 2_level_1
взрослые,1831.729975,1606.607248
молодые,1097.531171,981.593723
пенсионеры,358166.492161,347977.72719
пожилые,4851.38411,2412.732199


In [262]:
woman_adult_days = for_days_emp['F'][0]
woman_young_days = for_days_emp['F'][1]
woman_pensioner_days = for_days_emp['F'][2]
woman_old_days = for_days_emp['F'][3]
man_adult_days = for_days_emp['M'][0]
man_young_days = for_days_emp['M'][1]
man_pensioner_days = for_days_emp['M'][2]
man_old_days = for_days_emp['M'][3]

In [263]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 14 columns):
children            21423 non-null int64
days_employed       19259 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [264]:
c = df['gender']
v = df['category']
h = []
for i in range(len(v)):
    if c[i] == 'F'and v[i] == 'взрослые':
        h.append(woman_adult_days)
    if c[i] == 'F'and v[i] == 'молодые':
        h.append(woman_young_days)
    if c[i] == 'F'and v[i] == 'пенсионеры':
        h.append(woman_pensioner_days)
    if c[i] == 'F'and v[i] == 'пожилые':
        h.append(woman_old_days)
    if c[i] == 'M' and v[i] == 'взрослые':
        h.append(man_adult_days)
    if c[i] == 'M'and v[i] == 'молодые':
        h.append(man_young_days)
    if c[i] == 'M'and v[i] == 'пенсионеры':
        h.append(man_pensioner_days)
    if c[i] == 'M'and v[i] == 'пожилые':
        h.append(man_old_days)

In [265]:
len(h)

21423

In [266]:
df['days'] = pd.Series(h)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые,140315.766455,1831.729975
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые,140315.766455,1831.729975
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые,176410.847993,1606.607248
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые,176410.847993,1606.607248
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,пожилые,133412.900442,4851.38411
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,молодые,162513.291433,981.593723
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,взрослые,140315.766455,1831.729975
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,пожилые,166523.462873,2412.732199
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,взрослые,140315.766455,1831.729975
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,взрослые,176410.847993,1606.607248


In [267]:
df['days_employed'] = df['days_employed'].fillna(df['days'])

In [268]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
9858,0,1412.149795,26,ВЫСШЕЕ,0,Не женат / не замужем,4,F,сотрудник,0,116362.018151,операции со своей недвижимостью,молодые,130187.630873,1097.531171
3268,1,371280.006979,51,среднее,1,женат / замужем,0,F,пенсионер,0,149148.038069,получение высшего образования,пожилые,133412.900442,4851.38411
1439,0,1980.262882,29,среднее,1,женат / замужем,0,M,сотрудник,0,117590.107671,приобретение автомобиля,молодые,162513.291433,981.593723
4266,1,2307.778406,52,среднее,1,женат / замужем,0,M,компаньон,0,159623.172987,получение высшего образования,пожилые,166523.462873,2412.732199
1231,1,1115.784625,30,среднее,1,Не женат / не замужем,4,F,сотрудник,0,97484.340407,покупка жилья для семьи,молодые,130187.630873,1097.531171
20115,2,6924.906648,56,Среднее,1,Не женат / не замужем,4,M,сотрудник,0,135240.965916,покупка коммерческой недвижимости,пожилые,166523.462873,2412.732199
6308,1,216.786303,42,высшее,0,женат / замужем,0,F,компаньон,0,118906.691207,покупка жилой недвижимости,взрослые,140315.766455,1831.729975
20640,0,605.186692,60,среднее,1,женат / замужем,0,F,компаньон,0,197845.721171,покупка жилой недвижимости,пожилые,133412.900442,4851.38411
13673,0,2930.866014,63,среднее,1,женат / замужем,0,F,компаньон,0,211507.768746,покупка жилой недвижимости,пенсионеры,121084.030049,358166.492161
12592,0,342434.334622,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,67557.043107,операции со своей недвижимостью,пожилые,133412.900442,4851.38411


In [269]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 15 columns):
children            21423 non-null int64
days_employed       21423 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
days                21423 non-null float64
dtypes: float64(4), int64(5), object(6)
memory usage: 2.5+ MB


In [270]:
df.duplicated().sum()

54

In [271]:
df = df.drop_duplicates(keep='first')

In [272]:
df.sample(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
302,2,7381.422129,36,среднее,1,в разводе,3,F,сотрудник,1,45033.203067,недвижимость,взрослые,140315.766455,1831.729975
20715,0,4851.38411,59,высшее,0,женат / замужем,0,F,пенсионер,0,133412.900442,автомобили,пожилые,133412.900442,4851.38411
258,1,1710.140334,29,среднее,1,гражданский брак,1,F,компаньон,0,286533.860192,покупка жилья для семьи,молодые,130187.630873,1097.531171
14985,2,902.945416,30,среднее,1,женат / замужем,0,F,сотрудник,0,77845.966978,получение дополнительного образования,молодые,130187.630873,1097.531171
13738,0,2376.645119,54,среднее,1,женат / замужем,0,M,сотрудник,0,131766.407948,получение дополнительного образования,пожилые,166523.462873,2412.732199


Уберем лишние столбцы, которые нам больше не понадобятся.

In [273]:
df = df.drop(['inc_cat', 'days'], axis = 1)

Теперь округлим и заменим тип данных в столбцах `days_employed` и `total_income` для дальнейшего удоства.

In [274]:
df['days_employed'] = round(df['days_employed'], 0)
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = round(df['total_income'], 0)
df['total_income'] = df['total_income'].astype(int)

In [275]:
df.dtypes

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
category            object
dtype: object

In [276]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,1,8438,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,взрослые
1,1,4025,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,взрослые
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,взрослые
3,3,4125,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,взрослые
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21418,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224792,операции с жильем,взрослые
21419,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,156000,сделка с автомобилем,пенсионеры
21420,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89673,недвижимость,взрослые
21421,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,взрослые


Для дальнейшего анализа нам необходимо определить леммы, чтобы мы смогли отфильтровать клиентов по причинам займа. 

In [277]:
unique = df['purpose'].unique()

In [278]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

In [279]:
key = df['purpose']
lem = []
for i in key:
    result = ''.join(m.lemmatize(i)).strip()
    lem.append(result)

df1 = pd.DataFrame(data=lem, columns=['lemmas'])

In [280]:
df1

Unnamed: 0,lemmas
0,покупка жилье
1,приобретение автомобиль
2,покупка жилье
3,дополнительный образование
4,сыграть свадьба
...,...
21364,операция с жилье
21365,сделка с автомобиль
21366,недвижимость
21367,на покупка свой автомобиль


In [281]:
len(df1)

21369

In [282]:
df1['lemmas'].isna().sum()

0

При помощи лемматизации мы определили все значения целей кредитования и сохранили их в отдельном Датафрейме, чтобы все корректно поделить на категории. 

Теперь сделаем категоризацию данных на основе имеющегося Датафрейма после лемматизации.

In [283]:
def uniq(text):
    m.lemmatize(text)
    if ('жилье' in text or 'недвижимость' in text):
        return 'недвижимость'
    if ('автомобиль' in text):
        return 'авто'
    if ('образование' in text):
        return 'образование'
    if ('свадьба' in text):
        return 'свадьба'
    return 'прочее'
    
#добавляем в Датафрейм корректные категории целей выдачи кредита для дальнейшего анализа.    
df['for_category'] = df1['lemmas'].apply(uniq)

df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,for_category
1112,1,998,31,среднее,1,гражданский брак,1,F,сотрудник,0,227852,автомобиль,взрослые,авто
3054,1,3020,48,среднее,1,женат / замужем,0,M,сотрудник,0,222613,покупка своего жилья,пожилые,авто
10880,0,479,33,среднее,1,женат / замужем,0,M,сотрудник,0,120327,автомобили,взрослые,авто
19406,1,398716,54,Высшее,0,женат / замужем,0,M,пенсионер,0,553314,строительство жилой недвижимости,пожилые,недвижимость
9105,0,4812,59,высшее,0,гражданский брак,1,F,сотрудник,0,333825,сыграть свадьбу,пожилые,недвижимость
8711,0,2413,58,среднее,1,женат / замужем,0,M,сотрудник,0,166523,строительство недвижимости,пожилые,авто
278,1,1913,44,среднее,1,женат / замужем,0,M,компаньон,0,207375,ремонт жилью,взрослые,недвижимость
20193,0,715,26,среднее,1,Не женат / не замужем,4,M,компаньон,0,230016,строительство жилой недвижимости,молодые,недвижимость
13599,0,2449,42,среднее,1,в разводе,3,F,сотрудник,0,266017,покупка жилья для семьи,взрослые,недвижимость
6266,0,278,34,высшее,0,гражданский брак,1,M,компаньон,0,203879,покупка коммерческой недвижимости,взрослые,образование


При помощи Лемматизации мы смогли классифицировать клиентов на категории.

In [284]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21369 entries, 0 to 21422
Data columns (total 14 columns):
children            21369 non-null int64
days_employed       21369 non-null int64
dob_years           21369 non-null int64
education           21369 non-null object
education_id        21369 non-null int64
family_status       21369 non-null object
family_status_id    21369 non-null int64
gender              21369 non-null object
income_type         21369 non-null object
debt                21369 non-null int64
total_income        21369 non-null int64
purpose             21369 non-null object
category            21369 non-null object
for_category        21315 non-null object
dtypes: int64(7), object(7)
memory usage: 2.4+ MB


In [285]:
df[df['for_category'].isna() == True]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,for_category
21369,0,6241,59,среднее,1,женат / замужем,0,F,сотрудник,0,244123,жилье,пожилые,
21370,2,2769,39,высшее,0,женат / замужем,0,F,компаньон,0,362691,автомобили,взрослые,
21371,0,9945,48,среднее,1,женат / замужем,0,F,сотрудник,0,200224,операции с коммерческой недвижимостью,пожилые,
21372,1,395,33,высшее,0,женат / замужем,0,F,сотрудник,0,282902,сделка с автомобилем,взрослые,
21373,0,365213,52,среднее,1,женат / замужем,0,F,пенсионер,1,48239,свой автомобиль,пожилые,
21374,0,2540,52,высшее,0,женат / замужем,0,M,компаньон,0,527453,операции со своей недвижимостью,пожилые,
21375,0,1628,54,среднее,1,гражданский брак,1,F,сотрудник,0,71734,на проведение свадьбы,пожилые,
21376,1,921,28,Высшее,0,женат / замужем,0,F,сотрудник,0,181186,свой автомобиль,молодые,
21377,0,686,26,среднее,1,женат / замужем,0,M,сотрудник,0,171504,покупка жилья для сдачи,молодые,
21378,0,8799,45,высшее,0,Не женат / не замужем,4,F,сотрудник,0,146945,ремонт жилью,взрослые,


При помощи метода Квантиль определим 5 категорий уровню дохода для классификации клиентов.

In [131]:
spisok = []
for i in [0.2, 0.4, 0.6, 0.8, 1]:
    key = df['total_income'].quantile(i)
    spisok.append(key)
    print('Доля дохода при', i*100, "%", df['total_income'].quantile(i))
    
money = pd.Series(spisok)

Доля дохода при 20.0 % 98580.8
Доля дохода при 40.0 % 131970.2
Доля дохода при 60.0 % 162513.0
Доля дохода при 80.0 % 214489.20000000004
Доля дохода при 100 % 2265604.0


In [None]:
df['']

In [128]:
#Cоздав функцию мы определим всех клиентов на категории по доходам.

def level_income(income):
    if income <= money[0]:
        return 'очень низкий доход'
    if income <= money[1]:
        return 'низкий доход'
    if income <= money[2]:
        return 'средний доход'
    if income <= money[3]:
        return 'высокий доход'
    return 'очень высокий доход'

#Добавляем в датафрейм категории по доходам
    
df['group_income'] = df['total_income'].apply(level_income)

In [132]:
df['for_category'].isna().sum()

54