## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

<a id='start'></a>

### Исследование надёжности заёмщиков
_____
##### В данном исследовании представлены несколько таблиц с  категоризацией данных по возростной группе, уровню дохода, а так же перечнем самых популярных целей кредитования
______

###### Данное исследование разделим на несколько частей.

##### Часть 1. Изучение общей информации 

* <a href='#step_1'>Исследуем общую информацию таблицы</a>
* <a href='#step_1.1'>Посмотрим на первые и последние 5 строк табицы с данными</a>
* <a href='#step_1.2'>Проверим количество дубликатов</a>
* <a href='#step_1.3'>Вывод</a>


##### Часть 2. Предобработка данных 

* <a href='#step_2'>Обработка неверных значений</a>
* <a href='#step_2.1'>Обработка пропусков</a>
* <a href='#step_2.2'>Замена типа данных</a>
* <a href='#step_2.3'>Проверка корректности числовых значений в таблице</a>
    * <a href='#step_2.4.1'>Обработка некорректных данных в столбце 'children'</a>
    * <a href='#step_2.4.2'>Обработка некорректных данных в столбце 'days_employed'</a>
    * <a href='#step_2.4.3'>Обработка некорректных данных в столбце 'dob_years'</a>    
    * <a href='#step_2.4'>Вывод</a>
* <a href='#step_2.5'>Обработка дубликатов</a>
    * <a href='#step_2.5.1'>Просмотрим уникальные значения в столбце 'education'</a>
    * <a href='#step_2.5.2'>Просмотрим уникальные значения в столбце 'family_status'</a>
    * <a href='#step_2.5.3'>Просмотрим уникальные значения в столбце 'gender'</a>
    * <a href='#step_2.5.4'>Просмотрим список уникальных значений по столбцу 'purpose'</a>
    * <a href='#step_2.5.5'>Вывод</a>
* <a href='#step_2.6'>Лемматизация</a>
    * <a href='#step_2.6.1'>Вывод </a>
* <a href='#step_2.7'>Категоризация данных</a>
    * <a href='#step_2.7.0'>Произведём подсчёт количества кредитов по основным целям</a>
    * <a href='#step_2.7.1'>Выделим топ 10 основных потребностей клиентов для получения кредита</a>
    * <a href='#step_2.7.2'>Выделим основные группы людей, кому требуется кредит</a>
    * <a href='#step_2.7.3'>Произведём категоризацию данных по возростной группе</a>
    * <a href='#step_2.7.4'>Cведём все данные в сводную таблицу для оценки зависимости категории граждан от возврата/невозврата кредита</a>
    
    * <a href='#step_2.8'>Вывод</a>


##### Часть 3. Ответы на вопросы
* <a href='#step_3'>Есть ли зависимость между наличием детей и возвратом кредита в срок?</a>
    * <a href='#step_3.1.1'>Вывод </a>
* <a href='#step_3.1'>Есть ли зависимость между семейным положением и возвратом кредита в срок?</a>
    * <a href='#step_3.1.2'>Вывод </a>
* <a href='#step_3.2'>Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</a>
    * <a href='#step_3.1.3'>Вывод </a>
* <a href='#step_3.3'>Как разные цели кредита влияют на его возврат в срок?</a>
    * <a href='#step_3.1.4'>Вывод </a>

##### Часть 4. Обший вывод по проведённому исследованию 
* <a href='#step_4'>Вывод</a>

<a id='step_1'></a>

### Часть 1. Откроем файл с данными и изучим общую информацию. 

##### исследуем общую информацию таблицы

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data.csv')
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<a id='step_1.1'></a>

##### посмотрим на первые и последние 5 строк табицы с данными

In [None]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [None]:
data.tail() 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


<a id='step_1.2'></a>

##### проверим количество дубликатов

In [None]:
print('Количество дубликатов в иходной таблице = ',data.duplicated().sum(), 'повторениям')

Количество дубликатов в иходной таблице =  54 повторениям


<a id='step_1.3'></a>

### Вывод

При просмотре таблицы в глаза бросаются грубые ошибки в данных столбцов "days_employed" и "total_income" , судя по характеру данных, выгрузка в таблицу производится расчётом, в автоматическом порядке.
Необходимо сообщить в аналитический отдел по сбору данных о системной ошибке.

<a href='#start'>Вернуться к оглавлению</a>

<a id='step_2'></a>

### Часть 2. Предобработка данных

### Обработка неверных значений

##### изменяем тип данных столбца 'days_employed'
##### удаляем знак '-' и возвращаем тип данных в числовой методом .abs()

In [None]:
data['days_employed'] = data['days_employed'].abs()
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


<a id='step_2.1'></a>

### Обработка пропусков

##### ведём подсчёт пропущенных значений по столбцу 'days_employed'

In [None]:
data['days_employed'].isnull().sum()

2174

In [None]:
data.loc[data['days_employed'].isnull()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


#### ведём подсчёт пропущенных знчений по столбцу 'total_income'

In [None]:
data['total_income'].isnull().sum()

2174

In [None]:
data.loc[data['total_income'].isnull()].head() 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


<a id ='lin1'></a>

#### Вывод

Пропуски в столбцах 'days_employed' и 'total_income' имеют стандартное значение типа NaN, количество строк совпадает по двум столбцам. Данные пропущены не случайно, либо ошибка в выгрузке данных, либо они неуказаны при заполнении завки. Можно поробовать достать пропущенные значения у разработчиков.

#####  произведём подстановку средних значений в пропущщеные ячейки для сохранения основной чати статистики по остальным показателям

In [None]:
data[['days_employed','total_income']].mean()

days_employed     63046.497661
total_income     167422.302208
dtype: float64

In [None]:
# производим заполенение пропущенных занчений методом fillna с подстановкой среднего значения.
data['days_employed'] = data['days_employed'].fillna(data[['days_employed','total_income']].mean()[0])
data['total_income'] = data['total_income'].fillna(data[['days_employed','total_income']].mean()[1])

##### проверяем результат

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


#### Вывод

Отлично, все пропуски заполнены, можно дальше работать с данными. Пропуски заполнены методом fillna(), как наиболее подходящим при заполнении отсутствующих значений типа NaN.

<a id = 'step_2.2'></a>

### Замена типа данных

##### Приводим данные столбцов 'days_employed', 'total_income' к целым значениям, изменением типа данных на целочисленный, т.к. нет необходимости в такой точности дохода и количеств рабочих дней

In [None]:
data[['days_employed','total_income']] = data[['days_employed','total_income']].astype('int') 
data.head() # проверяем результат

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


#### Вывод

При подсчёте количества дней или дохода клиентов логичнее сразу приводить выгрузку в целочисленный вормат вывода данных, т.к. дробные значения только мешают при обработке данных.

<a id='step_2.3'></a>

### Проверка корректности числовых значений в таблице

##### проверим корректность данных в столбцах с числовыми значениями выводом граничных значений

In [None]:
data.agg({'children':['min','max'],'days_employed':['min','max'],'dob_years':['min','max'],'family_status_id':['min','max'],'total_income':['min','max']})

Unnamed: 0,children,days_employed,dob_years,family_status_id,total_income
min,-1,-18388,0,0,20667
max,20,401755,75,4,2265604


#### Вывод

Как можно легко заметить в нашей таблице есть множество значений не отражающих действительности, требуется откорректировать их вручную по каждому столбцу по отдельности

<a id='step_2.4.1'></a>

#### Обработаем некорректные данные в столбце 'children'

In [None]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

##### изменяем тип данных для корректировки отрицательного значения 

In [None]:
data['children'] = data['children'].astype('str')  
data['children'] = data['children'].replace('-','', regex=True).astype('float') # удаляем знак '-' и возвращаем тип данных в числовой


##### удаляем строки с неверными данными столбца 'children' из таблицы, т.к. эти данные некорректны и портят статистику

In [None]:
data = data[data.children  !=20] 

In [None]:
data['children'] = data['children'].astype('int') # изменяем тип данных на целочисленный
data['children'].min() # проверяем минимальное колчество детей столбца 'children'.

0

#### Вывод

При детальном просмотре табличных данных, видно, что данные со знаком "-" в количестве 76 шт, в попали в таблицу при автоматической выгрузке, и их мы привели к правильному значению, убрав знак "-", но со сначением в "20" детей однозначно сказать не возможно, по-этому эти значения из таблицы мы удалим как незначительную погрешность в масштабах всей таблицы, дабы не навредить статистике.

<a id='step_2.4.2'></a>

#### Обработаем некорректные данные в столбце 'days_employed'

In [None]:
value_error = data['days_employed'].loc[data['days_employed'] > 23725].count()
value_error # выбираем максимальный рабочий стаж в 65 лет и производим подсчёт

5603

In [None]:
print('Процент ошибочных данных составляет: {:.0%}'.format(value_error/len(data['days_employed'])))

Процент ошибочных данных составляет: 26%


In [None]:
data['days_employed'].loc[data['days_employed'] < 23725].mean() # вычислим среднее значение отработанных дней из всего списка удовлетворяющего условию трудового стажа менее 65 лет

-2353.2995708696203

In [None]:
data_m = data.copy()

In [None]:
data_m.loc[data_m['days_employed'] > 23725, 'days_employed'] = 2069 # производим замену неверно указанных значений трудового стажа средним значением, для сохранения статистики по другим показателям
data_m.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,2069,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


#### Вывод

Отлично, данные о количестве отработанных дней привели к среднему значению, т.к. коэффициент ошибочных значений в этом разделе был очень велик и удаление этих данных повлекло бы вывод неверных занчений в итоговом заключении. Обязательно требуется сообщить разработчикам/аналитикам по сбору даных об этом моменте, т.к. выгрузка некорректных данных имеет довольно большой процент от основной таблицы.

<a id='step_2.4.3'></a>

#### Обработаем некорректные данные в столбце 'dob_years'

##### просмотрим среднее значение по столбцу 'dob_years'

In [None]:
data_m[data_m['dob_years'] == 0].count()

children            100
days_employed       100
dob_years           100
education           100
education_id        100
family_status       100
family_status_id    100
gender              100
income_type         100
debt                100
total_income        100
purpose             100
dtype: int64

In [None]:
data_m[data_m['dob_years'] != 0].mean()

children                 0.474308
days_employed        -1198.792075
dob_years               43.501429
education_id             0.817837
family_status_id         0.971802
debt                     0.080800
total_income        167457.983325
dtype: float64

In [None]:
dob_mean=round(data_m['dob_years'].mean())
dob_mean

43

##### заменим нулевые значения в столбце 'dob_years' средним значением, для сохранения остальных данных таблицы

In [None]:
data_m.loc[data_m['dob_years'] == 0, 'dob_years'] = dob_mean

##### проверим результат

In [None]:
data_m[data_m['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


#### Вывод

Данные по выгрузке количества лет заёмщиков так же были выгружены некорректно, т.к. заёмщиков с возрастом в "0" лет не должно быть в системе. Считаю правильным предложить внести в программу фильтр-барьер при заполненнии завки, чтобы завка на кредит не предоставлялась без соблюдения требований заполнения количества лет, если эти данные были просто пропущены при заполнении заявки, либо проверить выгрузку данных в аналитическую программу.

<a id='step_2.4'></a>

### Вывод

In [None]:
len(data_m)

21449

In [None]:
perc_lost_val = len(data_m)/21525
perc_lost_val
print('Процент оставшихся данных после обработки значений: {:.1%}'. format(perc_lost_val) )

Процент оставшихся данных после обработки значений: 99.6%


Проведя работу по очистке данных от такого количества "мусора" с точностью можно сказать, что надо работать над предоставлением корректной выгрузки из программы с актуальными данными, т.к. после корректировок и усреднения значений, для сохранения остальной статистики данных, итоговая статистика по усреднённым данным может отличаться от реальности.

<a id='step_2.5'></a>
<a href='#start'>Вернуться к оглавлению</a>

### Обработка дубликатов

<a id='step_2.5.1'></a>

#### Просмотрим уникальные значения в столбце 'education'

In [None]:
data_m['education'].duplicated().sum()

21434

In [None]:
print(data_m['education'].unique()) 

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


##### приведём все значения столбца 'education' в нижний регистр 

In [None]:
data_m['education'] = data_m['education'].str.lower()
print(data_m['education'].unique()) # проверяем результат

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


<a id='step_2.5.2'></a>

#### Просмотрим уникальные значения в столбце 'family_status'

In [None]:
data_m['family_status'].duplicated().sum()

21444

In [None]:
print(data_m['family_status'].unique())

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']


##### приведём все значения столбца 'education' в нижний регистр

In [None]:
data_m['family_status'] = data_m['family_status'].str.lower()
print(data_m['family_status'].unique()) # проверяем результат

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'не женат / не замужем']


<a id='step_2.5.3'></a>

#### Просмотрим уникальные значения в столбце 'gender'

In [None]:
data_m['gender'].unique() 

array(['F', 'M', 'XNA'], dtype=object)

##### выведем строчку целиком для ознакомления

In [None]:
data_m.loc[data['gender']=='XNA'] 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


##### по результату ознакомления с данными делаем вывод что мы не можем однозначно определить к какому полу относятся данные столбца 'gender'. Удаляем строку с неопределённым значением из таблицы данных и проверяем результат

In [None]:
data_m = data_m[data_m.gender != 'XNA']
print(data_m['gender'].unique()) 

['F' 'M']


In [None]:
data_m['purpose'].duplicated().sum()

21410

<a id='step_2.5.4'></a>

#### Просмотрим список уникальных значений по столбцу 'purpose'

In [None]:
print(data_m['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


##### устраним опечатку и вернём правильное слово обрвтно в таблицу

In [None]:
data_m['purpose'] = data_m['purpose'].replace('ремонт жилью', 'ремонт жилья')
print(data_m['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилья' 'заняться высшим образованием']


##### проверим на количество дубликатов

In [None]:
data_m['purpose'].duplicated().sum()

21410

<a id ='step_2.5.5'></a>

### Вывод

Все данные удалось отсортировать от дубликатов, которые были вызваны разными регистрами, за исключением колонки с целями получения кредита. В данном случае потребуется использовать специальную функцию лемматизации. Исходя из количества дубликатов в колонке целей получения кредита, можно ожидать большое количество разновидностей написания одной и той же цели 

<a id='step_2.6'></a>
<a href='#start'>Вернуться к оглавлению</a>

### Лемматизация

##### В описании целей кредита множество формулировок одной и той же цели, по-этому нам потребуется самый продвинутый способ приведения списка целей к лемме.


In [None]:
# загружаем библиотеку 'pymystem3' так как это более продвинутый процесс лемматизации в отличии от стемминга.
from collections import Counter
from pymystem3 import Mystem
m = Mystem()


L = [] # для наглядности выводим количество полученных слов после лемматизации в колонке
for text in data_m['purpose']:
    lemmas = ''.join(m.lemmatize(text)) # удаляем лишние символы
    L.append(lemmas)

Counter(L)


Counter({'покупка жилье\n': 644,
         'приобретение автомобиль\n': 462,
         'дополнительный образование\n': 459,
         'сыграть свадьба\n': 770,
         'операция с жилье\n': 649,
         'образование\n': 445,
         'на проведение свадьба\n': 773,
         'покупка жилье для семья\n': 640,
         'покупка недвижимость\n': 621,
         'покупка коммерческий недвижимость\n': 661,
         'покупка жилой недвижимость\n': 605,
         'строительство собственный недвижимость\n': 629,
         'недвижимость\n': 633,
         'строительство недвижимость\n': 620,
         'на покупка подержать автомобиль\n': 473,
         'на покупка свой автомобиль\n': 505,
         'операция с коммерческий недвижимость\n': 647,
         'строительство жилой недвижимость\n': 625,
         'жилье\n': 643,
         'операция со свой недвижимость\n': 629,
         'автомобиль\n': 971,
         'заниматься образование\n': 412,
         'сделка с подержанный автомобиль\n': 485,
         'получ

<a id='step_2.6.1'></a>

### Вывод

Судя по данным выборки лемм и подсчёта их количества, кредит в основной массе берут на приобретение автомобиля, жилья и свадьбу

<a id='step_2.7'></a>
<a href='#start'>Вернуться к оглавлению</a>

### Категоризация данных

##### начнём категоризацию с переиндексирования строк общей таблицы после удаления данных.

In [None]:
data_m = data_m.reset_index(drop=True)

##### добавим новый столбец с леммами в основную таблицу

In [None]:
def sort_group(row):
    lemm_name = row['purpose']
    lemm = ''.join(m.lemmatize(lemm_name))
    return lemm
data_m['lemma'] = data_m.apply(sort_group, axis=1)

In [None]:
data_m['lemma'] = data_m['lemma'].replace('\n','', regex=True)
data_m.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование
4,0,2069,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба


##### добавим новый столбец c основными группами целей кредита

In [None]:
def lemm_group(lemma):
    word_in = lemma['lemma']
    
    if 'операция с жилье' in word_in or 'жилье' in word_in or 'покупка жилье' in word_in or 'строительство собственный недвижимость' in word_in or 'покупка жилье для семья ' in word_in or 'покупка жилой недвижимость' in word_in or 'покупка коммерческий недвижимость' in word_in or 'недвижимость' in word_in:
        return 'Операции с недвижимостью'
    
    if 'приобретение автомобиль' in word_in  or 'автомобиль' in word_in  or 'на покупка автомобиль' in word_in or 'свой автомобиль' in word_in or 'сделка с подержанный автомобиль' in word_in:
        return 'Операции с автомобилями'
    
    if 'сыграть свадьба' in word_in or 'на проведение свадьба' in word_in or 'свадьба' in word_in:
        return 'Свадьба'
    
    if 'образование' in word_in or 'дополнительный образование' in word_in  or 'заниматься образование' in word_in:
        return 'Образование'
    
    else:
        return 'другие'
data_m['lemm_group'] = data_m.apply(lemm_group, axis=1)
data_m.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,lemm_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье,Операции с недвижимостью
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль,Операции с автомобилями
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье,Операции с недвижимостью
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование,Образование
4,0,2069,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба,Свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,покупка жилье,Операции с недвижимостью
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,операция с жилье,Операции с недвижимостью
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,Образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,на проведение свадьба,Свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,покупка жилье для семья,Операции с недвижимостью


<a id='step_2.7.1'></a>

##### произведём подсчёт количества кредитов по основным целям

In [None]:
data_m['lemm_group'].value_counts()

Операции с недвижимостью    10803
Операции с автомобилями      4299
Образование                  4007
Свадьба                      2339
Name: lemm_group, dtype: int64

#### Выделим топ 10 основных потребностей клиентов для получения кредита

In [None]:
sum_purpose = data_m['lemma'].value_counts()
sum_purpose.head(10)

автомобиль                              971
свадьба                                 796
на проведение свадьба                   773
сыграть свадьба                         770
операция с недвижимость                 675
покупка коммерческий недвижимость       661
покупка жилье для сдача                 652
операция с жилье                        649
операция с коммерческий недвижимость    647
покупка жилье                           644
Name: lemma, dtype: int64

<a id='step_2.7.2'></a>

#### Выделим основные группы людей, кому требуется кредит

In [None]:
data_m['income_type'].value_counts().head(4)

сотрудник      11076
компаньон       5062
пенсионер       3847
госслужащий     1457
Name: income_type, dtype: int64

In [None]:
data_m['family_status'].value_counts()

женат / замужем          12331
гражданский брак          4164
не женат / не замужем     2804
в разводе                 1193
вдовец / вдова             956
Name: family_status, dtype: int64

<a id='step_2.7.3'></a>

#### Произведём категоризацию данных по возростной группе

In [None]:
def age_group(age):
       
        if age < 35:
                return 'золотые годы до 35 лет'
        if age <= 64:
                return 'взрослые до 65 лет'
        return 'пенсионеры старше 65 лет'
data_m['age_group'] = data_m['dob_years'].apply(age_group)

data_m['age_group'].value_counts()

взрослые до 65 лет          14595
золотые годы до 35 лет       5955
пенсионеры старше 65 лет      898
Name: age_group, dtype: int64

<a id='step_2.7.4'></a>

#### Cведём все данные в сводную таблицу для оценки зависимости категории граждан от возврата/невозврата кредита

In [None]:
data_pivot = data_m.pivot_table(index=['age_group', 'family_status'], columns='debt', values='purpose', aggfunc='count')
print(data_pivot)

debt                                               0    1
age_group                family_status                   
взрослые до 65 лет       в разводе               887   57
                         вдовец / вдова          720   49
                         гражданский брак       2528  237
                         женат / замужем        8132  579
                         не женат / не замужем  1293  113
золотые годы до 35 лет   в разводе               178   22
                         вдовец / вдова           15    2
                         гражданский брак       1116  140
                         женат / замужем        2843  327
                         не женат / не замужем  1154  158
пенсионеры старше 65 лет в разводе                44    5
                         вдовец / вдова          158   12
                         гражданский брак        135    8
                         женат / замужем         428   22
                         не женат / не замужем    84    2


<a id='step_2.8'></a>

### Вывод

Согласно проведённым исследованиям по категоризации данных, основную потреность в кредите испытывают взрослые люди в возрасте от 35 до 65 лет состоящие в официальном или гражданском браке, в то время как разведённые пенсионеры и вдовцы до 35 лет в кредитах не нуждаются.

<a id='step_3'></a>

### Часть 3. Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [None]:
no_return_debt = data_m.loc[data_m['debt'] == 0]
n = no_return_debt['children'].value_counts()
yes_return_debt = data_m.loc[data_m['debt'] == 1]
y = yes_return_debt['children'].value_counts()
data_piv_ch = pd.pivot_table(data_m, index=['children'],values= 'purpose', columns='debt', aggfunc='count').fillna(0).astype(int)


data_piv_ch['%'] = (y/n *100).fillna(0).astype(int)
data_piv_ch['%'] = data_piv_ch['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от наличия детей:')
print()
print(data_piv_ch)

Процент не возврата кредита в срок в зависимости от наличия детей:

debt          0     1     %
children                   
0         13085  1063   8 %
1          4420   445  10 %
2          1861   194  10 %
3           303    27   8 %
4            37     4  10 %
5             9     0   0 %


<a id='step_3.1.1'></a>

### Вывод

Мы наблюдаем приблизительно равновесную зависимость между наличием детей и возвратом кредита в срок. Клиенты не имеющие детей, с той же вероятностью могут просрочить возврат кредита как и семьи с тремя детьми. Особенно хорошо видна линейная зависимость количества взятых кредитов от количества детей, клиенты без детей в три раза больше берут кредитов в отличии от людей с одним ребёнком и более.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
no_return_fam = data_m.loc[data_m['debt'] == 0]
fam_n = no_return_fam['family_status'].value_counts()

yes_return_fam = data_m.loc[data_m['debt'] == 1]
fam_y = yes_return_fam['family_status'].value_counts()

data_piv_fam = pd.pivot_table(data_m, index=['family_status'], values= 'purpose', columns='debt', aggfunc='count').fillna(0).astype(int)


data_piv_fam['%'] = (fam_y/fam_n *100).fillna(0).astype(int)
data_piv_fam['%'] = data_piv_fam['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от семейного положения:')
print()
print(data_piv_fam)

Процент не возврата кредита в срок в зависимости от семейного положения:

debt                       0    1     %
family_status                          
в разводе               1109   84   7 %
вдовец / вдова           893   63   7 %
гражданский брак        3779  385  10 %
женат / замужем        11403  928   8 %
не женат / не замужем   2531  273  10 %


<a id='step_3.1.2'></a>

### Вывод

Cемейные пары находящиеся в официальном браке кредиты берут чаще и возвращают в срок, примерно с той же вероятностью что и граждане находящиеся в разводе. В то время как гарждане находящиеся не замужем или в гражданском браке имеют самые большие шансы не вернуть кредит в срок.

<a id='step_3.2'></a>

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

##### для начала определим граничные значения в списке дохода

In [None]:
data_m.agg({'total_income':['min','max','mean']}).astype('int')

Unnamed: 0,total_income
min,20667
max,2265604
mean,167416


##### разделим уровень дохода на три основные категории для удобства сведения данных

In [None]:
def total_group(val):
       
        if val < 45000:
                return '1_низкий доход (до 45 т.р.)'
        if val <= 150000:
                return '2_средний доход (до 150 т.р.)'
        return '3_высокий доход(свыше 150 т.р.)'
data_m['total_group'] = data_m['total_income'].apply(total_group)


##### сведём в талицу полученные данные и дполним процентами

In [None]:
no_return_inc = data_m.loc[data_m['debt'] == 0]
inc_n = no_return_inc['total_group'].value_counts()

yes_return_inc = data_m.loc[data_m['debt'] == 1]
inc_y = yes_return_inc['total_group'].value_counts()

data_piv_inc = pd.pivot_table(data_m, index=['total_group'], values= 'purpose', columns='debt', aggfunc='count').astype(int)

data_piv_inc['%'] = (inc_y/inc_n *100).fillna(0).astype(int)
data_piv_inc['%'] = data_piv_inc['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от уровня дохода:')
print()

print(data_piv_inc)

Процент не возврата кредита в срок в зависимости от уровня дохода:

debt                                 0    1    %
total_group                                     
1_низкий доход (до 45 т.р.)        203   14  6 %
2_средний доход (до 150 т.р.)     9086  827  9 %
3_высокий доход(свыше 150 т.р.)  10426  892  8 %


<a id='step_3.1.3'></a>

### Вывод

По результату выполенных подсчётов не трудно заметить, что люди имеющие доход ниже 45 т.р. кредитов берут меньше, но возвращают более охотно, в отличии от граждан с доходом до 150 т.р. и выше.

<a id='step_3.3'></a>

- Как разные цели кредита влияют на его возврат в срок?

In [None]:
no_debt = data_m.loc[data_m['debt'] == 0]
table_no_debt = no_debt['lemm_group'].value_counts()

In [None]:
yes_debt = data_m.loc[data_m['debt'] == 1]
table_yes_debt = yes_debt['lemm_group'].value_counts()

In [None]:
data_piv_ev = pd.pivot_table(data_m, index=['lemm_group'], columns='debt', values= 'purpose', aggfunc='count')
data_piv_ev['%'] = (table_yes_debt/table_no_debt * 100).astype(int).sort_values(ascending =False)
data_piv_ev['%'] = data_piv_ev['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от образования:')
print()

print(data_piv_ev)

Процент не возврата кредита в срок в зависимости от образования:

debt                          0    1     %
lemm_group                                
Образование                3638  369  10 %
Операции с автомобилями    3898  401  10 %
Операции с недвижимостью  10023  780   7 %
Свадьба                    2156  183   8 %


<a id='step_3.1.4'></a>

### Вывод

Кредит взятый на цели ремонта/покупки/обустройства жилья имеет самые высокие шансы быть возвращённым в срок, в отличии от кредитов, которые берут на цели получения образования или сделки связанные с автомобилем

<a id='step_4'></a>
<a href='#start'>Вернуться к оглавлению</a>

### Шаг 4. Общий вывод

        Была проведена масштабная работа по обработке входных данных, часть из них была отредактирована методом усреднения среднего значения. Человеческого фактора ошибки в методе заполнеиня данных очень мало, в большинстве случаев это проблемы с выгрузкой данных, на что обязательно требуется обратить внимание.
        В данном исследовании мы пришли к заключению, что люди берут кредитные деньги у банка в основном на четрыре категории - это 'автомобили', 'свадьба' и 'операции с жильём' и 'расходы связанные с обучением'. Абсолюным лидером в нашей статистике являются цели связанные с улучшением жилищных условий, которые занимают примерно половину объёма всех целей по потребности в кредите. Так же по статистике возврата безопаснее давать кредит под операции с жильём, чем под операции связанные с автомобилями, которые имеют практически те же шансы быть возвращёнными с задержкой как и кредиты связанные с получением дополнительного образования. 
        Тем самым можно сделать вывод, что банку для обеспечения безопасности и нивелирования задолжностей по кредитам выданным на цели 'авто' и 'обучение' необходимо повышать процентную ставку, в то время как по кредитам связанным с жильём, ставку можно чуть снизить, тем самым выйграв конкурентное преимущество перед другими предложениями на рынке и обеспечив больший объём. 

#### <a href='#start'>Вернуться к оглавлению</a>