## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

<nav class="toc">
  <h1>Содержание:</h1>
  <ul>
    <li><a href="#step1">Шаг 1.  Откройте файл с данными и изучите общую информацию</a>
  </ul>
    <ul>
    <li><a href="#step2">Шаг 2.  Предобработка данных</a>
        <ul>
        <li><a href="#step2_1">Обработка пропусков</a>
        <li><a href="#step2_2">Замена типа данных</a>
        <li><a href="#step2_3">Обработка дубликатов</a>
        <li><a href="#step2_4">Лемматизация</a>
        <li><a href="#step2_5">Категоризация данных</a>    
        </ul>    
  </ul>
  <ul>
  <li><a href="#step3">Шаг 3. Ответьте на вопросы</a>
  </ul>
  <ul>    
  <li><a href="#step4">Шаг 4. Вывод</a>
  </ul>
</nav>

### Шаг 1.  Откройте файл с данными и изучите общую информацию <a id='step1'></a>

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
#посмотрим общие данные о датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
#выведем первые 5 строк табоицы на экран
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


В столбцах датафрейма заключены следующие признаки:
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Вывод

<i> В загруженной таблице 21525 записей о заемщиках. В столбцах струдовым стажем и доходами есть пропущенные значения, а в столбце с трудовым стажем еще и артефакты (отрицательное количество дней и неадекватно высокие значения). В таблице 12 столбцов, 5 содержащих строковый тип данных, 5 - целочисленный данные и 2 - вещественные числа. В дальнейшем есть смыл перевести эти 2 столбца в целое число, так как высокой точности вычислений в данном проекте не требуется.  </i>

### Шаг 2. Предобработка данных <a id='step2'></a>

In [3]:
#выведем список названий всех столбцов
data.columns 

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [4]:
#для наглядности заменим название столбца с возрастом заемщика
data.set_axis(['children', 'days_employed', 'age', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'], axis = 'columns', inplace = True)
data.columns

Index(['children', 'days_employed', 'age', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

### Обработка пропусков <a id='step2_1'></a>

Для начала проверим количество пропусков в таблице по признакам:

In [5]:
#переменная, содержащая в себе количество пропусков по каждому признаку, значения отсортированы по убыванию
total = data.isnull().sum().sort_values(ascending = False)
#процент пропусков от общего количества записей в признаке
percent = ((data.isnull().sum() / data.isnull().count()).sort_values(ascending=False)) * 100
#объединяем в одну табличку и дадим название столбцам
missing_data = pd.concat([total, percent], axis = 1, keys = ['Total missing values', 'Percent %'])
#добавим столбец с типом данных каждого признака
missing_data['dtype'] = data.dtypes
missing_data

Unnamed: 0,Total missing values,Percent %,dtype
total_income,2174,10.099884,float64
days_employed,2174,10.099884,float64
purpose,0,0.0,object
debt,0,0.0,int64
income_type,0,0.0,object
gender,0,0.0,object
family_status_id,0,0.0,int64
family_status,0,0.0,object
education_id,0,0.0,int64
education,0,0.0,object


Пропуски обнаружены в двух столбцах: 'total_income' и 'days_employed'. Процент пропусков достаточно высок. Судя по одинакому количеству пропусков в двух столбцах, пропуски допущены в одинаковых строках, возможно это произошло при обработке заявлений банком или при их подаче заемщиками.

In [6]:
#выведем значения дней трудового стажа, отсортированные по возрастанию
#данный столбец, судя по условиям задания, нам не пригодится, но я решил привести его в порядок, возможно он будет востребован
#для дальнейших исследований
data['days_employed'].sort_values().head(10)

16335   -18388.949901
4299    -17615.563266
7329    -16593.472817
17838   -16264.699501
16825   -16119.687737
3974    -15835.725775
1539    -15785.678893
4321    -15773.061335
7731    -15618.063786
15675   -15410.040779
Name: days_employed, dtype: float64

Наблюдаем множество отрицательных значений, от этих артефактов нужно избавиться.

In [7]:
data['days_employed'].sort_values(ascending=False).head(10)

6954     401755.400475
10006    401715.811749
7664     401675.093434
2156     401674.466633
7794     401663.850046
4697     401635.032697
13420    401619.633298
17823    401614.475622
10991    401591.828457
8369     401590.452231
Name: days_employed, dtype: float64

Аналогично и с положительными, плюс чрезвыйчайно высокие значения, скорее всего связанные с ранее проводившимся подсчетом стажа в часах. Можно было вывести информацию через describe(), но я решил посмотреть, много ли неестественно высоких значений стажа, и понять закономерность их появления.

In [8]:
#переведем все значения в столбце 'days_employed' в положительные
data['days_employed'] = data['days_employed'].abs() 

#для людей в возрасте больше 55-60 лет в трудовом стаже записаны очень высокие значения, возможно, раньше трудовой стаж
#расчитывали в часах
def days_recovered(row):
    """
    функция переводит значения стажа в часах в дни
    """
    if row['days_employed'] / 365 > row['age']:
        return row['days_employed'] / 24
    return row['days_employed'] 

#применим функцию к столбцу с трудовым стажем
data['days_employed'] = data.apply(days_recovered, axis = 1)
days_mean = data['days_employed'].mean()
#заполняем пропуски средним значением
data['days_employed'] = data['days_employed'].fillna(value = days_mean)


In [9]:
#просмотрим статистику столбца 'age'
data['age'].describe()

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: age, dtype: float64

В столбце с возрастом заемщиков есть нулевые значения. Возможно они возникли при внесении данных операторами банка. Найдем количество этих значений.

In [10]:
data[data['age'] == 0].count()

children            101
days_employed       101
age                 101
education           101
education_id        101
family_status       101
family_status_id    101
gender              101
income_type         101
debt                101
total_income         91
purpose             101
dtype: int64

Заменить нулевые значения в данном случае можно как на медиану, так и на среднее значение, они близки, и при дальнейшей категоризации столбца на группы это нивелируется.

In [11]:
#заменим нулевые значения столбца 'age' на среднее значение
data.loc[data['age'] == 0, 'age'] = int(data['age'].mean())

In [12]:
#проверим результат
data['age'].describe()

count    21525.000000
mean        43.495145
std         12.218213
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: age, dtype: float64

Проверим зависимость изменения дохода заемщика от его возраста.
Разобьем заемщиков на группы по возрастному признаку:
- от 18 до 30 - молодежь
- от 30 до 55 - зрелые
- старше 55 - пожилые

In [13]:
def age_rating(row):
    
    """
    функция, разбивающая заемщиков на категории по возрасту 
    
    """
    if row <= 30:
        return 'молодежь'
    if row >= 55:
        return 'пожилые'
    return 'зрелые'

#применяем функцию income_rating к столбцу 'age'
data['age_rate'] = data['age'].apply(age_rating) 
#проверяем результат действия функции
data['age_rate'].value_counts() 

зрелые      12990
пожилые      4812
молодежь     3723
Name: age_rate, dtype: int64

In [14]:
#выведем свобную таблицу 
age_med = data.groupby('age_rate').agg({'total_income': 'median'}).astype('int')
age_mean = data.groupby('age_rate').agg({'total_income': 'mean'}).astype('int')
age_miss = data.groupby('age_rate')['total_income'].apply(lambda x: x.isnull().sum())
age_count = data.groupby('age_rate').agg({'age': 'count'}).astype('int') 
age_grouped = pd.concat([age_med, age_mean, age_miss, age_count], axis = 1)

#переименум столбцы (хотел переименовать путем .rename, но столбец с пропусками почему-то не переименовывает,
#присваивает '0' вместо нового имени)
age_grouped.set_axis(['Медиана', 'Среднее', 'Кол-во пропусков', 'Заемщиков в группе'], axis = 'columns', inplace = True)
#добавим столбец с процентным количеством пропусков
age_grouped['Процент, %'] = ((age_grouped['Кол-во пропусков'] / age_grouped['Заемщиков в группе']) * 100).round(1)
age_grouped

Unnamed: 0_level_0,Медиана,Среднее,Кол-во пропусков,Заемщиков в группе,"Процент, %"
age_rate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
зрелые,151966,175537,1307,12990,10.1
молодежь,143482,161360,357,3723,9.6
пожилые,129818,150125,510,4812,10.6


Как видно из таблицы, значение среднего дохода по медиане практически не зависит от возрастной группы заемщика. Среднее значение по группам отличается, но, скорее всего - это показатель неравномерности доходов внутри группы, есть заемщики, доход которых превышает доходы основной части группы. 
Проведем аналогичную проверку исходя из образования заемщика.

In [15]:
#просмотрим статистику столбца 'education'
data['education'].value_counts() 

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [16]:
#избавимся от дубликатов изменением регистра 
data['education'] = data['education'].str.lower() 
#проверим результат
print(data['education'].value_counts()) #проверим результат

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


In [17]:
#выведем свобную таблицу 
edu_med = data.groupby('education').agg({'total_income': 'median'}).astype('int')
edu_mean = data.groupby('education').agg({'total_income': 'mean'}).astype('int')
edu_miss = data.groupby('education')['total_income'].apply(lambda x: x.isnull().sum())
edu_count = data.groupby('education').agg({'age': 'count'}).astype('int') 
edu_grouped = pd.concat([edu_med, edu_mean, edu_miss, edu_count], axis = 1)

#переименум столбцы (хотел переименовать путем .rename, но столбец с пропусками почему-то не переименовывает,
#присваивает '0' вместо нового имени)
edu_grouped.set_axis(['Медиана', 'Среднее', 'Кол-во пропусков', 'Заемщиков в группе'], axis = 'columns', inplace = True)
#добавим столбец с процентным количеством пропусков
edu_grouped['Процент, %'] = ((edu_grouped['Кол-во пропусков'] / edu_grouped['Заемщиков в группе']) * 100).round(1)
edu_grouped

Unnamed: 0_level_0,Медиана,Среднее,Кол-во пропусков,Заемщиков в группе,"Процент, %"
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
высшее,175340,207142,544,5260,10.3
начальное,117137,132155,21,282,7.4
неоконченное высшее,160115,181534,69,744,9.3
среднее,136478,153715,1540,15233,10.1
ученая степень,157259,174750,0,6,0.0


По данной выборке ясно, что основная доля пропусков в двух группах - среднее и высшее образование. Большая часть пропусков у группы со средним образованием. 

Можно проверить распределение доходов в зависимости от рода занятости.

In [18]:
#ищем уникальные значения занятости заемщиков
print(data['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64


In [19]:
#выведем свобную таблицу 
work_med = data.groupby('income_type').agg({'total_income': 'median'}).astype('int')
work_mean = data.groupby('income_type').agg({'total_income': 'mean'}).astype('int')
work_miss = data.groupby('income_type')['total_income'].apply(lambda x: x.isnull().sum())
work_count = data.groupby('income_type').agg({'age': 'count'}).astype('int') 
work_grouped = pd.concat([work_med, work_mean, work_miss, work_count], axis = 1)

#переименум столбцы (хотел переименовать путем .rename, но столбец с пропусками почему-то не переименовывает,
#присваивает '0' вместо нового имени)
work_grouped.set_axis(['Медиана', 'Среднее', 'Кол-во пропусков', 'Заемщиков в группе'], axis = 'columns', inplace = True)
work_grouped['Процент, %'] = ((work_grouped['Кол-во пропусков'] / work_grouped['Заемщиков в группе']) * 100).round(1)
work_grouped

Unnamed: 0_level_0,Медиана,Среднее,Кол-во пропусков,Заемщиков в группе,"Процент, %"
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
безработный,131339,131339,0,2,0.0
в декрете,53829,53829,0,1,0.0
госслужащий,150447,170898,147,1459,10.1
компаньон,172357,202417,508,5085,10.0
пенсионер,118514,137127,413,3856,10.7
предприниматель,499163,499163,1,2,50.0
сотрудник,142594,161380,1105,11119,9.9
студент,98201,98201,0,1,0.0


Ситуация аналогична выборке по возрастным группам. Основная доля пропусков в трех группах - сотрудник, компаньон и пенсионер. 

In [20]:
#проверим информацию о столбце, максимальное и минимальное значение и медиану
data['total_income'].describe().round(0)

count      19351.0
mean      167422.0
std       102972.0
min        20667.0
25%       103053.0
50%       145018.0
75%       203435.0
max      2265604.0
Name: total_income, dtype: float64

В целом, наблюдается разброс при категоризации по признакам 'доход' и 'образование', в то время как признак 'возраст' в меньшей степени влияет на изменение доходов среди заемщиков. По-моему мнению, заполнение пропущенных значений медианой по определенному признаку может дать большую точность при анализе платежеспособности заемщиков по данному признаку, но настолько же исказить результаты по другим признакам. Поэтому считаю допустимым заполнение пропусков значение медианы по всему столбцу. Выбрано медианное, а не среднее значение, т.к. оно лучше отражает то, сколько зарабатывает средний заемщик, не учитывая искажения от немногочисленных высоких зарплат.

In [21]:
#выбираем в качестве заменяющего значения медианное как меньшее
income_med = int(data['total_income'].median())
income_med

145017

In [22]:
#заполняем пропуски в столбце с доходом медианой
data['total_income'] = data['total_income'].fillna(value = income_med)
#выводим информацию о датафрейме
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
age_rate            21525 non-null object
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Далее проверим данные по столбцу 'children'.

In [23]:
#проверим значения количества детей в столбце 'children'
data['children'].value_counts() 

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [24]:
#переводим отрицательные значения количества детей в положительные
data['children'] = data['children'].abs() 

#очевидно, что значение 20 - ошибочное, скорее всего - это ошибка при вводе данных 
#(клавиши 2 и 0 на цифровом блоке расположены рядом)
#заменим число 20 на 2, так как 2 расположено на блоке выше 0
data['children'] = data['children'].replace(20, 2) 

data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Так как количество аномальных значений по данному признаку очень мало, можно было удалить строки с этими значениями, но я решил их сохранить.

### Вывод

<i> Были заполнены пропуски в столбце 'days_employed'(возможно, это было излишним) на среднее значение. Столбец 'days_employed'также был избавлен от артефактов (отрицательные значение - метод .abs() и слишком высокие значения - написана функция для перевода часов в дни). Пропуски в столбце 'total_income' заменил на медиану по этому столбцу, так как она лучше отражает разброс дохода среди заемщиков. 
Столбец 'children' избавил от ошибок при вводе (отрицательные значения количества детей - метод .abs(), высокие значения - вручную на наиболее логично подходящее). </i>

### Замена типа данных <a id='step2_2'></a>

In [25]:
#заменяем вещественные тип чисел на целое
data['days_employed'] = data['days_employed'].astype('int') 
data['total_income'] = data['total_income'].astype('int') 
#проверяем результат замены типа данных
data.info() 
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
age_rate            21525 non-null object
dtypes: int64(7), object(6)
memory usage: 2.1+ MB


Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_rate
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,зрелые
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,зрелые
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,зрелые
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,зрелые
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,зрелые


### Вывод

<i> Мной был заменен тип данных в столбцах 'total_income' и 'days_employed' на целочисленные методом .astype(), так как высокая точность данных (знаки после запятой в данном проекте не нужна), плюс, это облегчает читаемость данных. </i>

### Обработка дубликатов <a id='step2_3'></a>

При заполнении пропусков уже была проведена частичная работа по обработке дубликатов, продолжим ее здесь.

In [26]:
#найдем количество дубликатов в таблице
data.duplicated().sum()

71

In [27]:
#ищем уникальные значения образования семейного положения
print(data['family_status'].value_counts()) 

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


In [28]:
#вроде все нормально, но можно привести к общему виду изменением регистра
data['family_status'] = data['family_status'].str.lower() 
print(data['family_status'].value_counts())

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64


С этим столбцом все хорошо. В столбцах 'education' и 'income_type' удаление дубликатов было произведено ранее. Теперь можно удалить дубликаты строк из таблицы.

In [29]:
#удаляем полные дубликаты строк из таблицы
data = data.drop_duplicates().reset_index(drop = True) 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
age                 21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
age_rate            21454 non-null object
dtypes: int64(7), object(6)
memory usage: 2.1+ MB


In [30]:
#проверяем результат манипуляций
data.head()

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_rate
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,зрелые
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,зрелые
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,зрелые
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,зрелые
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,зрелые


### Вывод

<i> Мной было вычислено количество дубликатов в таблице методом .duplicated().sum(). Так как в таблице нет уникальных категориальных переменных (таких как email, ФИО, телефон), сделал вывод, что дубликатом может быть только полная строка. Полное совпадение строки для двух заемщиков кажется мне практически невероятнымю. Далее были найдены уникальные значения в столбце образования заемщиков ('education') и приведены к общему регистру. Количество дубликатов строк после этого увеличилось. Так же были проведены подобные проверки по другим столбцам. После были удалены дубликаты строк в датафрейме методом drop_duplicates() с последующим .reset_index() для перерасчета индексов из-за возникших пробелов. </i>


### Лемматизация <a id='step2_4'></a>

In [137]:
from pymystem3 import Mystem
from collections import Counter
m = Mystem()
unique_purpose = data['purpose'].unique()

lemmas_list = []
m = Mystem()
for purpose in unique_purpose:
    lemmas = ''.join(m.lemmatize(purpose)).strip()
    lemmas_list.append(lemmas)
print(Counter(lemms))

Counter({' ': 59, '\n': 38, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'подержать': 1, 'со': 1, 'подержанный': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1})


In [138]:
#на основании словаря со счетчиком количества повторений, составим 'словарь' с целями кредитов
purposes_dict = ['автомобиль', 'жилье', 'недвижимость', 'свадьба', 'образование']
def purpose_type(row):
    
    '''
    функция для поиска совпадений слов из ячейки после лемматищации со словами в словаре
    
    '''
    try:
        lemmas = m.lemmatize(row)
        for word in lemmas:
            if word in purposes_dict:
                if word == 'жилье': #объединяем цели 'жилье' и 'недвижимость'
                    return 'недвижимость'
                return word 
    except:
        return 'без категории' #возращаем значение 'без категории' в случае отсутствия совпадения
    
#применяем функцию purpose_type к столбцу 'purpose'
data['purpose_category'] = data['purpose'].apply(purpose_type) 
#проверяем результат действия функции
data['purpose_category'].value_counts() 

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_category, dtype: int64

In [139]:
#проверяем результаты манипуляций
print(data.head(10)) 

   children  days_employed  age education  education_id     family_status  \
0         1           8437   42    высшее             0   женат / замужем   
1         1           4024   36   среднее             1   женат / замужем   
2         0           5623   33   среднее             1   женат / замужем   
3         3           4124   32   среднее             1   женат / замужем   
4         0          14177   53   среднее             1  гражданский брак   
5         0            926   27    высшее             0  гражданский брак   
6         0           2879   43    высшее             0   женат / замужем   
7         0            152   50   среднее             1   женат / замужем   
8         2           6929   35    высшее             0  гражданский брак   
9         0           2188   41   среднее             1   женат / замужем   

   family_status_id gender income_type  debt  total_income  \
0                 0      F   сотрудник     0        253875   
1                 0      F  

### Вывод

<i> В столбце 'purpose' с целью категоризации данных была создана функция проводящая лемматизацию ячейки с последующим сравнением со 'словарем' возможных категорий, и возвращающая совпадающее значение. Словарь, в свою очередь, был создан вручную из наиболее часто встречающихся значений цели, полученных лемматизачией уникальных значений из столбца 'purpose'. Был также применен метод try-except, в случае отсутствия совпадений возвращающий значение 'без категории'. </i>

---

### Категоризация данных <a id='step2_5'></a>

In [140]:
def child_cat(row):
    '''
    функция разбивает заемщиков на категории в зависимости от количества детей
    
    '''
    if row == 0:
        return 'бездетный'
    if row == 1 or row == 2:
        return 'малодетный'
    return 'многодетный'

data['child_status'] = data['children'].apply(child_cat) #применим функцию child_cat к столбцу 'children'
data['child_status'].value_counts() #проверим результат действия функции

бездетный      14091
малодетный      6983
многодетный      380
Name: child_status, dtype: int64

In [141]:
family_grouped = data.groupby('family_status').agg({'children': 'count'}).rename(columns = {'children': 'Заемщики в группе'}).sort_values(by = 'Заемщики в группе', ascending = False)
family_grouped
#группируем данные по семейному статусу и считаем количество заемщиков в группах

Unnamed: 0_level_0,Заемщики в группе
family_status,Unnamed: 1_level_1
женат / замужем,12339
гражданский брак,4151
не женат / не замужем,2810
в разводе,1195
вдовец / вдова,959


In [142]:
#просмотрим информацию о столбце доходов заемщиков
data['total_income'].describe().astype('int')

count      21454
mean      165225
std        98021
min        20667
25%       107623
50%       145017
75%       195813
max      2265604
Name: total_income, dtype: int64

Разобьем заемщиков на группы по доходу:
- до 90к - низкий
- от 90к до 150к - средний
- от 150к до 200к - выше среднего
- от 200к до 300к - высокий
- свыше 300к - очень высокий

"""
def income_rating(row):
    
    
    #функция, разбивающая заемщиков на категории по уровню их дохода 
    #(переменная income_med была вычислена при обработке пропусков)
    
    if row < income_med * 0.6:
        return 'низкий'
    if row > income_med * 2.25:
        return 'высокий'
    return 'средний'
#применяем функцию income_rating к столбцу 'total_income'
data['income_rate'] = data['total_income'].apply(income_rating)
#проверяем результат действия функции
data['income_rate'].value_counts() 
"""

In [143]:
def income_rating(row):
    
    """
    функция, разбивающая заемщиков на категории по уровню их дохода 
    (переменная income_med была вычислена при обработке пропусков)
    """
    if row < 100000:
        return 'низкий'
    if row >= 100000 and row < 150000:
        return 'средний'
    if row >= 150000 and row < 250000:
        return 'выше среднего'
    if row >= 250000 and row < 350000:
        return 'высокий'
    return 'очень высокий'
#применяем функцию income_rating к столбцу 'total_income'
data['income_rate'] = data['total_income'].apply(income_rating)
#проверяем результат действия функции
data['income_rate'].value_counts() 

средний          7807
выше среднего    6372
низкий           4463
высокий          1954
очень высокий     858
Name: income_rate, dtype: int64

### Вывод

<i> Данные в датафрейме были разбиты на категории по различным признакам (уровень дохода, количество детей, семейный статус  и цель кредита (выделение в категорию было проведено при лемматизации). В зависимости от количества детей категоризация была проведена путем применения функции child_cat, в зависимости от количества детей, возвращающей значение бездетной, малодетной или многодетной семьи (согласно оффициальной классификации). Категоризация по семейному статусу уже была включена в исходную таблицу. Категоризация по уровню дохода была проведена с применением функции income_rating, возвращающей значение исходя из отношения дохода заемщика к медиане. Классификация уровня дохода так же была взята из открытых источников. Подавляющее большинство заемщиков попало в категорию со средним уровнем дохода, наименьшее - с высоким. </i>

### Шаг 3. Ответьте на вопросы <a id='step3'></a>

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [144]:
#создадим сводную таблицу зависимости наличия просрочек по кредиту в зависимости от наличия детей
data_child_pivot = data.pivot_table(index=['child_status'], columns = 'debt', values='age', aggfunc='count')
#выведем таблицу на экран
data_child_pivot 

debt,0,1
child_status,Unnamed: 1_level_1,Unnamed: 2_level_1
бездетный,13028,1063
малодетный,6336,647
многодетный,349,31


In [145]:
#добавим столбец с процентом просрочивших платеж в категории
data_child_pivot['ratio, %'] = ((data_child_pivot[1] / (data_child_pivot[0] + data_child_pivot[1])) * 100).round(1)
#переименуем названия столбцов и индексов, а также сами столбцы
data_child_pivot.index.names = ['цель']
data_child_pivot.columns.names = ['просрочка']
data_child_pivot.rename(columns={0: 'нет', 1: 'есть'}, inplace=True)
#выведем таблицу на экран
data_child_pivot.sort_values(by = 'ratio, %')

просрочка,нет,есть,"ratio, %"
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
бездетный,13028,1063,7.5
многодетный,349,31,8.2
малодетный,6336,647,9.3


### Вывод

<i> По результатам исследования можно сделать вывод, что бездетные семьи реже просрачивают выплату кредитов, по моему мнению, из-за меньшего количества источников расходов (содержание детей, их лечение, оплата учебы, во многих случаях источники дохода уменьшаются из-за того, что второй супруг не работает, а занят воспитанием детей). Так же многодетные семьи реже просрочивают выплату, чем малодетные, возможно, из-за большего опыта воспитания детей и распределения расходов. В целом, разница между категориями не так велика, выборка многодетных семей довольно невелика, может быть непоказательной. </i>

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [146]:
#создадим сводную таблицу зависимости наличия просрочек по кредиту в зависимости от семейного положения
data_family_pivot = data.pivot_table(index=['family_status'], columns = 'debt', values='age', aggfunc='count')
#выведем таблицу на экран
data_family_pivot 

debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
в разводе,1110,85
вдовец / вдова,896,63
гражданский брак,3763,388
женат / замужем,11408,931
не женат / не замужем,2536,274


In [147]:
#добавим столбец с процентом просрочивших платеж в категории
data_family_pivot['ratio, %'] = ((data_family_pivot[1] / (data_family_pivot[0] + data_family_pivot[1])) * 100).round(1)
#переименуем названия столбцов и индексов, а также сами столбцы
data_family_pivot.index.names = ['цель']
data_family_pivot.columns.names = ['просрочка']
data_family_pivot.rename(columns={0: 'нет', 1: 'есть'}, inplace=True)
#выведем отсортированную по проценту просрочивших таблицу на экран
data_family_pivot.sort_values(by = 'ratio, %') 

просрочка,нет,есть,"ratio, %"
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,896,63,6.6
в разводе,1110,85,7.1
женат / замужем,11408,931,7.5
гражданский брак,3763,388,9.3
не женат / не замужем,2536,274,9.8


### Вывод

<i> Была создана сводная таблица зависимости просрочки платежа по кредиту от семейного положения заемщика. Согласно результатам, заемщики, не состоящие или никогда не бывшие в браке, чаще допускают просрочки по кредитам. По моему мнению, это может быть связано с образом жизни, включающим в себя меньше обязательств, а так же с ведением более активной личной жизни, и, как следствие, большими тратами. </i>

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [148]:
#создадим сводную таблицу зависимости наличия просрочек по кредиту в зависимости от уровня дохода
data_income_pivot = data.pivot_table(index=['income_rate'], columns = 'debt', values='age', aggfunc='count')
#выведем таблицу на экран
data_income_pivot 

debt,0,1
income_rate,Unnamed: 1_level_1,Unnamed: 2_level_1
высокий,1815,139
выше среднего,5840,532
низкий,4109,354
очень высокий,803,55
средний,7146,661


In [149]:
#добавим столбец с процентом просрочивших платеж в категории
data_income_pivot['ratio, %'] = ((data_income_pivot[1] / (data_income_pivot[0] + data_income_pivot[1])) * 100).round(1)
data_income_pivot.index.names = ['цель']
data_income_pivot.columns.names = ['просрочка']
data_income_pivot.rename(columns={0: 'нет', 1: 'есть'}, inplace=True)
#выведем отсортированную по проценту просрочивших таблицу на экран
data_income_pivot.sort_values(by = 'ratio, %') 

просрочка,нет,есть,"ratio, %"
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
очень высокий,803,55,6.4
высокий,1815,139,7.1
низкий,4109,354,7.9
выше среднего,5840,532,8.3
средний,7146,661,8.5


### Вывод

<i> Используя pivot_table создана сводная таблица зависимости просрочки платежа по кредиту от уровня дохода заемщика. Как и ожидалось, заемщики с высоким уровнем дохода реже пропускают платежи по кредитам. В то же время, заемщики с низким уровнем дохода реже допускают просрочки по кредитам, чем заемщики со средним уровнем. Это может быть связано с большей приспособленностью людей с низким доходом распределять свои расходы и планировать бюджет из-за частого недостатка средств. </i>

- Как разные цели кредита влияют на его возврат в срок?

In [150]:
#создадим сводную таблицу зависимости наличия просрочек по кредиту в зависимости от цели кредитования
data_purpose_pivot = data.pivot_table(index=['purpose_category'], columns='debt', values='age', aggfunc='count')
#выведем таблицу на экран
data_purpose_pivot 

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
автомобиль,3903,403
недвижимость,10029,782
образование,3643,370
свадьба,2138,186


In [151]:
#добавим столбец с процентом просрочивших платеж в категории
data_purpose_pivot['ratio, %'] = ((data_purpose_pivot[1] / (data_purpose_pivot[0] + data_purpose_pivot[1])) * 100).round(1)
data_purpose_pivot.index.names = ['цель']
data_purpose_pivot.columns.names = ['просрочка']
data_purpose_pivot.rename(columns={0: 'нет', 1: 'есть'}, inplace=True)
#выведем отсортированную по проценту просрочивших таблицу на экран
data_purpose_pivot.sort_values(by = 'ratio, %') 

просрочка,нет,есть,"ratio, %"
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
недвижимость,10029,782,7.2
свадьба,2138,186,8.0
образование,3643,370,9.2
автомобиль,3903,403,9.4


### Вывод

<i> Как видно из сводной таблицы, меньше всего просрочек по кредитам на недвижимость, так как это самая доростоящая из целей и лишиться ее наиболее неприятно и затратно. Более высокий процент просрочек по автокредитам может быть обусловлен тем, что в России автомобиль - не только средство передвижения, но и статуса, что зачастую приводит к непосильно взятым кредитам.</i>

Добавим исследование по еще одному признаку:
- Есть ли зависимость между обзразованием заемщика и возвратом кредита в срок?

In [152]:
#создадим сводную таблицу зависимости наличия просрочек по кредиту в зависимости от образования заемщика
data_education_pivot = data.pivot_table(index=['education'], columns='debt', values='age', aggfunc='count')
#выведем таблицу на экран
data_education_pivot 

debt,0,1
education,Unnamed: 1_level_1,Unnamed: 2_level_1
высшее,4972.0,278.0
начальное,251.0,31.0
неоконченное высшее,676.0,68.0
среднее,13808.0,1364.0
ученая степень,6.0,


In [153]:
#добавим столбец с процентом просрочивших платеж в категории
data_education_pivot['ratio, %'] = ((data_education_pivot[1] / (data_education_pivot[0] + data_education_pivot[1])) * 100).round(1)
data_education_pivot.index.names = ['цель']
data_education_pivot.columns.names = ['просрочка']
data_education_pivot.rename(columns={0: 'нет', 1: 'есть'}, inplace=True)
#выведем отсортированную по проценту просрочивших таблицу на экран
data_education_pivot.sort_values(by = 'ratio, %') 

просрочка,нет,есть,"ratio, %"
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высшее,4972.0,278.0,5.3
среднее,13808.0,1364.0,9.0
неоконченное высшее,676.0,68.0,9.1
начальное,251.0,31.0,11.0
ученая степень,6.0,,


Очень интересные результаты получились при проверке зависимости просрочки выплат кредитов от образования замещика. Как мы видим, с ростом образования процент просрочек понижается, исключений нет. Вероятно образование дает не только глубокие профессиональные знания, но и развивает навыки, полезные в повседневной жизни.

### Шаг 4. Общий вывод <a id='step4'></a>

Мной была проведена работа по исследованию надежности заемщиков. Она состояла из следующих этапов:
<h4> Открытие файла </h4> 
Был произведен импорт библиотеки pandas и загрузка файла при помощи read_csv() и дальнейший вывод информации о датафрейме.
<h4> Обработка пропусков </h4> 
Были заменены пропуски в столбцах 'days_employed' и 'total_income' на средние и медианные значения, рассчитаны медианные значения в зависимости от категорий заемщиков, убраны отрицательные значения методом .abs()
<h4> Замена типа данных </h4>
Тип данных в столбцах 'days_employed' и 'total_income' был заменен на целочисленный методом .astype(), так как высокая точность числовых значений в данном исследовании не так важна.
<h4> Обработка дубликатов </h4>
Рассчитал количество дубликатов строк в таблице. Значения в столбце 'education' и 'family_status' были приведены к одному регистру методом .str.lower(). Увеличившееся количество дубликатов было удалено методом .drop_duplicates() совместно с .reset_index()
<h4> Лемматизация </h4>
Произведена лемматизация по столбцу 'purpose' с последующим применением Counter для поиска наиболее часто встречабщихся целей и составления 'словаря' с ними. Далее написал функцию, сравнивающую слова в ячейке после лемматизации со словами из словаря, при совпадении возвращающая совпавшее значение. Применил функцию к датафрейму, получив новый столбец с категорией цели кредита.
<h4> Категоризация данных </h4>
Данные были категоризированы по 4 признакам:
1. Количество детей у заемщика
2. Семейное положение
3. Доход
4. Цель кредита
Была написана функция child_cat, получающая на вход количество детей и возвращающая значение ('бездетный', 'малодетный' или 'многодетный') согласно общепринятой классфикации, функция была применена к датафрейму data.
Аналогично с уровнем дохода заемщика, функция, возвращающая значение ('высокий', 'средний', 'низкий').
Категоризация по семейному положению и цели кредита уже существовала в таблице.
<h4> Ответы на вопросы </h4>
По каждой из категорий была выведена сводная таблица зависимости наличия долга по кредиту от отношения заемщика к определенной категории.
Исследование показало не очень высокую зависимость наличия долга от категории, к которой относится заемщик.
Реже всего просрачивают кредиты бездетные заемщики, вдовы и вдовцы, люди с высоким доходом, а также заемщики, берущие кредиты на жилье.
Чаще всего долги по кредитам возникают у людей не состоящих в браке, и никогда в нем не состоявших, заемщиков со средним доходом, малодетных семей и берущих автокредиты, а также заемщиков с низким уровнем образования.