## Исследование надёжности заёмщиков

### Определим какие факторы влияют на возврат кредита в срок
_____

###### Данное исследование разделим на несколько частей.
##### Часть 1. Изучение общей информации:
* [1. Изученеие файлов с данными, получение общей информации, загрузка библиотек.](#1-bullet)

##### Часть 2. Подготовка данных:
* [1. Обработка пропусков.](#2-bullet)
* [2. Замена типа данных.](#3-bullet)
* [3. Обработка дубликатов.](#4-bullet)
* [4. Лемматизация целей.](#5-bullet)
* [5. Категоризация данных.](#6-bullet)

##### Часть 3. Ответы на вопросы:
* [3.1 Есть ли зависимость между наличием детей и возвратом кредита в срок?](#7-bullet)
* [3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?](#8-bullet)
* [3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?](#9-bullet)
* [3.4 Как разные цели кредита влияют на его возврат в срок?](#10-bullet)

##### Часть 4. Заключение:
* [1. Общий вывод](#11-bullet)

<a id='1-bullet'></a>
### 1. Изучение общей информации.

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
print('Общая информация о данных:')
print(data.info())

Общая информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [2]:
print('Размер таблицы:', data.shape)

Размер таблицы: (21525, 12)


In [3]:
print('Наименования столбцов:', data.columns)

Наименования столбцов: Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')


### Вывод

В колонках "days_employed" и "total_income" присутствуют пропуски, необходимо их обработать. Наименования столбцов указаны корректно.

### 2. Подготовка данных

<a id='2-bullet'></a>
### Обработка пропусков

In [4]:
print(data.isnull().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


In [5]:
try:
    data_days_employed_null = data[data['days_employed'].isnull()]
    data_total_income_null = data[data['total_income'].isnull()]
    result_null = data_days_employed_null['total_income'].isnull().count() == data_total_income_null['days_employed'].isnull().count()
    if result_null==True:
        print('В столбцах "days_employed" и "total_income" пропуски в одних и тех же строках')
    else:
        print('В столбцах "days_employed" и "total_income" пропуски в разных строках. Нужно анализировать из отдельно')
except:
    print('Проверьте входные данные')

В столбцах "days_employed" и "total_income" пропуски в одних и тех же строках


In [6]:
#пропуски в 'days_employed' - количественные => заполняем характерными средними значениями
try:
    #найдем уникальные значения в столбце 'children' 
    for children_value in data['children'].unique():
        # сгруппируем данные по столбцу 'children' и найдем медиану столбца 'days_employed'
        median = data.loc[data['children'] == children_value, 'days_employed'].median()
        #посмотрим, что получилось в группировке
        #print('children', children_value, median)
        #заменим пропущенные значения в 'days_employed' медианой в зависимости от количества детей
        data.loc[(data['days_employed'].isnull()) & (data['children'] == children_value), 'days_employed'] = median
    #проверим результат
    if data['days_employed'].isnull().sum() == 0:
        print('Замена в "days_employed" удалась')
    else:
        print('Замена в "days_employed" НЕ удалась')
except:
    print('Проверьте данные в столбцах "days_employed", "total_income" и "children"')

Замена в "days_employed" удалась


In [7]:
#пропуски в 'total_income' - количественные => заполняем характерными средними значениями
try:
    #найдем уникальные значения в столбце 'income_type'
    for income_type_value in data['income_type'].unique():
        # сгруппируем данные по столбцу 'income_type' и найдем медиану столбца 'days_employed'
        median = data.loc[data['income_type'] == income_type_value, 'total_income'].median()
        #посмотрим что получилось в группировке
        #print('income_type', income_type_value, median)
        #заменим пропущенные значения в 'total_income' медианой в зависимости от типа занятости
        data.loc[(data['total_income'].isnull()) & (data['income_type'] == income_type_value), 'total_income'] = median
    #проверим результат
    if data['total_income'].isnull().sum() == 0:
        print('Замена в "total_income" удалась')
    else:
        print('Замена в "total_income" НЕ удалась')
except:
    print('Проверьте данные в столбцах "days_employed", "total_income" и "income_type"')

Замена в "total_income" удалась


### Вывод

Пропуски в столбцах 'общий трудовой стаж в днях' и 'ежемесячный доход' количественные, заполним их характерными значениями. Предполагаемая зависимость трудового дня и месячного дохода от количества детей в семье подтверждается данными расчета медианы в зависимости от количества детей. Пропуски в дынных заполнены медианой в зависимости от количества детей в семье.

Наверняка обнаруженные пропуски не случайны, так как допущены в одних и тех же строках. Необходимо проработать вопрос появления таких пропусков совместно с инженерами данных, чтобы найти причину и устранить их в будущем.

<a id='3-bullet'></a>
### Замена типа данных

In [8]:
#заменим float на int, они не оказывают существенного для результата влияния, но затрудняют восприятие
try:
    data['days_employed'] = data['days_employed'].astype('int')
    data['total_income'] = data['total_income'].astype('int')
except:
    print('Проверьте данные в колонках "общий трудовой стаж в днях" и "ежемесячный доход"')
#посмотрим, что получилось
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

Для анализа данных в столбцах 'общий трудовой стаж в днях' и 'ежемесячный доход' отбросим значения после точки. Они не окажут существенного влияния на выводы, но будут затруднять восприятие данных.

<a id='4-bullet'></a>
### Обработка дубликатов

In [9]:
#найдем все полные дубликаты и удалим их
try:
    data = data.drop_duplicates().reset_index(drop=True)
    if data.duplicated().sum() == 0:
        print('Дубликаты удалены')
    else:
        print('Не удалось удалить дубликаты')
except:
    print('Проверьте входные данные')

Дубликаты удалены


In [10]:
try:
    #в столбце 'education' множество дубликатов, которые записаны по-разному
    data['education'].value_counts()
    #заменим значения в столбце 'education' на значения в нижнем регистре
    data['education'] = data['education'].str.lower()
except:
    print('Не удалось привести значения столбца "education" в нижний регистр. Проверьте входящие данные и их тип')
#посмотрим какие остались дубликаты
data['education'].value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [11]:
data['gender'].value_counts()
#обнаружили 'XNA' в столбце 'gender', его придется заменить вручную
try:
    data[data['gender'] == 'XNA']
    #по значениям других колонок не понять гендер, но учитываю ничтожную долю в общем объеме
    #можно заменить этот гендер на любой. Заменим на 'M'
    data.loc[(data['gender'] == 'XNA'), 'gender'] = 'M'
except:
    print('Проверьте данные в колонке "gender". Возможно, отсутствует значение "XNA"')
data['gender'].value_counts()

F    14189
M     7282
Name: gender, dtype: int64

In [12]:
data['children'].value_counts()
#отрицательное значение детей сомнительно, нужно обсудить почему так вышло инженерами по данным
#сейчас просто заменим на положительное значение
try:
    #data[data['children'] == -1]
    data.loc[(data['children'] == -1), 'children'] = 1
except:
    print('Проверьте данные в колонке "children". Возможно отсутствуют отрицательные значения')
data['children'].value_counts()

0     14107
1      4856
2      2052
3       330
20       76
4        41
5         9
Name: children, dtype: int64

In [13]:
data['education'].value_counts()
try:
    #data[data['education'] == 'ученая степень']
    data.loc[(data['education'] == 'ученая степень'), 'education'] = 'высшее'
except:
    print('Проверьте данные в колонке "education"')
data['education'].value_counts()

среднее                15188
высшее                  5257
неоконченное высшее      744
начальное                282
Name: education, dtype: int64

### Вывод

Обнаружили 54 полных дубликата. Такие дубликаты могли появиться при падениях сети во время выгрузки или при объединении данных. Доля дубликатов менее 1% от общего массива. Из данные они удалены.

В колонке 'education' были записаны значения в разных регистрах, привели все значения в нижний регистр. Также в этом столбце обнаружились заемщики с ученой степенью, их ничтожно мало, поэтому отнесли их к группе с высшим образованием.

В столбце 'gender' обнаружили значение 'XNA'. По значениям других колонок нельзя достоверно определить гендер, но учитывая ничтожную долю в общем объеме можно заменить этот гендер на любой. Заменим на 'M'.

Нашлись заемщики с отрицательные значения количества детей в семье (-1), заменили их на положительные (1). Также в столбце 'days_employed' присутствуют отрицательные значения, которые необходимо было бы заменить на положительные, либо удалить. Так как мы не выдвигали гипотез, связанных с этим столбцом, можем не обрабатывать его. Необходимо выяснить причину у команды инженеров данных или разработчиков о том, почему могут появляться отрицательные значения и как от этого избавиться.

<a id='5-bullet'></a>
### Лемматизация целей

In [14]:
from pymystem3 import Mystem
m = Mystem()

#посмотрим какие есть уникальные значения столбце 'purpose'
#data['purpose'].unique()
#лемматизируем эту колонку и увидим несколько вариантов назначений
#варианты использования кредита для покупки недвижимости и сдачи в аренду включим в группу 'недвижимость'
#заменим леммы на обнаруженные группы

def purpose_lemmas (purpose):
    lemmas = m.lemmatize(purpose)
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    if 'свадьба' in lemmas:
        return 'свадьба'
    if 'недвижимость' in lemmas:
        return 'недвижимость'
    if 'жилье' in lemmas:
        return 'недвижимость'
    if 'образование' in lemmas:
        return 'образование'
    return lemmas

try:
    #добавим обнаруженные категории в новый столбец 'purpose_lemmas'
    data['purpose_lemmas'] = data['purpose'].apply(purpose_lemmas)
except:
    print('не удалось добавить столбец, проверьте данные в столбце "purpose"')
#проверим все ли строки правильно обработались
data['purpose_lemmas'].value_counts()

недвижимость    10814
автомобиль       4308
образование      4014
свадьба          2335
Name: purpose_lemmas, dtype: int64

### Вывод

В основном заемщики берут денежные средства для покупки недвижимости, что составит примерно половину всех кредитов, автомобиля, на образование или свадьбу. При этом среди тех, кто покупает недвижимость есть те, кто покупает ее чтобы сдавать в аренду, такие случае включены в группу 'недвижимость'.

<a id='6-bullet'></a>
### Категоризация данных

In [15]:
data['income_type'].value_counts()
#нашлись категории, которых очень мало по количеству ("безработный", "предприниматель", "в декрете" и "студент")
#изменим категорию "безработный", "в декрете" и "студент" на "сотрудник"
#это самая большая категория, на которой не должны сказаться эти поправки
data.loc[(data['income_type'] == 'безработный'), 'income_type'] = 'сотрудник'
data.loc[(data['income_type'] == 'в декрете'), 'income_type'] = 'сотрудник'
data.loc[(data['income_type'] == 'студент'), 'income_type'] = 'сотрудник'
#изменим категорию "предприниматель" на "компаньон" (потому что похожи по сути)
data.loc[(data['income_type'] == 'предприниматель'), 'income_type'] = 'сотрудник'
data['income_type'].value_counts()

сотрудник      11097
компаньон       5080
пенсионер       3837
госслужащий     1457
Name: income_type, dtype: int64

In [16]:
#одна из гипотиз подраземевает оценку уровня ежемесячного дохода. Присвоим колонке 'total_income' категории
#и сохраним в новом столбце
#оценим интервалы в колонке 'total_income'
#получилось от 20 до 220 и медиана 143
#разделим данные с шагом 50

#data['total_income'].median()
#data['total_income'].max()
#data['total_income'].min()

def total_income_group(total_income):
    if total_income < 50000:
        return '< 50'
    if total_income < 100000:
        return '50-99'
    if total_income < 150000:
        return '100-149'
    if total_income <= 200000:
        return '149-200'
    return '> 200'

data['total_income_group'] = data['total_income'].apply(total_income_group)
#посмотрим что получилось
data['total_income_group'].value_counts()

100-149    7175
> 200      5067
149-200    4766
50-99      4091
< 50        372
Name: total_income_group, dtype: int64

### Вывод

Нашлись категории, которых ничтожно мало в общем объеме ("безработный", "предприниматель", "в декрете" и "студент"). Изменим категорию "безработный", "в декрете" и "студент" на "сотрудник", так как это самая большая категория, на которой не должны сказаться эти поправки. Категорию "предприниматель" изменим на "компаньон" потому что категории похожи по своей сути.

Так как одна из гипотез подразумевает оценку уровня ежемесячного дохода, присвоим колонке 'total_income' категории и сохраним в новом столбце. Оценим интервалы в колонке 'total_income', получилось от 20 до 220 и медиана 143. Разделим данные в столбце 'total_income' с шагом 50.

### 3. Ответы на вопросы

<a id='7-bullet'></a>
- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [18]:
data['group_for_pivot'] = 'ИТОГО'
children_pivot = data.pivot_table(index=['children'], 
                                      columns='group_for_pivot', 
                                      values='debt', 
                                      aggfunc=['count', 'sum', 'mean'])
children_pivot

Unnamed: 0_level_0,count,sum,mean
group_for_pivot,ИТОГО,ИТОГО,ИТОГО
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14107,1063,0.075353
1,4856,445,0.091639
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0
20,76,8,0.105263


### Вывод

Взаимосвязь между наличием детей и возвратом кредита в срок есть, но она не линейная. Наиболее многочисленная и низкорисковая группа - люди без детей, процент невозврата всего 7,5%.

На наличие просрочки практически одинаково повлияет наличие 1-2 или 4х детей. При этом процент невозврата растет при росте количества детей (исключая людей с 3я детьми) с шагом 0,3%.

Учитывая, что всего 9 человек в выборке имеют 5 детей и не имели просрочек по кредиту этой информацией можем пренебречь.

<a id='8-bullet'></a>
- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [20]:
family_status_pivot = data.pivot_table(index=['family_status'], 
                                      columns='group_for_pivot', 
                                      values='debt', 
                                      aggfunc=['count', 'sum', 'mean'])
family_status_pivot

Unnamed: 0_level_0,count,sum,mean
group_for_pivot,ИТОГО,ИТОГО,ИТОГО
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2810,274,0.097509
в разводе,1195,85,0.07113
вдовец / вдова,959,63,0.065693
гражданский брак,4163,388,0.093202
женат / замужем,12344,931,0.075421


### Вывод

Зависимость между семейным положением и возвратом кредита в срок есть.

1. Наиболее добросовестные заемщики - это вдовы и вдовцы и люди в разводе. 
2. В середине наиболее многочисленная группа женатых/замужних, которая занимает почти 60% заемщиков имеет процент невозврата на уровне 7,5%.
3. Наиболее не добросовестные заемщики оказались среди не женатых/не замужних и состоящие в гражданском браке.

<a id='9-bullet'></a>
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [21]:
total_income_pivot = data.pivot_table(index=['total_income_group'], 
                                      columns='group_for_pivot', 
                                      values='debt', 
                                      aggfunc=['count', 'sum', 'mean'])
total_income_pivot

Unnamed: 0_level_0,count,sum,mean
group_for_pivot,ИТОГО,ИТОГО,ИТОГО
total_income_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
100-149,7175,624,0.086969
149-200,4766,405,0.084977
50-99,4091,331,0.080909
< 50,372,23,0.061828
> 200,5067,358,0.070653


### Вывод

Зависимость между уровнем дохода и возвратом кредита в срок есть.
1. Больше всего просрочек у заемщиков в интервале доходов 100-200, а внутри этой группы у заемщиков с доходом 149-200.
2. Меньше всего просрочек у заемщиков с доходом менее 50. Можно предположить, что эти люди из-за наименьших доходов рассчитывают свои возможности точнее, а рынок труда, богатый вакансиями с аналогичным доходом добавляет стабильности этой группе.
3. Средней по уровню просрочек оказалась группа с доходом более 200. 


<a id='10-bullet'></a>
- Как разные цели кредита влияют на его возврат в срок?

In [23]:
purpose_lemmas_pivot = data.pivot_table(index=['purpose_lemmas'], 
                                      columns='group_for_pivot', 
                                      values='debt', 
                                      aggfunc=['count', 'sum', 'mean'])
purpose_lemmas_pivot

Unnamed: 0_level_0,count,sum,mean
group_for_pivot,ИТОГО,ИТОГО,ИТОГО
purpose_lemmas,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4308,403,0.093547
недвижимость,10814,782,0.072314
образование,4014,370,0.092177
свадьба,2335,186,0.079657


### Вывод

1. Больше всего просрочек у заемщиков, взявших деньги для приобретения автомобиля или на образование. Можно предположить, что заемщики, взявшие деньги на обучение имеют менее стабильную работу по причине необходимости тратить время на обучение.
2. На втором месте по уровню просрочек - кредиты на свадьбы.
3. Меньше всего просрочек у заемщиков, взявших деньги на приобретение недвижимости. Это также и самая многочисленная группа.

<a id='11-bullet'></a>
### 4. Заключение
### Общий вывод

В основном заемщики берут денежные средства для покупки недвижимости - 50% от всех выданных кредитов, при этом некоторые заемщики покупают недвижимость для сдачи в аренду. На покупку автомобиля деньги взяли 20%, на образование 19% и на свадьбу 11%.

Нашлись взаимосвязи:
1.	Между наличием детей и возвратом кредита в срок.
    Заемщики без детей возвращают деньги лучше всего (доля просрочек 7,5%), при этом это самая многочисленная группа.
    На наличие просрочки практически одинаково повлияет наличие 1-2 или 4х детей. При этом процент невозврата растет при росте количества детей (исключая людей с 3я детьми) с шагом 0,3%.
2.	Между семейным положением и возвратом кредита в срок.
    Наиболее добросовестные заемщики - это вдовы и вдовцы и люди в разводе (доля просрочек 6,6%).
    На втором месте по доле просрочек (7,5%) наиболее многочисленная группа женатых/замужних, которая занимает почти 60% заемщиков.
    Наиболее не добросовестные заемщики оказались среди не женатых или не замужних (9,8%) и состоящих в гражданском браке (9,3%).
3.	Между уровнем дохода и возвратом кредита в срок.
    Больше всего просрочек у заемщиков в интервале доходов 100-200 (8,4 – 8,9%), а внутри этой группы у заемщиков с доходом 149-200 (8,9%).
    Меньше всего просрочек у заемщиков с доходом менее 50 (6,1%). Можно предположить, что эти люди из-за наименьших доходов рассчитывают свои возможности точнее, а рынок труда, богатый вакансиями с аналогичным доходом добавляет стабильности этой группе.
    Средней по уровню просрочек оказалась группа с доходом более 200 (7%).
