# Исследование надёжности заёмщиков

**Заказчик:**  
Кредитный отдел банка  
  
**Цель:**  
Определить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок  
  
**Исходные данные:**  
Статистика о платёжеспособности клиентов
  
Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Оглавление
1. [Открытие данных](#open_data)
2. [Предобработка данных](#preprocessing)
    * [Обработка пропущенных значений](#skipdata)
    * [Замена типа данных](#change_type)
    * [Обработка дубликатов](#duplicated)
    * [Лемматизация](#lemmatize)
    * [Категоризация данных](#cathegory)
3. [Анализ данных](#analysis)
    * [Зависимость между наличием детей и возвратом кредита в срок](#question1)
    * [Зависимость между семейным положением и возвратом кредита в срок](#question2)
    * [Зависимость между уровнем дохода и возвратом кредита в срок](#question3)
    * [Влияние разных целей на возврат кредита в срок](#question4)
4. [Общий вывод](#conclusion)

## 1. Открытие данных <a id="open_data"></a>

### Шаг 1. Откроем файл с данными и изучим общую информацию

Импортируем необходимые библиотеки и функции, которые понадобятся для достижения цели.
Импорт библиотек желательно проводить в самом начале кода, чтобы избежать ошибок работы интерпретатора в дальнейшем.

In [1]:
import numpy as np
import pandas as pd
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

import warnings
warnings.filterwarnings('ignore')

ModuleNotFoundError: No module named 'pymystem3'

In [2]:
data = pd.read_csv('/datasets/data.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Первое, что бросается в глаза - это неравное количество ненулевых значений в `days_employed` и `total_income` по сравнению с остальными столбцами. В соотвестсвии с описанием, полученных от заказчика в этих столбцах находятся информация об *общем трудовом стаже в днях* и о *ежемесячном доходе*

Посмотрим на первые 15 строк полученных данных:

In [3]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Что можем на первый взгляд сказать о данных:
 1. большинство данных в столбце `days_employed` имеют отрицательное значение
 2. данные в столбце `education` имеют разный регистр букв
 3. данные в столбце `purpose` имеют схожие цели, но разное написание. Например, "*сыграть свадьбу*" и "*на проведение свадьбы*" можно определить одним словом: "*свадьба*"
 4. на 12 строке данные в столбцах `days_employed` и `total_income` имеют одинаковое значение = *NaN*

### Вывод

Перед предобработкой данных необходимо понимание, использование каких данных поможет ответить на поставленные заказчиком вопросы. Данное понимание сократит время предобработки и отсечет дополнительные гипотезы



## 2. Предобработка данных <a id="preprocessing"></a>

### Шаг 2. Обработаем пропущенные значения <a id="skipdata"></a>

В Шаге 1 мы выяснили, что в столбцах `days_employed` и `total_income` есть пропущенные значения, а также выяснили по первым 15 строкам, что прощенные значения в этих столбцах могут быть в одинаковых строках. 

Проверим гипотезу: все пропущенны значения в столбцах `days_employed` и `total_income` находятся в одинаковых строках.
Для проверки создадим временную таблицу, которую не будем использовать в дальнейшем, а только для проверки данной гипотезы. 

In [4]:
#создаем временную таблицу для проверки закономерности пропусков в столбцах days_employed и total_income
temp_skipdata = data[['days_employed', 'total_income']]

#функция возвращает YES если значения в обоих столбцах равно NaN и возвращает NO в ином случае
def check_skipdata(row):
    if np.isnan(row['days_employed']) and np.isnan(row['total_income']):
        return 'YES'
    else:
        return 'NO'

#создаем столбец, отражающий проверку функцией check_skipdata
temp_skipdata['empty_both'] = temp_skipdata.apply(check_skipdata, axis=1)

#выведем количество значений YES в столбце empty_both
temp_skipdata[temp_skipdata['empty_both'] == 'YES'].count()


days_employed       0
total_income        0
empty_both       2174
dtype: int64

Закономерность в данных есть: столбцы `days_employed` и `total_income` имеют знаечение "NaN" в одних и тех же строках. 
Причиной возникновения подобных пропусков может быть некорректная выгрузка из БД, потому как навряд ли бы выдали кредит человеку, не зная его стаж работы и ежемесячную доходность (мы же не в 2008).
Количество пропущенных данных составляет 10% от общего количества данных - достаточно большой объем, чтобы рассмотреть вариант удаления строк с пропущенными значениями. 
Так как столбцы `days_employed` и `total_income` являются колличественными переменными, то пустые данные можно заменить средним значением или медианой.

Определим, какой метод подойдет лучше: mean() или median().
Из Шага 1 мы помним, что большинство значений в столбце `days_employed` - отрицательные. Для начала заменим данные на положительные значения.

In [5]:
data['days_employed'] = abs(data['days_employed'])

Определим диапазон значений (минамальное и максимальное), а также среднее и медиану для значений обоих столбцов

In [6]:
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [7]:
data['total_income'].describe()

count    1.935100e+04
mean     1.674223e+05
std      1.029716e+05
min      2.066726e+04
25%      1.030532e+05
50%      1.450179e+05
75%      2.034351e+05
max      2.265604e+06
Name: total_income, dtype: float64

Минимальное и максимальное значения сильно разнятся, поэтому целесообразнее использовать значения медиан для заполнения пропущенных значений в обоих столбцах.

In [8]:
dob_years_group = data.groupby('dob_years')['days_employed'].median()
dob_years_group.head()

dob_years
0     1759.038033
19     724.492610
20     674.838979
21     618.733817
22     703.310078
Name: days_employed, dtype: float64

In [9]:
data[(data['dob_years'] == 0) & (data['days_employed'].isnull() == True)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
1890,0,,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,,жилье
2284,0,,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,,недвижимость
4064,1,,0,среднее,1,гражданский брак,1,M,компаньон,0,,ремонт жилью
5014,0,,0,среднее,1,женат / замужем,0,F,компаньон,0,,покупка недвижимости
6411,0,,0,высшее,0,гражданский брак,1,F,пенсионер,0,,свадьба
6670,0,,0,Высшее,0,в разводе,3,F,пенсионер,0,,покупка жилой недвижимости
8574,0,,0,среднее,1,женат / замужем,0,F,сотрудник,0,,недвижимость
12403,3,,0,среднее,1,женат / замужем,0,M,сотрудник,0,,операции с коммерческой недвижимостью
13741,0,,0,среднее,1,гражданский брак,1,F,сотрудник,0,,на проведение свадьбы
19829,0,,0,среднее,1,женат / замужем,0,F,сотрудник,0,,жилье


Если бы все строки стажа были бы заполнены при возрасте = 0, можно было бы определить зависимость стажа и возраста, выделить группы. Но в текущей ситуации для части данных мы не сможем определить количественные значения.  
Учитывая, что в дальнейшем значения days_employed нам не понадобится для анализа, то возьмем следующий наиболее подходящий столбец для разделения на группы и определения значения days_employed - это столбец education (для удобства отображения возьмем education_id.  
Предварительно применим к столбцу education метод, приводящий все буквы в строке к нижнему регистру (хоть это не понадобится использовать сейчас, сделаем предобработку заранее)

In [10]:
data['education'] = data['education'].str.lower()
data.groupby('education_id')['days_employed'].median()

education_id
0    1895.747795
1    2392.483500
2    1209.128083
3    3043.933615
4    5660.057032
Name: days_employed, dtype: float64

Значения видятся логичными, заполним пропуски в столбце days_employed медианными значениями по группировке столбца education_id

In [11]:
for education_id in data['education_id'].unique():
    median = data.loc[data['education_id'] == education_id, 'days_employed'].median()
    data.loc[(data['days_employed'].isna()) & (data['education_id'] == education_id), 'days_employed'] = median

Посмотрим на значения столбца income_type

In [12]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Данные в порядке, можно переходить к определению медианного значения

In [13]:
for income_type in data['income_type'].unique():
    median = data.loc[data['income_type'] == income_type, 'total_income'].median()
    data.loc[(data['total_income'].isna()) & (data['income_type'] == income_type), 'total_income'] = median

Проверим корректность данных, выведем срез данных, где ранее 12 строка имела значения NaN в столбцах days_employed и total_income

In [14]:
data[10:15]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10,2,4171.483647,36,высшее,0,женат / замужем,0,M,компаньон,0,113943.49146,покупка недвижимости
11,0,792.701887,40,среднее,1,женат / замужем,0,F,сотрудник,0,77069.234271,покупка коммерческой недвижимости
12,0,2392.4835,65,среднее,1,гражданский брак,1,M,пенсионер,0,118514.486412,сыграть свадьбу
13,0,1846.641941,54,неоконченное высшее,2,женат / замужем,0,F,сотрудник,0,130458.228857,приобретение автомобиля
14,0,1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127.911772,покупка жилой недвижимости


Заполнение значений медианой, вычисленной при иных зависимостях - получилось длинее в написании кода, чем если просто заменить на медиану всех значений, но оно также получилось ближе к реальности.

### Вывод

Замена пропущенных значений колличественных показателей медианным значением - это хороший способ сохранить реальную "картину", использование иных методов могут исказить результаты и дать не ту точность данных, которую хотелось бы. 

Работать с подобными закономерностями проще, чем если бы данные в столбцах `days_employed` и `total_income` были бы пропущены в разных строках. В таком случае анализ был бы в отношении каждого столбца значений отдельно и гипотезы появления таких пропусков были бы иные. 

Также заметим интересное максимальное значение в столбце `days_employed` = 401755.40047533 дней, а это примерно 1100 лет. Значение выходит за границу допустимых значений. Первая гипотеза - это опечатка оператора при вводе данных в БД, и чтобы ее проверить нужно рассматривать иные значения данного столбца. В рамках данного проекта в этом нет необходимости, но о таких интересных значениях стоит сообщить эксплуатационному персоналу (или администраторам).

### Шаг 3. Заменим типы данных <a id="change_type"></a>

В инструкции по выполнению проекта *Замена типа данных* является одним из пунктов. Данных вещественного типа два: в столбцах `days_employed` и `total_income`. Значения столбца `days_employed` для вывления зависимости влияния на погашение кредита нам в дальнейшем не понадобятся, но значения столбца `total_income` понадобятся в дальнейшем. 

Ежемесячный доход может быть вещественным значением, и не будет ошибкой, если мы не переведем значения столбца `total_income` в тип int. НО, для анализа данных есть преимущество целочисленного формата перед вещественным. Поэтому для дальнейшего анализа переведем значения столбца `total_income` в тип int и проверим корректность выполнения кода

In [15]:
data['total_income'] = data['total_income'].astype(np.int64)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


Проверим все возможные столбцы на недопустимые значения

In [16]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

-1 - это недопустимое значение, заполним значение -1 на 0 и перепроверим данные

In [17]:
data.loc[data['children'] == -1, 'children'] = 0
print(data['children'].value_counts())

0     14196
1      4818
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64


Проверим также значения столбца dob_years на недопустимые

In [18]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Посмотрим на строки, где возраст равен 0 подробнее (на срез строк)

In [19]:
data[data['dob_years'] == 0].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,среднее,1,женат / замужем,0,F,пенсионер,0,71291,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166,ремонт жилью
578,0,397856.565013,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994,свой автомобиль
1149,0,934.654854,0,среднее,1,женат / замужем,0,F,компаньон,0,201852,покупка недвижимости
1175,0,370879.508002,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949,получение дополнительного образования
1386,0,5043.21989,0,высшее,0,женат / замужем,0,M,госслужащий,0,240523,сделка с автомобилем
1890,0,1895.747795,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,142594,жилье
1898,0,370144.537021,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400,на покупку автомобиля


Теперь точно видно, что это пропущенные значения. Заполнить их можем основываясь на средние значения посчитанные для каждого типа занятости. По аналогии с обработкой выше заполним пропущенные значения. Также заметим, что операция по вычислению медианы из целочисленного значения сделала его вещественным, поэтому применим метод изменения типа данных

In [20]:
for income_type in data['income_type'].unique():
    median = data.loc[data['income_type'] == income_type, 'dob_years'].median()
    data.loc[(data['dob_years'] == 0) & (data['income_type'] == income_type), 'dob_years'] = median
data['dob_years'] = data['dob_years'].astype(np.int64)

И последний столбец, который проверим на недопустимые значения - это gender

In [21]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [22]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Прежде чем делать выводы, нужно сходить к разработчикам и спросить, означает ли XNA что-нибудь или это пропуск значения. Учитывая, что такое значение единично и мы не знаем из какой страны кредитор, то, если данные из кредитора, находящегося в государстве где возможно деление не только на male и female, то анализ становится все интереснее

### Вывод

Перед началом обработки данных нужно глубоко вздохнуть, выписать вопросы на которые необходимо ответить и понять, какие данные понадобятся для анализа (какие данные помогут ответить на поставленные вопросы), а какие нет. И проводить обработку только необходимых в дальнейшем для анализа данных. 

### Шаг 4. Обработаем дубликаты <a id="duplicated"></a>

Проверим данные на дубликаты, для этого вызовем метод .duplicated() применительно ко всем данным и посчитаем сумму таких строк

In [23]:
data.duplicated().sum()

71

Повторяющиеся строки имеются, количество их небольшое для обработки дубликатов удалим дублирующиеся строки и сделаем переиндесацию датафрейма. Проверим количество дублирующихся строк после обработки дубликатов

In [24]:
data = data.drop_duplicates().reset_index(drop = True)
data.duplicated().sum()

0

Напишем гипотезы появления дубликатов в данных:
1. В БД хранится информация о заемщиках очень долго.
В таком случае, если один и тот же человек взял несколько кредитов за некоторый период времени, то в БД будет несколько записей о нем. 

2. В процессе предобработки данных мы сами создали дублирующиеся строки
Заполняя столбцы `days_employed` и `total_income` медианными значениями мы могли создать совпадающие строки (дубликаты). 

*Комментарий для проверяющего:
Ради эксперимента я вернулась в самое начало кода и после чтения файла посчитала количество дублирующихся строк, их число равно 0, что подтверждает гипотезу 2*

### Вывод

К удалению дубликатов необходимо относиться с осторожностью. В текущем проекте дубликаты были удалены, но если посмотреть с другой стороны, их количество настолько мало (54), что в случае оставления дубликатов на результат данной работы это не должно повлиять. 

В текущей выгрузке нет четких индивидуальных для каждого заемщика характеристики (например, id заемщика, номер паспорта и т.п.) поэтому невозможно до конца утверждать, что найденные дубликаты действительно являются дубликатами. Когда нет до конца уверенности, лучше оставить найденные "дубликаты" в таблице.

### Шаг 5. Лемматизация <a id="lemmatize"></a>

Воспользуемся методом `Mystem()` из библиотеки `pymystem3` для нахождения лемм в столбце `purpose`.

Создадим новый столбец `purpose_lemma` и поместим туда список лемм значений столбца `purpose`

Выведем первые 5 строк таблицы для просмотра результата выполнения кода

In [25]:
data['purpose_lemma'] = data['purpose'].apply(m.lemmatize)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"


Выделение лемм является задачей, решение которой записано в 1 строку. Но чтобы написать эту одну строку, нужно пару раз ошибиться и еще один раз сменить стратегию:)

*Комментарий для проверяющего:
Изначально был более сложный вариант: выделила все уникальные значения из столбца purpose, затем соединила разные слова в единый текст с помощью метода join и лемматизировала уже конечный текст и методом Counter() подсчитала количество лемм. Но в следущем шаге я все равно пришла к тому, что записывала леммы в отдельный столбец в каждой строке и пришла к выводу, что я сама усложнила себе задачу, но зато это опыт:)*

### Вывод

Из двух способов: выполнить лемматизацию и отразить в той же строке или отразить в отдельных переменных - лучше выбрать 1 способ. Он немного дольше по времени, т.к. лемматизация проводится для более 20тыс. строк, но при других данных 1 способ покажет более точный результат. 
После определения лемм можно приступать к категоризации данных

### Шаг 6. Категоризация данных <a id="cathegory"></a>

#### Работа со столбцом `purpose`

Посмотрим все уникальные значения которые находятся в столбце `purpose_lemma`

In [26]:
data['purpose_lemma'].value_counts()

[автомобиль, \n]                                          972
[свадьба, \n]                                             791
[на,  , проведение,  , свадьба, \n]                       768
[сыграть,  , свадьба, \n]                                 765
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           661
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 651
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строительство,  , собственный,  , недвижимость, \n]      635
[недвижимость, \n]                                        633
[операция,  , со,  , свой,  , недвижимость, \n]           627
[строительство,  , жилой,  , недвижимость, \n]            624
[покупка

Видим, что используется много синонимов для достижения одинаковых целей: приобретение жилья и покупка жилья, сыграть свадьбу и на проведение свадьбы и т.д. 

Выделим конкретные категории и напишем функцию, определяющую категорию по сравнению с леммой.

Выделенные категории: недвижимость, автомобиль, образование и свадьба

In [27]:
def purpose_group(purpose):
    if ('недвижимость' in purpose) or ('жилье' in purpose):
        return 'недвижимость'
    elif 'автомобиль' in purpose:
        return 'автомобиль'
    elif 'образование' in purpose:
        return 'образование'
    elif 'свадьба' in purpose:
        return 'свадьба'
    else:
        return 'no cathegory'

Категория `no cathegory` необходима для отслеживания, все ли категории мы выделили

Определим категорию в новом столбце `purpose_cathegory` и выведем первые 5 строк на экран для проверки работы кода

In [28]:
data['purpose_cathegory'] = data['purpose_lemma'].apply(purpose_group)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma,purpose_cathegory
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба


Проверим, нет ли не выделенных категорий

In [29]:
data[data['purpose_cathegory'] == 'no cathegory']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_lemma,purpose_cathegory


Невыявленных категорий нет.  
Таблица, после добавления 3 столбцов с текстовыми значениями стала объемней. В случае, когда текста будет не 2-3 слова, читаемость такой таблицы уменьшится.  
Выделим столбцы, связанные с целью взятия кредита в отдельную таблицу и присвоим каждой цели свои уникальный номер id

In [30]:
purpose_data = data[['purpose', 'purpose_lemma', 'purpose_cathegory']]

def purpose_id_func(cathegory):
    if 'недвижимость' in cathegory:
        return '1'
    elif 'автомобиль' in cathegory:
        return '2'
    elif 'образование' in cathegory:
        return '3'
    elif 'свадьба' in cathegory:
        return '4'
    
purpose_data.loc[:, 'purpose_id'] = purpose_data['purpose_cathegory'].apply(purpose_id_func)
purpose_data.head()

Unnamed: 0,purpose,purpose_lemma,purpose_cathegory,purpose_id
0,покупка жилья,"[покупка, , жилье, \n]",недвижимость,1
1,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,2
2,покупка жилья,"[покупка, , жилье, \n]",недвижимость,1
3,дополнительное образование,"[дополнительный, , образование, \n]",образование,3
4,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,4


Определим словарь для категорий целей. Создадим таблицу, состоящую из столбцов `purpose_cathegory` и `purpose_id`, удалим дубликаты в таблице-словаре и отсортируем по id. Выведем результат на экран

In [31]:
purpose_dict = purpose_data[['purpose_cathegory', 'purpose_id']]
purpose_dict = purpose_dict.drop_duplicates().sort_values(by = 'purpose_id').reset_index(drop = True)
purpose_dict

Unnamed: 0,purpose_cathegory,purpose_id
0,недвижимость,1
1,автомобиль,2
2,образование,3
3,свадьба,4


Присоединим столбец `purpose_id` к основной таблице.  
Также уменьшим количество данных в основной таблице `data`

In [32]:
data = data.merge(purpose_dict, on = 'purpose_cathegory', how = 'right')

In [33]:
data = data[['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose_id']]

data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose_id
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,1
1,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,1
2,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,1
3,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,1
4,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,1


После применения метода merge() основная таблица была отсортирована, но с данными все в порядке.  
Сортивка предположительно проведена по встречаемости категории. Видимо метод merge работает последовательно, т.е. первая строка в столбце `purpose_cathegory` была `жилье` и, предполагаю, что первые n-строк в соединенной таблице будут строки категории `жилье`.  
Таким образом в таблице `data` данные отсортированы по категориям. 

Благодаря использованию таблиц-словарей мы уменьшили объем таблицы. Подобно действиям со столбцом `purpose` можно выделить словари для столбцов `education, education_id` и `family_status, family_status_id`  

#### Работа со столбцами `education` и `family_status`

Выделим словари для `education` и `family_status`. 
Мы знаем, что значения в столбце `education` имеет разный регистр:

In [34]:
data['education'].value_counts()

среднее                15172
высшее                  5250
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

С помощью метода str.lower() приведем к общему нижнему решистру значения столбца `education`

In [35]:
data['education'].value_counts()

среднее                15172
высшее                  5250
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Проверим значения столбца `family_status`

In [36]:
data['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

Выделяем отдельные словари и уменьшаем объем основной таблицы.  
Выведем результат на экран (первые 10 строк)

In [37]:
education_dict = data[['education', 'education_id']]
education_dict = education_dict.drop_duplicates().sort_values(by = 'education_id').reset_index(drop = True)

family_status_dict = data[['family_status', 'family_status_id']]
family_status_dict = family_status_dict.drop_duplicates().sort_values(by = 'family_status_id').reset_index(drop = True)

data = data[['children', 'days_employed', 'dob_years', 'education_id',
       'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose_id']]

In [38]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_id
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,1
1,0,5623.42261,33,1,0,M,сотрудник,0,145885,1
2,0,926.185831,27,0,1,M,компаньон,0,255763,1
3,0,2879.202052,43,0,0,F,компаньон,0,240525,1
4,0,2188.756445,41,1,0,M,сотрудник,0,144425,1
5,2,4171.483647,36,0,0,M,компаньон,0,113943,1
6,0,792.701887,40,1,0,F,сотрудник,0,77069,1
7,0,1844.956182,56,0,1,F,компаньон,1,165127,1
8,1,972.364419,26,1,0,F,сотрудник,0,116820,1
9,0,1719.934226,35,1,0,F,сотрудник,0,289202,1


### Вывод

Основная таблица имеет читаемый вид и первично-обработанные данные. Теперь можно приступать к аналитике, чтобы ответить на поставленные вопросы о влиянии различных факторов на погашение кредита в срок.

## 3. Анализ данных <a id="analysis"></a>

## Зависимость между наличием детей и возвратом кредита в срок <a id="question1"></a>

Посмотрим на уникальность значений в столбцах `children` и `debt`

In [39]:
data['children'].value_counts()

0     14138
1      4808
2      2052
3       330
20       76
4        41
5         9
Name: children, dtype: int64

In [40]:
data['debt'].value_counts()

0    19713
1     1741
Name: debt, dtype: int64

Сгруппируем данные по столбцам `children` и `debt`, посчитаем общее количество должников и тех, кто проводит выплаты вовремя

In [41]:
data_group_children = data.groupby(['children', 'debt']).agg({'debt':'count'})
data_group_children

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
children,debt,Unnamed: 2_level_1
0,0,13074
0,1,1064
1,0,4364
1,1,444
2,0,1858
2,1,194
3,0,303
3,1,27
4,0,37
4,1,4


Цифры цифрами, но в процентах было бы лучше увидеть. Посчитаем процентное значение должников в зависимости от количества детей

In [42]:
data_group_children_proc = data.groupby('children').agg({'debt': 'mean'})
data_group_children_proc.head(10)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075258
1,0.092346
2,0.094542
3,0.081818
4,0.097561
5,0.0
20,0.105263


In [43]:
#создадим таблицу, в которой все значения NaN заменим на 0
data_pivot = data.pivot_table(index='children',columns='debt', values='total_income', aggfunc='count').fillna(0)
data_pivot.columns = ['no_debt', 'debt']
#добавим столбец, в котором отображается процент задолженности
data_pivot['%'] = data_pivot['debt'] / (data_pivot['debt'] + data_pivot['no_debt'])
data_pivot.style.format({'%':'{:.2%}'})

Unnamed: 0_level_0,no_debt,debt,%
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13074,1064,7.53%
1,4364,444,9.23%
2,1858,194,9.45%
3,303,27,8.18%
4,37,4,9.76%
5,9,0,0.00%
20,68,8,10.53%


Процент задолжников при наличии 20 детей больше всех и это снова кажется подозрительным. Для уверенности необходимо спросить у эксплуатационного персонала, корректны ли данные. 

### Вывод

Небольшая зависимость все же виднеется. Заемщик без детей платит по кредиту в срок чаще, чем заемщик с ребенком/детьми. Это может исходить из такого фактора как "наличие свободных денег", ведь когда есть дети необходимо планировать свои финансы и порой могут возникнуть непредвиденные траты (сдать на шторы в школу, или купить новую одежду).  
Но среди заемщиков с детьми уже сложнее понять зависимость - можно было бы предположить, что чем больше детей, тем чаще заемщик не выплачивает кредит в срок, но процент должников при 3, 5 и 20 детях не дает нам подтвердить гипотезу. Необходимо смотреть на другие факторы.

## Зависимость между семейным положением и возвратом кредита в срок <a id="question2"></a>

Сгруппируем данные по id семейного статуса и посчитаем общее количество должников и тех, кто проводит выплаты вовремя

In [44]:
data_group_fam_stat = data.groupby(['family_status_id', 'debt']).agg({'debt':'count'})
data_group_fam_stat

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
family_status_id,debt,Unnamed: 2_level_1
0,0,11408
0,1,931
1,0,3763
1,1,388
2,0,896
2,1,63
3,0,1110
3,1,85
4,0,2536
4,1,274


Посчитаем процентное значение должников в зависимости от

In [45]:
data_group_fam_stat_proc = data.groupby('family_status_id').agg({'debt': 'mean'})
data_group_fam_stat_proc.head(10)

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075452
1,0.093471
2,0.065693
3,0.07113
4,0.097509


И для красоты заменим наименования индексов по словарю

In [46]:
data_group_fam_stat_proc = data_group_fam_stat_proc.merge(family_status_dict, on = 'family_status_id', how = 'left')

Выведем полученную информацию на экран

In [47]:
data_group_fam_stat_proc

Unnamed: 0,family_status_id,debt,family_status
0,0,0.075452,женат / замужем
1,1,0.093471,гражданский брак
2,2,0.065693,вдовец / вдова
3,3,0.07113,в разводе
4,4,0.097509,Не женат / не замужем


Для красивого вида моно поменять местами столбцы `debt` и `family_status`, но в этом нет необходимости в рамках задачи

### Вывод

Более ответственными являются люди, так скажем "повидавшие жизнь": прошедшие через этап бракосочетания, когда-то определившие семейный бюджет и освоившие финансовое планирование - это люди из категорий `вдовец/вдова`, `в разводе` и `женат/замужем`.  
Но причина, скорее всего, другая: эти люди или получают пенсию по потере кормильца, или могут расчитвывать на доход партнера. Т.к., они более финансово устойчивы.  
Люди из категорий `гражданский брак` и `не жена/не замужем` показали себя как менее ответственные и как люди, которым нечего терять.  

## Зависимость между уровнем дохода и возвратом кредита в срок <a id="question3"></a>

Просмотр по аналогии с вопросами выше на сгруппированные данные не даст нам результата. Значения ежемесячного дохода сильно разнятся, поэтому воспользуемся методом, который разделяет данные на равные части и зададим уровни доходов:

In [48]:
bin_labels_3 = ['низкий', 'средний', 'высокий']

data['level'] = pd.qcut(data['total_income'],
                              q=3,
                              labels=bin_labels_3)

In [49]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_id,level
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,1,высокий
1,0,5623.42261,33,1,0,M,сотрудник,0,145885,1,средний
2,0,926.185831,27,0,1,M,компаньон,0,255763,1,высокий
3,0,2879.202052,43,0,0,F,компаньон,0,240525,1,высокий
4,0,2188.756445,41,1,0,M,сотрудник,0,144425,1,средний


Теперь посмотрим на данные в процентах (аналогично как делали в предыдущх пунктах:

In [50]:
data_group_income_proc = data.groupby('level').agg({'debt': 'mean'})
data_group_income_proc

Unnamed: 0_level_0,debt
level,Unnamed: 1_level_1
низкий,0.081236
средний,0.086754
высокий,0.075246


*Комментарий для проверяющего:
Сначала я воспользовалась другим методом, по аналогии как делала выше. Категории уровня доходов выделиила сама на основе среднего уровня доходов по Москве, код был следующий:*  
  
Функция для определения категории:  
**def income_level(income):  
    if income <=50000:  
        return 'низкий'  
    elif 50000 < income <= 100000:  
        return 'средний'  
    elif income > 100000:  
        return 'высокий'  
    else:  
        return 'no level'**  
  
Создание доп. таблицы для анализа. Вызов функции income_level  
**data_total_income = data[['total_income', 'debt']]  
data_total_income['level'] = data_total_income['total_income'].apply(income_level)  
print(data_total_income)**  
  
Группировка данных для анализа задолжников  
**data_group_income_proc = data_total_income.groupby('level').agg({'debt': 'mean'})  
print(data_group_income_proc.head(10))**  
  
Выводы с такими данными были иные: ***Данные говорят о том, что чем выше доход, тем выше процент задолженности. Интересный феномен, кажется что в реальности все должно быть по-другому: чем ниже доход, тем выше процент задолженности.***  
И такие результаты казались немного странными, были сомнения в правильности подхода к анализу и не зря

### Вывод

Видится зависимость между уровнем дохода и погашению кредита в срок. Люди с высоким уровнем дохода более ответтсвенны и осуществляют платеж по кредиту в срок, чем люди с низким или средним доходом. 

## Влияние разных целей на возврат кредита в срок <a id="question4"></a>

Сгруппируем данные по id цели и посчитаем общее количество должников и тех, кто проводит выплаты вовремя

In [51]:
data_group_purpose = data.groupby(['purpose_id', 'debt']).agg({'debt':'count'})
data_group_purpose

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
purpose_id,debt,Unnamed: 2_level_1
1,0,10029
1,1,782
2,0,3903
2,1,403
3,0,3643
3,1,370
4,0,2138
4,1,186


Посчитаем процентное значение должников в зависимости от цели

In [52]:
data_group_purpose_proc = data.groupby('purpose_id').agg({'debt': 'mean'})
data_group_purpose_proc

Unnamed: 0_level_0,debt
purpose_id,Unnamed: 1_level_1
1,0.072334
2,0.09359
3,0.0922
4,0.080034


И для красоты заменим наименования индексов по словарю

In [53]:
data_group_purpose_proc = data_group_purpose_proc.merge(purpose_dict, on = 'purpose_id', how = 'left')

Выведем полученную информацию на экран

In [54]:
data_group_purpose_proc

Unnamed: 0,purpose_id,debt,purpose_cathegory
0,1,0.072334,недвижимость
1,2,0.09359,автомобиль
2,3,0.0922,образование
3,4,0.080034,свадьба


### Вывод

Выплаты по недвижимость проводятся в срок чаще, чем выплата по кредиту на автомобиль или образование. Это может быть связано с процентными ставками - недвижимость обычно приобретается в ипотеку, а ипотека имеет более низкие проценты чем обычный кредит, также за счет условия срока ипотеки заемщик может установить для себя комфортную ежемесячную плату.  
Предположительно, про такое высокое значение просрочек по кредиту на образование можно сказать, что чаще всего люди берут кредит на образование, чтобы обучиться и в дальнейшем зарабатывать хорошие деньги, но во время обучения доход может быть низким

### 4. Общий вывод <a id="conclusion"></a>

Отвечая на вопросы о влиянии различных факторов на погашение кредита в срок можно сделать следующие выводы: самыми ненадежными плательщиками являются:
* заемщики с детьми
* заемщики, находящиеся в гражданском браке или в статусе "не женат/не замужем"
* заемщики с низким уровнем дохода
* заемщики, взявшие кредит на покупку автомобиля или на получение образования.
  
Выводы выше не означает, что все кто попадает под вышеопределенные параметры обязательно будут иметь задолженности по кредиту. Выделенные выше категории находятся в зоне риска и к таким заемщикам требуется уделить больше внимания, анализируя заемщика комплексно. 