## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

 Чтение файла datasets/data.csv и получение информации о таблице, вывод первых 20 строк таблицы.

#### Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/datasets/data.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Вывод: представлена таблица, состоящая из 21525 строк, в которой содержится информация о заемщиках банка. В таблице 12 столбов. Судя по количеству данных в столбцах days_employed, total_income необходимо определить причину пропущенных (отсутствующих) значений.

### Шаг 2. Предобработка данных

### Обработка пропусков

Проверка данных на наличие пропусков.

In [5]:
df.isnull().sum()  

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Сгруппируем данные и подсчитаем количество пропущенные значения: 

In [6]:
df.loc[df['days_employed'].isnull(), 'income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

In [7]:
df.loc[df['total_income'].isnull(), 'income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

Выявлено 2174 пропущенных значений. Так как значения пропущены только в столбцах с информацией о доходе и трудовом стаже, можно предположить, что пропуски могут носить неслучайный характер: т.к. в выборе присутствуют  пенсионеры, студенты, эти категории могут не иметь ежемесячный доход и трудовой стаж. Также в выборке могут быть заемщики, которые имеют неофициальный доход.  Замена пропущенных значений столбца days_employed на средние значения методом mean(). Здесь используется именно mean() т.к. для отсутствующих значений мы можем указать среднее арифметическое значение и от этого выборка не по пострадает. 

In [8]:

med_total_income = df.groupby('income_type')['total_income'].median()
print(med_total_income)

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64


Заполним пропущенные значения в столбце total_income медианным значением по столбцу income_type. 

In [9]:
df['total_income'] = df.groupby('income_type')['total_income'].apply(lambda x: x.fillna(x.median()))
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [10]:
df.loc[df['total_income'].isnull(), 'income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

Для столбца days_employed проведем аналогичные действия как и со столбцом total_income, только для заполнения пропущенных значений будет использован метод mean(). 

In [11]:
mean_days_employed = df.groupby('income_type')['days_employed'].mean()
print(mean_days_employed)


income_type
безработный        366413.652744
в декрете           -3296.759962
госслужащий         -3399.896902
компаньон           -2111.524398
пенсионер          365003.491245
предприниматель      -520.848083
сотрудник           -2326.499216
студент              -578.751554
Name: days_employed, dtype: float64


In [12]:
df['days_employed'] = df.groupby('income_type')['days_employed'].apply(lambda x: x.fillna(x.mean()))
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].mean())

Необходимо убедиться, что после замены пропущенных значений их больше не осталось 

In [13]:
df.isnull().sum()  

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [14]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


В данном разделе были применены методы для работы с количественными переменными mean() median().

### Замена типа данных

Получение информации о типах данных  

In [15]:
print(df.dtypes)

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object


Данные в столбцах days_employed и total_income,  в отличие от остальных столбцов, имеют тип данных float64. Для корректности расчета их следует перевести к единому типу int64. 

In [16]:
df['days_employed'] = df['days_employed'].astype('int')

In [17]:
df['total_income'] = df['total_income'].astype('int')

In [18]:
print(df.dtypes)

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
dtype: object


### Вывод

В этом разделе были заменены данные типа float64 на int64 для удобства расчетов. Данные в столбце days_employed имеют отрицательные значения и не были заменены, т.к. по моему мнению они не участвуют в анализе и их можно оставить без изменений. Изменение для данного столбца носит больше эстетический характер.

### Обработка дубликатов


Рассмотрим первые 10 строк таблицы, некоторые данные имеют записи в верхнем и нижнем регистрах. Для корректного анализа необходимо перевести данные в единый регистр. 

In [19]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Чтобы понять какие вообще существуют категории в столбце подсчитаем количество категорий:

In [20]:
print(df['education'].value_counts())

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


Переведем записи в столбце education в единый нижний регистр. 


In [21]:
df['education'] = df['education'].str.lower() 
print(df['education']) 

0         высшее
1        среднее
2        среднее
3        среднее
4        среднее
          ...   
21520    среднее
21521    среднее
21522    среднее
21523    среднее
21524    среднее
Name: education, Length: 21525, dtype: object


In [22]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


После того, как мы привели данные в таблице к единому регистру проверим данные на наличие дубликатов: 

In [23]:
print(df.duplicated().sum())

71


В данных выявлены дубликаты, для корректного анализа от них лучше избавиться. Удаление дубликатов: 

In [24]:
df = df.drop_duplicates().reset_index(drop = True)

Убедимся, что в таблице не осталось дубликатов: 

In [25]:
print(df.duplicated().sum())

0


Далее применяем конструкцию try-except для проверки некорректных данных.

In [26]:
count_lines = 0
total_position = 0
wrong_lines = 0
for row in df['total_income']:
    try:
        count_lines += 1
        level = row
        total_position += level
    except:
        wrong_lines += 1
print('Количество измерений', count_lines)    
print('Количество некорректных строк', wrong_lines)

Количество измерений 21454
Количество некорректных строк 0


### Вывод

После замены некоторых типов данных, приведения данных к единому регистру и обработки дубликатов, таблица может быть использована для дальнейшего анализа. 

### Лемматизация

Так как одни и те же данные в столбце purpose записаны по-разному, его необходимо лемматизировать. 

In [27]:
from pymystem3 import Mystem
m = Mystem()

from collections import Counter

Для наглядности лемматизации добавим новый столбец lemma и выведем результат в виде первых 10 строк таблицы.

In [28]:
lemma = m.lemmatize
df['lemma'] = df['purpose'].apply(lemma)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]"
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]"
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]"
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]"
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]"


Для определения количества целей кредита подсчитаем количество категорий в столбце purpose.

In [29]:
print(df['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

В таблице представлено огромное количество похожих целей, но записанных по-разному. Исходя из ключевых слов, можно выделить следующие цели: операции с недвижимостью, свадьба, автомобиль, образование. Для группировки целей создадим функцию , которая распределит (категоризирует) цели по группам. 

In [30]:
def key_category(rows):
    if 'недвижимость' in rows:
        return 'операции с недвижимостью'
    if 'свадьба' in rows:
        return 'свадьба'
    if  'жилье' and 'ремонт' in rows:
        return 'операции с недвижимостью'
    if  'жилье' in rows:
        return 'операции с недвижимостью'
    if 'недвижимость' in rows:
        return 'операции с недвижимостью'   
    if 'образование' in rows:
        return 'образование'
    if 'автомобиль' in rows:
        return 'автомобиль'


Добавим в таблицу новый столбец key_category, в котором определены основные цели получения кредита.

In [31]:
df['key_category'] = df['lemma'].apply(key_category) 
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью


Проверим данные в таблице после группировки целей. Подсичтаем количество целей столбца key_category и 
получим информацию по таблице. 

In [32]:
print(df['key_category'].value_counts())

операции с недвижимостью    10811
автомобиль                   4306
образование                  4013
свадьба                      2324
Name: key_category, dtype: int64


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
lemma               21454 non-null object
key_category        21454 non-null object
dtypes: int64(7), object(7)
memory usage: 2.3+ MB


### Вывод

В ходе лемматизации данных были выделены основные цели получения кредита. Из всего множества целей выделены 4 группы целей: операции с недвижимостью, свадьба, автомобиль, образование. Судя по имеющимся данным можно говорить о том, что наиболее распространенной целью получения кредита является "операция с недвижимостью". 

### Категоризация данных

Для дальнейшего анализа необходимо категоризировать данные. Начнем с данных в столбце total_income будем разбивать по группам. Для категоризации дохода будут использованы квантилии (25%, 50% и 75%)

In [34]:
income_group = pd.qcut(df['total_income'], q=4)

In [35]:
df['income_group'] = pd.qcut(df['total_income'], q=4)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]"
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]"
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]"
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]"


In [36]:
df['income_group'].value_counts() 

(107623.0, 142594.0]      5479
(195820.25, 2265604.0]    5364
(20666.999, 107623.0]     5364
(142594.0, 195820.25]     5247
Name: income_group, dtype: int64

In [37]:
bin_income_4 = ['1', '2', '3', '4']
df['income_group_1'] = pd.qcut(df['total_income'],
q=[0, .25, .5, .75, 1],
labels=bin_income_4)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group,income_group_1
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]",2
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]",4
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]",3
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование,"(107623.0, 142594.0]",2
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба,"(20666.999, 107623.0]",1
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3


In [38]:
df['income_group_1'].value_counts()

2    5479
4    5364
1    5364
3    5247
Name: income_group_1, dtype: int64

Для категоризации дохода были использованы квантилии (25%, 50% и 75%)  Таким образом доходы были распределены на четыре группы: 

- доход 5364 человек находится в  1 диапазоне (20 666.9 - 107 623.0 руб.) 
- доход 6415 человек находится во 2 диапазоне  (107 623.0 - 145 017.0 руб.) 
- доход 4311 человек находится в 3  диапазоне (145 017.0 - 195 813.25.0 руб.) 
- доход 5364 человек находится в 4  диапазоне (195 813.25 руб.  и более) 

Далее необходимо категоризировать столбец children. Получим первые 10 строк таблицы. 

In [39]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma,key_category,income_group,income_group_1
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,"(107623.0, 142594.0]",2
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,"(195820.25, 2265604.0]",4
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,"(142594.0, 195820.25]",3
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]",операции с недвижимостью,"(195820.25, 2265604.0]",4
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]",образование,"(107623.0, 142594.0]",2
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]",свадьба,"(20666.999, 107623.0]",1
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]",операции с недвижимостью,"(142594.0, 195820.25]",3


In [40]:
print(df['children'].max()) 
print(df['children'].min())

20
-1


In [41]:
print(df['children'].value_counts()) 

 0     14091
 1      4808
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


Судя по полученным данным, имеются некорректные данные, которые возникли в следствии выгрузки либо иного фактора. Заменим отрицательное значение на положительное, т.е. -1 на 1. Возникает вопрос с количеством 20 в 76 столбцах, вероятнее всего, это ошибка выгрузки.Так как это небольшое значение из всей выборки, данными можно пренебречь и заменить 20 на 2. 

In [42]:
df['children'] = df['children'].abs() 
df['children'] = df['children'].replace(20, 2)

Проверим удалось ли заменить данные 

In [43]:
print(df['children'].value_counts()) 

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64


In [44]:
children_dict = df[['family_status_id', 'family_status']]
print(children_dict.head(10))

   family_status_id     family_status
0                 0   женат / замужем
1                 0   женат / замужем
2                 0   женат / замужем
3                 0   женат / замужем
4                 1  гражданский брак
5                 1  гражданский брак
6                 0   женат / замужем
7                 0   женат / замужем
8                 1  гражданский брак
9                 0   женат / замужем


Для категоризации этого столбца будем использовать словари данных. 

In [45]:
children_dict = df[['family_status_id','family_status', 'children']]
print(children_dict.head(20)) 

    family_status_id     family_status  children
0                  0   женат / замужем         1
1                  0   женат / замужем         1
2                  0   женат / замужем         0
3                  0   женат / замужем         3
4                  1  гражданский брак         0
5                  1  гражданский брак         0
6                  0   женат / замужем         0
7                  0   женат / замужем         0
8                  1  гражданский брак         2
9                  0   женат / замужем         0
10                 0   женат / замужем         2
11                 0   женат / замужем         0
12                 1  гражданский брак         0
13                 0   женат / замужем         0
14                 1  гражданский брак         0
15                 0   женат / замужем         1
16                 0   женат / замужем         0
17                 1  гражданский брак         0
18                 2    вдовец / вдова         0
19                 3

In [46]:
children_dict = children_dict.drop_duplicates().reset_index(drop=True)
print(children_dict.head())

   family_status_id     family_status  children
0                 0   женат / замужем         1
1                 0   женат / замужем         0
2                 0   женат / замужем         3
3                 1  гражданский брак         0
4                 1  гражданский брак         2


In [47]:
print((children_dict.sort_values(by= ['family_status', 'children'] ))) 

    family_status_id          family_status  children
10                 4  Не женат / не замужем         0
9                  4  Не женат / не замужем         1
15                 4  Не женат / не замужем         2
22                 4  Не женат / не замужем         3
20                 4  Не женат / не замужем         4
7                  3              в разводе         0
11                 3              в разводе         1
14                 3              в разводе         2
18                 3              в разводе         3
21                 3              в разводе         4
6                  2         вдовец / вдова         0
12                 2         вдовец / вдова         1
13                 2         вдовец / вдова         2
25                 2         вдовец / вдова         3
26                 2         вдовец / вдова         4
3                  1       гражданский брак         0
8                  1       гражданский брак         1
4                  1       г

В процессе категоризации были категоризированы 2 столбца: total_income и children. Столбец total_income был категоризирован методом квантилий, а  для столбца сhildren был создан словарь. Также в столбце children были выявлены ошибочные данные и заменены на правильные. 

### Шаг 3. Ответьте на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [48]:
data_pivot = df.pivot_table(index = ['children'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,1063
1,445
2,202
3,27
4,4
5,0


Рассчитаем долю задолженности по группам. 

In [49]:
 df.groupby(['children']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
4,0.097561
2,0.094925
1,0.091658
3,0.081818
0,0.075438
5,0.0


### Вывод

Исходя из полученных данных можно сделать вывод, что наличие детей влияет на погашение кредита в срок. Для группы людей, у которых нет детей вероятность возврата кредита вовремя выше, чем у аналогичной группы с детьми. Присутствуют сомнительные данные для группы, у которых 5 детей. Рассмотрим ее подробнее.


In [50]:
df.loc[df['children'] == 5 ]['children'].count()

9

Выборка из этой группы представлена всего девятью наблюдениями, поэтому можно говорить о том, что данные на результаты исследования значительно не повлияют.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [51]:
data_pivot = df.pivot_table(index = ['family_status'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
женат / замужем,931
гражданский брак,388
Не женат / не замужем,274
в разводе,85
вдовец / вдова,63


Рассчитаем долю задолженности по группам. 

In [52]:
 df.groupby(['family_status']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False) 

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.097509
гражданский брак,0.093471
женат / замужем,0.075452
в разводе,0.07113
вдовец / вдова,0.065693


### Вывод

Исходя из полученных данных можно сделать вывод, что те заемщики, которые когда-либо состояли (сотоят) в официальном браке, являются наиболее ответственными заемщиками и возвращают кредит в срок, в отличие от тех, кто либо не состоит в браке вовсе, либо состоит в гражданском браке. 

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [53]:
data_pivot = df.pivot_table(index = ['income_group_1'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
income_group_1,Unnamed: 1_level_1
2,483
3,448
1,427
4,383


Рассчитаем долю задолженности по группам. 

In [54]:
 df.groupby(['income_group_1']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
income_group_1,Unnamed: 1_level_1
2,0.088155
3,0.085382
1,0.079605
4,0.071402


### Вывод

Исходя из полученных данных можно сделать вывод, что самыми проблематичными заемщиками оказалась группа с доходом 195 813.25 руб. и выше.

### Как разные цели кредита влияют на его возврат в срок?

In [55]:
data_pivot = df.pivot_table(index = ['key_category'], values ='debt', aggfunc='sum').sort_values(by = 'debt', ascending = False)
data_pivot.head(20)

Unnamed: 0_level_0,debt
key_category,Unnamed: 1_level_1
операции с недвижимостью,782
автомобиль,403
образование,370
свадьба,186


Рассчитаем долю задолженности по группам. 

In [56]:
 df.groupby(['key_category']).agg({'debt':'mean'}).sort_values(by = 'debt', ascending = False)  

Unnamed: 0_level_0,debt
key_category,Unnamed: 1_level_1
автомобиль,0.09359
образование,0.0922
свадьба,0.080034
операции с недвижимостью,0.072334


In [57]:
data_pivot = df.pivot_table(index = ['key_category'], columns = 'debt', values = 'gender', aggfunc = 'count')


data_pivot['ratio'] = round(data_pivot[1] / (data_pivot[0] + data_pivot[1]), 4)
data_pivot.sort_values('ratio', ascending = False)

debt,0,1,ratio
key_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,0.0936
образование,3643,370,0.0922
свадьба,2138,186,0.08
операции с недвижимостью,10029,782,0.0723


Для анализа задолженности были использовано несколько методов: 
метод  группировки данных и метод сводных таблиц. 


### Вывод

Исходя из полученных данных можно говорить о том, что наиболее проблематичными оказались следующие цели получения кредита:  
 - приобретение автомобиля 
 - получение образования  
 - кредит на проведение свадьбы   
 
 К категории "операции с недвижимостью" были отнесены все цели получения кредита, связанные с приобретением, ремонтом недвижимости.
 Заемщики из данной категории оказались наиболее ответственными. 
 
 

### Шаг 4. Общий вывод

После проведения анализа кредитоспособности клиента в зависимости от множества факторов и изучив их влияние на возврат кредита в срок, можно сделать следующие выводы:  
Семейное положение влияет на вероятность возврата кредита в установленный срок так же как и наличие детей. Та группа, которая имеет наименьший доход, будет более ответственно подходить к погашению кредита. Кредиты, целью которых является приобретение недвижимости или ремонт уже имеющейся, будут выплачиваться в срок, в отличие от кредита на автомобиль или образование. 
  При анализе надежности заемщика следует также учитывать регион исследования, т.к. в мегаполисах (таких, как Москва, Санкт-Петербург) могут быть другие данные относительно небольших городов и в этом случае не стоит говорить о невозможности выплаты кредита в срок представителя той или иной группы с определенным набором факторов. 