## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
from IPython.display import display
import pandas as pd

data = pd.read_csv('/datasets/data.csv')

# Изучим первые 10 строк в данных 

display(data.head(10))
print('\nКоличесвто строк в датасете:', data.shape[0], '\n')
print(data.info())


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи



Количесвто строк в датасете: 21525 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


In [3]:

max_total_income = data['total_income'].max()
data[data['total_income'] == max_total_income]
sorted_by_income = data.sort_values(by='total_income', ascending=False)
sorted_by_income.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12412,0,-1477.438114,44,высшее,0,женат / замужем,0,M,компаньон,0,2265604.0,ремонт жилью
19606,1,-2577.664662,39,высшее,0,женат / замужем,0,M,компаньон,1,2200852.0,строительство недвижимости
9169,1,-5248.554336,35,среднее,1,гражданский брак,1,M,сотрудник,0,1726276.0,дополнительное образование
20809,0,-4719.273476,61,среднее,1,Не женат / не замужем,4,F,сотрудник,0,1715018.0,покупка жилья для семьи
17178,0,-5734.127087,42,высшее,0,гражданский брак,1,M,компаньон,0,1711309.0,сыграть свадьбу
17503,0,-2285.476482,43,среднее,1,женат / замужем,0,M,компаньон,0,1597613.0,операции с недвижимостью
18368,1,-333.935516,41,ВЫСШЕЕ,0,гражданский брак,1,M,компаньон,0,1551153.0,свадьба
18353,1,-3173.282035,41,высшее,0,Не женат / не замужем,4,F,компаньон,0,1427934.0,автомобиль
15268,1,-10207.448165,64,высшее,0,в разводе,3,M,компаньон,0,1350246.0,жилье
11071,1,-1851.200013,36,высшее,0,гражданский брак,1,F,сотрудник,0,1286281.0,покупка коммерческой недвижимости


### Вывод

Просматривая данные,следует отметить, что столбцы **`days_employed`, `education`, `total_income`, `family_status`** имеют явные дефекты, судя по первым строкам вывода, которые нужно устранить. В столбце **`days_employed`** у нас отрицательные значения с плавающей точкой, их необходимо переопределить на положительный тип **int**, т.к кол-о дней трудового стажа принимает дискретное значение, далее в **`education`** набор значений столбца не приведён к одному регистру, в **`family_status`** значения  "женат / замужем" имеют явную зависимость от пола, правильнее указать один вариант семейного положения.Где **`total_income`** переопределим тип на целочисленный для удобства восприятия ежемесячного дохода*

### Шаг 2. Предобработка данных

### Обработка пропусков

<font size='3'>Из информации о датасете делаем вывод, что пропуски есть в *`days_employed`, `total_income`* удалим строки с пропущенными значениями</font>

#### Обработка для количественных значений

In [4]:
#Обнаружил аномалию в days_employed

data.sort_values(by='days_employed', ascending=False).head(30)
# 340266 / 24 / 365 - 38 лет
data.sort_values(by='days_employed', ascending=False)
data[data['days_employed']>36500]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


In [5]:
#Для начала NaN заполним нулями, а потом возьмём медианы для каждой группы(после приведения days_employed)
data['days_employed'] = data['days_employed'].fillna(0)
data['days_employed'] = data['days_employed'].abs()

data['years_employed'] = (data['days_employed'] / 365).astype(int)
data_labels = list(data.columns)

data = data[['children', 'days_employed', 'years_employed', 'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender', 'income_type','debt','total_income','purpose']]

data.head(10)

data[(data['dob_years'] - data['years_employed']) < 18]
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
years_employed      21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


In [6]:
#Построим функцию, которая будет преобразовывать столбец  в дни по заданному условию
def transform_to_days(row):
    years_employed = row['years_employed']
    dob_years = row['dob_years']
    days_employed = row['days_employed']
    if (dob_years - years_employed) < 18:
        days = days_employed / 24
        return int(days)
    else:
        return days_employed

In [7]:
data['days_employed'] = data.apply(transform_to_days, axis=1)


In [8]:
#Посмотрим для каких групп отберём медианы
#Соберём словарь с значениями медиан для каждой группы
median_dict = dict(data.groupby('income_type')['days_employed'].median())

#Функция, которая заменит NaN в столбце days_employed
def replace_nan_of_days_employed(row):
    days_employed = row['days_employed']
    income_type = row['income_type']
    if pd.notnull(days_employed):
        return days_employed
    else:
        return median_dict[income_type]


In [9]:
data['days_employed'] = data.apply(replace_nan_of_days_employed, axis=1)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
years_employed      21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


In [10]:


#Обработка для количественных значений


# Найдём медианы в тех столбцах, где есть пропущенные значения
total_income_median = data['total_income'].median()

#Проводим замену в обоих столбцах

#data['days_employed'] = data['days_employed'].fillna(days_employed_median)
data['total_income'] = data['total_income'].fillna(total_income_median)

#Убедимся, что замена произошла
data.info()
data.head(10)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
years_employed      21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


Unnamed: 0,children,days_employed,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,15,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.0,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,288.0,18,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [11]:
data[data['dob_years'] == 0]
#df = df.drop(df[(df.score < 50) & (df.score > 20)].index)
# Уберём колонки, в которых возраст=0
data = data.drop(data[data['dob_years'] == 0].index).reset_index(drop=True)

# Создадим столбец years_employed




Число строк с возрастом=0 довольно мало, около 1% от всего объема, поэтому они не сильно повлияют

#### Обработка для категориальных значений

 Столбцы **`education` `family_status` `gender` `income_type` `purpose`**

In [12]:
data[(data['purpose'] == 'None')|(data['education'] == 'None')|(data['family_status'] == 'None')|(data['gender'] == 'None')|(data['income_type'] == 'None')]
data['dob_years'][data['dob_years'] == 19]


762      19
1971     19
2711     19
4033     19
4078     19
5539     19
8278     19
9174     19
10188    19
11691    19
11988    19
12957    19
15578    19
20133    19
Name: dob_years, dtype: int64

### Вывод

Были найдены пропуски в столбцах **`days_employed` `total_income`** с числовыми значениями, а также 0, те строки были удалены. Провели замену NaN на медианные значения по столбцу.
Возможно, менеджер забыл указать эти значения, либо они были потеряны при записи в саму бд

In [13]:
14166/365

38.81095890410959

### Замена типа данных

In [14]:
#Приведём значения столбцов к нижнему регистру

data['education'] = data['education'].str.lower()
data['purpose'] = data['purpose'].str.lower()
data['family_status'] = data['family_status'].str.lower()

#Заменим значения на цеолчисленный тип, там где float неуместен
data['days_employed'] = data['days_employed'].astype(int)
data['total_income'] = data['total_income'].astype(int)



In [15]:
data.head(30)


Unnamed: 0,children,days_employed,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,288,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [16]:
data.groupby('income_type')['income_type'].count()

income_type
безработный            2
в декрете              1
госслужащий         1453
компаньон           5065
пенсионер           3836
предприниматель        2
сотрудник          11064
студент                1
Name: income_type, dtype: int64

### Вывод

В столбцах **`education` `purpose` `family_status`** было принято решение свести значения к нижнему регистру, исходя из неоднородности их уникальных значений.

Кол-во дней трудового стажа и ежемесячный доход привели к типу int, используя метод **astype** для удобства человеческого восприятия



### Обработка дубликатов

In [17]:
print('Количество дубликатов:', data.duplicated().sum())

Количество дубликатов: 71


In [18]:
data = data.drop_duplicates().reset_index(drop=True)
print('Количество дубликатов:', data.duplicated().sum())


Количество дубликатов: 0


### Вывод

Провели удаление дубликатов (71шт).Использовал метод **drop_duplicates** в связке **reset_index** c параметром **drop=True**, чтобы не потерять естественную индексацию. Дубликаты , по моему мнению, возникают из-за случайных совпадений или повторных записей.

### Лемматизация

In [19]:
from pymystem3 import Mystem
from collections import Counter

m = Mystem()
# Функция для лематизации ячейки датафрейма

def lemmatize_cell(row):
    purpose_cell = row['purpose']
    lemmas = ' '.join(m.lemmatize(purpose_cell))
    return lemmas.rstrip('\n')


In [20]:
#Произведём замену засчёт apply

In [21]:
data['purpose'] = data.apply(lemmatize_cell, axis=1)
data.head(30)

Unnamed: 0,children,days_employed,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилье
1,1,4024,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиль
2,0,5623,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилье
3,3,4124,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительный образование
4,0,14177,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьба
5,0,926,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилье
6,0,2879,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операция с жилье
7,0,152,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,288,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьба
9,0,2188,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилье для семья


In [22]:
print("Уникальные значения: ", data['purpose'].unique())
print("Кол-во уникальных значений: ", data['purpose'].nunique())

Уникальные значения:  ['покупка   жилье ' 'приобретение   автомобиль '
 'дополнительный   образование ' 'сыграть   свадьба '
 'операция   с   жилье ' 'образование ' 'на   проведение   свадьба '
 'покупка   жилье   для   семья ' 'покупка   недвижимость '
 'покупка   коммерческий   недвижимость '
 'покупка   жилой   недвижимость '
 'строительство   собственный   недвижимость ' 'недвижимость '
 'строительство   недвижимость ' 'на   покупка   подержать   автомобиль '
 'на   покупка   свой   автомобиль '
 'операция   с   коммерческий   недвижимость '
 'строительство   жилой   недвижимость ' 'жилье '
 'операция   со   свой   недвижимость ' 'автомобиль '
 'заниматься   образование ' 'сделка   с   подержанный   автомобиль '
 'получение   образование ' 'свадьба '
 'получение   дополнительный   образование ' 'покупка   свой   жилье '
 'операция   с   недвижимость ' 'получение   высокий   образование '
 'свой   автомобиль ' 'сделка   с   автомобиль '
 'профильный   образование ' 'высокий   образо

 Можно обобщить уникальные выводы на категории: **`недвижимость` `жильё` `свадьба` `автомобиль` `образование`**

In [23]:
#Сформируем список из данных категорий
category_list = ['недвижимость', 'жилье', 'свадьба', 'автомобиль', 'образование']

In [24]:
data['purpose'].value_counts().sort_values(ascending=False)

автомобиль                                     966
свадьба                                        786
на   проведение   свадьба                      764
сыграть   свадьба                              760
операция   с   недвижимость                    672
покупка   коммерческий   недвижимость          658
покупка   жилье   для   сдача                  649
операция   с   коммерческий   недвижимость     648
операция   с   жилье                           646
жилье                                          640
покупка   жилье                                640
покупка   жилье   для   семья                  637
строительство   собственный   недвижимость     633
недвижимость                                   629
операция   со   свой   недвижимость            627
строительство   жилой   недвижимость           621
покупка   свой   жилье                         619
строительство   недвижимость                   619
покупка   недвижимость                         618
ремонт   жилье                 

In [25]:
# Напишем функцию для категоризации цели to_main_purpose

def to_main_purpose(row):
    splitted_purpose = row['purpose'].split()
    for c in category_list:
        if c in splitted_purpose:
            return c



In [26]:
data['main_purpose'] = data.apply(to_main_purpose, axis=1)
data.info()
data.head(15)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 14 columns):
children            21353 non-null int64
days_employed       21353 non-null int64
years_employed      21353 non-null int64
dob_years           21353 non-null int64
education           21353 non-null object
education_id        21353 non-null int64
family_status       21353 non-null object
family_status_id    21353 non-null int64
gender              21353 non-null object
income_type         21353 non-null object
debt                21353 non-null int64
total_income        21353 non-null int64
purpose             21353 non-null object
main_purpose        21353 non-null object
dtypes: int64(8), object(6)
memory usage: 2.3+ MB


Unnamed: 0,children,days_employed,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,main_purpose
0,1,8437,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилье,жилье
1,1,4024,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиль,автомобиль
2,0,5623,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилье,жилье
3,3,4124,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительный образование,образование
4,0,14177,932,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьба,свадьба
5,0,926,2,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилье,жилье
6,0,2879,7,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операция с жилье,жилье
7,0,152,0,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,288,18,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьба,свадьба
9,0,2188,5,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилье для семья,жилье


In [27]:
#Выведем число людей, старающихся достичь данной цели

data.groupby('main_purpose')['main_purpose'].count().sort_values(ascending=False)
#группа - "Сдача относится к жилью, поэтому исправим значение в столбце и пересчитаем показатели"

main_purpose
недвижимость    6328
жилье           4436
автомобиль      4284
образование     3995
свадьба         2310
Name: main_purpose, dtype: int64

### Вывод

Была проведена лемматизация каждой ячейки в столбце **`purpose`** и в последствии она была перезаписана на лемматизированное значение.Далле, мы создали столбец **`main_purpose`**, который отражает категорию цели кредита(описывает цель одним словом).По сведениям из частотного анализа -большинсво людей хочет получить кредит с целью покупки недвижимости или приобрести автомобиль</font>

### Категоризация данных

In [28]:
#Переименуем столбец main_purpose на purpose_category
data = data.rename(columns={'main_purpose':'purpose_category'})

rest_log = data[['education_id','education', 'debt']]
rest_dict = data[['education_id', 'income_type', 'purpose_category']]


rest_dict.drop_duplicates().reset_index(drop=True)


Unnamed: 0,education_id,income_type,purpose_category
0,0,сотрудник,жилье
1,1,сотрудник,автомобиль
2,1,сотрудник,жилье
3,1,сотрудник,образование
4,1,пенсионер,свадьба
...,...,...,...
84,2,пенсионер,образование
85,4,госслужащий,жилье
86,0,безработный,жилье
87,0,предприниматель,свадьба


In [29]:
rest_log.groupby('education')['debt'].count().sort_values(ascending=False)

education
среднее                15108
высшее                  5215
неоконченное высшее      742
начальное                282
ученая степень             6
Name: debt, dtype: int64

In [30]:
df_education_cols_compare = data[['education', 'education_id']]
df_education_cols_compare.drop_duplicates().reset_index(drop=True)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


 Видно ,что столбец **education** можно опустить

In [31]:
data = data.drop(['education'], axis=1)

In [32]:
data

Unnamed: 0,children,days_employed,years_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,23,42,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилье,жилье
1,1,4024,11,36,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиль,автомобиль
2,0,5623,15,33,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилье,жилье
3,3,4124,11,32,1,женат / замужем,0,M,сотрудник,0,267628,дополнительный образование,образование
4,0,14177,932,53,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьба,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21348,1,4529,12,43,1,гражданский брак,1,F,компаньон,0,224791,операция с жилье,жилье
21349,0,14330,942,67,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобиль,автомобиль
21350,1,2113,5,38,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость
21351,3,3112,8,38,1,женат / замужем,0,M,сотрудник,1,244093,на покупка свой автомобиль,автомобиль


### Вывод

Каждой ячейке с целью была присвоена своя категория по принципу объекта цели. За сам объект цели посчитали последние слова в леммах (например: жильё, образование, недвижимость)

А столбцы **education, education_id** оказались взаимозаменяемыми

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [33]:
data['children'] = data['children'].abs()
data.groupby('children')['children'].count()
data['has_children'] = data['children'].apply(lambda x: 'yes' if x > 0 else 'no')

#Бездетных заёмщиков больше примерно в 2 раза
data['has_children'].value_counts()


no     14022
yes     7331
Name: has_children, dtype: int64

In [39]:
pivot_data = data.pivot_table(index='debt', columns='has_children', values='income_type', aggfunc='count', margins=True)
pivot_data['ratio_who_has_children'] = pivot_data['yes'] /pivot_data["All"] 
pivot_data['hasnt_children'] = pivot_data['no'] / pivot_data["All"]  

pivot_data.head(2)

has_children,no,yes,All,ratio_who_has_children,hasnt_children
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,12964,6656,19620,0.339246,0.660754
1,1058,675,1733,0.389498,0.610502


## Правка (upd)

In [50]:
pivot_data = data.pivot_table(index='has_children', columns='debt', values='income_type', aggfunc='count', margins=True)
pivot_data['ratio'] = pivot_data[1] / pivot_data['All'] 

pivot_data.head(2)

debt,0,1,All,ratio
has_children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
no,12964,1058,14022,0.075453
yes,6656,675,7331,0.092075


In [51]:
print('Доля должников среди клиентов, которые не имеют детей:', 1058 / 14022)

Доля должников среди клиентов, которые не имеют детей: 0.07545285979175581


In [45]:
print('Доля должников c детьми:', 675 / 7331)

Доля должников c детьми: 0.09207475105715456


# Вывод


***Сравнивая доли должников от разных категорий (с детьми и без), приходим к выводу ,что Должников в категории с детьми больше***

Среди бездетных 7,5% просрочек, среди детных - 9,2%. 

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [60]:
pivot_data_by_family = data.pivot_table(index='family_status_id', columns='debt', values='income_type', aggfunc='count', margins=True)
pivot_data_by_family.head(2)
pivot_data_by_family['ratio'] = pivot_data_by_family[1] / pivot_data_by_family['All']
pivot_data_by_family



debt,0,1,All,ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,11363,927,12290,0.075427
1,3744,386,4130,0.093462
2,892,62,954,0.06499
3,1100,85,1185,0.07173
4,2521,273,2794,0.097709
All,19620,1733,21353,0.08116


In [61]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

# Вывод
   

Что касется семейного статуса, то тут основная часть должников сосредоточена среди людей, состоящих в гражданском браке и тех, которые не замужем/ женаты  

То есть видно, что наиболее надежные заемщики, это те, кто находится или когда-либо был в законном браке.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [62]:
def salary_to_type(row):
    q_twentyfive = data['total_income'].quantile(q=0.25)
    q_seventyfive = data['total_income'].quantile(q=0.75)
    salary = row['total_income']
    if salary <= q_twentyfive:
        return 'низкая'
    if salary < q_seventyfive:
        return 'средняя'
    else:
        return 'высокая'

data['salary_type'] = data.apply(salary_to_type, axis=1)
data.head()
data[data['salary_type'] == 'высокая']


Unnamed: 0,children,days_employed,years_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,has_children,salary_type
0,1,8437,23,42,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилье,жилье,yes,высокая
3,3,4124,11,32,1,женат / замужем,0,M,сотрудник,0,267628,дополнительный образование,образование,yes,высокая
5,0,926,2,27,0,гражданский брак,1,M,компаньон,0,255763,покупка жилье,жилье,no,высокая
6,0,2879,7,43,0,женат / замужем,0,F,компаньон,0,240525,операция с жилье,жилье,no,высокая
16,0,1719,4,35,1,женат / замужем,0,F,сотрудник,0,289202,недвижимость,недвижимость,no,высокая
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21341,0,1166,3,35,1,женат / замужем,0,F,сотрудник,0,250986,покупка жилье,жилье,no,высокая
21342,0,280,0,27,2,не женат / не замужем,4,M,компаньон,0,355988,строительство недвижимость,недвижимость,no,высокая
21344,0,914,2,42,0,женат / замужем,0,F,компаньон,0,322807,покупка свой жилье,жилье,no,высокая
21348,1,4529,12,43,1,гражданский брак,1,F,компаньон,0,224791,операция с жилье,жилье,yes,высокая


In [68]:
data['salary_type'].unique()

array(['высокая', 'средняя', 'низкая'], dtype=object)

In [71]:

data_salary_pivot = data.pivot_table(index="salary_type", columns='debt', values='income_type', aggfunc='count', margins=True)

data_salary_pivot['ratio'] = data_salary_pivot[1] / data_salary_pivot['All']
data_salary_pivot.head(3)



debt,0,1,All,ratio
salary_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
высокая,4957,382,5339,0.071549
низкая,4914,425,5339,0.079603
средняя,9749,926,10675,0.086745


# Вывод 

 Люди со средним заработком, вероятнее могут больше подвергаются задолженности чем остальные

Видимо, низкие доходы дисциплинируют.

- Как разные цели кредита влияют на его возврат в срок?

In [80]:
data_purpose_pivot = data.pivot_table(index="purpose_category", columns='debt', values='income_type', aggfunc='count', margins=True)

data_purpose_pivot['ratio'] = data_purpose_pivot[1] / data_purpose_pivot['All']
data_purpose_pivot.head(5)


debt,0,1,All,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,3884,400,4284,0.093371
жилье,4130,306,4436,0.068981
недвижимость,5855,473,6328,0.074747
образование,3625,370,3995,0.092616
свадьба,2126,184,2310,0.079654


## Вывод

Цели кредита , связанные с образованием и автомобилем могут указывать о трудностях возврата кредита

# Общий вывод

 На основе анализа сводных таблиц, мы приходим к выводу, что при построении системы выдачи кредита стоит учитывать у заёмщика - **а)наличие детей**,т.к для  категории людей,у которых есть дети, может быть характерен несвоевроменный возврат средств; **б)Семейное положение**, возможно, что те кто состоит в гражданском браке или те, кто не женат/не замужем не смогут вернуть кредит в поставленный срок.; **в)Уровень зарплаты,** вероятнее, что те кто имеет средний заработок могут не попасть в первый срок  возврата кредита.;**г)Цель кредита**, если она будет относится к категории образования или автомобиля, опять таки возможна задержка выплаты кредита.