## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd 
data = pd.read_csv('/datasets/data.csv')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

### Вывод

Получили первые 10 строк таблицы. Первое,что бросается в глаза - отрицательные дни трудового стажа и разный регистр в колонке "education". 
Всего в таблице 12 столбцов 2 типа данных - количественные и категориальные. Количество значений в столбцах разное, следовательно, в данных есть пропуски.
В названиях проблем нет, пробелы отсутствуют, все в нижнем регистре. 

### Шаг 2. Предобработка данных

### Обработка пропусков

Найдем количество пропущенных значений. 

In [4]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [5]:
data.groupby('income_type')['total_income'].count()

income_type
безработный            2
в декрете              1
госслужащий         1312
компаньон           4577
пенсионер           3443
предприниматель        1
сотрудник          10014
студент                1
Name: total_income, dtype: int64

In [54]:
data_sort_1 = data_sort[data_sort['income_type'] == 'госслужащий']
#data_sort_1 = data_sort[data_sort['income_type'] == 'компаньон']
#data_sort_1 = data_sort[data_sort['income_type'] == 'пенсионер']
#data_sort_1 = data_sort[data_sort['income_type'] == 'сотрудник']
data_sort_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1459 entries, 3097 to 21268
Data columns (total 12 columns):
children            1459 non-null int64
days_employed       1312 non-null float64
dob_years           1459 non-null int64
education           1459 non-null object
education_id        1459 non-null int64
family_status       1459 non-null object
family_status_id    1459 non-null int64
gender              1459 non-null object
income_type         1459 non-null object
debt                1459 non-null int64
total_income        1312 non-null float64
purpose             1459 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 148.2+ KB


Пропущенные данные состовляют 10% от общего кол-ва, поэтому просто удалить их нельзя. 413 пропусков у пенсионеров, 1105 - у сотрудников, 508 - у компаньонов, 147 - у госслужащих. Таким образом, большее кол-во пропущенных данных обнаружено у работающих людей, поскольку они работают и получают зарплату, заменить отсутствующие данные на ноль нельзя. 
Расчитаем медиану.

In [8]:
data[data['total_income'] < 0]['total_income'].count()

0

In [9]:
data.sort_values(by='total_income', ascending=True)
total_income_median = data['total_income'].median()
total_income_median

145017.93753253992

In [10]:
data['total_income'] = data['total_income'].fillna(total_income_median)
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

Пропуски заменены на медианное значение. 

Существует такое понятие, как "отрицательный трудовой стаж в днях", он возникает, когда дней в дате увольнения меньше, чем дней в дате приема. Можно заменить пропущенные значения медианой, можно оставить как есть, поскольку для общего вывода необходимо знать только количество детей, общий доход, семейное положение и цель кредита. 

In [11]:
data_sort_days = data.sort_values(by = 'days_employed', ascending=False)
data_sort_days.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба
4697,0,401635.032697,56,среднее,1,женат / замужем,0,F,пенсионер,0,48242.322502,покупка недвижимости
13420,0,401619.633298,63,Среднее,1,гражданский брак,1,F,пенсионер,0,51449.788325,сыграть свадьбу
17823,0,401614.475622,59,среднее,1,женат / замужем,0,F,пенсионер,0,152769.694536,покупка жилья для сдачи
10991,0,401591.828457,56,среднее,1,в разводе,3,F,пенсионер,0,39513.517543,получение дополнительного образования
8369,0,401590.452231,58,среднее,1,женат / замужем,0,F,пенсионер,0,175306.312902,образование


In [12]:
data.groupby('income_type')['days_employed'].count()

income_type
безработный            2
в декрете              1
госслужащий         1312
компаньон           4577
пенсионер           3443
предприниматель        1
сотрудник          10014
студент                1
Name: days_employed, dtype: int64

Аналогичная ситуация со стажем работы. Заменим пропущенные значения на медиану. 

In [13]:
days_employed_median = data_sort_days['days_employed'].median()
data['days_employed'] = data['days_employed'].fillna(days_employed_median)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

В основном все пропущенные данные в трудовом стаже и доходе в месяц были у работающих людей. Можно сделать вывод, что эти данные просто отсутствовали. Пропущенные даные составляют 10% от общего количества: 413 пропусков у пенсионеров, 1105 - у сотрудников, 508 - у компаньонов, 147 - у госслужащих. Таким образом, большее кол-во пропущенных данных обнаружено у работающих людей, поскольку они работают и получают зарплату, заменить отсутствующие данные на ноль нельзя. Расчитаем медиану.

### Замена типа данных

In [14]:
data['days_employed'] = data['days_employed'].astype(int)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


In [15]:
data['total_income'] = data['total_income'].astype(int)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Мы заменили тип данных на цельночисленные в столбце "days_employed" и "total_income" для удобства работы, для этого использовали метод .astype, поскольку его удобно применять к объекту Series.

### Обработка дубликатов

Найдем общее количество дубликотов методом .duplicated(). Поскольку этот метод возвращает значения True (если есть дубликат) и False(если его нет), применяем еще метод sum() для подсчета суммы возвращенных значений True. 

In [16]:
data.duplicated().sum()

54

Мы нашли 54 явных дубликата. Обнаружим неявные в категориальных значениях. С помощью метода .unique() посмотрим все уникальные значения в каждом столбце.

In [17]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Видно, что в колонке "education" одни и те же значения записаны в разных регистрах. Приведем их к единообразию методом str.lower()

In [18]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Аналогичным образом проверим все столбцы с категориальным типом данных. 

In [19]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [20]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В столбце 'gender' есть 1 пропущенное значение. Заменим его на одно из двух.

In [21]:
data['gender'] = data['gender'].replace(to_replace=['XNA'], value=['M'])

In [22]:
data['gender'].unique()

array(['F', 'M'], dtype=object)

In [23]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [24]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В столбце 'children' есть аномальные значения "-1" и "20". C "-1" можно сделать вывод, что оператор ошибся при вводе числа. С числом "20" сложнее: с одной стороны 76 человек из 25 тысяч могут иметь 20 детей, с другой стороны в данной таблице нет людей с 10, 12, 18 детьми. Заменим эти значения на 1 и 2. 

In [25]:
data['children'] = data['children'].replace(to_replace=[-1, 20], value=[1, 2])
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [26]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [27]:
from nltk.stem import SnowballStemmer 
russian_stemmer = SnowballStemmer('russian')

Удалим дубликаты.

In [28]:
data = data.drop_duplicates().reset_index(drop=True)

In [29]:
data.duplicated().sum()

0

### Вывод

Все столбцы с категориальными данными приведены к единообразию и удалены дубликаты, связанные с регистром. Аномальные значения заменены на более вероятные. Однако, в столбце 'purpose' содержится множество значений, похожих по смыслу. Применим метод лемматизации для приведения всех слов к лемме.

### Лемматизация

In [30]:
from pymystem3 import Mystem
m = Mystem()

In [31]:
from collections import Counter

Создадим список, содержащий в себе значения столбца 'purpose', из этого списка сделаем строку.

In [32]:
text = ['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее образование',
       'покупка жилья для сдачи', 'на покупку автомобиля', 'ремонт жилью',
       'заняться высшим образованием']
text_1 =' '.join(text)

Проведем лемматизацию строки text_1 для обнаружения основных категорий.

In [33]:
lemmas =m.lemmatize(text_1)
Counter(lemmas)

Counter({'покупка': 10,
         ' ': 96,
         'жилье': 7,
         'приобретение': 1,
         'автомобиль': 9,
         'дополнительный': 2,
         'образование': 9,
         'сыграть': 1,
         'свадьба': 3,
         'операция': 4,
         'с': 5,
         'на': 4,
         'проведение': 1,
         'для': 2,
         'семья': 1,
         'недвижимость': 10,
         'коммерческий': 2,
         'жилой': 2,
         'строительство': 3,
         'собственный': 1,
         'подержать': 2,
         'свой': 4,
         'со': 1,
         'заниматься': 2,
         'сделка': 2,
         'получение': 3,
         'высокий': 3,
         'профильный': 1,
         'сдача': 1,
         'ремонт': 1,
         '\n': 1})

В итоге можно выделить основные категории: "свадьба", "недвижимость", "жилье", "автомобиль", "образование". 

Создадим список "purpose" с основными категориями.  
Создадим функцию, которая будет лемматизировать каждую строчкe списка в колонке "purpose" и сравнивать леммы с созданным списком, а также заменять старые значения на новые в столбце. 

In [34]:
purpose = ['свадьба', 'недвижимость', 'жилье', 'автомобиль', 'образование']
def purpose_group(purpose):
    lemmas = m.lemmatize(purpose)
    for lemma in lemmas:
        if lemma == 'свадьба':
            return 'свадьба'
        if lemma == 'недвижимость':
            return 'недвижимость'
        if lemma == 'жилье':
            return 'жилье'
        if lemma == 'автомобиль':
            return 'автомобиль'
        if lemma == 'образование':
            return 'образование'

data['purpose'] = data['purpose'].apply(purpose_group)

С помощью функции мы провели лемматизацию столбца 'purpose' и заменили старые значения на новые, таблица стала нагляднее. Осталось объединить категорию "жилье" и "недвижимость", поскольку они тоже близки по смысловому значению. Для этого используем метод replace:

In [35]:
data['purpose'] = data['purpose'].replace(to_replace=['жилье'], value=['недвижимость'])

In [36]:
data['purpose'].unique()

array(['недвижимость', 'автомобиль', 'образование', 'свадьба'],
      dtype=object)

### Вывод

В итоге в столбце 'purpose' мы выявили и объединили все цели для получения кредита в 4 категории - это 'недвижимость', 'автомобиль', 'образование', 'свадьба'.

### Категоризация данных

Получим таблицу с неплатильщиками.

Сделаем сводную таблицу, отражающую общее количество взятых кредитов в зависимости от цели кредита и семейного положения

In [37]:
data_log_1= data.pivot_table(index=['family_status'], columns = 'purpose', values = 'debt', aggfunc='count')
data_log_1= data_log_1.fillna(0)
data_log_1['total'] = data_log_1['автомобиль'] + data_log_1['недвижимость'] + data_log_1['образование'] + data_log_1['свадьба']
data_log_1.sort_values(by='total', ascending =False)

purpose,автомобиль,недвижимость,образование,свадьба,total
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
женат / замужем,2736.0,7008.0,2595.0,0.0,12339.0
гражданский брак,434.0,989.0,404.0,2324.0,4151.0
Не женат / не замужем,637.0,1596.0,577.0,0.0,2810.0
в разводе,281.0,676.0,238.0,0.0,1195.0
вдовец / вдова,218.0,542.0,199.0,0.0,959.0


Отфильтруем изначальную таблицу таким образом, чтобы остались только "неплатильщики". На ее основе сделам аналогичную сводную таблицу. Разделим суммарное количество невыплаченных кредитов по семейному статусу на общее количество взятых кредитов по семейному статусу и получим долю (part) невыплативших кредит вовремя в зависимости от семейного статуса.

In [38]:
data_1 = data[data['debt'] != 0]
data_log_family_status= data_1.pivot_table(index=['family_status'], columns = 'purpose', values = 'debt', aggfunc='count')
data_log_family_status = data_log_family_status.fillna(0)
data_log_family_status['total'] = data_log_family_status['автомобиль'] + data_log_family_status['недвижимость'] + data_log_family_status['образование'] + data_log_family_status['свадьба']
data_log_family_status['part'] = data_log_family_status['total'] / data_log_1['total']
data_log_family_status.sort_values(by='part', ascending=False)

purpose,автомобиль,недвижимость,образование,свадьба,total,part
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Не женат / не замужем,82.0,130.0,62.0,0.0,274.0,0.097509
гражданский брак,51.0,91.0,60.0,186.0,388.0,0.093471
женат / замужем,229.0,486.0,216.0,0.0,931.0,0.075452
в разводе,21.0,47.0,17.0,0.0,85.0,0.07113
вдовец / вдова,20.0,28.0,15.0,0.0,63.0,0.065693


Чаще всего невыплачивают кредит вовремя люди, с семейным статусом "Не женат / не замужем", самыми ответственными оказались "вдовец / вдова".

Аналогично, делаем сводную таблицу, где вычисляем общее кол-во взятых кредитов на определенные цели. Пропущенные значения заменяем нулями.

In [39]:
data_log_2 = data.pivot_table(index= ['purpose'], columns = 'family_status', values ='debt', aggfunc='count')
data_log_2 = data_log_2.fillna(0)
data_log_2['total'] = data_log_2['Не женат / не замужем'] + data_log_2['в разводе']+ data_log_2['вдовец / вдова'] +data_log_2['гражданский брак']+data_log_2['женат / замужем']
data_log_2.sort_values(by='total', ascending =False)

family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,total
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
недвижимость,1596.0,676.0,542.0,989.0,7008.0,10811.0
автомобиль,637.0,281.0,218.0,434.0,2736.0,4306.0
образование,577.0,238.0,199.0,404.0,2595.0,4013.0
свадьба,0.0,0.0,0.0,2324.0,0.0,2324.0


In [40]:
data_log_purpose = data_1.pivot_table(index= ['purpose'], columns = 'family_status', values ='debt', aggfunc='count')
data_log_purpose = data_log_purpose.fillna(0)
data_log_purpose['total'] = data_log_purpose['Не женат / не замужем'] + data_log_purpose['в разводе']+ data_log_purpose['вдовец / вдова'] + data_log_purpose['гражданский брак']+ data_log_purpose['женат / замужем']
data_log_purpose['part'] = data_log_purpose['total'] / data_log_2['total']
data_log_purpose.sort_values(by='part', ascending=False)

family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем,total,part
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
автомобиль,82.0,21.0,20.0,51.0,229.0,403.0,0.09359
образование,62.0,17.0,15.0,60.0,216.0,370.0,0.0922
свадьба,0.0,0.0,0.0,186.0,0.0,186.0,0.080034
недвижимость,130.0,47.0,28.0,91.0,486.0,782.0,0.072334


Больше всего неплатильщиков берут кредиты на автомобиль, самыми честными оказались владельцы кредитной недвижимости. 

Аналогично проанализируем, влияет ли количество детей на возврат кредита в срок.

In [41]:
data_log_3 = data.pivot_table(index= ['children'], columns = 'purpose', values ='debt', aggfunc='count')
data_log_3['total'] = data_log_3['total'] = data_log_3['автомобиль'] + data_log_3['недвижимость'] + data_log_3 ['образование'] + data_log_3['свадьба']
data_log_3.sort_values(by='total', ascending =False)

purpose,автомобиль,недвижимость,образование,свадьба,total
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2845,7074,2642,1530,14091
1,974,2471,876,534,4855
2,415,1071,418,224,2128
3,60,169,69,32,330
4,10,21,7,3,41
5,2,5,1,1,9


In [42]:
data_log_chidren = data_1.pivot_table(index= ['children'], columns = 'purpose', values ='debt', aggfunc='count')
data_log_chidren = data_log_chidren.fillna(0)
data_log_chidren['total'] = data_log_chidren['автомобиль'] + data_log_chidren['недвижимость'] + data_log_chidren ['образование'] + data_log_chidren['свадьба']
data_log_chidren['part'] = (data_log_chidren['total'] / data_log_3['total'])
data_log_chidren.sort_values(by='part', ascending=False)

purpose,автомобиль,недвижимость,образование,свадьба,total,part
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,1.0,3.0,0.0,0.0,4.0,0.097561
2,50.0,90.0,47.0,15.0,202.0,0.094925
1,104.0,200.0,90.0,51.0,445.0,0.091658
3,5.0,13.0,4.0,5.0,27.0,0.081818
0,243.0,476.0,229.0,115.0,1063.0,0.075438


Бездетные чаще возвращают кредит в срок. Обнаружена зависимость: чем меньше детей, тем вероятнее, что кредит будет выплачен в срок.

Найдем минимальный, максимальный и медианный доход в месяц по данной таблице:

In [43]:
print('Максимальный доход в месяц:', data['total_income'].max())
print('Минимальный доход в месяц:', data['total_income'].min())
data_income_sort = data.sort_values(by='total_income', ascending = False)
print('Медианный доход в месяц:', data['total_income'].median())

Максимальный доход в месяц: 2265604
Минимальный доход в месяц: 20667
Медианный доход в месяц: 145017.0


Наконец, проанализируем влияние общего достатка. Для этого надо всех людей отнести к категории достатка.
Предположим, что в зависимости от дохода в месяц, есть следующие категории достатка:
- от 20000 до 50000 - низкий достаток;
- от 50000 до 150000 - средний достаток;
- от 150000 до 500000 - высокий достаток; 
- от 500000 и выше - очень высокий достаток. 

In [44]:
def income_group(income):
    if 20000 <= income < 50000 :
        return 'низкий достаток'
    if 50000 <= income < 150000:
        return 'средний достаток'
    if 150000 <= income < 500000:
        return 'высокий достаток'
    if income >= 500000:
        return 'очень высокий достаток' 
  
#income_group(157900)
data['group_total_income'] = data['total_income'].apply(income_group)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,group_total_income
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,высокий достаток
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,средний достаток
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,средний достаток
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,высокий достаток
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,высокий достаток
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,недвижимость,высокий достаток
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,недвижимость,высокий достаток
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,средний достаток
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,свадьба,средний достаток
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,недвижимость,средний достаток


Итак, мы провели категоризацию данных по уровню достатка, написали функцию, которая создала новый столбец в таблице с категориями. Теперь можно проанализировать, как влияет уровень дохода на выплату кредита в срок.

In [45]:
data_log_4 = data.pivot_table(index= ['group_total_income'], columns = 'children', values ='debt', aggfunc='count')
data_log_4 = data_log_4.fillna(0)
data_log_4['total'] = data_log_4[0] + data_log_4[1] + data_log_4[2] + data_log_4[3] + data_log_4[4] + data_log_4[5]
data_log_4.sort_values(by='total', ascending =False)

children,0,1,2,3,4,5,total
group_total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
средний достаток,7881.0,2642.0,1179.0,172.0,21.0,3.0,11898.0
высокий достаток,5819.0,2087.0,884.0,147.0,20.0,5.0,8962.0
низкий достаток,260.0,71.0,35.0,5.0,0.0,1.0,372.0
очень высокий достаток,131.0,55.0,30.0,6.0,0.0,0.0,222.0


Чаще всего кредиты берут люди со средним достатком, причем чем меньше детей, тем чаще берут кредиты. 
Создадим такую же таблицу с "неплатильщиками". Посчитаем отношение непогашенных в срок кредитов к общему числу взятых.

In [46]:
data_1 = data[data['debt'] != 0]
data_log_total_income = data_1.pivot_table(index= ['group_total_income'], columns = 'children', values ='debt', aggfunc='count')
data_log_total_income = data_log_total_income.fillna(0)
data_log_total_income['total'] = data_log_total_income[0] + data_log_total_income[1] + data_log_total_income[2] + data_log_total_income[3] + data_log_total_income[4]
data_log_total_income['part'] = data_log_total_income['total'] / data_log_4['total']
data_log_total_income.sort_values(by='part', ascending=False)

children,0,1,2,3,4,total,part
group_total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
средний достаток,606.0,256.0,112.0,16.0,2.0,992.0,0.083375
высокий достаток,434.0,182.0,84.0,10.0,2.0,712.0,0.079447
очень высокий достаток,9.0,3.0,2.0,0.0,0.0,14.0,0.063063
низкий достаток,14.0,4.0,4.0,1.0,0.0,23.0,0.061828


Чаще всего кредит не возвращают в срок люди со средним достатком, люди с низким достатком наоборот чаще возвращают кредит в срок, то есть явной прямой или обратной зависимости уровня дохода от возврата кредита в срок не прослеживается. 

Также можно посчитать средний доход на члена семьи и найти зависимость между ним и выплатой кредита в срок.
Для этого создадим таблицу data_2 и переведем семейное положение в количество членов семьи, прибавим к ним количество детей и посчитаем средний доход.

In [47]:
data_2 = data[['children', 'family_status', 'total_income']]
data_2['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [48]:
statuses = ['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем']
def convert_status(status):
    for status in statuses:
        if status == 'женат / замужем':
            return 2
        if status == 'гражданский брак':
            return 2
        else:
            return 1
        
data_2['family_count'] = data_2['family_status'].apply(convert_status)
data_2['family_sum'] = data_2['children'] + data_2['family_count']
data_2['family_part'] = data_2['total_income'] / data_2['family_sum']
data_2.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  del sys.path[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,children,family_status,total_income,family_count,family_sum,family_part
0,1,женат / замужем,253875,2,3,84625.0
1,1,женат / замужем,112080,2,3,37360.0
2,0,женат / замужем,145885,2,2,72942.5
3,3,женат / замужем,267628,2,5,53525.6
4,0,гражданский брак,158616,2,2,79308.0
5,0,гражданский брак,255763,2,2,127881.5
6,0,женат / замужем,240525,2,2,120262.5
7,0,женат / замужем,135823,2,2,67911.5
8,2,гражданский брак,95856,2,4,23964.0
9,0,женат / замужем,144425,2,2,72212.5


Получили таблицу Data_2 в котором отражен доход на члена семьи. Проведем категоризацию этого дохода. 

In [49]:
print('Максимальный уровень дохода на человека:', data_2['family_part'].max())
print('Минимальный уровень дохода на человека:', data_2['family_part'].min())

Максимальный уровень дохода на человека: 1132802.0
Минимальный уровень дохода на человека: 6075.0


Пусть: 
       - уровень дохода на человека от 6000 до 50000 считается низким;
       - уровень дохода на человека от 50000 до 150000 считается средним;
       - уровень дохода на человека от 150000 до 500000 считается высоким;
       - уровень дохода на человека от 500000 и выше считается очень высоким.
       Проведем категоризацию

In [50]:
def income_group_family(income):
    if 6000 <= income < 50000 :
        return 'низкий достаток'
    if 50000 <= income < 150000:
        return 'средний достаток'
    if 150000 <= income < 500000:
        return 'высокий достаток'
    if income >= 500000:
        return 'очень высокий достаток' 
  
data_2['group_total_income_family'] = data_2['family_part'].apply(income_group)
data_2.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,children,family_status,total_income,family_count,family_sum,family_part,group_total_income_family
0,1,женат / замужем,253875,2,3,84625.0,средний достаток
1,1,женат / замужем,112080,2,3,37360.0,низкий достаток
2,0,женат / замужем,145885,2,2,72942.5,средний достаток
3,3,женат / замужем,267628,2,5,53525.6,средний достаток
4,0,гражданский брак,158616,2,2,79308.0,средний достаток
5,0,гражданский брак,255763,2,2,127881.5,средний достаток
6,0,женат / замужем,240525,2,2,120262.5,средний достаток
7,0,женат / замужем,135823,2,2,67911.5,средний достаток
8,2,гражданский брак,95856,2,4,23964.0,низкий достаток
9,0,женат / замужем,144425,2,2,72212.5,средний достаток


In [51]:
family_part = data_2['family_part']
group_total_income = data_2['group_total_income_family'] 
data['family_part'] = pd.Series(family_part).values
data['group_total_income_family'] = pd.Series(group_total_income).values
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,group_total_income,family_part,group_total_income_family
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость,высокий достаток,84625.0,средний достаток
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль,средний достаток,37360.0,низкий достаток
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость,средний достаток,72942.5,средний достаток
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,высокий достаток,53525.6,средний достаток
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба,высокий достаток,79308.0,средний достаток
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,недвижимость,высокий достаток,127881.5,средний достаток
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,недвижимость,высокий достаток,120262.5,средний достаток
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,средний достаток,67911.5,средний достаток
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,свадьба,средний достаток,23964.0,низкий достаток
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,недвижимость,средний достаток,72212.5,средний достаток


In [52]:
data_log_5 = data.pivot_table(index= ['group_total_income_family'], columns = 'purpose', values ='debt', aggfunc='count')
data_log_5=data_log_5.fillna(0)
data_log_5['total'] = data_log_5['автомобиль'] + data_log_5['недвижимость'] + data_log_5['образование'] + data_log_5['свадьба'] 
data_log_5.sort_values(by='total', ascending=False)

purpose,автомобиль,недвижимость,образование,свадьба,total
group_total_income_family,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
средний достаток,2588.0,6426.0,2354.0,1385.0,12753.0
низкий достаток,1421.0,3595.0,1380.0,789.0,7185.0
высокий достаток,206.0,523.0,168.0,99.0,996.0
очень высокий достаток,0.0,10.0,3.0,2.0,15.0


Сделаем аналогичную таблицу с "неплательщиками", посчитаем их долю.

In [53]:
data_1 = data[data['debt'] != 0]
data_log_income_family = data_1.pivot_table(index= ['group_total_income_family'], columns = 'purpose', values ='debt', aggfunc='count')
data_log_income_family = data_log_income_family.fillna(0)
data_log_income_family['total'] = data_log_income_family['автомобиль'] + data_log_income_family['недвижимость'] + data_log_income_family['образование'] + data_log_income_family['свадьба'] 
data_log_income_family['part'] = data_log_income_family['total'] / data_log_5['total']
data_log_income_family.sort_values(by='part', ascending=False)

purpose,автомобиль,недвижимость,образование,свадьба,total,part
group_total_income_family,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
очень высокий достаток,0.0,1.0,1.0,0.0,2.0,0.133333
низкий достаток,138.0,273.0,146.0,68.0,625.0,0.086987
средний достаток,237.0,459.0,207.0,106.0,1009.0,0.079119
высокий достаток,15.0,33.0,9.0,5.0,62.0,0.062249


В 13% случаев семья с высоким достатком на каждого человека этой семьи не вернет кредит в срок. Люди с высоким доходом на члена семьи не вернут кредит в срок в 6% случаев. 

### Вывод

Чаще всего кредиты берут женатые пары, не имеющие детей со средним достатком по большей части на недвижимость. На свадьбу берут кредиты в основном люди, проживающие в гражданском браке. Самым "ненадежным" контенгентом оказались незамужние/неженатые люди, берущие кредит на автомобиль.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Да, чем больше в семье детей, тем чаще кредит не выплачивается в срок

### Вывод

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Чаще всего невыплачивают кредит вовремя люди, с семейным статусом "Не женат / не замужем", самыми ответственными оказались "вдовец / вдова".

### Вывод

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Нет, зависимости нет. Чаще всего в срок кредит возвращают люди с низким доходом, реже всего - со средним. 
Если брать в рассчет уровень дохода на члена семьи: чаще всего в срок кредит не возвращают люди с очень высоким доходом на члена семьи, реже всего - с высоким.

### Вывод

- Как разные цели кредита влияют на его возврат в срок?

Чаще всего в срок выплачиваются кредиты, взятые на наедвижимость, реже - на автомобиль.

### Шаг 4. Общий вывод

#### Цель проекта.
Цель проекта заклчюлась в поиске зависимости семейного положения и количества детей на факт погашения кредита в срок на основании предоставленной банком статистике платежеспособности клиента.

#### Поставленные задачи.

Основными поставленными задачами были:
- выявить зависимость между наличием детей и возвратом кредита в срок;
- выявить зависимость между семейным положением и возвратом кредита в срок;
- выявить зависимость между уровнем дохода и возвратом кредита в срок;
- как разные цели кредита влияют на его возврат в срок.

#### Сложности в ходе выполнения проекта.

Оновными сложностями по ходу выполнения проекта были:
- пропущенные данные в ежемесячных доходах и трудовом стаже;
- аномальные значения количества детей;
- множество смысловых дубликатов в целях кредита;
- отсутствие условий для категоризации данных по уровню ежемесячных доходов.

#### Основные выводы.

- количество детей влияет на возврат кредита в срок: чем меньше в семье детей, тем вероятнее кредит будет выплачен в срок, однако, доход на каждого члена семьи не оказывает прямого влияния на выплату в срок взятого кредита;
- зависимость между семейным положением и возвратом кредита в срок: чаще всего невыплачивают кредит вовремя люди с семейным статусом "Не женат / не замужем", самыми ответственными оказались "вдовец / вдова";
- зависимость между уровнем дохода и возвратом кредита в срок: уровень дохода напрямую не влияет на выплату кредита в срок, самую большую долю должников составляют люди со средним достатком, самую маленькую - с низким;
- большая часть кредитов была взята на различные цели, касающиеся недвижимости, как правило именно они чаще всего возвращаются в срок, а кредиты на автомобили чаще всего в срок не возвращаются.