## Исследование надёжности заёмщиков

Задача исследовать данные, представленные банком, которые будут учтены при построении модели **кредитного скоринга** кредит банку. По результатам исследования необходимо ответить на ряд вопросов (см. внизу)

### Шаг 1. Общая информация. 

In [2]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
print(df.info())
df.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Вывод

Из представленных данных видно что имеются 2174 пропуска (10 % от объёма всего датасета). Это не мало. Необходимо выяснить: повлияет ли их удаление на общую статистику/будущие выводы?

### Шаг 2. Предобработка данных

### Обработка пропусков

In [3]:
df = df.fillna(0)
df_NaN = df[(df['days_employed'] == 0) & (df['total_income'] == 0)]

print(df_NaN['children'].value_counts())
print(df['children'].value_counts())

print(df_NaN['family_status_id'].value_counts())
print(df['family_status_id'].value_counts())

print(df_NaN['debt'].value_counts())
print(df['debt'].value_counts())

print(df_NaN['income_type'].value_counts())
print(df['income_type'].value_counts())

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
0    1237
1     442
4     288
3     112
2      95
Name: family_status_id, dtype: int64
0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64
0    2004
1     170
Name: debt, dtype: int64
0    19784
1     1741
Name: debt, dtype: int64
сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64
сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64


### Вывод

Пропуски заполнены на значение нуля, что бы можно было дальше проводить с этими строками математические операции. Выборка из этих строк с пропусками в столбцах "days_employed" и "total_income" не сильно повлияет на окончательные выводы. Такой вывод можно сделать исходя из попарного сравнения данных самого датасета (df) и данных его среза по пропускам (df_NaN). Возможны эти пропуски вызваны некорректным вводам данных.

### Замена типа данных

In [4]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

Метод astype() с параметром int перевёл значения столбцов days_employed и total_income из типа данных float64 в тип данных int64, т.е. из вещественного в целочисленный. Сделано это для наглядности. Порядок целого очень высок (10 в третьей степени и больше) в значениях, поэтому дробную часть можно убрать и это не повлияет на общие выводы.

### Обработка дубликатов

In [5]:
print(df.duplicated().sum())

print(df['education'].unique())
print(df['children'].unique())
print(df['purpose'].unique())

df['education'] = df['education'].str.lower()
print(df['education'].unique())

df['children'] = df['children'].astype('str')
df = df.replace('-1', '1')
df['children'] = df['children'].astype('int')
print(df['children'].unique())

print(df.duplicated().sum())
df = df.drop_duplicates().reset_index(drop = True)
#print(df.head())
print(df.duplicated().sum())
df.info()

54
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
[ 1  0  3  2 -1  4 20  5]
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'пол

### Вывод

Метод drop_duplicates() удаляет повторяющиеся строки, т.е. удаляемые строки полностью идентичны. Всего дубликатов при первичной проверке оказалось 54. Чтобы учесть возможные дубликаты, связанные со столбцом 'education', символы в строке привёл к нижнему регистру вызовом метода lower(). После применения метода были выявлены ещё дубликаты, теперь их сумма равна 71. Причина появление дубликатов скорее всего связан со сбоем ПО, повторным введением данных после сбоя и т.п.
Также была проведена проверка ещё двух столбцов, данные которых вводятся (по всей видимости) вручную. В столбце 'children' заменены значения -1 на 1. К вопросу о дубликатах предполагается вернуться после лемматизации в столбце 'purpose'...

### Лемматизация

In [6]:

from pymystem3 import Mystem

from collections import Counter
print(Counter(df['purpose']))

def function(purpose):
    lem_purpose = stem.lemmatize(purpose)
    if 'автомобиль' in lem_purpose:
        return 'операции с автомобилем'
    if 'жилье' in lem_purpose:
        return 'операции с недвижимостью'
    if 'недвижимость' in lem_purpose:
        return 'операции с недвижимостью'
    if 'образование' in lem_purpose:
        return 'образование'
    if 'свадьба' in lem_purpose:
        return 'свадьба'
stem = Mystem()
df['purpose'] = df['purpose'].apply(function)
print(df['purpose'].apply(function).head())
print(df['purpose'].value_counts())
print(df.duplicated().sum())
df = df.drop_duplicates().reset_index(drop = True)
print(df.duplicated().sum())
print(df['purpose'].apply(function).head())
print(df['purpose'].value_counts())
print(' ')
print('Проверка влияния выборки из пропусков на purpose')
df_NaN = df[(df['days_employed'] == 0) & (df['total_income'] == 0)]
print(df_NaN['purpose'].value_counts())

Counter({'свадьба': 791, 'на проведение свадьбы': 768, 'сыграть свадьбу': 765, 'операции с недвижимостью': 675, 'покупка коммерческой недвижимости': 661, 'операции с жильем': 652, 'покупка жилья для сдачи': 651, 'операции с коммерческой недвижимостью': 650, 'покупка жилья': 646, 'жилье': 646, 'покупка жилья для семьи': 638, 'строительство собственной недвижимости': 635, 'недвижимость': 633, 'операции со своей недвижимостью': 627, 'строительство жилой недвижимости': 624, 'покупка недвижимости': 621, 'покупка своего жилья': 620, 'строительство недвижимости': 619, 'ремонт жилью': 607, 'покупка жилой недвижимости': 606, 'на покупку своего автомобиля': 505, 'заняться высшим образованием': 496, 'автомобиль': 494, 'сделка с подержанным автомобилем': 486, 'на покупку подержанного автомобиля': 478, 'автомобили': 478, 'свой автомобиль': 478, 'на покупку автомобиля': 471, 'приобретение автомобиля': 461, 'дополнительное образование': 460, 'сделка с автомобилем': 455, 'высшее образование': 452, 'об

### Вывод

Для анализа по целям кредита применено обобщение посредствам лемматизации. После выполнения подсчёта количества с помощью Counter в каждой строке встречается одно из пяти слов. Было выявлено, что кредит берётся на 4 цели. Если бы подбор из пяти слов оказался бы неправильным/недостаточным, то это было бы видно после примененния метода подсчёта уникальных значений value_counts(). Половина всех кредитов связано с недвижимостью. На втором месте - операции с автомобилем. На третьем - образование. На четвёртом - свадьба. Была проведена дополнительная проверка и удаление дубликатов. Их удаление не повлияло на статистику (в процентах) распределения кредитов по целям.

### Категоризация данных

In [7]:
children_debt = df[['children', 'debt']]
family_status_id_debt = df[['family_status', 'debt']]
total_income_debt = df[['total_income', 'debt']]
purpose_debt = df[['purpose', 'debt']]

### Вывод

Созданы 4 словаря для ответа на вопросы в шаге 3.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [14]:
ch_pivot = children_debt.pivot_table(index = 'children', values = 'debt', aggfunc = {'debt':['count','mean']})
print(ch_pivot)

            count      mean
children                   
0         13829.0  0.076723
1          4798.0  0.092747
2          2039.0  0.095145
3           329.0  0.082067
4            40.0  0.100000
5             9.0  0.000000
20           76.0  0.105263


### Вывод

Зависимость есть. Из представленных данных можно сделать вывод, что те у кого есть дети реже возвращают кредит в срок. (Даже если предположить что там, где указано 20 детей на самом деле 2 ребёнка - вывод всё равно остаётся тем же. (Возможно тот, кто вводил данные случайно нажимал две кнопки 2 и 0, которые находятся рядом в правой части клавиатуры))

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [17]:
f_pivot = family_status_id_debt.pivot_table(index = 'family_status', values = 'debt', aggfunc = {'debt':['count','mean']})
print(f_pivot)

                         count      mean
family_status                           
Не женат / не замужем   2784.0  0.098420
в разводе               1193.0  0.071249
вдовец / вдова           943.0  0.066808
гражданский брак        4124.0  0.094083
женат / замужем        12076.0  0.076929


### Вывод

Зависимость есть. Из представленных данных можно сделать вывод, что те у кого есть опыт жизни в зарегистрированном браке меньше склонны иметь просрочку по кредиту.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [19]:
t_pivot = total_income_debt.pivot_table(index = 'debt', values = 'total_income', aggfunc = {'total_income': ['count', 'mean', 'median', 'min', 'max']})
print(t_pivot)

        count        max           mean    median  min
debt                                                  
0     19381.0  2265604.0  153941.930912  137516.0  0.0
1      1739.0  2200852.0  147343.715929  135607.0  0.0


### Вывод

Влияние уровня дохода на возврат кредита в срок слабое, либо вообще нет, т.к. основные статистические показатели для выборок близки по значению.

- Как разные цели кредита влияют на его возврат в срок?

In [20]:
p_pivot = purpose_debt.pivot_table(index = 'purpose', values = 'debt', aggfunc = {'debt': ['count','mean']})
print(p_pivot)

                            count      mean
purpose                                    
образование                3964.0  0.093340
операции с автомобилем     4272.0  0.094101
операции с недвижимостью  10578.0  0.073832
свадьба                    2306.0  0.080659


### Вывод

Зависимость есть. Из представленных данных можно сделать вывод, что те кто берёт кредит на операции с недвижимостью чаще имеют просроченные платежи по кредиту. Кредиты на свадьбу на втором месте по этому критерию. Кредиты, взятые для покупки автомобиля и получения образования возвращаются более своевременно.

### Шаг 4. Общий вывод

Ответ на основной вопрос:влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок - ответ - да. Выше были сделаны два промежуточных вывода: 1."Из представленных данных можно сделать вывод, что те у кого есть дети реже возвращают кредит в срок." 2. "Из представленных данных можно сделать вывод, что те у кого есть опыт жизни в зарегистрированном браке меньше склонны иметь долг по кредиту." Если делать синтез этих утверждений, то выходит, что портрет того, кто не оплачивает кредит в срок - это тот, кто состоит в гражданском браке и у него есть дети.