# Исследование надёжности заёмщиков для построении модели кредитного скоринга.

### Изучение общей информации.

In [16]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
display(data.head(30))

#Находим уникальные значения по столбцам
print(data['education'].unique())
print(data['family_status'].unique())
print(data['income_type'].unique())
print(data['purpose'].unique())

print(data['dob_years'].describe())

data.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка

#### Вывод

В анализируемой таблице представлено 21525 записей об объекте исследований - клиентов банка, и 12 признаков (столбцов), из которых: 4 числовых, 7 категориальных и 1 бинарный. 
Присутствуют пропущенные значения в столбцах: "days_employed", "total_income". 
Применив к столбцам метод unique, обнаружили, что присутствуют дубликаты в столбце "education". 
Методом describe обнаружена ошибка по графе с данными о возрасте, так как min значение - 0. 

### Предобработка данных

#### Обработка пропусков

In [21]:
print(data.isnull().sum())

data['days_employed'] = data['days_employed'].abs()


data.fillna(data.groupby('income_type')['days_employed'].transform('mean'), inplace=True)

data.fillna(data.groupby('income_type')['total_income'].transform('mean'), inplace=True)


pensioners_mean = data[data['income_type'] == 'пенсионер'] ['days_employed'].mean()

print(pensioners_mean/365)

data.loc[data['days_employed'] >= 18250, 'days_employed'] = 1000


mean_dob_years = data['dob_years'].mean()

data.loc[data['dob_years'] == 0, 'dob_years'] = 43


print(data.head(100))
data.info()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null float64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB
None


#### Вывод

Данные по общему трудовому стажу и типу занятости пропущены в 2174 случаях, что составляет 10% от всех данных. Возможно, это связано с ошибкой при загрузке вещественных числ. Н-р при нахождении значений общего трудового стажа в днях, применялась формула расчета с операцией деления, и если сотрудник не заполнил эту графу или поставил 0, то из-за ошибки значение не выгружалось.Вероятно, неполнота данных в столбце "total_income" может быть связана с отсутствием значений в столбце "days_employed".
В столбце "days_employed" также некорректно представлены сами данные, т.к. стаж выражен либо отрицательными числами, либо слишком большими значениями для типа занятости "пенсионеры". Скорее всего, данные по пенсионерам выражены в часах, а отрицательный знак - это обозначение системы измерения в днях, либо техническая ошибка - перенос дефиса. Необходимо заполнить пропуски характерными значениями, так как данные могут повлиять на результаты исследований.

Чтобы привести таблицу к однородному виду, заменим трудовой стаж пенсионеров на среднее значение, выраженное в днях. 
Также необходимо избавиться от 0 значения в графе возраста клиента, т.к. в дальнейшем это может повлиять на результаты анализа.

При проверке пропущенных значений не обнаружено.

#### Преобразование типов данных

In [3]:
data.dtypes
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
data.dtypes

children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
dtype: object

#### Вывод

С помощью метода dtypes выведем тип переменных. У столбцов 'days_employed','total_income' вещественный тип данных, изменим его на целочисленный для наглядности. Воспользуемся методом astype, т.к. только он переводит вещественный тип данных в числовой. 
При проверке тип данных успешно преобразован.

#### Обработка дубликатов

In [4]:
print(data.duplicated().sum())
data['education'] = data['education'].str.lower()
data = data.drop_duplicates().reset_index(drop=True)
print(data.duplicated().sum())
print (data['education'].value_counts())

54
0
среднее                15172
высшее                  5250
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


#### Вывод

Посчитаем количество дубликатов в наборе данных, вызвав метод sum к duplicated.В столбце 'Education' строки отличаются регистром нескольких букв. Причина этого возможно связана с неправильным соединением данных из разных источников, в одном из которых было требование использовать только верхний регистр,в других такого требования не было.Применим метод str.lower(), чтобы привести все символы в строке к нижнему регистру.Далее удалим строки с дубликатами с изменением индексов и удалением старых.  Воспользуемся методом value_counts() для поиска уникальных значений и выведем их на экран. 

### Лемматизация

In [5]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

data['purpose_lemma'] = data['purpose'].apply(m.lemmatize)
print(Counter(data['purpose_lemma'].sum()))

purposes = ['недвижимость','жилье','автомобиль','свадьба','образование' ]


def purpose_category(text):
    lemma = m.lemmatize(text)
    for word in purposes:
        try:
            if word in lemma:
                lemma = word
                return lemma
        except:
                print(word)
                

data['purpose_lemma'] = data['purpose'].apply(purpose_category)

data.loc[data['purpose_lemma'] == 'недвижимость', 'purpose_lemma'] = 'жилье'

print(data['purpose_lemma'].value_counts())



Counter({' ': 33570, '\n': 21454, 'недвижимость': 6351, 'покупка': 5897, 'жилье': 4460, 'автомобиль': 4306, 'образование': 4013, 'с': 2918, 'операция': 2604, 'свадьба': 2324, 'свой': 2230, 'на': 2222, 'строительство': 1878, 'высокий': 1374, 'получение': 1314, 'коммерческий': 1311, 'для': 1289, 'жилой': 1230, 'сделка': 941, 'дополнительный': 906, 'заниматься': 904, 'проведение': 768, 'сыграть': 765, 'сдача': 651, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'подержанный': 486, 'подержать': 478, 'приобретение': 461, 'профильный': 436})
жилье          10811
автомобиль      4306
образование     4013
свадьба         2324
Name: purpose_lemma, dtype: int64


#### Вывод

Применена лемматизация к столбцу с данными о целях кредита. С помощью метода count рассмотрена частота лемм. Выведены основные категории для целей кредита. Далее с помощью функции была применена лемматизация столбца 'purpose', и если значение из целей совпадало с одним из слов в лемме, оно возвращалось. Конечные результаты выведены в отдельный столбец 'purpose_lemma'. Т.к. жильё и недвижимость можно отнести к одной группе, то была произведена замена значения 'недвижимость' на 'жилье'. 

### Категоризация данных

In [6]:
data['dob_years'].describe()

def age_category(age):
    if age < 33:
        return "1. до 33"
    elif 33 <= age < 43:
        return "2. 33-43"
    elif 43 <= age < 53:
        return "3. 43-53"
    elif age >= 53:
        return "4. от 53"
    
data['age_category'] = data['dob_years'].apply(age_category)

data_describe = data['total_income'].describe()

print(data['total_income'].quantile([0.25, 0.50, 0.75]))

def income_category(income):
    if income < 107623:
        return "низкий"
    elif 107623 <= income < 151887:
        return "ниже среднего"
    elif 151887 <= income < 202417:
        return "выше среднего"
    elif income >= 202417 :
        return "высокий"
  
data['income_category'] = data['total_income'].apply(income_category)

def children_category(children):
    if children < 1:
        return 'нет детей'
    else:
        return 'есть дети'
    

data['children_category'] = data['children'].apply(children_category)


print(data.head(50))


0.25    107623.0
0.50    151887.0
0.75    202417.0
Name: total_income, dtype: float64
    children  days_employed  dob_years            education  education_id  \
0          1           8437         42               высшее             0   
1          1           4024         36              среднее             1   
2          0           5623         33              среднее             1   
3          3           4124         32              среднее             1   
4          0           1000         53              среднее             1   
5          0            926         27               высшее             0   
6          0           2879         43               высшее             0   
7          0            152         50              среднее             1   
8          2           6929         35               высшее             0   
9          0           2188         41              среднее             1   
10         2           4171         36               высшее        

#### Вывод

Необходимо сгруппировать данные для формулировки выводов.
Применялся метод describe, чтобы выбрать корректные измерения,далее с помощью функции были категоризированы столбцы с данными о возрасте клиента. Применился метод quantile c квантилями 25%,50%,75% для категоризации ежемесячного дохода. Для категоризирования количества детей применялась функция, которая выводила результат о наличии или отсутствии детей у клиента. Категоризированные данные были добавлены в датафрейм. 

### Поиск зависимостей между характеристиками заёмщиков и возврата кредита в срок.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [7]:
data_pivot=data.pivot_table(index=['children_category'],columns = 'debt',values = 'family_status_id',aggfunc='count')

data_pivot['probability_of_no_return'] = (data_pivot[1] / (data_pivot[0] + data_pivot[1])*100)

print(data_pivot.sort_values('probability_of_no_return', ascending=False).round(1))

debt                   0     1  probability_of_no_return
children_category                                       
есть дети           6639   677                       9.3
нет детей          13074  1064                       7.5


#### Вывод

Исходя из таблицы можно сделать вывод, что наличие детей увеличивает вероятность невыполнения обязательств по кредиту. В семье с детьми увеличены расходы, т.к. на ребенка обычно уходит от 20% семейного бюджета.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [8]:
data_pivot=data.pivot_table(index=['family_status'], columns = 'debt',values = 'family_status_id', aggfunc='count')

data_pivot['probability_of_no_return'] = (data_pivot[1] / (data_pivot[0] + data_pivot[1])*100)


print(data_pivot.sort_values('probability_of_no_return', ascending=False).round(1))

debt                       0    1  probability_of_no_return
family_status                                              
Не женат / не замужем   2536  274                       9.8
гражданский брак        3763  388                       9.3
женат / замужем        11408  931                       7.5
в разводе               1110   85                       7.1
вдовец / вдова           896   63                       6.6


#### Вывод

Наиболее надёжные те клиенты, которые состоят в браке.Возможно, это связано с тем, что если в браке работают оба супруга, то можно рассматривать совокупный доход, и в случае потери источника дохода заёмщика, другой может временно оказывать ему материальную поддержку. 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [13]:
data_pivot=data.pivot_table(index=['income_category'], columns = 'debt',values = 'family_status_id', aggfunc='count')

data_pivot['probability_of_no_return'] = (data_pivot[1] / (data_pivot[0] + data_pivot[1])*100)

print(data_pivot.sort_values('probability_of_no_return', ascending=True).round(1))

debt                0    1  probability_of_no_return
income_category                                     
высокий          5035  375                       6.9
низкий           4937  427                       8.0
выше среднего    4853  464                       8.7
ниже среднего    4888  475                       8.9


#### Вывод

Наиболее надёжными заёмщиками являются клиенты с самым большим доходом. Это логично, так как у них больше возможности в срок погасить кредит и заплатить меньше процентов. На втором месте клиенты с наименьшим уровнем доходов.Это может быть связано, что они ответственнее относятся к деньгам, чем клиенты со средним заработком. 

- Как разные цели кредита влияют на его возврат в срок?

In [14]:
data_pivot=data.pivot_table(index=['purpose_lemma'], columns = 'debt',values = 'family_status_id', aggfunc='count')

data_pivot['probability_of_no_return'] = (data_pivot[1] / (data_pivot[0] + data_pivot[1])*100)

print(data_pivot.sort_values('probability_of_no_return', ascending=True).round(1))

debt               0    1  probability_of_no_return
purpose_lemma                                      
жилье          10029  782                       7.2
свадьба         2138  186                       8.0
образование     3643  370                       9.2
автомобиль      3903  403                       9.4


#### Вывод

По данным таблицы, клиенты, которые берут кредит на жильё являются самыми ответственными. Возможно, это связано с размером суммы, которую берут в кредит. Если были возможности накопить на первоначальный взнос большую сумму денег, то вероятно, будет возможность и выплатить ипотеку. Наименее надежными являются клиенты, которые берут кредит на образование и автомобиль.

### Общий вывод

На основании входных данных от банка можно предоставить следующую характеристику клиента, которая отражает его способность и желание своевременно погашать кредит:
Клиент состоит в браке, но не имеет детей. Его ежемесячный доход составляет от 200 000 р. Цель кредита - приобретение жилья. 
Также можно предоставить характеристику клиента с повышенным риском невыплаты кредита:
Клиент со средним ежемесячным доходом, который не состоит в браке. Имеет детей. Цель кредита - покупка автомобиля. 
