## Исследование надёжности заёмщиков

### Задача
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** 


### 1. Изучаем общую информацию

In [12]:
import pandas as pd
credit_table = pd.read_csv('/datasets/data.csv')
display(credit_table.tail(15))
print('')
credit_table.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля
21511,0,-612.569129,29,высшее,0,гражданский брак,1,F,сотрудник,1,140068.472941,покупка жилья для сдачи
21512,0,-165.377752,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,147301.457769,получение дополнительного образования
21513,0,-1166.216789,35,среднее,1,женат / замужем,0,F,сотрудник,0,250986.142309,покупка жилья
21514,0,-280.469996,27,неоконченное высшее,2,Не женат / не замужем,4,M,компаньон,0,355988.407188,строительство недвижимости
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

1)Применил метод info для понимания того, что вообще таблица содержит. 
Стаж и доход не заполнены на всех строчках (оба заполнены на 19351 строчек из 21525.   
2) Применил метод isnull для определения нулевых значений по столбцу 'total_income'(доход). Вывел первые шапку 10 штук на экран для наглядности. На тех же строчках не заполнен и столбец 'days_employed'(стаж человека). Значения в остальных колонках по этим строчкам разные, явной закономерности нет. Возможная причина - сбой в программе и при незаполнении одной колонки автоматом слетают данные с другой, врядли 2174 человека синхронно не заполнили именно эти 2 строки
3)Высчитав средние значения дохода и стажа по остальным строкам таблицы, проставил среднее в недостающих данных


### 2. Предобработка данных

### Обработка пропусков

In [2]:
#-------------- вычислил какие вообще категории содержат NANы ------------------

mean_income_type = credit_table.groupby('income_type')['days_employed','total_income'].mean()
isnull_income_type_sum = credit_table[credit_table['days_employed'].isnull()]
#display(isnull_income_type_sum['income_type'].value_counts())

#-------------- по циклу заменил значения на средние для категорий ------------------

for cicle in range(100):

    type1 = (credit_table['income_type'] =='пенсионер')
    type2 = (credit_table['income_type'] =='сотрудник')
    type3 = (credit_table['income_type'] =='компаньон')
    type4 = (credit_table['income_type'] =='госслужащий')
    type5 = (credit_table['income_type'] =='предприниматель')
    median1 = credit_table.loc[type1, ('days_employed', 'total_income')].median()
    median2 = credit_table.loc[type2, ('days_employed', 'total_income')].median()
    median3 = credit_table.loc[type3, ('days_employed', 'total_income')].median()
    median4 = credit_table.loc[type4, ('days_employed', 'total_income')].median()
    median5 = credit_table.loc[type5, ('days_employed', 'total_income')].median()
    credit_table.loc[type1, ('days_employed', 'total_income')] = credit_table.loc[type1, ('days_employed', 'total_income')].fillna(median1)
    credit_table.loc[type2, ('days_employed', 'total_income')] = credit_table.loc[type2, ('days_employed', 'total_income')].fillna(median2)
    credit_table.loc[type3, ('days_employed', 'total_income')] = credit_table.loc[type3, ('days_employed', 'total_income')].fillna(median3)
    credit_table.loc[type4, ('days_employed', 'total_income')] = credit_table.loc[type4, ('days_employed', 'total_income')].fillna(median4)
    credit_table.loc[type5, ('days_employed', 'total_income')] = credit_table.loc[type5, ('days_employed', 'total_income')].fillna(median5)

#display(credit_table.tail(10))    

### Вывод

После замены значений "NaN" на средние по остальной таблице проверил данные, теперь все 21 525 строк заполнены

In [13]:
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [17]:
# Код ревьюера. Такой вариант проще и лучше с точки зрения появления новых типово дохода и пропусков в них. Изменять код не потребуется. 
for type_of_income in credit_table.income_type.unique():
    income = credit_table.query("income_type == @type_of_income").total_income.median()
    credit_table.loc[credit_table.income_type == type_of_income, 'total_income'] = \
                            credit_table.loc[credit_table.income_type == type_of_income, 'total_income'].fillna(income)

In [18]:
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Замена типа данных

In [3]:
#------- перевожу 'days_employed' в численные данные --------

credit_table['days_employed'] = pd.to_numeric(credit_table['days_employed']) 
credit_table['days_employed'] = credit_table['days_employed'].astype('int64')

#------- перевожу 'total_income' в численные данные --------

credit_table['total_income'] = pd.to_numeric(credit_table['total_income']) 
credit_table['total_income'] = credit_table['total_income'].astype('int64')
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Заменил вещественный тип данных в строке трудового стажа на целочисленный, стаж не может быть 1,5 дня... Остальные типы данных в столбцах оставил, они подходят.
Далее методом unique посмотрел уникальные значения в столбцах с типом данных "object", в графе образование много одинаковых значений но с разным регистром- исправил.

### Обработка дубликатов

In [4]:
credit_table['education'] = credit_table['education'].str.lower()
#display(credit_table.duplicated().sum())
credit_table = credit_table.drop_duplicates().reset_index(drop = True)


### Вывод

Посмотрел количество дубликатов в датафрейме, 71 штука, меньше 1%, удалил методом drop_duplicates

In [5]:
# Код ревьюера
credit_table.duplicated().sum()

0

### Лемматизация

In [6]:
from pymystem3 import Mystem
m = Mystem()

def category (row):
    category = m.lemmatize(row)
    row = ''.join(category)
    return row.rstrip('\n')

credit_table['lemma_purpose']= credit_table['purpose'].apply(category)
#display(credit_table['lemma_purpose'].value_counts())

### Вывод

Применил функцию m.lemmatize к значениям столбца 'purpose', получилось неплохо

### Категоризация данных

In [21]:
#------- разобьем цель кредита по категориям --------

def purpose_category (row):
    if 'жилье' in row:
        return 'покупка недвижимости'
    if 'недвижимость' in row:
        return 'покупка недвижимости'
    if 'автомобиль' in row:
        return 'покупка автомобиля'
    if 'образование' in row:
        return 'получение образования'    
    return 'свадьба'

credit_table['purpose_category'] = credit_table['lemma_purpose'].apply(purpose_category)

#------- разобьем доход людей по категориям --------

qcut_income_category = pd.qcut(credit_table['total_income'],4)
#display(qcut_income_category.value_counts())


def income_category(row):
    if row <= 107623:
        return 'Людей с низким доходом' 
    if 107623 < row <= 142594:
        return 'Людей со средним доходом' 
    if 142594 < row <= 195820:
        return 'Людей с доходом выше среднего'  
    return 'Людей с высоким доходом'

credit_table['income_category'] = credit_table['total_income'].apply(income_category)

#------- сгруппирую таблицу по образованию и семецному статусу, применив словарь --------

credit_table_grouped_family_status = credit_table.groupby(['family_status','family_status_id']).agg({'debt':'mean'})
credit_table_grouped_education = credit_table.groupby(['education','education_id']).agg({'debt':'mean'})

credit_table = credit_table[['children', 'days_employed', 'dob_years', 'education_id', 'family_status_id',
'gender', 'income_type', 'debt','total_income', 'purpose_category','income_category']]
#display(credit_table_grouped_family_status)
display(credit_table.head(2))



Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category,income_category
0,1,-8437,42,0,0,F,сотрудник,0,253875,покупка недвижимости,Людей с высоким доходом
1,1,-4024,36,1,0,F,сотрудник,0,112080,покупка автомобиля,Людей со средним доходом


### Вывод

Для наглядного разбития по категориям к лемматизированным словам также применил функцию, основные цели получения кредита: покупка недвижимости, покупка автомобиля, получение образования, свадьба. Доход разбил на 4 категории: низкий, средний, выше среднего, высокий - вывел на экран 50 строчек и примерно прикинул категории по достатку от и до, для наглядности

### 3. Ответим на заданные вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [24]:
delay_mean = credit_table['debt'].mean()
print('В среднем просрочек по кредитам: {:.2%}'.format(delay_mean))
print()

#------- сгруппируем данные по количеству детей, узнаем количество задержек --------
#--тут вылетело количество детей (-1), решил подправить через операцию присваивания--

credit_table['children'] = credit_table['children'].replace(-1, 1)
display(credit_table.groupby(['children']).agg({'debt':['sum','count', 'mean']}))

В среднем просрочек по кредитам: 8.12%



Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,445,4855,0.091658
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0
20,8,76,0.105263


Да, количество детей влияет на риск невозврата кредита в срок. Семьи без детей чаще возвращают кредит в срок(7,5%), также как и семьи с тремя детьми (8,2%), а вот семьи с одним ребенком, двумя или четырьмя кредиты возвращают хуже (9,1//9,4//9,7%% соответственно) Те у кого 20 детей (таких 74 семьи) возвращают кредиты ещё хуже- процент просрочки 10,5%

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [9]:
family_status_delay = credit_table.pivot_table(index=['family_status' ], columns='family_status_id', values='debt', aggfunc='mean')
display(family_status_delay.head(10)) 

family_status_id,0,1,2,3,4
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Не женат / не замужем,,,,,0.097509
в разводе,,,,0.07113,
вдовец / вдова,,,0.065693,,
гражданский брак,,0.093471,,,
женат / замужем,0.075452,,,,


Просрочек больше у тех, кто находится в гражданском браке и не женатых/

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [25]:
display(credit_table.groupby(['income_category']).agg({'debt':['sum','count', 'mean']}))

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Людей с высоким доходом,383,5364,0.071402
Людей с доходом выше среднего,448,5247,0.085382
Людей с низким доходом,427,5364,0.079605
Людей со средним доходом,483,5479,0.088155


### Вывод

Люди со средним доходом и с доходом выше среднего наиболее подвержены риску просрочки платежей.

- Как разные цели кредита влияют на его возврат в срок?

In [26]:
display(credit_table.groupby(['purpose_category']).agg({'debt':['sum','count', 'mean']}))

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
покупка автомобиля,403,4306,0.09359
покупка недвижимости,782,10811,0.072334
получение образования,370,4013,0.0922
свадьба,186,2324,0.080034


### Вывод

Больше всего риску несвоевременной оплаты подвержены кредиты , выданные на покупку автомобиля и получение образования. Менее рискованы кредиты с целями покупки недвижимости 7,2 и 8 процентов, по сравнению с 9,2 и 9,35

### 4. Общий вывод

Люди с детьми имеют большую просрочку по кредитам, по сравнению с бездетными
Просрочек больше у тех, кто находится в гражданском браке и не женатых
Люди со средним доходом наиболее подвержены риску просрочки платежей.
Больше всего риску несвоевременной оплаты подвержены кредиты , выданные на покупку автомобиля и получение образования.