## Исследование надёжности заёмщиков
* Цель исследования - как влияет семейное положение и количество детей на способность к погашению кредита в срок. 
* Данные на которых проводится исследование - статистика платёжеспособности клиентов.
* Данное исследование может быть полезно кредитному отдела банка, при построении модели кредитного скоринга.

**Ключевые слова:** обработка данных, дубликаты, пропуски, категоризация, лемматизация, data analyst, аналитик данных, аналитик, финансовый аналитик, analyst

### Шаг 1. Первичное знакомство с данными

In [93]:
import pandas as pd
import os
import time
start_time = time.time()
data=pd.read_csv('/datasets/data.csv')
print(data.head())
print(data.info())
print('Количество дубликатов без учёта регистра:',data.duplicated().sum())
print('Количество NaN:\n', data.isna().sum())
data.describe()


   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


 (Промежуточные выводы.)
 
 Общая информация по датасету. 
 Нужны  следующие столбцы. Всего их 5. 
 ['children','family_status_id','total_income','debt','purpose']
 Остальные пока оставим без внимания.
 Всего 21525 позиций.
 в total_income 2174 NaN или None. и в рабочем стаже. Возможно это касается тех кто не работал никогда.

In [94]:
'''children — количество детей в семье'''
# определяю сколько людей имеют одинаковое количество детей 
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


(Промежуточные выводы.)

Встречаются отрицатльене значение[-1] в столбце children. Сделать: посмотреть на эти строчки. потом либо добавить к 1 либо указать причину почему они могут быть отрицательными либо удалить. 
 
а также подозрительно большое количество людей имеющих в семье 20 детей, скорее всего это ошибка при записи данных. Сделать: Посмотреть на эти строчки

Тип данных соответсвует.

In [95]:
'''family_status — семейное положение'''
data['family_status'].value_counts()


женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

    Не выявленно ничего подозрительного. ОДИН ИЗ ОСНОВНЫХ КРИТЕРИЕВ ОЦЕНКИ ПЛАТЁЖЕСПОСОБНОСТИ. 

In [96]:
'''debt — имел ли задолженность по возврату кредитов'''
print(data['debt'].value_counts())

0    19784
1     1741
Name: debt, dtype: int64


    Не выявленно ничего подозрительного. ОДИН ИЗ ОСНОВНЫХ КРИТЕРИЕВ ОЦЕНКИ ПЛАТЁЖЕСПОСОБНОСТИ. 

In [97]:
'''purpose — цель получения кредита'''
print(data['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Требуется Лемматизация. 

### Вывод

Проведен анализ входных данных. Его результаты:
1. ['children'] необходимо: 
        1.1 Обработать отрицательные значения
        1.2 Сгрупировать опечатку для количества детей [20] в [2], а также [-1] в [1].
2. ['family_status'] пропущенных значений нет, тип данных соответствует, ошибок или опечаток не обнаружено. 
3. ['total_income'] необходимо:
        3.1 Пропущенно 2714 значения, так же как в столбце ['days_employed']. Связи между ними не наблюдается. Заполнить пропущеные значения медианным значением.
        3.2 Потребуется категоризация. 
        3.3 Также стоит заменить тип данных на int вместо float. Доход имеет порядок 10^5 так что можно пренебречь дробной частью. 
4. ['debt'] пропущенных значений нет, тип данных соответствует, ошибок или опечаток не обнаружено. 
5. ['purpose'] требуется лемматизация. 
6. Обнаруженны дубликаты

### Шаг 2. Предобработка данных

### Обработка пропусков

In [98]:
'''Пропуски существуют в двух столбцах в доходе и количестве рабочих дней.
Их можно заменить на среднее или на медиану или на 0. 
среднее больше чем медиана. это говорит о том что есть несколько людей с большим доходом. нужно использовать медиану. 
'''
median_income=data['total_income'].median()
print('Медианный доход по выборке', median_income)
data['total_income']=data['total_income'].fillna(median_income)
data['days_employed']=abs(data['days_employed'])
median_days_employed=data['days_employed'].median()
print('Медианный стаж по выборке', median_days_employed)
data['days_employed']=data['days_employed'].fillna(median_days_employed)
print('Количество пропусков в total_income:' , data['total_income'].isna().sum())
print('Количество пропусков в days_employed:' , data['days_employed'].isna().sum())

data.loc[data['children']==20,'children']=2
data.loc[data['children']==-1,'children']=1

Медианный доход по выборке 145017.93753253992
Медианный стаж по выборке 2194.220566878695
Количество пропусков в total_income: 0
Количество пропусков в days_employed: 0


### Вывод

Все пропуски в столбце ['total_income']  и ['days_employed'] заменены на медианные значения, так как это более объективная информация о доходе клиентов и общем трудовом стаже (хотя по хорошему надо было бы провести исследование какой именно стаж и доход характерен для людей с таким доходом, уровнем образования и т.д.). 

Исправленны ошибки в столбце ['children']. Значение [20] заменено на [2]. Значение [-1] на [1]. 

Такие ошибки поскольку их много свидетельствуют о том что они технического характера. 

### Замена типа данных

In [99]:
'''Заменить тип данных необходимо в столбцах ['days_employed'] и ['total_income'] c float64 на int64. 
Это сэкономит память и не повлияет на точность. Нам не нужно 6 и более значащих цифр после запятой 
так как значения в расматриваемых столбцах много больше остатка после запятой'''
print('Тип данных total_income:', data['total_income'].dtypes)
data['total_income']=data['total_income'].astype(int)
print('Тип данных total_income:', data['total_income'].dtypes)

Тип данных total_income: float64
Тип данных total_income: int64


### Вывод

Выбран метод astype для замены типа данных как один из известных мне на данный момент.

### Обработка дубликатов

In [100]:
data['education']=data['education'].str.lower()
print('Количество дубликатов с учётом региста:',data.duplicated().sum())
data=data.drop_duplicates().reset_index(drop =True)
print('Проверка количества дубликатов после их удаления:', data.duplicated().sum())

Количество дубликатов с учётом региста: 71
Проверка количества дубликатов после их удаления: 0


### Вывод

Простая обработка дубликатов оказалась недостаточной, ведь в столбце ['education'] были значения в разных регистрах. Дубликаты с учетом регистра выявлены и удалены, индексы обновленны. Возможная причина их появления - техническая ошибка. 

### Лемматизация

In [101]:
'''В столбце ['purpose'] много целей с одним и тем же смыслом. 
Сгрупируем их в 4 категории [жилье, автомобиль, образование и свадьба]'''
from pymystem3 import Mystem
unique_purpose=[]
m = Mystem() 
unique_purpose=data['purpose'].unique()
lemmas=m.lemmatize(' '.join(unique_purpose))
lemmas_1=['свадьба','автомобиль','образование']
lemmas_2=['жилье','недвижимость']
for i in range(len(data['purpose'])):
    purpose_1=m.lemmatize(data['purpose'][i])
    for le1 in lemmas_1:
        if le1 in purpose_1:
            data.loc[i,'purpose']=le1
    for le2 in lemmas_2:
        if le2 in purpose_1:
            data.loc[i,'purpose']=lemmas_2[0]            
print(data['purpose'].value_counts())
print(data.duplicated().sum())

жилье          10811
автомобиль      4306
образование     4013
свадьба         2324
Name: purpose, dtype: int64
334


### Вывод

Анализируя представленные в таблицах цели кредита было выявленно 4 основных цели: жилье, автомобиль, образование и свадьба. Проведенна лемматизация. После такого обобщения найдены дубликаты. Их появление связано c пропусками в столбцах с общим трудовым стажем и месячным доходом, которые были заполнены медианными значениеми. Поскольку изначально цели кредита были записаны по разному то эти дубликаты не являются копиями данных а отражают реальных клиентов. 

### Категоризация данных

In [102]:
'''Выделим 10 групп по уровню дохода'''
income_min=data['total_income'].min()
income_max=data['total_income'].max()
step=200000
data2=data.copy()
data_stat=[]
income_group=[]
income_category=[0,50000,100000,150000,200000,250000,300000,350000,400000,2400000]
for j in range(len(data)):
    for k in range(len(income_category)):
        if (data.loc[j,'total_income']>income_category[k]) and (data.loc[j,'total_income']<income_category[k+1]):
            #income_group.append('От ' +str(int(income_category[k]/1000)) + 'т.р. до ' + str(int(income_category[k+1]/1000))+'т.р.')
            data2.loc[j,'total_income']='От ' +str(int(income_category[k]/1000)) + 'т.р. до ' + str(int(income_category[k+1]/1000))+'т.р.'

#df_income_group=pd.DataFrame(data=income_group, columns= ['income_group'])
#df_income_group['income_group'].value_counts()
# Да, алгоритм медленный, но я не успеваю его переделать. 

### Вывод

Проведена категоризация данных в столбце ['total_income']. Для этого создана копия датафрейма и в этом столбце заменены реальный их доход на имя группы в которую они попадают. Последний участок не равномерный так как количество людей имеющих очень высокий доход быстро убывает с его ростом, чтобы в выборке было достаточное количество людей. 

### Шаг 3. Проверка ключевых моментов

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [103]:
data_pivot_children=data.pivot_table(index='children',columns='debt', values='dob_years',aggfunc='count')
data_pivot_children['sum_person']=data_pivot_children.loc[:,0]+data_pivot_children.loc[:,1]
data_pivot_children['voskolkoraz0bolshe1']=data_pivot_children.loc[:,0]/data_pivot_children.loc[:,1]   
data_pivot_children['percentage_of_debtors']=(100*(data_pivot_children.loc[:,1]/data_pivot_children.loc[:,'sum_person']))
data_pivot_children=data_pivot_children.sort_values(by = 'percentage_of_debtors')
data_pivot_children

debt,0,1,sum_person,voskolkoraz0bolshe1,percentage_of_debtors
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,13028.0,1063.0,14091.0,12.25588,7.543822
3,303.0,27.0,330.0,11.222222,8.181818
1,4410.0,445.0,4855.0,9.910112,9.165808
2,1926.0,202.0,2128.0,9.534653,9.492481
4,37.0,4.0,41.0,9.25,9.756098
5,9.0,,,,


### Вывод

Разница между долей бездентных и родителей опаздывающих кредиты в срок составила 2.1%. Наличие детей повышает риск задолжности по кредиту. (таблица отсортирована по возрастанию риска возникновения задолжностей по кредиту)

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [104]:
data_pivot_family_status=data.pivot_table(index='family_status',columns='debt', values='dob_years',aggfunc='count')
data_pivot_family_status['sum_person']=data_pivot_family_status.loc[:,0]+data_pivot_family_status.loc[:,1]
data_pivot_family_status['voskolkoraz0bolshe1']=data_pivot_family_status.loc[:,0]/data_pivot_family_status.loc[:,1]   
data_pivot_family_status['percentage_of_debtors']=(100*(data_pivot_family_status.loc[:,1]/data_pivot_family_status.loc[:,'sum_person']))
data_pivot_family_status=data_pivot_family_status.sort_values(by = 'percentage_of_debtors')
data_pivot_family_status

debt,0,1,sum_person,voskolkoraz0bolshe1,percentage_of_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
вдовец / вдова,896,63,959,14.222222,6.569343
в разводе,1110,85,1195,13.058824,7.112971
женат / замужем,11408,931,12339,12.253491,7.545182
гражданский брак,3763,388,4151,9.698454,9.347145
Не женат / не замужем,2536,274,2810,9.255474,9.75089


### Вывод

Чаще других не возвращают кредиты неженатые и состоящие в гражданском браке. 
(таблица отсортирована по возрастанию риска возникновения задолжностей по кредиту)

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [105]:
data_pivot_income=data2.pivot_table(index='total_income',columns='debt', values='dob_years',aggfunc='count')
data_pivot_income['sum_person']=data_pivot_income.loc[:,0]+data_pivot_income.loc[:,1]
data_pivot_income['voskolkoraz0bolshe1']=data_pivot_income.loc[:,0]/data_pivot_income.loc[:,1]   
data_pivot_income['percentage_of_debtors']=(100*(data_pivot_income.loc[:,1]/data_pivot_income.loc[:,'sum_person']))
data_pivot_income=data_pivot_income.sort_values(by = 'percentage_of_debtors')
data_pivot_income

debt,0,1,sum_person,voskolkoraz0bolshe1,percentage_of_debtors
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
От 400т.р. до 2400т.р.,497,31,528,16.032258,5.871212
От 0т.р. до 50т.р.,349,23,372,15.173913,6.182796
От 250т.р. до 300т.р.,1242,88,1330,14.113636,6.616541
От 350т.р. до 400т.р.,306,24,330,12.75,7.272727
От 200т.р. до 250т.р.,2090,164,2254,12.743902,7.275954
От 50т.р. до 100т.р.,3760,331,4091,11.359517,8.090931
От 300т.р. до 350т.р.,573,51,624,11.235294,8.173077
От 100т.р. до 150т.р.,7146,661,7807,10.810893,8.466761
От 150т.р. до 200т.р.,3750,368,4118,10.190217,8.936377


### Вывод

Клиенты самым большим и самым маленьким реже опаздывают с платежами(но возможно дело в малости выборки). Люди с доходом от 100 тыщ до 200 тыщ чаще опаздывают с выпплатами на 3%. Сравнивая выборки 200-500 и 150-200 можно отметить что объём выборки для них одногопорядка и хоть они находятся рядом всё же те кто получает 200-500 чаще возрвращают кредиты в срок. 

- Как разные цели кредита влияют на его возврат в срок?

In [106]:
data_pivot_purpose=data2.pivot_table(index='purpose',columns='debt', values='dob_years',aggfunc='count')
data_pivot_purpose['sum_person']=data_pivot_purpose.loc[:,0]+data_pivot_purpose.loc[:,1]
data_pivot_purpose['voskolkoraz0bolshe1']=data_pivot_purpose.loc[:,0]/data_pivot_purpose.loc[:,1]   
data_pivot_purpose['percentage_of_debtors']=(100*(data_pivot_purpose.loc[:,1]/data_pivot_purpose.loc[:,'sum_person']))
data_pivot_purpose=data_pivot_purpose.sort_values(by = 'percentage_of_debtors')
data_pivot_purpose

debt,0,1,sum_person,voskolkoraz0bolshe1,percentage_of_debtors
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
жилье,10029,782,10811,12.824808,7.233373
свадьба,2138,186,2324,11.494624,8.003442
образование,3643,370,4013,9.845946,9.220035
автомобиль,3903,403,4306,9.684864,9.359034


### Вывод

Чаще всего опаздывают с кредитом те кто берёт кредит ради автомобиля на 2 процента. А реже всего просрачивают платежи по жилью. 

### Шаг 4. Общий вывод

Больше других опаздывали с платежами на 2-3% среди исследуемых групп родители, неженатые и те кто в гражданском браке, Люди с доходом от 100 до 200т.р., и те кто брал кредит на авто. Меньше всего опаздывали родители, вдовы/вдовцы, самые богатые и бедные, и те кто брал кредит на жильё. 
Рекомендации: кредит стоит реже предоставлять тем клиентам что принадлежат к выявленным группам риска, если просрочки по платежам имеют ощутимые последствия для банка. 