## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
data = pd.read_csv(r'C:\Users\Asus\Documents\Python Scripts\github praktikum\01 Предобработка данных\real_state_analys_project_1.csv')

print (data.head(3).T)
print("\n\n")
print(data.info())

print("\n\n")
print(data.isna().sum())

                                0                        1                2
children                        1                        1                0
days_employed            -8437.67                  -4024.8         -5623.42
dob_years                      42                       36               33
education                  высшее                  среднее          Среднее
education_id                    0                        1                1
family_status     женат / замужем          женат / замужем  женат / замужем
family_status_id                0                        0                0
gender                          F                        F                M
income_type             сотрудник                сотрудник        сотрудник
debt                            0                        0                0
total_income               253876                   112080           145886
purpose             покупка жилья  приобретение автомобиля    покупка жилья



<class 'p

In [23]:
from IPython.display import FileLink, FileLinks

data.to_csv('data project 1.csv', index=False)

### Вывод

В датасет наблюдается 12 столбцов и 21525 строк. На первый взгляд существуют ни коректные наблюдении в стольбце "Стаж работы", отрицательные значения, так ж в стольбце 'days_employed' и 'total_income' меньше количество наблюдений, что наводит на мысл о том что именно в этих столбцах есть пропушеные значения, которые предстоит анализировать и принимать решения об их удаления или заполнения. Количество пропушеных значений составляет 2174.

### Шаг 2. Предобработка данных

In [4]:
# Выделяем только строки с NaN значениями
data_nan =  data[data.isna().any(axis=1)]
data_nan.head()

# Определяем перемены с долей пропущеных значений на каждый столбца
part_nan_days_employed = len(data_nan['days_employed']) / len(data)
part_nan_income = len(data_nan['total_income'])/ len(data)

print('Доля пропушеных строк в столбце "стаж работы": {:.1%}'.format(part_nan_days_employed)) 
print('Доля пропушеных строк в столбце "доход": {:.1%}'.format(part_nan_income))
print()


print('Прверка совпадения индексов в столбцах days_employed и total_income')
Nan_days_employed = pd.isnull(data['days_employed'])
Nan_total_income = pd.isnull(data['total_income'])
print((data[Nan_days_employed].index == data[Nan_total_income].index).all())
print()

negative_days_employed = data[data['days_employed'] <= 0]
extra_days_employed = data[data['days_employed'] >= 50*365]
print('Количество отрицательных строк в столбце стажа работы: {:.1f}'.format(len(negative_days_employed['days_employed'])))
print('Максимальное отрицательное значение в столбце стажа работы: {:.2f}'.format(negative_days_employed['days_employed'].max()))
print('Минимальное отрицательное значение в столбце стажа работы: {:.2f}'.format(negative_days_employed['days_employed'].min()))
print('Средное отрицательное значение в столбце стажа работы: {:.2f}'.format(negative_days_employed['days_employed'].mean()))
print(len(extra_days_employed))


Доля пропушеных строк в столбце "стаж работы": 10.1%
Доля пропушеных строк в столбце "доход": 10.1%

Прверка совпадения индексов в столбцах days_employed и total_income
True

Количество отрицательных строк в столбце стажа работы: 15906.0
Максимальное отрицательное значение в столбце стажа работы: -24.14
Минимальное отрицательное значение в столбце стажа работы: -18388.95
Средное отрицательное значение в столбце стажа работы: -2353.02
3445


### Вывод 

Посчитаем количество NaN и выводим на экран.<br>
    Посчитаем доля пропушеных строк в столбцах 'days_employed' и 'total_icome' и выводим на экран в порцентным соотношении
Количество и доля пропущеных строк в столбцах 'days_employed' и 'total_income' большое- 10% и они совпадают, то что наводит 
на мысл что эти наблюдения неслучайные а пропушенное значение означает что человек не работает и соответсвено не имеет
источник дохода. Чтобы преверть гипотезу рассмотрим совпадают ли индекси во всех строка <br>
    Все индексы совпадают, соответсвенно гипотезу подтвеждается а следователно заменяем на значения средное значения.<br><br>
    
Доля пропушеных строк в столбце "стаж работы": 10.1% <br>
Доля пропушеных строк в столбце "доход": 10.1% <br><br>

Прверка совпадения индексов в столбцах days_employed и total_income <br><br>

Количество отрицательных строк в столбце стажа работы:15906.0  <br>
Максимальное отрицательное значение в столбце стажа работы::-24.14 <br>
Минимальное отрицательное значение в столбце стажа работы::-18388.95<br>
Средное отрицательное значение в столбце стажа работы::-2353.02. </font>

### Обработка пропусков

In [7]:
import numpy as np

# Отрицательные значения столбца тажа оаботы заменяем на положительные значения
    
data['days_employed'] =  np.abs(data['days_employed'])

# Вычысляем медианы на которуюзаменяем пропущеные значения
median_days_employed = data['days_employed'].mean()
median_total_income = data['total_income'].mean()

data['days_employed'] = data['days_employed'].fillna(value = median_days_employed)
data['total_income'] = data['total_income'].fillna(value= median_total_income)
print(data.isna().sum())


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


### Вывод

Количество и доля пропущеных строк в столбцах 'days_employed' и 'total_income' большое- 10% и они совпадают, то что наводит 
на мысл что эти наблюдения неслучайные а пропушенное значение означает что человек не работает и соответсвено не имеет
источник дохода. Чтобы проверть гипотезу рассмотрим совпадают ли индекси во всех строка. По сколько все индексы совпадают, соответсвенно гипотезу подтвеждается а следователно заменяем на меддиану.


### Замена типа данных

In [8]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')

### Вывод

Вещественные числа в столбцах 'days_employed' и 'total_income', переводим в целовых типа 'int' c с помощью метода astype()

### Обработка дубликатов

In [9]:
#Список категориальных стольбцов
cat_cols  = list(data.select_dtypes(include=['object']).columns)

#Список численых стольбцов
num_cols   = [x for x in data.columns if x not in cat_cols]


#Стандартизаций строк 
for row in cat_cols:
    data[row].str.lower
    
# Количество дупликатов
data.duplicated().sum()
 

54

In [10]:
# Удаление дупликатов
data = data.drop_duplicates().reset_index(drop=True)

data.duplicated().sum()

0

### Лемматизация

In [11]:

from pymystem3 import Mystem
m = Mystem()

data['purpose_lemmas'] = data['purpose'].apply(m.lemmatize)
print(data['purpose_lemmas'].head())   

print(data['purpose_lemmas'].value_counts())

0                 [покупка,  , жилье, \n]
1       [приобретение,  , автомобиль, \n]
2                 [покупка,  , жилье, \n]
3    [дополнительный,  , образование, \n]
4               [сыграть,  , свадьба, \n]
Name: purpose_lemmas, dtype: object
[автомобиль, \n]                                          972
[свадьба, \n]                                             793
[на,  , проведение,  , свадьба, \n]                       773
[сыграть,  , свадьба, \n]                                 769
[операция,  , с,  , недвижимость, \n]                     675
[покупка,  , коммерческий,  , недвижимость, \n]           662
[операция,  , с,  , жилье, \n]                            652
[покупка,  , жилье,  , для,  , сдача, \n]                 652
[операция,  , с,  , коммерческий,  , недвижимость, \n]    650
[покупка,  , жилье, \n]                                   646
[жилье, \n]                                               646
[покупка,  , жилье,  , для,  , семья, \n]                 638
[строитель

### Вывод

Создал новый столбец "purpose_lemmas" и в него сохранил леммы столбца "цель кредита". Исползовал метод aplly и m.lemmatize для того чтобы найти слова в "стандартной" форме чтобы далшье создать категории целей кредита.

### Категоризация данных

In [13]:
# Функция разделения по цели кредита
def purpose_group (data):
    if 'автомобиль' in data:
        return'автокредит'
    elif 'свадьба' in data:
        return 'свадьба'
    elif 'образование' in data:
        return 'образование'
    elif ('жилье' or  'недвижимость') in data:
            return 'нeдвижимость'
    #else:
        #return 'Неопределено'
    
""""
Возвращает  группу по цели кредита, используя правила:
- 'недвижимость' при наличии слова "жильё" и "недвижимость"
- 'автокредит' при наличии слова "автомобиль"
- 'свадьба' при наличии слова "свадьва"
- 'образавание' при наличии слова "образавание"
    """
    
# Функция разделения по возровсту
def age_group(age):
    try:
        if 0 < age < 18:
            return 'дети'
        elif 18 <= age <= 30:
            return 'молодые'
        elif  30 < age <= 64:
            return 'взрозлые'
        elif age > 64:
            return'пенсионеры'
    except:
        return 'Неопределено'

""""
Возвращает возврастную группу по значению возраста age, используя правила:
- 'несовершеннолетние' при значении age < 18 лет
- 'молодые'при значении age более 18 и менее 30, включая 30
- 'взрослые' при значениии age более 30 и менее 64, включая 64
- 'пенсионеры' во всех остальных случаях
"""
# Функция разделения по доходу    
def income_group (income):
    try:
        if  0 < income < 92000:
            return 'ниже средного'
        elif 9200 <= income <= 184000:
            return 'срений'
        elif income > 184000:
            return 'высокий'
        return 'без дохода'
    except:
        return 'Неопределено'
    
""""
Возвращает группу по значению дохода income, используя правила:
- 'ниже средного' при значении Income от 0 до  92 000
- 'срений"  при значении Income от 92 000 до  184 000
- 'высокий' при значениии income более 200 000
- 'без дохода' во всех остальных случаях
"""
#Применение функцию раздедения по цели кредита
data['purpose_group'] = data['purpose_lemmas'].apply(purpose_group)
print(data['purpose_group'].value_counts())
print(purpose_group('NaN'),'\n\n')

#Применение функцию раздедения по цели кредита
data['age_group'] = data['dob_years'].apply(age_group)
print(data['age_group'].value_counts())
print(age_group('NaN'), '\n\n')

#Применение функцию раздедения по дохода
data['income_group'] = data['total_income'].apply(income_group)
print(data['income_group'].value_counts())
print(income_group('None') , '\n\n')

нeдвижимость    4461
автокредит      4308
образование     4014
свадьба         2335
Name: purpose_group, dtype: int64
None 


взрозлые      16753
молодые        3719
пенсионеры      898
Name: age_group, dtype: int64
Неопределено 


срений           11748
высокий           6159
ниже средного     3564
Name: income_group, dtype: int64
Неопределено 




### Вывод

Выделял словарь - цельи кредита 'purpose_group', в нем разделили на четыры категории - автокредит, недвижимость, свадьба и образование. Так же словарь с возратсныим группами 'age_group'- несовершенолетние моложе 18 лет, молодые от 18 до 30, взрозлые от 31 до 64 и пенсионеры  старше 64. Третьий словарь уровня дохода 'income_group' - ниже среднего меньше 92000, средный доход от 90000 по 184000 и высокий доход свыше 184000. Выбрал порог 92000 согласно значению Росстата о средной заработной оплате по Москве на 2019. 

При определений функций категоризации применяли методы try и except чтобы избежать ошибок кода при значении вне заданного диапазона.

<font color='green'> Ссылька : https://www.sokolovpro.ru/2019/07/srednyaya-zarplata-v-moskve-na-2019-god-po-dannym-rosstata-svezhie-dannye.html
    

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [19]:
# Создание категоря кредита
data['debt_category'] = data['debt']

# Словарь колчество детей и возврат кредита
children_dict= data.pivot_table(index = 'children' ,  columns = 'debt', values ='debt_category' , aggfunc={'debt_category': 'count'}, fill_value = 0)
children_dict.set_axis(['0','1'], axis = 1, inplace =True)
children_dict['ratio'] = children_dict['1'] / (children_dict['0'] + children_dict['1'])

#Вывод наличие детей и коэф. возврата кредита
print(children_dict.sort_values(by = 'ratio' , ascending = False))

print()

print('Порцент клиентов которые не возврашают кредит: {:.2%}'.format(children_dict['ratio'].mean()))


              0     1     ratio
children                       
 20          68     8  0.105263
 4           37     4  0.097561
 2         1858   194  0.094542
 1         4365   444  0.092327
 3          303    27  0.081818
 0        13044  1063  0.075353
-1           46     1  0.021277
 5            9     0  0.000000

Порцент клиентов которые не возврашают кредит: 7.10%


### Вывод

Из полученного результата можно сделать вывод что заёмщики с детьми худже возвращают кредиты по сравнению с заёмщики без детей. Интересное наблюдение  что среди заёмщиков с детьми лучше всего возвращают те у кого 3 ребенка, худже тем у кого 1 или 2  ребенка. Это может быть связано с государственной поддержкой которые многодетными семьями получают, тоже уместно обратить внимание на то что количество семьй  с одним или с двумя детьми в 10 раз больше чем с тремя или больше. 

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [18]:
#Создание признака семейное положение
data['family_status_category'] = data['family_status']

# Словарь семеиное положение и возврат кредита
family_dict= data.pivot_table(index = 'family_status' ,  columns = 'debt', values ='debt_category' , aggfunc={'debt_category': 'count'}, fill_value = 0)
family_dict.set_axis(['0','1'], axis = 1, inplace =True)
family_dict['ratio'] = family_dict['1'] / (family_dict['0'] + family_dict['1'])

print(family_dict.sort_values(by = 'ratio' , ascending = False))

print()
print('Порцент клиентов которые не возврашают кредит: {:.2%}'.format(family_dict['ratio'].mean()))


                           0    1     ratio
family_status                              
Не женат / не замужем   2536  274  0.097509
гражданский брак        3775  388  0.093202
женат / замужем        11413  931  0.075421
в разводе               1110   85  0.071130
вдовец / вдова           896   63  0.065693

Порцент клиентов которые не возврашают кредит: 8.06%


Клиенты со семейным статусом "не женат / не замужем" и "гражданский брак" больше всех имеют задолженость по возврату кредитов. А лучше всех возвращает кредит со смейным статусом "вдовец / вдова". Скорее всего такая тендеция обусловлена тем что заемщики в гражданском браке или не женаты/не замужнем чаше меняется жизненые обстоятельств.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [21]:
#Словарь наличие задолжености от группы дохода

income_dict = data.pivot_table(index = 'income_group' ,  columns = 'debt', values ='debt_category' , aggfunc={'debt_category': 'count'}, fill_value = 0)
income_dict.set_axis(['0','1'], axis = 1, inplace =True)
income_dict['ratio'] = income_dict['1'] / (income_dict['0'] + income_dict['1'])

print(income_dict.sort_values(by = 'ratio' , ascending = False))

print()
print('Порцент клиентов которые не возврашают кредит : {:.2%}'.format(family_dict['ratio'].mean()))

                   0    1     ratio
income_group                       
срений         10751  997  0.084866
ниже средного   3280  284  0.079686
высокий         5699  460  0.074687

Порцент клиентов которые не возврашают кредит : 8.06%


### Вывод

Клиенты со средным доходом (доход от 92 000 до 182 000 рублей) имеют худще показатель по возрату кредита. А клиенты с высоким доходом лучше возвращаую кредиты. 

- Как разные цели кредита влияют на его возврат в срок?

In [22]:
# 
purpose_dict = data.pivot_table(index = 'purpose_group' ,  columns = 'debt', values ='debt_category' , aggfunc={'debt_category': 'count'}, fill_value = 0)
purpose_dict.set_axis(['0','1'], axis = 1, inplace =True)
purpose_dict['ratio'] = purpose_dict['1'] / (purpose_dict['0'] + purpose_dict['1'])

print(purpose_dict.sort_values(by = 'ratio' , ascending = False))

print()
print('Порцент клиентов которые не возврашают кредит : {:.2%}'.format(purpose_dict['ratio'].mean()))

                  0    1     ratio
purpose_group                     
автокредит     3905  403  0.093547
образование    3644  370  0.092177
свадьба        2149  186  0.079657
нeдвижимость   4153  308  0.069043

Порцент клиентов которые не возврашают кредит : 8.36%


### Вывод

Больше задолженость по возврату кредитов имеют те клиенты которые взяли автокредит. Более надежные кредиты являются те которые были направлены на недвижимость.

### Шаг 4. Общий вывод

Из полученных резултатов можно сказать что клиент со средным доходом, со статусом"не женат / не замужем" либо "гражданский брак" которые берут кредит с целью "образование" или "автокредит" преставляют больше риск задолжености по возврату кредитов. С другой стороны заёмщики без детей со семеыним статусом "женат / замужем" которые берут кредиты на недвижимость или на свадьбу.

Как мне кажется лучше возращают кредиты те у кого мало детей, состоит в браке и верет кредит на недвижимость со ниже средным уровнем дохода. А больше задолженость по возврату кредитов имеют заёмщики которые верут кредит на автомобиль или образование, не состоят в браке либо в гражданском браке со средным уровнем дохоа </font>