# Исследование надёжности заёмщиков

Для исследовательского анализа предоставлены данные кредитного отдела банка. В предоставленном датафрейме отражена статистика о платёжеспособности клиентов. 

Поставлены следующие вопросы от заказчика, требующие проработки:

- Есть ли зависимость между наличием детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Кредитный отдел занимается построении модели **кредитного скоринга** - это способность потенциального заёмщика вернуть кредит банку своевременно, поэтому исследовательские данные помогут в построении этой модели.

<h1>Содержание<span class="tocSkip"></span></h1>
</a></span><li><span><a  href="#Изучение данных из файла" data-toc-modified-id="Изучение данных из файла"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение данных из файла</a></span><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Исследовательский анализ данных" data-toc-modified-id="Исследовательский анализ данных"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследовательский анализ данных</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы"><span class="toc-item-num">4&nbsp;&nbsp;</span>Выводы</a></span>

## Изучение данных из файла

In [1]:
import pandas as pd # вызвала библиотеку pandas
table = pd.read_csv('/datasets/data.csv') # прочитала файл data.csv из папки /datasets и сохранила его в переменной table
display(table.head(15)) # вывела на экран первые пятнадцать строк таблицы
table.info() # получила общую информацию о таблице

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице двенадцать столбцов. Встречаются несколько типов данных в столбцах — object, float, int.

Согласно документации к данным:

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

**В заполнении столбцов видны нарушения:

1) В столбце 'days_employed' данные принимают отрицательные значения.
2) В столбцах 'days_employed' и 'total_income'встречаются пропуски. Количество значений в этих столбцах отличается от общего. Значит, в данных есть пропущенные значения.
3) В столбце 'education' cтрочные буквы сочетаются с прописными.

**Выводы

В каждой строке таблицы — данные о платёжеспособности клиентов. Часть колонок описывает самого заёмщика: пол клиента, количество детей в семье, возраст клиента в годах, уровень образования клиента, семейное положение. Остальные данные рассказывают о трудоспособности и доходах клиента: общий трудовой стаж в днях, ежемесячный доход, тип занятости

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в заполнении столбцов — расхождения с хорошим стилем. Чтобы двигаться дальше, нужно устранить проблемы в данных и провести обработку данных.

## Предобработка данных

### Обработка пропусков

In [2]:
display(table.isna().sum()) # посчитано, сколько в таблице пропущенных значений

days_employed_median = table['days_employed'].median() # рассчитала медиану в столбце days_employed
total_income_median = table['total_income'].median() # рассчитала медиану в столбце total_income

table['days_employed'] = table['days_employed'].fillna(value = days_employed_median) # заменила пропущенные значения в столбце days_employed на медиану
table['total_income'] = table['total_income'].fillna(value = total_income_median) # заменила пропущенные значения в столбце total_income на медиану

display(table.isna().sum()) # проверила количество пропущенных значений в талице после обработки пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод**
1) Метод isna() показал, что пропущенные значения встречаются в столбцах 'days_employed' и 'total_income', при этом их колчество совпадает и они находятся в одних и тех же строках.
2) Общий трудовой стаж в днях и ежемесячный доход— количественные переменные. Пропуски в таких переменных заполняют характерными значениями. Чтобы примерно оценить типичные значения выборки рассчитаем медиану, так как среднее значение может некорректно охарактеризовать данные, если некоторые значения сильно выделяются среди большинства. Методом fillna() заполняем пропущенные значения, методом isna() снова проверяем количество пропусков, после проверки во всех столбцах получаем 0.
3) Пропуски в таблице могут быть случайными, когда при заполнении сработал "человеческий фактор" и данные были случайно пропущены. И также выявленные пропуски могут быть неслучайными, когда информация просто была не предоставлена со стороны клиента.

### Замена типа данных

In [3]:
table['days_employed'] = table['days_employed'].astype('int') # перевела значения столбца days_employed в другой тип данных
table['total_income'] = table['total_income'].astype('int') # перевела значения столбца total_income в другой тип данных
table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод**
Методом info() вывялено, что в столбцах 'days_employed' и 'total_income' тип данных float.
Такой тип данных подходит далеко не всем значениям.
Общий трудовой стаж в днях и ежемесячный доход - это целочисленные значения.


### Обработка дубликатов

In [4]:
print(table.duplicated().sum()) #  посчитаны явные дубликаты в таблице 
table = table.drop_duplicates().reset_index(drop=True) # функция для удаления явных дубликатов
print(table.duplicated().sum()) # ещё раз посчитаны явные дубликаты в таблице 
print('')
print(table['family_status'].value_counts()) #  посчитаны дубликаты в столбце family_status
print('')
print(table['income_type'].value_counts()) #  посчитаны дубликаты в столбце income_type
print('')
print(table['purpose'].value_counts()) #  посчитаны дубликаты в столбце purpose
print('')
print(table['education'].value_counts()) # посчитаны дубликаты в столбце education
table['education'] = table['education'].str.lower() # значения приведены к нижнему регистру
print('')
print(table['education'].value_counts())# снова посчитаны дубликаты в столбце education

54
0

женат / замужем          12344
гражданский брак          4163
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

сотрудник          11091
компаньон           5080
пенсионер           3837
госслужащий         1457
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

свадьба                                   793
на проведение свадьбы                     773
сыграть свадьбу                           769
операции с недвижимостью                  675
покупка коммерческой недвижимости         662
операции с жильем                         652
покупка жилья для сдачи                   652
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость       

**Вывод**
1) Выявлены и удалены явные дубликаты в таблице.
2) В столбце 'education' выявлены неявные дубликаты, методом str.lower() значения приведены к единому регистру.
3) В столбце 'purpose' видно, что смысл многих строк совпадает, но значение записано по-разному.

### Лемматизация

In [5]:
from pymystem3 import Mystem #загрузила библиотеку и лемматизировала столбец 'purpose.unique()'
m = Mystem()

purpose_list = table['purpose'].unique() # сформировала список 'purpose.unique()'
print(purpose_list)
print('')
lemmas = [] # леммитизация каждой строки purpose_list, получила список лемм 
for index in purpose_list:
    lemma = m.lemmatize(index)
    lemmas.append(lemma)
print(lemmas)


['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']

[['покупка', ' ', 'жилье', '

**Вывод**
Многие уникальные значения цели кредита названы похожим образом, но имеют одинаковый смысл.

### Категоризация данных

In [6]:
# провела работу со столбцом 'purpose'

def purpose_change(purpose): # проведена катекоризация столбца "purpose"
    lemmas_row = m.lemmatize(purpose)
    for index in lemmas_row:
        if 'авто' in index:
            return 'автомобиль'
        if 'свад' in index:
            return  'свадьба'
        if 'образов' in index:
            return 'образование'
        if 'недвиж' and 'жил' in index:
            return  'недвижимость'
        
 
table['purpose_def']= table['purpose'].apply(purpose_change)        
general_summ = table['purpose_def'].value_counts() #рассчитано общее колличество по каждой новой выделенной категории
display(general_summ) #значение выведено на экран

# провела работу со столбцом 'children'

general_children = table['children'].value_counts() #посчитано общее количество всех возможных вариантов из столбца 'children',выявлены артефакты -1 и 20

def general_children_change(wrong_ages, correct_age): #создана функция для замены значений в столбце 'children'
    for wrong_age in wrong_ages:
        table['children'] = table['children'].replace(wrong_ages, correct_age)

duplicates = [-1] # все значения -1 заменены на 1 (предположили, что это опечатка, и должно быть не -1, а 1)
name = [1]
general_children_change(duplicates, name)
   
duplicates = [20] # все значения 20 заменены на 2 (предположили, что это опечатка, и должно быть не 20, а 2)
name = [2]
general_children_change(duplicates, name)

print(general_children) #вывела данные на экран для проверки получившихся значений
def children_def(index): # создана функция для категоризации данных в столбце 'children' на 3 категории по кол-ву детей
    if index == 0:
        return 'нет детей'
    if index <= 3:
        return '1-2 ребёнка'
    return '3 и более детей' 

table['children_def']= table['children'].apply(children_def)  #создан новый столбец  children_def  
 
general_summ_children = table['children_def'].value_counts() #рассчитано общее колличество по каждой новой выделенной категории
display(general_summ_children)

# провела работу со столбцом total_income

total_income_describe = table['total_income'].describe() # функцией describe вывела общую инфомрацию о столбце
print(total_income_describe)


def total_income_def(row): # создана функция для категоризации данных в столбце 'total_income' 
    if row < 150000:
        return 'низкий доход'
    if row < 300000:
        return 'средний доход'
    if row < 450000:
        return 'доход выше среднего'
    return 'высокий доход' 

table['total_income_def']= table['total_income'].apply(total_income_def)  #total_income_def  
general_summ_total_income = table['total_income_def'].value_counts() #рассчитано общее колличество по каждой новой выделенной категории
display(general_summ_total_income)


недвижимость    5692
автомобиль      4308
образование     4014
свадьба         2335
Name: purpose_def, dtype: int64

 0     14107
 1      4809
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


нет детей          14107
1-2 ребёнка         7314
3 и более детей       50
Name: children_def, dtype: int64

count    2.147100e+04
mean     1.652096e+05
std      9.798386e+04
min      2.066700e+04
25%      1.076545e+05
50%      1.450170e+05
75%      1.957515e+05
max      2.265604e+06
Name: total_income, dtype: float64


низкий доход           12287
средний доход           7702
доход выше среднего     1150
высокий доход            332
Name: total_income_def, dtype: int64

**Вывод**
1) Так как смысл многих строк слолбца 'purpose' совпадал по смыслу, была необходима категоризация — объединение данных в категории. Выделено 4 категории целей для получения кредита: недвижимость, автомобиль, образование свадба
2) В столбце 'children'были выявлены артефакты, количество детей -1 и 20, предположила, что это опечатка и заменила количество -1 на 1 и 20 на 2. Объединила данные в 3 категории - 'нет детей', '1-2 ребёнка' и '3 и более детей' для более удобной альнейшей работы с данными.
3) Категоризированы данные в столбце 'total_income', выведено минимальное значение - 20 667,00 рублей и макисмальное значение - 2 265 604,00 рублей.Также методом describe определено среднее значение - это 165 тысяч. Взят шаг 150000, с учетом погрешности, с предположением о том, что все значения, которые ниже среднего - это низкой доход, значения в пределах среднего значения - средний доход, до 450000 - доход выше средего, и значения выше - это высокий доход.

## Исследовательский анализ данных

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [7]:
sum_children_category = table.groupby('children_def')['debt'].sum()
count_children_category = table.groupby('children_def')['debt'].count()
result_children_category = sum_children_category / count_children_category
print(result_children_category)

children_def
1-2 ребёнка        0.092152
3 и более детей    0.080000
нет детей          0.075353
Name: debt, dtype: float64


**Вывод**
Была проведена дополнительная проработка столбца 'children' - удалены артефакты (выбивающиеся значения из общего массива данных, и данные катекоризованы). Из полученных данных видно, что зависмость между наличием детей и платежами кредитов с срок есть. Семьи без детей реже всего не платят кредит в срок. Семьи с детьми чаще сталкиваются с проблемой несвоевремной оплаты кредитов. Но покаатель в категории "1-2 ребёнка" выше,чем в "3 и более детей". Возможно, показатель завышен в виду того, что в него включены артефактные значения, которые изначально были -1 и 20 и заменены на 1 и 2.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [8]:
sum_family_status_category = table.groupby('family_status')['debt'].sum()
count_family_status_category = table.groupby('family_status')['debt'].count()
result_family_status_category = sum_family_status_category / count_family_status_category
print(result_family_status_category)

family_status
Не женат / не замужем    0.097509
в разводе                0.071130
вдовец / вдова           0.065693
гражданский брак         0.093202
женат / замужем          0.075421
Name: debt, dtype: float64


**Вывод**
Зависимость между семейным положением и возвратом кредита в срок есть. Люди не находящиеся в браке чаще всего не оплачивают кредит в срок (статус Не женат / не замужем, гражданский брак), чем люди в браке (статус женат / замужем). Люди со статусом вдовец / вдова реже остальных не оплачивают кредит в срок.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [9]:
sum_total_income_category = table.groupby('total_income_def')['debt'].sum()
count_total_income_category = table.groupby('total_income_def')['debt'].count()
result_total_income_category = sum_total_income_category / count_total_income_category
print(result_total_income_category)

total_income_def
высокий доход          0.054217
доход выше среднего    0.076522
низкий доход           0.082608
средний доход          0.080499
Name: debt, dtype: float64


In [10]:
count_total_income_category

total_income_def
высокий доход            332
доход выше среднего     1150
низкий доход           12287
средний доход           7702
Name: debt, dtype: int64

**Вывод**
Из полученных данных видно, что зависимости между уровнем дохода и возвратом кредита в срок есть - чем выше доход, тем реже сталкиваются с проблемой несвоевременной оплаты кредита. Клиенты с доходом от 0 до 500 тысяч (то есть с минимальным доходом из всех категорий), чаще остальных не оплачивают крелит в срок нет. В категории с низким доходом значение немного выше, это связано с тем, что на данную категорию приходится основная часть клиентов.

- Как разные цели кредита влияют на его возврат в срок?

In [11]:
sum_purpose_category = table.groupby('purpose_def')['debt'].sum()
count_purpose_category = table.groupby('purpose_def')['debt'].count()
result_purpose_category = sum_purpose_category / count_purpose_category
print(result_purpose_category)

purpose_def
автомобиль      0.093547
недвижимость    0.069747
образование     0.092177
свадьба         0.079657
Name: debt, dtype: float64


**Вывод**
Цели кредита влияют на его возврат в срок. Из полученных данных видно, что при взятии кредита на недвижимость чаще всего его погашают в срок. Чаще всего не укладываются в срок при взятии кредата на покупку автомобиля и образование. При взятии кредита на свадьбу показатель выше, чем при вязтии кредита на недвижимость, но ниже, чем при взятии кредитов на образование и покупку автомобилей.

## Шаг 4. Общий вывод

В ходе работы был проведен анализ статистических данных о платёжеспособности клиентов. Для получения итоговых результатов изначально предоставленные данные были предобработаны. Данные для итоговых выводов были категоризованны в группы для нагдядности. Из анализа данных видно, что на платежеспособность по кредиту в срок влияют такие показатели как:
- семейный статус - люди не находящиеся в браке реже остальных сталкиваются с просрочкой плтажей, 
- количество детей - семьи без детей реже сталкиваются с проблемой несвоевременной оплаты кредита,
- и сама цель кредита - при взятии кредита на недвижимость чаще всего его погашают в срок, чаще всего не укладываются в срок при взятии кредата на покупку автомобиля и образование.
    Уроень дохода не влияет на погашение кредита в срок.