# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных**

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Изучение данных из файла и подготовка к анализу 

In [1]:
import pandas as pd  # импорт библиотеки pandas
df = pd.read_csv('/datasets/data.csv') # чтение файла с данными и сохранение в df
df.head(30) # получение первых 30 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**

В какждой стороке данные о потенциальном заемщике: о возрасте, образовании, семейном положении, кол-ве детей, данные о ежемесячном доходе, трудовом стаже, типе занятости, цели получения кредита. 
Данные об общем трудовом стаже и ежемесячном доходе указаны в определенному формате, который не удобен для восприятия, а также встречаются пропуски в данных.
В столбце total_income и dob_years исходные данные относятся к вещественному типу.

**Обработка пропусков**

In [4]:
df.isna().sum() # найдем строки с пропусками

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [5]:
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform('median'))
#заполняем пропуски дохода медианным значением
df.isna().sum()# проверяем, остались ли пропуски в столбце total_income

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [6]:
df['dob_years'].value_counts() # найдем пропуски в столбце dob_years
import numpy as np #импортируем библиотеку numpy
df['dob_years'].replace(0,np.NaN,inplace=True) #заменим нулевые занчения в столбце dob_years на NaN
df.isna().sum()# проверим замену столбце dob_years нулевого значения на Nan

children               0
days_employed       2174
dob_years            101
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

In [7]:
df['dob_years'] = df['dob_years'].fillna(df.groupby('income_type')['dob_years'].transform('median')) #заполняем пропуски возраста медианным значением
df.isna().sum() #проверяем, остались ли пропуски в столбце dob_years

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

**Вывод**

Данные столбца days_employed указаны с отцитательным занчениями, как результат разницы между суммами дат увольнения и приемов на работу. Столбец days_employed не участвует в анализе семейного положения/количества детей клиента на факт погашения кредита в срок, всвязи с чем данные оставила без изменений. 

Заполнила колличественные пропуски столбца total_income медианным значением.Убедилась, что в столбце о доходе не осталось пропусков.

В столбце dob_years выявлено нулевое значение возраста - 101 раз, что является ошибочным. Заменила нулевое значение на Nan, далее заполнила пропуски медианным значением.

***Замена типа данных***

In [8]:
#df.info() # получение общей информации о данных в таблице df
df['total_income'] = df['total_income'].round().astype('int64') # преобразуем тип данных к нужному, предварительно округлив
df['dob_years'] = df['dob_years'].astype('int64')
df.info() # проверяем, изменился ли тип данных в столбце total_income и dob_years

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


В столбце total_income и dob_years исходные данные относились к вещественному типу, что некорректно для дальнейшего анализа данных. Методом astype() перевела в целое число. Данные в столбцах получились более читаемы.

**Обработка дубликатов**

In [9]:
df['children'].unique() #поиск неявных дубликатов в столбце children
df['children'] = df['children'].replace(-1,1) # замена неправильны значений
df['children'] = df['children'].replace(20,2)
print(df['children'].value_counts()) # проверим наличие неявных дублей в столбце children

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


In [10]:
df['education'].value_counts() #поиск неявных дубликатов в столбце education
df['education'] = df['education'].str.lower() # приводим к нижнему регистру
df['education'].value_counts() # проверяем действие

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [11]:
print(df.duplicated().sum()) #поиск явных дубликатов 
df = df.drop_duplicates() #удаляем яные дубликаты
df.duplicated().sum() #проверим действие

71


0

**Вывод**

Нашла методом duplicated() явные дубликаты, следующим действием избавилась от них и проверила.
В столбце children выявлено два неправильных значения (-1 и 20) - скорее всего это опечатки, в связи с чем методом replace() заменила нежелательные значения и проверила выполнение.
В столбце education указаны некоторые данные в верхнем регистре. Методом str.lower()привела к нижнему регистру и проверила действие.

**Лемматизация**

In [12]:
df['purpose'].value_counts() #какие есть занчения в столбце purpose и считаем их кол-во
from pymystem3 import Mystem #запускаем библиотеку с функцией лемматизации
m = Mystem()
def category_purpose(row):  #создаем функцию для поиска слов(лемматизации)
    lem_purpose = m.lemmatize(row['purpose'])
    if 'свадьба' in lem_purpose:
        return 'свадьба'
    if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose):
        return 'недвижимость'
    if 'автомобиль' in lem_purpose:
        return 'покупка автомобиля'
    if 'образование' in lem_purpose:
        return 'образование'
    return 'иные цели'
df['purpose_category'] = df.apply(category_purpose,axis=1)
print(df['purpose_category'].value_counts()) #посчитали значения каждой полученной категории       

недвижимость          10811
покупка автомобиля     4306
образование            4013
свадьба                2324
Name: purpose_category, dtype: int64


In [13]:
from collections import Counter # вызываем специальный контейнер из модуля collections для подсчета числа упоминаемых слов в столбце purpose
unique_purpose = df['purpose'].unique()
lemmas = []
for purpose in unique_purpose:
    lem = ''.join(m.lemmatize(purpose)).strip()
    lemmas.append(lem)
print(Counter(lemmas))

Counter({'автомобиль': 2, 'покупка жилье': 1, 'приобретение автомобиль': 1, 'дополнительный образование': 1, 'сыграть свадьба': 1, 'операция с жилье': 1, 'образование': 1, 'на проведение свадьба': 1, 'покупка жилье для семья': 1, 'покупка недвижимость': 1, 'покупка коммерческий недвижимость': 1, 'покупка жилой недвижимость': 1, 'строительство собственный недвижимость': 1, 'недвижимость': 1, 'строительство недвижимость': 1, 'на покупка подержать автомобиль': 1, 'на покупка свой автомобиль': 1, 'операция с коммерческий недвижимость': 1, 'строительство жилой недвижимость': 1, 'жилье': 1, 'операция со свой недвижимость': 1, 'заниматься образование': 1, 'сделка с подержанный автомобиль': 1, 'получение образование': 1, 'свадьба': 1, 'получение дополнительный образование': 1, 'покупка свой жилье': 1, 'операция с недвижимость': 1, 'получение высокий образование': 1, 'свой автомобиль': 1, 'сделка с автомобиль': 1, 'профильный образование': 1, 'высокий образование': 1, 'покупка жилье для сдача':

**Вывод**

В столбце purpose содержаться данные о цели получения кредита с многочисленными повторами в разных формах. Применила лемматизацию для поиска слов, тем самым определила 4 категории с подсчетом значений.

**Категоризация данных**

In [14]:
def group_children(child): #создаем функцию для определения категорий по количеству детей
    if child == 0:
        return 'без детей'
    if 1 <= child < 3:
        return 'есть дети'
    return 'многодетные'
df['children_group'] = df['children'].apply(group_children)
display(df.head()) # проверим новый столбец с записями значений функции

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_group
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,недвижимость,есть дети
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,покупка автомобиля,есть дети
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,недвижимость,без детей
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,образование,многодетные
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,без детей


In [15]:
def group_total(total):#создаем функцию для определения категорий по величине ежемесячного дохода
    if total <= 100000:
        return 'низкий доход'
    if total <= 150000:
        return 'средний доход'
    if total <= 200000:
        return 'высокий доход'
    return 'сверхвысокий доход'
df['total_group'] = df['total_income'].apply(group_total)
display(df.head()) # проверим новый столбец с записями значений функции

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_group,total_group
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,недвижимость,есть дети,сверхвысокий доход
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,покупка автомобиля,есть дети,средний доход
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,недвижимость,без детей,средний доход
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,образование,многодетные,сверхвысокий доход
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,без детей,высокий доход


In [16]:
status_id_family = df[['family_status','family_status_id']] # создадим "семейный" словарь
status_id_family = status_id_family.drop_duplicates().reset_index(drop=True)# в словаре удалили большое количество дубликатов
print(status_id_family.head()) # проверяем результат

           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  Не женат / не замужем                 4


In [17]:
status_id_education = df[['education','education_id']] # создадим словарь уровней образования
status_id_education = status_id_education.drop_duplicates().reset_index(drop=True)# в словаре удалили большое количество дубликатов
print(status_id_education.head()) # проверяем результат

             education  education_id
0               высшее             0
1              среднее             1
2  неоконченное высшее             2
3            начальное             3
4       ученая степень             4


**Вывод**

При помощи вызова функции запишем категории по кол-ву детей в новый столбец children_group,категории по величине ежемесячного дохода в столбец total_group.
Создала два словаря с данными семейного статуса, уровнем образования и их идентификаторами.

**Проверим eсть ли зависимость между наличием детей и возвратом кредита в срок?**

In [18]:
pivot_table_children = df.pivot_table(index='children_group',columns='debt',values='days_employed',aggfunc='count') 
#построим сводную таблицу для наглядного представления как кол-во детей влияет на возврат кредита
pivot_table_children['percent_1'] = (pivot_table_children[1]/(pivot_table_children[1]+pivot_table_children[0])*100).round(2) 
#найдем соотношение величин в процентах
display(pivot_table_children.head()) #выведем результат на экран

debt,0,1,percent_1
children_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
без детей,11758,952,7.49
есть дети,5711,594,9.42
многодетные,311,25,7.44


**Вывод**

Наличие детей не совсем влияет на возврат кредита в срок, так как в полученных данных сводной таблицы при среднем кол-ве наличия детей отличается на 2% от большого кол-ва детей и вовсе их отсутвия, тем не менее многодетных семей не так много.

**Проверим eсть ли зависимость между семейным положением и возвратом кредита в срок?**

In [19]:
pivot_table_family_status = df.pivot_table(index='family_status',columns='debt',values='days_employed',aggfunc='count') 
#построим сводную таблицу для наглядного представления как семейное положение влияет на возврат кредита
pivot_table_family_status['percent_1'] =(pivot_table_family_status[1]/(pivot_table_family_status[1]+pivot_table_family_status[0])*100).round(2)
#найдем соотношение величин в процентах
display(pivot_table_family_status.head()) #выведем результат на экран

debt,0,1,percent_1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2271,254,10.06
в разводе,1007,76,7.02
вдовец / вдова,809,56,6.47
гражданский брак,3396,339,9.08
женат / замужем,10297,846,7.59


**Вывод**

На основании полученных данных сводной таблицы можем сделать вывод, что свободные/холостые потенциальные заемщики менее дисциплинированы в возврате кредитных обязательств в установленные сроки.

**Проверим есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [20]:
pivot_table_total_group = df.pivot_table(index='total_group',columns='debt',values='days_employed',aggfunc='count')
#построим сводную таблицу для наглядного представления как уровень влияет на возврат кредита
pivot_table_total_group['percent_1'] = (pivot_table_total_group[1]/(pivot_table_total_group[1]+pivot_table_total_group[0])*100).round(2)
#найдем соотношение величин в процентах
display(pivot_table_total_group.head()) #выведем результат на экран

debt,0,1,percent_1
total_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
высокий доход,3750,368,8.94
низкий доход,4109,354,7.93
сверхвысокий доход,4708,358,7.07
средний доход,5213,491,8.61


**Вывод**

Из полученной сводной таблицы можно выделить наличие сверхвысокого дохода, что влияет на возврат обязательств в срок, НО клиенты с высоким и средним доходами отличаются на 2% от клиентов со сверхвысоким доходом. 

Вывод: явная зависимость между величиной уровнем дохода и возвратом кредита в срок отсутствует.

**Проверим как разные цели кредита влияют на его возврат в срок?**

In [21]:
pivot_table_purpose = df.pivot_table(index='purpose_category',columns='debt',values='days_employed',aggfunc='count') 
#построим сводную таблицу для наглядного представления как цели кредита влияют на возврат кредита
pivot_table_purpose['percent_1'] = (pivot_table_purpose[1]/(pivot_table_purpose[1]+pivot_table_purpose[0])*100).round(2)
#найдем соотношение величин в процентах
display(pivot_table_purpose.head()) #выведем результат на экран

debt,0,1,percent_1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
недвижимость,9043,715,7.33
образование,3266,331,9.2
покупка автомобиля,3530,367,9.42
свадьба,1941,158,7.53


**Вывод**

Из полученной сводной таблицы можно сделать вывод, что долгосрочные кредиты обязывают погашать обязательства в срок.

## Общий вывод

В ходе проведенного исследования было выявлено, что наличие детей может влиять на возврат кредитных обязательсв в установленный срок - 2% достаточно большой показатель между отсутвием детей и их наличием, при том,что многодетных семей не так много.

Семейное положение влияет на возврат кредитных обязательсв в установленный срок - клиенты категорий женатые/замужние/вдовец / вдова/р разводе более дисциплинированы.

Также можно выделить маркер "цель кредита" для будущего построения модели скоринга. Из полученного анализа данных выявлено, что долгосрочные кредиты (недвижимость) обязывают погашать обязательства в установленный срок.