### Шаг 1. Изучение общей информации. 

In [1]:
import pandas as pd
credit_data = pd.read_csv('/datasets/data.csv')

In [2]:
display(credit_data.head(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# Изучим информацию о таблице, а так же посмотрим уникальные значения всех столбцов для вычисления аномальных значений.
credit_data.info()
credit_data['children'].value_counts()
credit_data['dob_years'].value_counts()
credit_data['family_status'].value_counts()
credit_data['education'].value_counts()
credit_data['gender'].value_counts()
credit_data['income_type'].value_counts()
credit_data['debt'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


0    19784
1     1741
Name: debt, dtype: int64

### Вывод

#### Таблица представляет собой массив данных, который необходимо обработать.
    Встретившиеся проблемы:  
    в "days_employed" пропуски, отрицательные значения стажа работы, аномальные значения стажа по ~ 900 лет  
    в "dob_years" нулевые значения возраста  
    в "gender" значение пола XNA  
    в "education" встречаются проблемы с регистром  
    в  "total_income" пропущенные значения  
    в "purpose" различные описания одной и той же причины заема   
    в "children" минусовые значения детей.  

- Отрицательные значения в стаже работы, а так же аномальный стаж может быт ошибками выгрузки данных, а так же человеческим фактором, где оператор неправильно внес значения в таблицы. Пропуски же в этой графе - нежелание клиента предоставить эти данные, что свидетельствует об аналогичных пропусках в доходах клиента (total_income)  
- Нулевые значения возраста вызваны желанием клиента скрыть свой возраст по личным причинам, либо снова проблемы при выгрузке данных.  
- Пропущенное значение пола - человеческий фактор, оператор скорее всего просто забыла внести значение в эту графу.  
- Проблемы регистра - человеческий фактор, так как оператор, вносивший данные скорее всего не один и тот же человек, а разные люди в разных отделениях банка и каждый из них заполнял форму как ему удобно.  
- Пропущеные значения total_income - нежелание клиента предоставить информацию, либо нахождение его на пенсии, в декрете, безработица либо неработающий студент (исходя из данных таблицы).  
- Различное описание одной и той же причины заема - человеческий фактор, аналогичный графе образования.  
- Минусовые значения детей - ошибка оператора, скорее всего количество детей клиентов равно модулю записанного числа.  

In [4]:
total = credit_data.isnull().sum()

### Шаг 2. Предобработка данных

### Обработка пропусков

In [5]:
# распределим заемщиков по социальному статусу и определим средние значения доходов и стажа для каждой категории
credit_data_status = credit_data.groupby(by = 'income_type')
credit_data_status['days_employed'].mean()
credit_data_status['total_income'].mean()

# заменяем пропущенные значения средними значениями по категориям заемщиков
def mean_func(parametr):
    mean_income = credit_data.loc[credit_data['income_type'] == parametr, 'total_income'].mean()
    credit_data.loc[credit_data['income_type'] == parametr, 'total_income'] = credit_data.loc[credit_data['income_type'] == parametr, 'total_income'].fillna(mean_income)
    mean_days = credit_data.loc[credit_data['income_type'] == parametr, 'days_employed'].mean()
    credit_data.loc[credit_data['income_type'] == parametr, 'days_employed'] = credit_data.loc[credit_data['income_type'] == parametr, 'days_employed'].fillna(mean_days)
    return (credit_data)
row = ['безработный', 'в декрете', 'госслужащий', 'компаньон', 'пенсионер', 'предприниматель', 'сотрудник', 'студент']
for parametr in row:
    credit_data = mean_func(parametr)
    
#Проверяем, остались ли пропуски
credit_data.isnull().count()

children            21525
days_employed       21525
dob_years           21525
education           21525
education_id        21525
family_status       21525
family_status_id    21525
gender              21525
income_type         21525
debt                21525
total_income        21525
purpose             21525
dtype: int64

### Вывод

Мы заменили пропущенные значения столбцов на средние (по категориям заемщиков) значения для сохранения целостности данных.

### Замена типа данных

In [6]:
# Заменим тип данных float64 на int64 в столбцах, где мы исправили пропуски, так как точность 
# до полудня или полурубля для нас не играет роли. Применим .astype для изменения типа данных
credit_data['days_employed'] = credit_data['days_employed'].astype('int64')
credit_data['total_income'] = credit_data['total_income'].astype('int64')

# Так же в данном случае можно применить to_numeric () для изменения типа данных
# pd.to_numeric(credit_data['total_income'], errors='coerce')

# следующим шагом исправим регистр столбца education для дальнейшей работы, применив метод .lower() а так же других столбцов
#со строковыми значениями, чтобы не допустить возможных проблем.
credit_data['education'] = credit_data['education'].str.lower()
credit_data['family_status'] = credit_data['family_status'].str.lower()
credit_data['income_type'] = credit_data['income_type'].str.lower()
credit_data['purpose'] = credit_data['purpose'].str.lower()
credit_data['gender'] = credit_data['gender'].str.upper()
display(credit_data.head(15))

# определяем минимальный и максимальный доход
print('Минимальный доход составляет:', credit_data['total_income'].min())
print('Максимальный доход составляет:', credit_data['total_income'].max())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Минимальный доход составляет: 20667
Максимальный доход составляет: 2265604


### Вывод

Изменив тип данных на целочисленный мы улучшили читаемость наших данных для дальнейшей работы над проектом. Так же, изменив
регистр столбцов мы подготовили почву для дальнейшей работы по поиску дублей и группировке таблицы.

### Обработка дубликатов

In [7]:
display(credit_data.duplicated().sum())
credit_data = credit_data.drop_duplicates().reset_index(drop=True)

71

### Вывод

Данная таблица не лишена дублирующих строк (71), но при помощи метода drop_duplicates() нам удалось от них избавиться. Следующий шаг проекта - Лемманизация.

### Лемматизация

In [8]:
display(credit_data['purpose'].value_counts())
# в столбце perpose очень много вариаций написания одной и той же причины заема, что усложняет дальнейший анализ.
# Поэтому применим метод лемонизации для даного столбца
from pymystem3 import Mystem
m = Mystem()
#Создадим функцию, которой передадим значение леммы слова и приведем все к одному шаблону.

# Так как все причины займа можно разбить на вполне внятные категории, то для леммы слов выбраны цели, 
# на которые берется заем. Они имеют уникальные значения, что позволяет нам без проблем лемманизировать столбец.
def purpose_lemm (purpose):
    lemmas = m.lemmatize(purpose)
    for lemma in lemmas:
        if lemma == 'свадьба':
            return 'свадьба'
        if lemma == 'недвижимость':
            return 'недвижимость'
        if lemma == 'жилье':
            return 'жилье'
        if lemma == 'автомобиль':
            return 'автомобиль'
        if lemma == 'образование':
            return 'образование'
# заменим изначальный столбец на новые данные
credit_data['purpose'] = credit_data['purpose'].apply(purpose_lemm)
display(credit_data.head())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,жилье
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,жилье
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба


### Вывод

После проведенной лемманизации заемщиков можно сгруппировать по целям заема для дальнейшей работы над проектом

### Категоризация данных

In [9]:
# Переходим непосредственно к цели нашего проекта, а именно - анализ зависимости наличия детей и семейного статуса 
# к добросовестности заемщика. Для этого категоризируем нашу таблицу по соответствующим столбцам.
# Для наглядности будем использовать и работать с data_rating, так как там находятся важные для нас величины,
# а data_word нужен для того, чтобы узнать любую интересующую нас информацию о заемщиках, выделенных в ходе анализа
data_rating = credit_data[['family_status_id', 'children',  'debt']]
display(data_rating.head())
data_word = credit_data [['family_status_id', 'family_status', 'days_employed', 'dob_years', 'education', 
                           'gender', 'income_type']]
display(data_word.head())

Unnamed: 0,family_status_id,children,debt
0,0,1,0
1,0,1,0
2,0,0,0
3,0,3,0
4,1,0,0


Unnamed: 0,family_status_id,family_status,days_employed,dob_years,education,gender,income_type
0,0,женат / замужем,-8437,42,высшее,F,сотрудник
1,0,женат / замужем,-4024,36,среднее,F,сотрудник
2,0,женат / замужем,-5623,33,среднее,M,сотрудник
3,0,женат / замужем,-4124,32,среднее,M,сотрудник
4,1,гражданский брак,340266,53,среднее,F,пенсионер


In [10]:
# Объявим функцию, которая будет считывать детей и наличие задолженностей
def goodbad (row):
    debt = row['debt']
    children = row['children']
    if debt == 1:
        if children == 0:
            return ('бездетный')
        elif children > 0:
            return ('с детьми')
    if debt == 0:
        if children == 0:
            return ('бездетный')
        elif children > 0:
            return ('с детьми')
            
row_values = ['children',  'debt']
row_columns = ['children',  'debt']
row = pd.Series(data=row_values, index=row_columns)
credit_data['reliability'] = credit_data.apply(goodbad, axis=1)
grouped_data_children = credit_data.groupby(by = 'reliability').count()

In [11]:
# теперь смотрим как наличие семьи влияет на возвратность
def family_rating (row):
    debt = row['debt']
    family = row['family_status_id']
    if debt == 1:
        if 0 <= family <= 1:
            return ('ненадежный', 'с семьей')
        elif 2 <= family <= 3:
            return ('ненадежный', 'была семья')
        elif family == 4:
            return ('ненадежный', 'без семьи')
    if debt == 0:
        if 0 <= family <= 1:
            return ('надежный', 'с семьей')
        elif 2 <= family <= 3:
            return ('надежный', 'была семья')
        elif family == 4:
            return ('надежный', 'без семьи')
            
row_values = ['family_status_id',  'debt']
row_columns = ['family_status_id',  'debt']
row = pd.Series(data=row_values, index=row_columns)
credit_data['family_rating'] = credit_data.apply(family_rating, axis=1)
grouped_data_family = credit_data.groupby(by = 'family_rating').count()
display(grouped_data_family['children'])

family_rating
(надежный, без семьи)        2536
(надежный, была семья)       2006
(надежный, с семьей)        15171
(ненадежный, без семьи)       274
(ненадежный, была семья)      148
(ненадежный, с семьей)       1319
Name: children, dtype: int64

In [12]:
# смотрим как влияют цели на своевременность уплаты займа
def purpose_debt (row):
    debt = row['debt']
    purpose = row['purpose']
    if debt == 1:
        return (purpose, 'ненадежный')
    return (purpose, 'надежный')
                
row_values = ['purpose',  'debt']
row_columns = ['purpose',  'debt']
row = pd.Series(data=row_values, index=row_columns)
credit_data['purpose_debt'] = credit_data.apply(purpose_debt, axis=1)
grouped_data_debt = credit_data.groupby(by = 'purpose_debt').count()
display(grouped_data_debt['debt'])

purpose_debt
(автомобиль, надежный)        3903
(автомобиль, ненадежный)       403
(жилье, надежный)             4152
(жилье, ненадежный)            308
(недвижимость, надежный)      5877
(недвижимость, ненадежный)     474
(образование, надежный)       3643
(образование, ненадежный)      370
(свадьба, надежный)           2138
(свадьба, ненадежный)          186
Name: debt, dtype: int64

In [13]:
#смотрим как влияют доходы на своевременность уплаты займа:
# по данным Википедии, распределение населения России по величине среднемесячных денежных доходов (по данным за 2018 год):
#До 10 000 рублей — 12 %
#10 000-27 000 рублей — 43 %
#27 000-45 000 рублей — 24 %
#свыше 45 000 рублей — 21 %
# Из чего следует 5 категорий заемщиков:
# с минимальным доходом (12%)
# с низким доходом (43%)
# со средним доходом (24%)
# с высоким доходом (21%)
# богатые (заработок выше 99го процентиля)
# Для определения воспользуемся персентилем.
one_column = credit_data['total_income']
import scipy.stats as st
import numpy as np
# соответственно все те значения, что находятся ниже 12го процентиля - это люди с минимальным достатком:
percent = 12
p12=st.scoreatpercentile(one_column,percent)
print ('Минимальный доход заемщиков', p12)
# Люди, зарабатывающие меньше 55го процентиля (12% минимальный + 43% низкий) - люди с низким достатком:
percent = 55
p43=st.scoreatpercentile(one_column,percent)
print ('Низкий доход заемщиков', p43)
# Люди, зарабатывающие ниже 79го процентиля (12% минимальный + 43% низкий + 24% высокий) - люди с высоким достатком 
percent = 79
p24=st.scoreatpercentile(one_column,percent)
print ('Средний доход заемщиков', p24)
# Оставшийся 1% людей исходя из статистики являются богатыми, а значит рассчитываем 99й процентиль.
percent = 99
p21=st.scoreatpercentile(one_column,percent)
print ('Высокий доход заемщиков', p21)
# После определения интервалов доходности клиентов, разбиваем их на вышеуказанные категории для расчета возвратности кредита 
#каждой категорией
def income_debt (row):   
    debt = row['debt']
    total_income = row['total_income']
    if debt == 0:
        if total_income < 82862: 
            return ('доход ниже 82862')
    if debt == 1:
        if total_income < 82862: 
            return ('доход ниже 82862')
    if debt == 0:
        if 82862 < total_income < 161380: 
            return ('доход от 82862 до 161380')
    if debt == 1:
        if 82862 < total_income < 161380: 
            return ('доход от 82862 до 161380')
    if debt == 0:
        if 161380 < total_income < 209920: 
            return ('доход от 161380 до 209920')
    if debt == 1:
        if 161380 < total_income < 209920: 
            return ('доход от 161380 до 209920')
    if debt == 0:
        if 209920 < total_income <= 505511: 
            return ('доход от 209920 до 505511')
    if debt == 1:
        if 209920 < total_income <= 505511: 
            return ('доход от 209920 до 505511')
    if debt == 0:
        if 505511 < total_income: 
            return ('доход от 505511')
    if debt == 1:
        if 505511 < total_income: 
            return ('доход от 505511')
                  
row_values = ['total_income',  'debt']
row_columns = ['total_income',  'debt']
row = pd.Series(data=row_values, index=row_columns)
credit_data['income_debt'] = credit_data.apply(income_debt, axis=1)
grouped_money = credit_data.groupby(by = 'income_debt').count()

Минимальный доход заемщиков 82861.8
Низкий доход заемщиков 161380.0
Средний доход заемщиков 209920.18
Высокий доход заемщиков 505511.63000000047


### Вывод

В ходе исследования мы определили зависимость от целей кредита, наличия семьи и детей, а так же доходности заемщика к возврату редита в срок.

### Шаг 3. Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [14]:
display(credit_data.pivot_table (index = ['reliability'], values = 'debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
reliability,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
бездетный,1063,14091,0.075438
с детьми,677,7316,0.092537


#### Вывод

Исходя из таблицы видно, что наличие детей влияет на возвращаемость кредита примерно на 2%. Так при наличие детей заемщики просрачивают кредит в 9.3% случаев, в то время как заемщики без детей - только в 7.5%.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [15]:
display(credit_data.pivot_table (index = ['family_status'], values = 'debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,85,1195,0.07113
вдовец / вдова,63,959,0.065693
гражданский брак,388,4151,0.093471
женат / замужем,931,12339,0.075452
не женат / не замужем,274,2810,0.097509


#### Вывод

Из таблицы выше мы выяснили что семейное положение заемщика влияет на его благонадежность в возвращении кредита, а именно:
холостые/незамужние ввиду неумения грамотного планирования бюджета допускают просрочки в 9.8% случаев, тогда как остальные категории делают это реже.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [16]:
display(credit_data.pivot_table (index = ['income_debt'], values = 'debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
income_debt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
доход ниже 82862,197,2575,0.076505
доход от 161380 до 209920,352,4217,0.083472
доход от 209920 до 505511,302,4291,0.07038
доход от 505511,14,215,0.065116
доход от 82862 до 161380,778,9085,0.085636


#### Вывод

Глядя на таблицу можно сделать вывод, что доходность заемщика так же влияет на частоту просрочки кредита. Так люди с доходом от 505511 тыс.руб., по статистике, допускают лишь 6.5% просрочек, тогда как люди с доходом от 82862 до 161380 - 8.6%. Вопреки ожиданиям, люди с доходом доход ниже 82862 допускают 7.66% просрочек, что ниже представителей соседствующего, более доходного класса.

- Как разные цели кредита влияют на его возврат в срок?

In [17]:
display(credit_data.pivot_table (index = ['purpose'], values = 'debt', aggfunc=['sum', 'count', 'mean']))

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,403,4306,0.09359
жилье,308,4460,0.069058
недвижимость,474,6351,0.074634
образование,370,4013,0.0922
свадьба,186,2324,0.080034


#### Вывод

Разные цели кредита тоже имеют влияние на его возвратность. Из таблицы видно, что заем на покупку автомобиля является самым небезопасным для банка, т.к. процент просрочек составляет 9.4% в отличае от кредита на покупку жилья, где процент просрочек нижу на 2.5% и составляет 6.9%

### Шаг 4. Общий вывод

В заключительной части проекта отметим, что все вышепроанализированные величины напрямую влияют на ответственность заемщиков и их надежность в глазах банка. Приведенные статистические данные, указанные выше, были получены после осмотра массива данных, его предобработки, где были удалены дублирующие строки, определены и заполнены пропуски, произведена категоризация данных и их дальнейший анализ.