# Исследование надежности заемщиков.

Существует достаточно много факторов, способных оказывать влияние на оценку надежности клиента банка, планирующего получить заем. В рамках данного исследования будет проведена оценка заемщика с точки зрения состава семьи.


**Цель исследования** — проверить гипотезу:
Семейное положение и наличие/количество детей оказывают влияние на факт погашения кредита в срок.

**Ход исследования**

Данные представлены в файле: `/datasets/data.csv`- это статистические данные о платежеспособности клиентов от банка.  О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Исследование планируется провести в несколько этапов:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотезы, ответы на вопросы по проекту и формирование общего вывода.
 
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Обзор данных

Первым шагом в исследовании необходимо ознакомиться с данными.

### Шаг 1. Обзор данных

In [1]:
# импорт библиотеки pandas и numpy
import pandas as pd
import numpy as np

In [2]:
# чтение файла с данными и сохранение в df с использованием конструкции try .. excep
try:
    df = pd.read_csv('C:/Users/Student/Desktop/data.csv')
except:
    df = pd.read_csv('/datasets/data.csv')

In [3]:
# вывод первых 10 срок df
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# вывод последних пяти строк данных
df.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [5]:
# получение общей информации о данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Общая информация о данных:
В таблице 12 столбцов, и 21525 строк с данными. Типы данных: в 2-х столбцах - float, в пяти столбцах - int, еще в пяти слобцах - obj.

Согласное документации к данным:
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;  
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

Нарушений стиля в названиях колонок нет.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные о заемщике. Большая часть колонок описывает непосредственно заемщика, его ссемейное положение, образование, пол, ежемесячный доход. Часть колонок описывает его, как получателя кредита: определена цель получения кредита и наличие задолженности по возврату кредита.

Предварительно можно утверждать, что данных достаточно для проверки гипотезы и проведения исследования. Но встречаются пропуски в данных.

## Предобработка данных

В данном разделе рассмотрим основные типы данных, оценим пропущенные данные и заполним их подходящими значениями, определим основные аномалии и ошибки в датасете, удалим явные и неявные дубликаты, проведем категоризацию данных с помощью функций. 

### Шаг 1. Заполнение пропущенных данных. 

#### Определение общего количества пропусков по столбцам.

In [6]:
# подсчет пропусков
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски встречаются в столбцах days_employed и total_income. В столбцах датасета представлены количественные данные, поэтому необходимо заполнить пропуски характерными значениями.
Необходимо отметить, что встречаются отрицательные значения в столбце days_employed. Необходимо рассмотреть данные в этих столбцах подробнее, определить аномалии.


In [7]:
# перевод значений столбца days_employed к положительным значениям
df['days_employed'] = abs(df['days_employed'])


In [8]:
# вывод первых 10 строк данных 
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Переведем значения столбца days_employed в целочисленные (округлим до целых дней, что точнее отражает трудовой стаж).

In [9]:
# округлим значения в столбце days_employed до целочисленных значений и проверим результат - выведем первые 10 строк
df['days_employed'] = df['days_employed'].round()
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8438.0,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4025.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4125.0,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,153.0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6930.0,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2189.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Рассчитаем стаж работы в годаx и сохраним в отдельном столбце df, а так же проверим значения на наличие явных аномалий: выделим максимальное значение в столбце years_employed

#### Проверка значений столбца 'years_employer' на наличие явных аномалий.

In [10]:
# делим значения в столбце days_employed на 365 дней и сохраним в новом столбце df
df['years_employed'] = df['days_employed'] / 365

In [11]:
# рассчитаем максимальное значение столбца years_employed
years_employed_max = df['years_employed'].max().round()
years_employed_max

1101.0

Рассчитаем среднее и медианное значение столбца с учетом аномалий.

In [12]:
# среднее значение столбца years_employed
years_employed_mean = df['years_employed'].mean().round()
years_employed_mean

183.0

In [13]:
# расчет медианного значения столбца years_employed
years_employed_median = df['years_employed'].median().round()
years_employed_median

6.0

Максимальное значение в 1101 год представляет собой явную аномалию и необходимо оценить объем таких аномалий и может означать, например, наличие ошибки в количестве дней стажа (под влиянием человеческого фактора).
Среднее значение составляет около 183 лет, что так же свидетельствует о наличии ошибок в представленных данных.

Двумя последовательными шагами проверим количество аномалий и произведем расчет среднего значение без учета данных аномалий.

#### Расчет среднего значения столбца 'years_employer'  без учета аномалий.

In [14]:
# расчет  количества значений в столбце years_employed более 45 лет стажа
years_employed_45 = df.loc[df['years_employed'] >= 45, 'years_employed'].count()
years_employed_45

3448

In [15]:
# расчет количества значений в столбце years_employed более 100 лет стажа
years_employed_100 = df.loc[df['years_employed'] >= 100, 'years_employed'].count()
years_employed_100

3445

In [16]:
# расчет среднегозначения в столбце years_employed без учета количества аномалий
years_employed_mean_without_anom = df.loc[df['years_employed'] <= 45, 'years_employed'].mean().round()
years_employed_mean_without_anom

6.0

Получаем среднее значение более приближенное к медиане. 
Следующим этапом заменим все пропуски и аномалии в данном столбце медианными значениями.

#### Замена значений столбца 'years_employer'  медианным значением.

In [17]:
# аномалий столбца years_employed медианным значением
df.loc[df['years_employed'] >= 45, 'years_employed'] = years_employed_median


In [18]:
# замена в столбце years_eployed медианным значением
df['years_employed'] = df['years_employed'].fillna(years_employed_median)

In [19]:
# вывод информации по df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    21525 non-null  float64
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


По данным из info показатели в столбце years_employed заполнены полностью.

Переходим к столбцу с пропущенными значениями total_income - ежемесячный доход.

Определим среднее значение, медианное, максимальное по столбцу ежемесячного дохода.

#### Проверка значений столбца 'total_income' на наличие явных аномалий.

In [20]:
# среднее значение столбца total_income
total_income_mean = df['total_income'].mean().round()
total_income_mean

167422.0

In [21]:
# медианное значение столбца total_income
total_income_median = df['total_income'].median().round()
total_income_median

145018.0

In [22]:
# максимальное значение столбца total_income
total_income_max = df['total_income'].max().round()
total_income_max

2265604.0

Для повышения точности анализа осуществим привязку значений столбца 'total_income' и типа занятости.

#### Заполнение пропусков столбца 'total_income' медианным значением с учетом типа занятости.

In [23]:
# заполнение пропусков в стобце total_income медианным значением
df["total_income"] = df.groupby("income_type")["total_income"].transform(lambda x: x.fillna(x.median()))

In [24]:
# вывод информации по df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    21525 non-null  float64
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


In [25]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8438.0,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,23.117808
1,1,4025.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,11.027397
2,0,5623.0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,15.405479
3,3,4125.0,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,11.30137
4,0,340266.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,6.0
5,0,926.0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,2.536986
6,0,2879.0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,7.887671
7,0,153.0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,0.419178
8,2,6930.0,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,18.986301
9,0,2189.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,5.99726


In [26]:
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
21515,1,468.0,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием,1.282192
21516,0,914.0,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья,2.50411
21517,0,405.0,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля,1.109589
21518,0,373996.0,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем,6.0
21519,1,2351.0,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости,6.441096
21520,1,4529.0,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,12.408219
21521,0,343937.0,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,6.0
21522,1,2113.0,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,5.789041
21523,3,3112.0,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля,8.526027
21524,2,1985.0,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля,5.438356


Все пропуски в df в столбце total_income заполнены медианным значением. Следующим шагом изменим тип значений столбцов total_income и years_employed на целочисленные.


### Шаг 2. Изменение типа столбцов 'years_employed' и 'total_income'.

In [27]:
# применение метода astype() к столбцам total_income и years_employed
df = df.astype({'total_income': int})
df = df.astype({'years_employed': int})

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
 12  years_employed    21525 non-null  int64  
dtypes: float64(1), int64(7), object(5)
memory usage: 2.1+ MB


После просмотра информации по таблицы видно, что значения в столбцах total_income и years_employed изменились на целочисленные. Проверим первые 10 и последние 10 строк df.

In [29]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8438.0,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,23
1,1,4025.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,11
2,0,5623.0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,15
3,3,4125.0,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,11
4,0,340266.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,6
5,0,926.0,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,2
6,0,2879.0,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,7
7,0,153.0,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование,0
8,2,6930.0,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,18
9,0,2189.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,5


In [30]:
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
21515,1,468.0,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,1
21516,0,914.0,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,2
21517,0,405.0,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,1
21518,0,373996.0,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,6
21519,1,2351.0,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,6
21520,1,4529.0,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,12
21521,0,343937.0,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,6
21522,1,2113.0,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,5
21523,3,3112.0,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,8
21524,2,1985.0,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,5


 Следующим шагом выявим и обработаем неявные дубликаты в столбцах education, family_status, income_type, purpose.

### Шаг 3. Выявление и обработка неявных дубликатов в данных.

#### Выявление столбцов с дубликатами в данных.

In [31]:
# число уникальных значений столбца education
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

 Приведем все неявные дубликаты к единому виду и заменим значения в столбце education с помощью перевода всего столбца в нижний регистр.
 

In [32]:
# последовательное применение метода lower() в столбце education
df['education'] = df['education'].str.lower()


In [33]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [34]:
# число уникальных значений в столбце family_status
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [35]:
# число уникальных значений в столбце income_type
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

Создадим DF словари для столбцов education_id и education и family_status_id и family_status — во втором и удалим дубликаты.

#### Создание id словарей для категоризации данных в столбцах education и family_status.

In [36]:
# создадим DF df_education и удалим дублирующиеся значения
df_education = df[['education_id', 'education']]
df_education = df_education.drop_duplicates().reset_index(drop=True)

In [37]:
df_education.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   education_id  5 non-null      int64 
 1   education     5 non-null      object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [38]:
df_education

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [39]:
# создадим DF df_family_status и удалим дублирующиеся значения
df_family_status = df[['family_status_id', 'family_status']]
df_family_status = df_family_status.drop_duplicates().reset_index(drop=True)

In [40]:
df_family_status.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   family_status_id  5 non-null      int64 
 1   family_status     5 non-null      object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [41]:
df_family_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Мы создали таблицы - идентификаторы категорий. Удалим из общего DF столбцы family_status и education и days_employed.

In [42]:
# удалим столбцы family_status и education
df = df.drop('family_status', 1)
df = df.drop('education', 1)
df = df.drop('days_employed', 1)

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   dob_years         21525 non-null  int64 
 2   education_id      21525 non-null  int64 
 3   family_status_id  21525 non-null  int64 
 4   gender            21525 non-null  object
 5   income_type       21525 non-null  object
 6   debt              21525 non-null  int64 
 7   total_income      21525 non-null  int64 
 8   purpose           21525 non-null  object
 9   years_employed    21525 non-null  int64 
dtypes: int64(7), object(3)
memory usage: 1.6+ MB


### Шаг 4. Категоризация  данных.

#### Категоризация количественных данных по столбцу уровень доходов (total_income_category).

Категоризация данных.
Создадим функцию, которая позволит разделить данные столбца по уровню доходов.
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.

In [44]:
# функция total_income для разделения значений столбца по категориям
def total_income(row):
    if row <= 30000:
        return 'E'
    if 30001 <= row <= 50000:
        return 'D'
    if 50001 <= row <= 200000:
        return 'C'
    if 200001 <= row <= 1000000:
        return 'B'
    if 1000001 <= row:
        return 'A'
    

In [45]:
# применение функции total_income к столбцу df total_income
df['total_income_category'] = df['total_income'].apply(total_income)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   children               21525 non-null  int64 
 1   dob_years              21525 non-null  int64 
 2   education_id           21525 non-null  int64 
 3   family_status_id       21525 non-null  int64 
 4   gender                 21525 non-null  object
 5   income_type            21525 non-null  object
 6   debt                   21525 non-null  int64 
 7   total_income           21525 non-null  int64 
 8   purpose                21525 non-null  object
 9   years_employed         21525 non-null  int64 
 10  total_income_category  21525 non-null  object
dtypes: int64(7), object(4)
memory usage: 1.8+ MB


In [46]:
df.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,total_income_category
0,1,42,0,0,F,сотрудник,0,253875,покупка жилья,23,B
1,1,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,11,C
2,0,33,1,0,M,сотрудник,0,145885,покупка жилья,15,C
3,3,32,1,0,M,сотрудник,0,267628,дополнительное образование,11,B
4,0,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,6,C


In [47]:
df['total_income_category'].value_counts()

C    16086
B     5042
D      350
A       25
E       22
Name: total_income_category, dtype: int64

#### Категоризация качественных данных столбца purpose.

Создадим функцию, которая распределит значения столбца purpose по категориям: 'операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования'.

In [48]:
# число уникальных значений в столбце purpose
df['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

In [49]:
# создание функции purpose_function для распределения значений столбца purpose по категориям
def purpose_function(row):
    if 'свад' in row:
        return 'проведение свадьбы'
    if 'обр' in row:
        return 'получение образования'
    if 'авт' in row:
        return 'операции с автомобилем'
    if 'жи' in row:
        return 'операции с недвижимостью'
    else:
        return 'дополнительная категория'

In [50]:
df['purpose_category'] = df['purpose'].apply(purpose_function)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   children               21525 non-null  int64 
 1   dob_years              21525 non-null  int64 
 2   education_id           21525 non-null  int64 
 3   family_status_id       21525 non-null  int64 
 4   gender                 21525 non-null  object
 5   income_type            21525 non-null  object
 6   debt                   21525 non-null  int64 
 7   total_income           21525 non-null  int64 
 8   purpose                21525 non-null  object
 9   years_employed         21525 non-null  int64 
 10  total_income_category  21525 non-null  object
 11  purpose_category       21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [51]:
df['purpose_category'].value_counts()

операции с недвижимостью    10840
получение образования        4484
операции с автомобилем       3853
проведение свадьбы           2348
Name: purpose_category, dtype: int64

Проведена категоризация качественных данных столбца 'purpose', сведения распределены. Большая часть займов приходится на различные операции с недвижимостью, меньше всего - проведение свадьбы. Операции с автомобилем и получение образования занимают среднюю позицию, однако разница между ними и количеством  операций с недвижимостью более, чем в два раза. 






#### Проверка прочих столбцов data на наличие скрытых аномалий.

Рассмотрим значения children на наличие аномалий.

In [52]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Очевидно, что в значения закралась аномалия. -1 ребенок скорее всего ошибка при записи и означает 1 ребенка, а 20 детей преобразуем в 2 ребенка. 

In [53]:
# преобразование столбца children, при котором -1 будет означать 1 ребенка, а 20 является 2 детьми.
df.loc[df['children'] == -1, 'children'] = 1
df.loc[df['children'] == 20, 'children'] = 2

In [54]:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Проверим столбец debt на наличие аномалий.

In [55]:
df['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Провели категоризацию как количественных, так и качественных данных, проверили все столбцы DF на наличие аномалий, внесли требуемые корректировки.

На основании проведенного анализа ответим на следующие вопросы:
Есть ли зависимость между количеством детей и возвратом кредита в срок?
Есть ли зависимость между семейным положением и возвратом кредита в срок?
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?

## Ответы на вопросы

###  Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [56]:
# определим, какое распределение меду заемщиками по количеству детей
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [57]:
# рассчитаем среднее значение по столбцу debt при группировке по количеству детей и сортировке по убыванию
children_pivot_table = df.pivot_table(index=['children'], values='debt', aggfunc = 'mean')
children_pivot_table

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075129
1,0.09147
2,0.094791
3,0.081818
4,0.097561
5,0.0


Вывод: на основании полученных данных заемщики с 5 детьми не имеют задолженности, однако их количество в общем объеме заемщиков слишком мало, поэтому в рамках анализа их исключим. На основании полученных данных, можно сделать вывод, что заемщики без детей имеют меньше задолженностей по платежам, и наблюдается небольшой рост по задолженности при увеличении количества детей.



### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [58]:
# определим, какое распределение по семейному положению
df['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

In [59]:
# рассчитаем среднее значение по столбцу family_status_id при группировке по семейному положению и сортировке по убыванию
family_status_pivot_table = df.pivot_table(index=['family_status_id'], values='debt', aggfunc = 'mean')
family_status_pivot_table

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075202
1,0.09289
2,0.065625
3,0.07113
4,0.097405


Вывод: исходя из полученных данных, основываясь на численности групп, можно сделать вывод, что семейный статус оказывает влияние на вероятность возврата заемных средств в срок, при этом семейные и в разводе чаще возвращают кредиты вовремя. Заемщики с семейным статусом вдовец/вдова чаще других возвращают кредитные средства в срок, однако по численности они составляют самую небольшую часть из анализируемого массива.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [60]:
# рассчитаем среднее значение возврата кредита и его зависимость от уровня дохода (столбец 'total_income_category')
total_income_category_pivot_table = df.pivot_table(index=['total_income_category'], values='debt', aggfunc='mean')
total_income_category_pivot_table

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,0.08
B,0.070607
C,0.084546
D,0.06
E,0.090909


In [61]:
# сводная таблица распределения значений категорий по количеству заемщиков
category_pivot_table = df.pivot_table(index=['total_income_category'], values='debt', aggfunc='count')
category_pivot_table

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,25
B,5042
C,16086
D,350
E,22


Вывод: уровень дохода влияет на выплаты по кредитам, однако существенной зависимости между уровнем дохода и возмжной задолженнойстью не выявлено. Наименьшую задолженность имеют заемщики из категории D(с доходом 30-50 тыс.рублей) а самую высокую - из категории Е(с доходом до 30 тыс.рублей). Однако, необходимо обратить внимание на численное распределение заемщиков по категориям: наибольшее количество заемщиков представлено по уровню дохода С (от 50 до 200 тыс.руб.), следующая по числености категория В (с доходом от 200 тыс. до 1 млн.руб.). И данное распределение может дать нам основание для подтверждения гипотезы о том, что уровень дохода оказывает лишь незначительное влияние на возврат заема, исключением составляют заемщики с уровнем дохода менее 30 тыс.руб. (однако, их численность в общем объеме выборки незначительна).

### Как разные цели кредита влияют на его возврат в срок?

Проверим зависимость между столбцами purpose_category и debt.

In [62]:
# определим степень влияния целей кредита на возврат кредита в срок
purpose_category_pivot_table = df.pivot_table(index=['purpose_category'], values='debt', aggfunc='mean')
purpose_category_pivot_table

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,0.093693
операции с недвижимостью,0.07214
получение образования,0.091882
проведение свадьбы,0.079216


Вывод: чаще всего вовремя возвращают средства при операциях  с недвижимостью и при проведении свадеб; операции с автомобилем и получение образования являются более рисковыми и задолженности по ним встречаются чаще. 

## Общий вывод

В рамках представленного исследования проводилась оценка некоторых факторов со стороны заемщика, которые оказывают влияние на его надежность, как клиента банка.

**Основные этапы исследования:**

 1. Обзор данных. 
 2. Предобработка данных.
 3. Ответы на вопросы.


### Обзор данных.

 Общая информация о данных: в представленной таблице data 12 столбцов, и 21525 строк с данными. 
 Типы данных: в 2-х столбцах - float, в пяти столбцах - int, еще в пяти слобцах - obj.

Основываясь на документации, приложенной к данным, столбцы data имеют следующее описание:

children — количество детей в семье;  
days_employed — общий трудовой стаж в днях;  
dob_years — возраст клиента в годах;  
education — уровень образования клиента;  
education_id — идентификатор уровня образования;  
family_status — семейное положение;  
family_status_id — идентификатор семейного положения;  
gender — пол клиента;  
income_type — тип занятости;  
debt — имел ли задолженность по возврату кредитов;  
total_income — ежемесячный доход;  
purpose — цель получения кредита.

Нарушений стиля в названиях колонок нет.

Количество значений в столбцах различается, что позволяет сделать предварительный вывод о наличии пропущенных данных.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

 ### Предобработка данных.


В данном разделе проводилась очистка данных, удаление дубликатов и заполнение пропущенных значений в столбцах days_employed и total_income. В столбцах датасета представлены количественные данные, поэтому необходимо заполнить пропуски характерными значениями.

В столбце days_employed встречались отрицательные значения, которые были преобразованы в положительные (и считались ошибкой при вводе). Значения данного столбца были переведены в года (столбец years_employer), были выявлены следующие аномалии в значениях, которые подтверждают наличие ошибок в данных: максимальное значение в 1101 год и среднее значение составляет около 183 лет. 
Следующим шагом была оценена частота встречания аномалий и рассчитано среднее значение без учета данных значений, которое составило 6 лет и совпало с медианным значением столбца. Пропущенные значения столбца years_employer были заполнены медианным значением.

Значения в столбце total_income также были проверены на наличие аномалий, однако, явных аномалий выявлено не было. Пропущенные значения были заполнены медианным значением, в зависимости от типа занятости. 

Значения данных столбцов были округлены и перевыедены в целочисленные.

Следующим шагом были выявлены и обработаны дубликаты в столбце education, проверены на наличие дубликатов прочие столбцы data.

Были созданы id-словари для категоризации данных в столбцах education и family_status.

Следующими шагами с помощью функций была произведена категоризация количественных данных по уровню дохода в рублях (0–30000 — 'E'; 30001–50000 — 'D'; 50001–200000 — 'C'; 200001–1000000 — 'B'; 1000001 и выше — 'A') и распределены цели заема на 4 основным качественным категориям:  'операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования'. 

Так же в данном разделе анализа проверялись  все оставшиеся столбцы data на наличие аномалий и были внесены корректировки в столбец children : -1 ребенок  был принят за ошибку и преобразован в 1 ребенка, а знчения в 20 детей преобразованы в 2 ребенка. 

В прочих столбцах и строках явных и неявных дубликатов, аномалий, ошибок в формате, пропусков выявлено не было.
 

### Проверка гипотезы, ответы на вопросы по проекту и формирование общего вывода.
 

В данном разделе были определены ответы на ключевые вопросы по проекту, полученные с применением сводных таблиц.

   Количество детей имеет влияние на задолженность, увеличение количества детей снижает платежеспосбность заемщика. Так, бездетные имеют показатель 0,075, с 1 ребенком - уже 0,091, с 2-мя детьми - 0,094. С 3-мя детьми показатель снижается до 0,02, с 4-мя резкий рост до 0,097. на основании полученных данных заемщики с 5 детьми не имеют задолженности, однако их количество в общем объеме заемщиков слишком мало, поэтому в рамках анализа данные были исключены.

   Основываясь на численности групп при категоризации по семейному статусу, можно сделать вывод, что данный показатель оказывает влияние на вероятность возврата заемных средств в срок, при этом семейные заемщики (значение 0,075) и в разводе (значение 0,071) чаще возвращают кредиты вовремя. Заемщики с семейным статусом вдовец/вдова (значение 0,065) чаще других возвращают кредитные средства в срок, однако по численности они составляют самую небольшую часть из анализируемого массива. Заемщики с семейным статусом гражданский брак (значение 0,093) и холостые (значение 0,097) являются самыми высокорисковыми заемщиками.

  Уровень дохода влияет на выплаты по кредитам, однако существенной зависимости между уровнем дохода и возмжной задолженностью не выявлено. Наименьшую задолженность имеют заемщики из категории D(с доходом 30-50 тыс.рублей) со значением в 0,06, а самую высокую - из категории Е(с доходом до 30 тыс.рублей) со значением в 0,091. Однако, необходимо обратить внимание на численное распределение заемщиков по категориям: наибольшее количество заемщиков представлено по уровню дохода С (от 50 до 200 тыс.руб.), следующая по числености категория В (с доходом от 200 тыс. до 1 млн.руб.). И данное распределение может дать нам основание для подтверждения гипотезы о том, что уровень дохода оказывает лишь незначительное влияние на возврат заема, исключением составляют заемщики с уровнем дохода менее 30 тыс.руб. (однако, их численность в общем объеме выборки незначительна) показатель 0,08. 

   При рассмотрении показазателей по наличию задолженности в зависимости от целей займа выявлена следующая тенденция: чаще всего вовремя возвращают средства при операциях с недвижимостью (значение 0,072) и при проведении свадеб (показатель 0,079); операции с автомобилем (показатель 0,094) и получение образования (показатель 0,092) являются более рисковыми и задолженности по ним встречаются чаще.

   Таким образом, складывается следующий портет наиболее благонадежного заемщика: бездетный семейный заемщик с уровнем дохода не ниже 30 тыс.рублей, который берет займ на операцию с недвижимостью.
   
   Наименее благонадежным является заемщик с детьми, никогда не состоящий в официальном браке, с целью кредита на операции с автомобилем или получение образования.