# Исследование надежности заемщиков

Заказчик - кредитный отдел банка. Нужно разораться влияет ил семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка - статистика о платежеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга - специальной системы, которая оценивает способность потенциального заемщика вернуть кредит банку.

### Цель исследования - проверить четыре гипотезы
1. Есть ли зависимость между количеством детей и возвраток кредита в срок?
2. Есть ли зависимость между семейным пложением и возратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

## Обзор данных

Составляем первое представление о данных

In [2]:
import pandas as pd# импортируем библиотеку Pandas

In [3]:
data=pd.read_csv('/datasets/data.csv') # Читаем файл и сохраняем его в переменной data
data.head(30) # выводим на экран первые 30 строк

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получаем общую информацию по таблице

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов со следующими типами данных:
- children -  количество детей в семье (Int64);
- day_employed - общий трудовой стаж в днях (float64);
- dob_years - возраст клиента в годах (int64);
- education  - уроверь образования клиента (object);
- education_id - идентификатор уровня образования (int64);
- family_status - семейное положение (object);
- family_status_id  - иднетификатор семейного положения (int64);
- gender - пол клиента (object);
- income_type - тип занятости (object);
- debt - имел ли задолженность по возврату кредитов (int64);
- total_income - ежемесячный доход (float64);
- purpose  - цель получения кредита (object)

**Выводы:** В каждой строке таблицы - данные об одном заемщике. Часть колонок описывает семью и самого заемщика: количество детей в семье, общий трудовой стаж в дня и т.д. Остальные данные рассказывают о том, имел ли клиент задолженность по оплате кредита и цель получения кредита.
Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных.
Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных
Исключаем пропуски в данных и проверяем данные на дубликаты.

### Обработка неверных значений
При просмотре данных таблицы в глаза бросаются грубые ошибки в данных столбцов days_employed и total_income, судя по характеру данных, выгрузка в таблицу проводилась автоматическим расчетом. Необходимо сообщить в аналитический отдел банка данные о системной ошибке.
Изменяем тип данных столбца days_employed, удаляем знак "-" и возвращаем целый тип данных.

In [5]:
data['days_employed'] = data['days_employed'].abs() # Удаляем минус
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Обработка пропусков
Посчитаем пропущенные значения в столбце days_employed

In [6]:
data['days_employed'].isna().sum()

2174

In [7]:
data.loc[data['days_employed'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Посчитаем пропущенные значения по столбцу total_income

In [8]:
data['total_income'].isna().sum()

2174

In [9]:
data.loc[data['total_income'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


**Вывод:**
Пропуски в столбцах days_employed и total_income имеют стандартное значение типа NaN, количество строк совпадает по двум столбцам. Данные пропущены не случайно, либо ошибка в выгрузке данных, либо они не указаны при заполнении заявки.

Проведем подстановку медианных значений в пропущенных ячейках для сохранения основной части статистики по остальным показателям. Столбец общий трудовой стаж (days_employed) вообще не используется при проведении исследования, поэтому он не повлияет на результаты исследования. Ежемесячный доход (total_income) используется в основном иследовании, и для того, чтобы его результаты были наиболее провдоподобны, лучше использовать медианные значения.

In [10]:
data[['days_employed', 'total_income']].median()

days_employed      2194.220567
total_income     145017.937533
dtype: float64

In [11]:
# Проведем заполнение пропущенных значений с подстановкой средних по соотвествующим столбцам
data['days_employed'] = data['days_employed'].fillna(data[['days_employed','total_income']].median()[0])
data['total_income'] = data['total_income'].fillna(data[['days_employed','total_income']].median()[1])

Переведем эти столбцы в целочисленный формат, т.к. нет необходимости в такой точности дохода и количества рабочих дней

In [12]:
data['days_employed'] = data['days_employed'].astype('int')  
data['total_income'] = data['total_income'].astype('int')  

Проверим результат

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Вывод:** Отлично теперь в столбцах total_income и days_employed нет пропущенных значений и тип данных изменен на целочисленный, т.к. в вещественном типе данных в данных столбцах нет необходимости. 

### Проверка корректности числовых значений в таблице
Проверим корректность данных в столбцах с числовыми значениями выводом граничных значений

In [14]:
data.agg({'children':['min','max'],'days_employed':['min','max'],'dob_years':['min','max'],'family_status_id':['min','max'],'total_income':['min','max']})

Unnamed: 0,children,days_employed,dob_years,family_status_id,total_income
min,-1,24,0,0,20667
max,20,401755,75,4,2265604


Как легко заметить в таблице есть множество значений не отражающих действительности, требуется откорректировать значения вручную по каждому столбцу по отдельности

#### Обработаем некорректные значения в столбце 'children'

In [15]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Изменяем тип данных для корректировки отрицательного значения

In [16]:
data['children'] = data['children'].astype('str')
data['children'] = data['children'].replace('-', '', regex=True).astype('float')

Удаляем строки с неверными данными столбца children из таблицы, т.к. двадцать детей наверное быть не может и соотвественно, эти данные некорректны и портят статистику

In [17]:
data = data[data.children != 20]

Изменяем тип данных обратно на целочисленный и проверяем минимальное количество детей

In [18]:
data['children'] = data['children'].astype('int')
data['children'].min()

0

**Вывод:** При детальном рассмотрении данных видно что данные о знаком "-" в количестве 47 шт, попали в таблицу при автоматической выгрузке, и мы их привели к правильному значению, убрав знак "-", но со значением "20" детей однозначно сказать не возможно, поэтому эти значения из таблицы мы удалили как незначительную погрешность в масштабах всей таблицы, чтобы не навредить статистике

####  Обработаем некорректные данные в столбце 'days_employed'
Если выбрать максимальный рабочий стаж в 65 лет и перевести его в дни, то получим число 23725.
Посчитаем количество значений в столбце в которых стаж превышает это значение

In [19]:
value_error = data['days_employed'].loc[data['days_employed'] > 23725].count()
value_error

3438

In [20]:
print('Процент ошибочных значений составляет: {:.0%}'.format(value_error/len(data['days_employed'])))

Процент ошибочных значений составляет: 16%


26 %  - это очень большой процент, чтобы можно было просто удалить данные, заменим некорректные данные медианным значением по столбцу 

In [21]:
data['days_employed'].loc[data['days_employed'] < 23725].median() # Нашли медианное значение

1960.0

In [22]:
data.loc[data['days_employed'] > 23725, 'days_employed'] = 1631 # Заменили не корректные данные на медианное значение
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,1631,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


**Вывод:** Отлично, данные о количестве отработанных дней привели к среднему значению, т.к. коэффициент ошибочных значений в этом столбце был очень велик и удалением этих данных повлекло бы искажение итогового значения. Обязательно требуется сообщить ответственным лицам по сбору данных об этом моменте, т.к. выгрузка неккоректных данных имеет довольно большой процент от основной таблицы.

### Обработаем некорректные данные в столбце 'dob_years'
Посчитаем количество нулевых значений в столбце и посчитаем среднее не нулевых значений

In [23]:
data[data['dob_years'] == 0].count()

children            100
days_employed       100
dob_years           100
education           100
education_id        100
family_status       100
family_status_id    100
gender              100
income_type         100
debt                100
total_income        100
purpose             100
dtype: int64

In [24]:
data[data['dob_years'] != 0].mean()

children                 0.474308
days_employed         2221.999953
dob_years               43.501429
education_id             0.817837
family_status_id         0.971802
debt                     0.080800
total_income        165196.389105
dtype: float64

Находим среднее значение по столбцу и заменяем нулевые значения в столбце 'dob_years' средними значениями, для сохранения остальных данных таблицы

In [25]:
dob_mean = round(data['dob_years'].mean())
dob_mean

43

In [26]:
data.loc[data['dob_years'] == 0, 'dob_years'] = dob_mean

Проверим результат

In [27]:
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


**Вывод:** данные по выгрузке количества лет заемщику так же выгружены некорректно, т.к. заемщиков с возрастом "0" лет не должно быть в системе. Необходимо, чтобы в системе был установлен фильтр при заполнении заявки, который бы не позволил не заполнять данную графу, либо проверить выгрузку данных в аналитическую программу. 

### **Вывод**
Проведя работу по очистике данных от такого количества "мусора" с точностью можно сказать, что необходимо провести работу над корректной выгрузкой из программы с актуальными данными, так как после корректировок и усреднений значений, итоговая статистика по усредненным данным может отличаться от реальности.

## Обработка дубликатов
Просмотрим уникальные значения в столбце education и выведем уникальные значения

In [28]:
data['education'].duplicated().sum()

21434

In [29]:
print(data['education'].unique())

['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']


Приведем все значения столбца education в нижний регистр

In [30]:
data['education'] = data['education'].str.lower()
print(data['education'].unique())

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


Просмотрим уникальные значения в столбце family_status и выведем уникальные значения

In [31]:
data['family_status'].duplicated().sum()

21444

In [32]:
print(data['family_status'].unique())

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']


Приведем все значения столбца family_status в нижний регистр

In [33]:
data['family_status'] = data['family_status'].str.lower()
print(data['family_status'].unique())

['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'не женат / не замужем']


Просмотрим уникальные значения в столбце gender

In [34]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Выведем строчку столбца gender со странным начение целиком для ознакомления

In [35]:
data.loc[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


По результату ознакомления с данными невозможно однозначно сделать вывод о половой принадлежности субъекта. Удалим данную строку из таблицы и проверим результат

In [36]:
data = data[data.gender != 'XNA']
print(data['gender'].unique())

['F' 'M']


Просмотрим списко уникальных значений по столбцу purpose

In [37]:
print(data['purpose'].unique())

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


И найдем полные строки-дубликаты и удалим их.

In [38]:
print(data.duplicated().sum())

71


In [39]:
data = data.drop_duplicates().reset_index(drop=True) 

**Вывод:** В таблице удалили полные дубликаты. Все столбцы таблицы удалось очистить от дубликатов, которые были вызваны разными регистрами, за исключением столбца с целями получения кредита. В данном случае потребуется использование классификации по типу. Исходя из количества дубликатов в столбце целей получения кредита, можно ожидать большое количество разновидностей написания одной и той же цели.

### Категоризация данных
    Для того чтобы упорядочить данные, создадим два новых датафрейма со столбцами:
    - education_id и education - в первом;
    - family_status_id и  family_status - во втором.
    Что позволит облегчить визуальную работу с таблицей, уменьшить размер файла и время обработки данных, эффективно фильтровать данные, позволит клиентам выбирать категории из списка, а не придумывать свои.

In [40]:
edu_dict = data[['education_id', 'education']] # Создаем новый датафрей из двух столбцов education_id  и education
print(edu_dict.head(10))

   education_id education
0             0    высшее
1             1   среднее
2             1   среднее
3             1   среднее
4             1   среднее
5             0    высшее
6             0    высшее
7             1   среднее
8             0    высшее
9             1   среднее


In [41]:
family_dict = data[['family_status_id', 'family_status']] # Создаем новый датафрей из двух столбцов family_status_id  и family_status
print(family_dict.head(10))

   family_status_id     family_status
0                 0   женат / замужем
1                 0   женат / замужем
2                 0   женат / замужем
3                 0   женат / замужем
4                 1  гражданский брак
5                 1  гражданский брак
6                 0   женат / замужем
7                 0   женат / замужем
8                 1  гражданский брак
9                 0   женат / замужем


В созданных датайреймах (словарях) у сейчас содержится большое количество дубликатов. Удалим их применив методы: drop_duplicates() и  reset_index.

In [42]:
edu_dict = edu_dict.drop_duplicates().reset_index(drop=True)
print(edu_dict.head())

   education_id            education
0             0               высшее
1             1              среднее
2             2  неоконченное высшее
3             3            начальное
4             4       ученая степень


In [43]:
family_dict = family_dict.drop_duplicates().reset_index(drop=True)
print(family_dict.head())

   family_status_id          family_status
0                 0        женат / замужем
1                 1       гражданский брак
2                 2         вдовец / вдова
3                 3              в разводе
4                 4  не женат / не замужем


А теперь удалим из исходного датафрейма столбцы education и  family_status

In [44]:
data.pop('family_status')
data.pop('education')
print(data.head(10))

   children  days_employed  dob_years  education_id  family_status_id gender  \
0         1           8437         42             0                 0      F   
1         1           4024         36             1                 0      F   
2         0           5623         33             1                 0      M   
3         3           4124         32             1                 0      M   
4         0           1631         53             1                 1      F   
5         0            926         27             0                 1      M   
6         0           2879         43             0                 0      F   
7         0            152         50             1                 0      M   
8         2           6929         35             0                 1      F   
9         0           2188         41             1                 0      M   

  income_type  debt  total_income                     purpose  
0   сотрудник     0        253875               покупка

На основании диапазонов создадим столбец total_income_category, который позволит на основании дохода, сгруппировать заемщиков по уровню дохода:
- 0 - 30000 - 'E'
- 30001 - 50000 - 'D'
- 50001 - 200000 - 'C'
- 200001 - 1000000 - 'B'
- 1000001 и выше - 'A'

И проверим работу

In [45]:
def income_group(total_income):
    if total_income <=30000:
        return 'E'
    elif 30001 <= total_income <= 50000:
        return 'D'
    elif 50001 <= total_income <= 200000:
        return 'C'
    elif 200001 <= total_income <= 1000000:
        return 'B'
    else:
        return 'A'
data['total_income_category'] = data['total_income'].apply(income_group)
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,1631,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


Для того, чтобы классифицировать цели получения кредита, создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
- 'операции с автомобилем',
- 'операции с недвижимостью',
- 'проведение свадьбы',
- 'получение образования'.

И проверим работу функции.

In [46]:
def purpose_group(purpose):
    if 'жиль' in purpose or 'недвижимост' in purpose:
        return 'операции с недвижимостью'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'
    elif 'образовани' in purpose:
        return 'получение образования'
    elif 'авто' in purpose:
        return 'операции с автомобилем'
data['purpose_category'] = data['purpose'].apply(purpose_group)
print(data.head(10))
data['purpose_category'].unique()

   children  days_employed  dob_years  education_id  family_status_id gender  \
0         1           8437         42             0                 0      F   
1         1           4024         36             1                 0      F   
2         0           5623         33             1                 0      M   
3         3           4124         32             1                 0      M   
4         0           1631         53             1                 1      F   
5         0            926         27             0                 1      M   
6         0           2879         43             0                 0      F   
7         0            152         50             1                 0      M   
8         2           6929         35             0                 1      F   
9         0           2188         41             1                 0      M   

  income_type  debt  total_income                     purpose  \
0   сотрудник     0        253875               покупк

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

Мы выполнили категоризацию данных, которая позволит сгруппировать данные и ответить на вопросы исследования.

## Проверка гипотез

### 1. Есть ли зависимость между количеством детей и возвратом кредита в строк 

In [47]:
no_return_debt = data.loc[data['debt'] == 0] # Готовим данные для сводной таблицы
n = no_return_debt['children'].value_counts()

yes_return_debt = data.loc[data['debt'] == 1]
y = yes_return_debt['children'].value_counts()

data_children = pd.pivot_table(data, index=['children'], values= 'purpose', columns='debt', aggfunc='count').fillna(0).astype(int)
data_children['%'] = (y/(y+n) *100).fillna(0)
data_children['%'] = data_children['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от наличия детей:')
print()
print(data_children)

Процент не возврата кредита в срок в зависимости от наличия детей:

debt          0     1                    %
children                                  
0         13027  1063  7.544357700496807 %
1          4410   445  9.165808444902163 %
2          1858   194    9.4541910331384 %
3           303    27  8.181818181818182 %
4            37     4   9.75609756097561 %
5             9     0                0.0 %


In [48]:
data.groupby('children')['debt'].agg(['count','sum','mean'])

Unnamed: 0_level_0,count,sum,mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14090,1063,0.075444
1,4855,445,0.091658
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


In [53]:
def my_mean(x): return x.mean()*100
data.groupby('children')['debt'].agg(['count', 'sum', my_mean])

Unnamed: 0_level_0,count,sum,my_mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14090,1063,7.544358
1,4855,445,9.165808
2,2052,194,9.454191
3,330,27,8.181818
4,41,4,9.756098
5,9,0,0.0


In [54]:
def my_mean(x): return '{:.2%} '.format(x.mean())
data.groupby('children')['debt'].agg(['count', 'sum', my_mean])

Unnamed: 0_level_0,count,sum,my_mean
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14090,1063,7.54%
1,4855,445,9.17%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%


**Вывод:** Примерными плательщиками являются только семьи имеющие пятерых детей, хотя клиенты данной категории брали кредиты всего 9 раз, но все вернули вовремя. Наименьший процент не возврата кредита имеют клиенты без детей (примерно 7.4 %) Примерно с одинаковой вероятностью (9 %) не возвращают вовремя клиенты имеющие одного, двух или 4 детей. Чуть меньший процент не возврата (8 %) составляют клиенты имеющие троих детей.

### 2. Есть ли зависимость между семейным положением и возвраток кредита в срок?

In [49]:
no_return_fam = data.loc[data['debt'] == 0]
fam_n = no_return_fam['family_status_id'].value_counts()

yes_return_fam = data.loc[data['debt'] == 1]
fam_y = yes_return_fam['family_status_id'].value_counts()

data_fam = pd.pivot_table(data, index=['family_status_id'], values= 'purpose', columns='debt', aggfunc='count').fillna(0).astype(int)
data_fam['%'] = (fam_y/(fam_y+fam_n) *100).fillna(0)
data_fam['%'] = data_fam['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от семейного положения:')
print()
print(data_fam)

Процент не возврата кредита в срок в зависимости от семейного положения:

debt                  0    1                    %
family_status_id                                 
0                 11362  928  7.550854353132628 %
1                  3753  385  9.304011599806671 %
2                   892   63  6.596858638743456 %
3                  1109   84  7.041072925398156 %
4                  2528  273  9.746519100321315 %


In [50]:
print(family_dict.head())

   family_status_id          family_status
0                 0        женат / замужем
1                 1       гражданский брак
2                 2         вдовец / вдова
3                 3              в разводе
4                 4  не женат / не замужем


**Вывод:** Семейные пары, находящиеся в официальном браке кредиты берут чаще и вовращают в срок, примерно с той же вероястностью, что и граждане находящиеся в разводе. Наибольший процент невозвратов у клиентов, не женатых/не замужних и живущих в гражданском браке. Наименьший процент невозвратов у вдовцов/вдов.

### 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [51]:
no_return_inc = data.loc[data['debt'] == 0]
inc_n = no_return_inc['total_income_category'].value_counts()

yes_return_inc = data.loc[data['debt'] == 1]
inc_y = yes_return_inc['total_income_category'].value_counts()

data_inc = pd.pivot_table(data, index=['total_income_category'], values= 'purpose', columns='debt', aggfunc='count').astype(int)

data_inc['%'] = (inc_y/(inc_y+inc_n) *100).fillna(0)
data_inc['%'] = data_inc['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от уровня дохода:')
print()

print(data_inc)

Процент не возврата кредита в срок в зависимости от уровня дохода:

debt                       0     1                    %
total_income_category                                  
A                         23     2                8.0 %
B                       4666   354  7.051792828685259 %
C                      14606  1354  8.483709273182956 %
D                        329    21                6.0 %
E                         20     2  9.090909090909092 %


**Вывод:** По результату выполненных рачетов можно заметить, что клиенты, имеющие доход до 30 тыс. и кредиты берут редко и являются самыми частыми неплательщиками. При этом клиенты, имеющие доход от 30 до 50 тыс. наиболее часто возвращают кредит в срок. Больше всего при этом берут кредит клиенты имеющие доход от 50 до 200 тыс. Самые богатые клиенты не возвращают его в срок со средней вероятностью.

### 4. Как разные цели кредита влияют на его возврат в срок?

In [52]:
no_debt = data.loc[data['debt'] == 0]
table_no_debt = no_debt['purpose_category'].value_counts()

yes_debt = data.loc[data['debt'] == 1]
table_yes_debt = yes_debt['purpose_category'].value_counts()

data_pur = pd.pivot_table(data, index=['purpose_category'], columns='debt', values= 'purpose', aggfunc='count')
data_pur['%'] = (table_yes_debt / (table_yes_debt + table_no_debt) * 100).sort_values(ascending =False)
data_pur['%'] = data_pur['%'].astype(str) + ' %'
print('Процент не возврата кредита в срок в зависимости от образования:')
print()

print(data_pur)

Процент не возврата кредита в срок в зависимости от образования:

debt                         0    1                    %
purpose_category                                        
операции с автомобилем    3889  401  9.347319347319347 %
операции с недвижимостью  9994  780  7.239651011694821 %
получение образования     3629  369  9.229614807403703 %
проведение свадьбы        2132  183  7.904967602591792 %


**Вывод:** кредит, полученный на операции с недвижимостью имеет самые высокие шансы быть возвращенным в срок, в отличие от кредитов, которые берут на операции с автомобилем и получение образования.

## Общий вывод
Была проведена масштабная работа по обработке входных данных, часть из них была отредактирована методом медианного значения. Человеческого фактора в методе заполнения данных очень мало, в большинстве случаев это проблемы с выгрузкой данных, на что обязательно следует обратить большое внимание.
В данном исследовании мы пришли к заключению, что люди берут кредиты у банка на черыте категории: автомобили, свадьбы, покупку или ремонт жилья, на обучение. Абсолютным лидером в нашей статистике являются цели, связанные с приобретением и ремонтом недвижимости, которые занимают примерно половину всех целей. Так же по статистике возврата безопаснее давать кредиты именно на операции с недвижимостью, чем на операции связанные с автомобилями, которые имеют практически такие же шансы быть возвращенными с задержкой как и кредиты связанные с получением образования.
В связи с этим можно сделать вывод, что банку для обеспечения безопасности и нивелирования задолжностей по кредитам выданным на автомобили и образование необходимо повысить процентную ставку, в то время как на кредиты связанные с недвижимостью, ставку можно немного понизить, тем самым выиграв конкурентное преимущество перед другими предложениями на рынке и обеспечив больший объем кредитования.