# Проектная работа
# Исследование надёжности заёмщиков https://github.com/AnnaPresnova/reliability-of-bank-borrowers

**Описание проекта:** заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение, количество детей, доход заемщика и цель кредита на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

**Цель исследования:** результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Этапы исследования**:
* Изучение и предобработка данных
* Выявление зависимостей между количеством детей, семейным положением, уровнем дохода, целью кредита и возвратом кредита в срок. Проверка гипотез
* Общий вывод

## Шаг 1. Открываем файл с данными и изучаем общую информацию

In [1]:
# загрузим все необходимые библиотеки

import pandas as pd

In [2]:
# прочтем файл и выведем на экран первые 20 строк, а также посмотрим основные статистические данные

df = pd.read_csv('/datasets/data.csv')
display(df.head(20))
df.describe()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**

Информацию о данных предлагаю посмотреть двумя вариантами:
1. Ознакомившись с первыми двадцатью строчками файла, видим следующие проблемы в предоставленной информации:
* отрицательные значения и вещественные значения в общем трудовом стаже
* разный регистр в уровне образования клиента
* вещественные значения ежемесячного дохода
* дубликаты в целях получения кредита
* пропущенные значения в общем трудовом стаже и ежемесячном доходе

2. через describe() обнаруживаем, что:
* в общем трудовом стаже и ежемесячном доходе одинаковое количество пропущенных значений
* минимальное количество детей - минус один, а минимальный возраст заемщика - ноль лет
* максимальное количество детей - 20, что возможно, но немного смущает; максимальное количество трудового стажа - 401 755, чего, конечно, не может быть.

На основании полученной информации, анализируем, какие данные некорректны, требуют обработки, так как повлияют на результаты исследования:
* пропущенные значения в общем трудовом стаже и ежемесячном доходе
* минусовое значение в количестве детей

Остальные данные некорректны, но не повлияют на результат исследования, однако, обработаем и их (за исключением максимального количества детей - 20 детей все-таки может быть либо это имелось ввиду 2 ребенка, но произошла опечатка, и минимального возраста заемщика - клиент, вероятно, не захотел указывать свой возраст).

## Шаг 2. Предобработка данных

### Обработка пропусков

In [3]:
#перепроверяем, в каких столбцах имеются пропущенные значения

df.isna().sum()

#в колонке с общим трудовым стажем заменяем отрицательные значения на положительные

df['days_employed'] = abs(df['days_employed'])

#в колонке с общим трудовым стажем устанавливаем максимально возможное значение

df.loc[df['days_employed'] > 20805, 'days_employed'] = '20805'

#проверяем, как сработал код

df.head(20)    


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,20805.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.186,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# производим замену пропущенных значений в колонке с общим трудовым стажем, получаем ошибку, которую исправим ниже, поэтому, здесь код будет закомментирован

#days_employed_median = df.groupby('income_type')['days_employed'].transform('median')
#df['days_employed'] = df['days_employed'].fillna(days_employed_median)



In [5]:
# производим замену нечисловых значений в колонке с общим трудовым стажем

df['days_employed'] = pd.to_numeric(df['days_employed'], errors='coerce')

Для замены пропущенных значений в колонке с общим трудовым стажем будем использовать медианное значение, сгруппированное по полю со статусом - income_type, это будет более точной заменой, чем медианное значение по всем данным.

In [6]:
# производим замену пропущенных значений в колонке с общим трудовым стажем

days_employed_median = df.groupby('income_type')['days_employed'].transform('median')
df['days_employed'] = df['days_employed'].fillna(days_employed_median)

# посмотрим первые 20 строк таблицы

df.head(20)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,20805.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Аналогично заменим пропущенные значения в столбце с ежемесячным доходом.

In [7]:
# производим замену пропущенных значений в колонке с ежемесячным доходом

total_income_median = df.groupby('income_type')['total_income'].transform('median')
df['total_income'] = df['total_income'].fillna(total_income_median)

# посмотрим первые 20 строк таблицы
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,20805.0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [8]:
# проверим наличие пропущенных значений

df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Вывод**

Ранее мы обнаружили пропущенные значения в общем трудовом стаже и ежемесячном доходе, проверяем также с помощью isna(), информация подтверждается.
Возможная причина незаполнения данной информации в отсутствии трудоустройства клиента. 
Перед тем, как заполнить пропущенные значения, обработаем отрицательные значения и аномально большие. 
1. Используем функцию abs().
2. Установим максимально возможное число общего трудового стажа и приведем все аномальные к этому числу. Если посчитать примерно, то максимальное количество трудового стажа может быть 20 805 дней (в нашей таблице максимальный возраст заемщика 75 лет, значит, считаем так: (75 - 18) * 365

Далее заменяем пропущенные значения медианными, это более объективная информация, чем среднее значение. При этом, сгруппируем по типу занятости, чтобы получить более приближенные к действительности данные. 
Сталкиваемся с ошибкой No numeric types to aggregate, что означает, что в столбце ‘days_employed’  есть строки или ещё какие-то не числовые значения. Проводим замену с помощью to_numeric(). В качестве параметра errors выбираем coerce, чтобы не потерять никакие значения.
Выведем на экран первые двадцать строк, видим, что пропущенные значения заменены. Проверяем наличие пропущенных значений во всей таблице с помощью isna(). Видим нули, отлично. 

### Замена типа данных

In [9]:
# посмотрим информацию о типах столбцов

df.info()

# переводим в целые числа параметры с общим трудовым стажем и ежемесячным доходом

df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')

# посмотрим первые 20 строк таблицы

df.head(20)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,20805,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


**Вывод**

Методом info() посмотрим, как распределены типы столбцов. Float обнаружен в параметрах days_employed и total_income. Нужно перевести эти параметры в целые числа. Для этого подойдет метод astype(). Выводим на экран первые двадцать строк, чтобы проверить, как сработал метод. Метод сработан верно.

### Обработка дубликатов

In [10]:
# приводим к нижнему регистру значения из столбца с образованием

df['education'] = df['education'].str.lower()

# проверяем количество грубых дубликатов

df.duplicated().sum()

# удаляем грубые дубликаты

df = df.drop_duplicates().reset_index(drop=True)

# проверяем количество грубых дубликатов

print(df.duplicated().sum())

# посмотрим первые 20 строк таблицы

df.head(20)




0


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,20805,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [11]:
# обработка аномалий, заменим минусовое количество детей на положительное

df['children'] = abs(df['children'])

# проверим, как сработал код

df['children'].describe()


count    21454.000000
mean         0.544327
std          1.381726
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

**Вывод**

В колонке с образованием необходимо привести параметры к нижнему регистру, чтобы не было дубликатов. Используем для этого метод str.lower().
Посчитаем количество грубых дубликатов и удалим их, используем для этих целей методы duplicated().sum() и  drop_duplicates(), а также метод reset_index(), чтобы изменить индексацию.

Причиной появления дубликатов может быть  как технологический фактор (сбой при выгрузке или копировании информации), так и человеческий (например, при заполнении анкеты на одобрение кредита). 


### Категоризация данных

In [13]:
#создаем два новых датафрейма

df_education = df[['education_id', 'education']]
df_family_status = df[['family_status_id', 'family_status']]   

# удаляем столбцы с образованием и семейным положением из датафрейма

df = df.drop(['education', 'family_status'], axis=1)   
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,20805,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,1,0,M,сотрудник,0,135823,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи


In [14]:
# создадим функцию, которая на основании дохода клиента отнесет его к определенной категории

def total_income_category(total_income):
    
    """возвращает категорию клиенту на основании его дохода, используя правила:
    0–30000 — 'E';
    30001–50000 — 'D';
    50001–200000 — 'C';
    200001–1000000 — 'B';
    1000001 и выше — 'A'.
    """
    
    try:
        if 0 < total_income <= 30000:
            return 'E'
        if 30001 < total_income <= 50000:
            return 'D'
        if 50001 < total_income < 200000:
            return 'C'
        if 200001 <= total_income < 1000000:
            return 'B'
        return 'A'
    except:
        return 'нет категорий'

# проверяем, как работает функция 

total_income_category(224000)  
total_income_category(1500000)

# добавляем столбец с категорией ежемесячного дохода

df['total_income_category'] = df['total_income'].apply(total_income_category)

# выводим на экран первые 20 строк таблицы
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,20805,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


In [15]:
# посмотрим, какие цели представлены в столбце purpose

df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [16]:
# создадим функцию, которая перезапишет цели по категориям

def purpose_category(purpose):
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'недвижимост' in purpose:
        return 'операции с недвижимостью'
    if 'жил' in purpose:
        return 'операции с недвижимостью'
    if 'автомобил' in purpose:
        return 'операции с автомобилем'
    if 'образован' in purpose:
        return 'получение образования'
    return 'нет категорий'
    
# создадим столбец с категориями целей

df['purpose_category'] = df['purpose'].apply(purpose_category)

# выведем на экран первые 20 строк таблицы

df.head(20)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,20805,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


**Вывод**

   Для улучшения наглядности таблицы удалим столбцы с образованием и семейным положением, а чтобы данные не потерять, создадим два новых датафрейма - "словари" к этим столбцам. 
   С помощью value_counts() посмотрим, какие цели присутствуют в таблице, разделим их на четыре категории.
   При помощи категоризации данных созданы новые столбцы в таблице:
   * категории клиентов по доходам;
   * категории клиентов по целям кредита.
   
   На основании разделения клиентов по категориям, мы сможем сделать выводы для кредитного отдела банка.
   

## Шаг 3. Проверяем гипотезы

In [17]:
# перед тем, как проанализивароть зависимость, сформулируем гипотезы:

#1. клиенты с детьми реже допускают просрочку
#2. клиенты, находящиеся сейчас или ранее в браке, реже допускают просрочку
#3. клиенты с самым высоким доходом реже допускают просрочку
#4. клиенты, которые берут кредит на свадьбу, чаще допускают просрочку, чем остальные.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [18]:
# создадим функцию, которая объединит клиентов с детьми в одну группу, а клиентов без детей - в другую группу

def children_category(children):
    """возвращает категорию клиенту на основании наличия детей, используя правила:
    нет детей — '0';
    дети есть - '1'.
    """
    
    if 0 < children:
        return '1'
    if children == 0:
        return '0'

# добавим столбец с категорией наличия детей

df['children_category'] = df['children'].apply(children_category)
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,1
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,1
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,0
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,1
4,0,20805,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,0
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,0
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,0
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования,0
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,1
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,0


In [19]:
# создадим сводную таблицу по наличию детей и дебиторской задолженности в долях.

children_pivot = df.pivot_table(index=['children_category', 'children'], values='debt', aggfunc='mean')
children_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
children_category,children,Unnamed: 2_level_1
0,0,0.075438
1,1,0.091658
1,2,0.094542
1,3,0.081818
1,4,0.097561
1,5,0.0
1,20,0.105263


In [20]:
# проверим зависимость без разбивки на количество детей

children_relation = (df.groupby(['children_category']).agg({'debt':'mean'}).sort_values(['debt'])*100).round(2).astype(str) + '%'
children_relation

Unnamed: 0_level_0,debt
children_category,Unnamed: 1_level_1
0,7.54%
1,9.21%


**Вывод**

   Из анализа данных видим, что клиенты с детьми чаще имеют задолженность по возврату кредита (9,21%), чем клиенты без детей (7,54%). Вероятно, это из-за того, что имея детей, человек чаще сталкивается с незапланированными расходами, которые выбиваются из бюджета.
   При этом, самый высокий процент должников у семей с 20 детьми, но тут может быть ошибка или опечатка в количестве детей, и тогда вывод некорректен. 
   В любом случае, результат этого исследования выглядит странно, так как предполагалось, что клиенты с детьми более дисциплинированные и ответственные.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [21]:
# проверим зависимость с помощью группировки и метода agg()

family_status_relation = (df.groupby(['family_status_id']).agg({'debt':'mean'}).sort_values(['debt'])*100).round(2).astype(str) + '%'
display(family_status_relation)

# для наглядности используем ранее созданный "словарь", из которого удалим дубликаты

df_family_status = df_family_status.drop_duplicates().reset_index(drop=True)
df_family_status

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
2,6.57%
3,7.11%
0,7.55%
1,9.35%
4,9.75%


Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


**Вывод** 

   Проанализировав зависимость между семейным положением и возвратом кредита в срок, делаем вывод, что неженатые, а также проживающие в гражданском браке, чаще допускают просрочки по кредитам. Скорее всего, это более молодые заемщики, менее ответственные, с небольшим уровнем дохода, но высокими расточительными потребностями, ведь вокруг столько всего интересного). Гипотеза подтвердилась.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [22]:
# проверим зависимость с помощью группировки и метода agg()

total_income_category_relation = (df.groupby(['total_income_category']).agg({'debt':'mean'}).sort_values(['debt'])*100).round(2).astype(str) + '%'
total_income_category_relation

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
D,6.0%
B,7.06%
A,8.0%
C,8.49%
E,9.09%


**Вывод**

   Проведя анализ данных, видим, что заемщики с самым низким доходом чаще имеют задолженность по кредиту, а самые добросовестные - это клиенты с небольшим доходом. Интересно, что люди с очень высоким доходом (свыше 1 млн руб) достаточно часто имеют задолженность. 
   Гипотеза не подтвердилась.

- Как разные цели кредита влияют на его возврат в срок?

In [23]:
# проверим зависимость с помощью группировки и метода agg()

purpose_category_relation = (df.groupby(['purpose_category']).agg({'debt':'mean'}).sort_values(['debt'])*100).round(2).astype(str) + '%'
purpose_category_relation

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с недвижимостью,7.23%
проведение свадьбы,8.0%
получение образования,9.22%
операции с автомобилем,9.36%


**Вывод**

   Оценив влияние цели кредита на его возврат в срок, видно, что клиенты, цель которых операции с автомобилем, чаще допускают задолженность по кредиту. Возможно из-за того, что автомобиль несет много дополнительных, а часто и непредвиденных расходов.
   А вот, беря кредит на операции с недвижимостью, клиенты реже допускают просрочки, так как вероятно, более тщательно планируют бюджет, оформляя кредит на дорогостоящую покупку. 
   Клиенты, которые берут кредит на свадьбу, достаточно редко допускают просрочку, хотя предполагалось, что эта цель будет иметь самый высокий процент просрочки.

## Шаг 4. Общий вывод

   Исходя из результатов исследований, рекомендации к кредитному отделу будут следующие:
   * разработать и внедрить дополнительную проверку категорий клиентов, которые оказались самыми неблагонадежными: клиенты с детьми, с очень низким доходом, неженатые и берущие кредит на автомобиль,
   * для проведения более точных исследований стоит пересмотреть параметр "тип занятости", так как совершенно не понятно, что означает "компаньон",
   * внедрить систему, которая будет проверять аномальные значения в данных (отрицательное количество детей, отрицательные и аномально большие значения в трудовом стаже, нулевое количество лет заемщика, аномально большое количество детей), чтобы заранее перепроверить информацию и дать к анализу более достоверные данные,
   * проработать систему сбора информации, чтобы не допускать пропущенных значений, особенно в самых важных параметрах.