# Проект "Предобработка данных"

## Описание проекта

Заказчик — кредитный отдел банка. 
Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Цели проекта:

1) На основе статистики о платёжеспособности клиентов исследовать влияние целей кредита, уровня месячного дохода, семейного положения, количества детей клиента на вероятность возврата кредита в срок.

2) Получить практические навыки в предобработке данных, оценивать, подходят ли данные для проверки гипотез:

- узнать методы обработки пропусков;
- научиться преобразовывать один тип данных в другой;
- определять дубликаты и обрабатывать их различными способами;
- понять, как разделять данные на категории.
### Задачи проекта

- Проанализировать данные о статистике платежеспособности клиентов
- Выделить группы целей на получение кредита
- Проанализировать причины задолженностей клиентов по кредитам

## Итоги:

- Среди целей на получение кредита было выделено 4 категории: операции с автомобилем, операции с недвижимостью, проведение свадьбы, получение образования.
- Были проанализированы задолженности клиентов по кредитам в зависимости от количества детей, семейного положения, уровня месячного дохода и цели кредита.
- По всем категориям доли клиентов с задолженностями не превышала 10%, а различия значений между отдельными группами разделения не превышали 3.5%.

Используемый стек инструментов:

- python
- pandas


# Проект "Предобработка данных"

# Исследование надёжности заёмщиков

**Цели проекта:** Получить практические навыки в предобработке данных: обрабатывать пропущенные данные, работать с типами данных, категоризировать данные. Исследовать факторы, влияющие на погашение кредита в срок.

**План выполнения работы:**

- Часть 1. Изучение общей информации о данных
    
- Часть 2. Предобработка данных
            2.1 Работа с пропусками в данных и изменение типов данных
            2.2 Поиск и удаление дубликатов
            2.3 Классификация по типу
            2.4 Категоризация данных
    
- Часть 3. Исследование данных
            3.1 Зависимость между наличием детей и возвратом кредита в срок
            3.2 Зависимость между семейным положением и возвратом кредита в срок
            3.3 Зависимость между уровнем дохода и возвратом кредита в срок
            3.4 Влияние целей кредита на его возврат в срок
    
- Часть 4. Общий вывод
    
**Описание данных:**
Данные представляют собой таблицу со статистическиой информацией о платёжеспособности клиентов:

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

## Шаг 1. Изучение общей информации о данных

In [1]:
# подключаем библиотеку pandas для работы с таблицами
import pandas as pd

In [2]:
# читаем данные из .csv файла с помощью метода read_csv()
try:
    df = pd.read_csv("D:\python\project_2\data.csv")
except:
    df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [3]:
# выведем первые 15 строк таблицы с помощью метода head()
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
# с помощью метода info() изучим структуру таблицы:  
# типы данных, количество строк, столбцов, пропущенных данных.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод:

Данные успешно загружены и корректно записаны в DataFrame. Таблица состоит из 12 столбцов и 21525 записей. 
1. На первый взгляд видим, что значения в столбце `days_employed` - "общий трудовой стаж в днях" имеют ряд проблем: 
- неподходящий тип данных `float64` - разумнее привести к типу `int64`, 
- отрицательные значения, 
- завышенные значения (340266.072047 дней = 932 года)
- пропущенные значения NaN.
2.  Значения в столбце `total_income` - "ежемесячный доход":
- также неподходящий тип данных `float64` - разумнее привести к типу `int64`,
- выглядят неправдоподобно в сравнении со средними зарплатами по РФ, но возможно, что мы исследуем данные по другой стране. Указания на этот счет в ТЗ отсутствуют, следовательно продолжим работать с данными значениями.
- пропущенные значения NaN (в строке 12 совпадет с `days_employed`), равные количеству значений в столбце `days_employed` (19351 значений).
3. Столбец `education` - образование:
- записи не приведены к единому регистру

## Часть 2. Предобработка данных


### 2.1 Работа с пропусками в данных и изменение типов данных

Данные пропущены в столбцах `days_employed` (общий трудовой стаж в днях) и `total_income` (ежемесячный доход). Рассмотрим их детальнее.

In [5]:
# сохраним в переменной пропущенные значения 'days_employed' с применением метода isna()
nan_days = df['days_employed'].isna()
# посчитаем строки с пропущенным значением 'days_employed' с применением метода sum()
print('Количество строк с пропущенным трудовым стажем:', nan_days.sum())

Количество строк с пропущенным трудовым стажем: 2174


In [6]:
# сохраним в переменной пропущенные значения 'total_income' с применением метода isna()
nan_income = df['total_income'].isna()
# считаем количество пропущенных значений 'total_income'
print('Количество строк с пропущенным ежемесячным доходом:', nan_income.sum())

Количество строк с пропущенным ежемесячным доходом: 2174


Вычислим долю пропущенных строк в столбце `days_employed`, поместим в переменную `cuota_missed_days` и выведем на экран:

In [7]:
cuota_missed_days = df['days_employed'].isna().sum() / len(df)
print('Доля пропущенных строк с пропущенным трудовым стажем: {:.1%}'.format(cuota_missed_days))

Доля пропущенных строк с пропущенным трудовым стажем: 10.1%


Аналогичные операции проведем со столбцом `total_income`

In [8]:
cuota_missed_income = df['days_employed'].isna().sum() / len(df)
print('Доля пропущенных строк с пропущенным ежемесячным доходом: {:.1%}'.format(cuota_missed_income))

Доля пропущенных строк с пропущенным ежемесячным доходом: 10.1%


Убедимся, что пропущенные значения принадлежат к типу NaN

In [9]:
df.loc[df['total_income'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


- 10% строк имеют пропуски в данных по столбцам доходов `total_income` и стажа `days_employed`. Их нельзя просто удалить без ущерба статистике. 
- Пропуски имеют стандартное значение типа NaN. Лучшим вариантом будет заполнить пропуски медианными значениями по столбцу (метод .median()), поскольку среднее арифметическое (метод .mean()) подвержено влиянию выбросов(значения, сильно выделяющимиеся среди прочих), а медианное значение в нашем случае ближе к истине.
- Количество строк совпадает по двум столбцам, что указывает на взаимосвязь между доходом и отработанными днями. Возможно эти данные не были заполнены изначально в заявке, возможно имеет место проблема в выгрузке данных. На это также указывают отрицательные значения в `days_employed`.  Ответственным за выгрузку следует проверить оба варианта.
- Так как ранее мы наблюдали отрицательные значения чисел в `days_employed` необходимо их  взять по модулю, чтобы не вносить погрешность в медиану.

- Посчитаем ошибки при заполнении данных -  например, 340266 дней в `days_employed`. Общий трудовой стаж более 25500(70 лет непрерывной работы) выглядит неправдоподобно. Сначала найдем количество записей, превышающих это значение.

In [10]:
# с помощью метода loc[] и логической операции отберем записи с 'days_employed' > 25500 и
# посчитаем количество записей с помощью функции len()
wrong_days_employed = len(df.loc[df['days_employed'] > 25500])
print('Количество строк с завышенным стажем:', wrong_days_employed)
# аналогично найдем количество строк с отрицательным трудовым стажем.
neg_days_employed = len(df.loc[df['days_employed'] < 0])
print('Количество строк с отрицательным стажем:', neg_days_employed)
# вычислим долю некорректных данных от общего количества в столбце 'days_employed'
print('Доля некорректных строк в столбце days_employed: {:.1%}'.format((neg_days_employed + wrong_days_employed) / len(df)))

Количество строк с завышенным стажем: 3445
Количество строк с отрицательным стажем: 15906
Доля некорректных строк в столбце days_employed: 89.9%


Наблюдаем, что 74 % данных от общего количества в столбце `общий трудовой стаж в днях` имеют отрицательное значение, что в совокупности с завышенным стажем более 25500 рабочих дней даёт почти 90 % некорректных значений в `days_employed`! Причины подобных аномалий нам не известны, но мы можем предположить, что:
- Данные могли быть введены в часах (а не в днях), что объяснило бы высокие значения стажа. 
- Системный сбой мог изменить формат данных (точка отсчета дней могла измениться, что привело к отрицательным значениям).
 
Чтобы предотвратить повторение выявленных ошибок необходимо дальнейшее исследование проблемы с сотрудниками банка, а на данный момент для продолжения исследования и исправления обнаруженных проблем с отрицательными и завышенными значениями: 
- Возьмем числа в `days_employed` по модулю при помощи встроенной в Python функции abs(). Это позволит избавиться от отрицательных значений.
- Вычислим медиану.
- Затем заменим ранее выявленные пропущенные данные типа NaN в `days_employed` медианой.
- Заменим на медиану все строки с завышенным стажем в `days_employed`
- Поменяем тип данных на целочисленный `int` в `days_employed`, так как повышенная точность в стаже не обязательна и мешает визуальному восприятию.

In [11]:
# возьмем числа в `days_employed` по модулю при помощи функции abs()
df['days_employed'] = abs(df['days_employed'])
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [12]:
# посчитаем медиану в 'days_employed' и сохраним в переменной `median_days_employed`
median_days_employed = df['days_employed'].median()
print(median_days_employed)

2194.220566878695


In [13]:
# заменим на медиану все строки с пропущенным значением в 'days_employed'
df['days_employed'] = df['days_employed'].fillna(value=median_days_employed)
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [14]:
# заменим на медиану все строки с завышенным стажем в 'days_employed'
df.loc[df["days_employed"] > 25500, "days_employed"] = median_days_employed
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,2194.220567,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [15]:
# Поменяем тип данных на int в `days_employed`
# типы данных преобразуем методом astype().
# с помощью try-except отслеживаем некорректные типы данных
try:
    df['days_employed'] = df['days_employed'].astype("int")
except:
    print('Некорректный тип данных. Пожалуйста, убедитесь, что данные хранятся в виде вещественных чисел')
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Аналогичные действия применим к столбцу `total_income`:
 - посчитаем медиану в `total_income` и сохраним в переменной `median_total_income`
 - заменим на медиану все строки с пропущенным значением в `total_income`
 - поменяем тип данных на int в `total_income` с помощью метода .astype()

In [16]:
median_total_income = df['total_income'].median()
df['total_income'] = df['total_income'].fillna(value=median_total_income)
df['total_income'] = df['total_income'].astype("int")
display(df.head(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


Рассмотрим таблицу при помощи метода decribe(), чтобы понять какие аномалии мы могли упустить.

In [17]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,2311.136818,43.29338,0.817236,0.972544,0.080883,165158.9
std,1.381587,1981.995289,12.574584,0.548138,1.420324,0.272661,97866.08
min,-1.0,24.0,0.0,0.0,0.0,0.0,20667.0
25%,0.0,1025.0,33.0,1.0,0.0,0.0,107798.0
50%,0.0,2194.0,42.0,1.0,0.0,0.0,145017.0
75%,1.0,2518.0,53.0,1.0,1.0,0.0,195543.0
max,20.0,18388.0,75.0,4.0,4.0,1.0,2265604.0


- медианное значение стажа `50%` в `days_employed` - 6 лет (2194 дня), что отличается колоссально от среднего значения `mean` в 165 лет (60377 дней). Налицо выявлено влияние выбросов на исследование, поэтому были варианты или исключить из исследования строки с некорректными  значениями в `days_employed`, или заменить строки с неверным стажем на медианные значения. Мы остановились на втором варианте.
- Также подозрительны значения в столбце `children` `min`= -1 и `max`=20. Возможно отрицательные значения означают отсутствие информации по количеству детей и нужно будет уточнить эту информацию у сотрудников банка. Рассмотрим детальнее столбец `children`.

In [18]:
print(df['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


- Подавляющее большинство людей в исследовании имеет менее 4 детей.
- Присутствует сильно выделяющееся значение - по 20 детей для 76 человек. На фоне соседних данных выглядит как явный выброс.  Вероятно проблема опять связана с выгрузкой данных.
- Отрицательное значение -1 для 47 клиентов, это аномалия. Ранее мы наблюдали ошибку с отрицательными значениями в стаже. Вполне возможно, что аналогичная ошибка в колонке 'children'.
- Для устранения отрицательных значений возьмем все числа в 'children' по модулю методом .abs().
- Также избавимся от явного выброса с 20 детьми, заменив значения колонки на 2 при помощи логической индексации.

In [19]:
# избавляемся от отрицательных значений
df['children'] = abs(df['children'])
# заменим на 2 все строки с завышенным стажем в 'days_employed'
df.loc[df["children"] == 20, "children"] = 2
# проверяем результат
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [20]:
df['total_income'].describe()

count    2.152500e+04
mean     1.651589e+05
std      9.786608e+04
min      2.066700e+04
25%      1.077980e+05
50%      1.450170e+05
75%      1.955430e+05
max      2.265604e+06
Name: total_income, dtype: float64

- Рассмотрим столбец gender:

In [21]:
# найдем количество вхождений каждого значения с помощью метода value_counts()
display(df['gender'].value_counts())
display(df.loc[df['gender'] == 'XNA'])

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Некорректное значение `XNA` встречается 1 раз. По остальным значениям в данной записи невозможно определить пол клиента. Одну запись можно удалить. Это не повлияет на статистику.


In [22]:
df = df.loc[df['gender'] != 'XNA']


### Вывод

- Около 10% записей имеют пропущенные значения. 
- В столбце `days_employed` около 90% данных некорректны. Пропущенные значения NaN были заменены медианными значениями, устранены аномалии с завышенными и отрицательными значениями. Необходимо дальнейшее исследование причин возникновения проблем с сотрудниками банка.
- В столбце `total_income` пропущенные значения NaN были заменены медианными значениями, устранены аномалии с завышенными и отрицательными значениями.
- Одиночные строки с некорректными данными были удалены в столбце `gender`.
- Вещественные данные `total_income`, `children`, `days_employed` успешно заменены на целочисленный тип int64 применением метода astype().

- Удалил раздел замена типов данных, объединил с 2.1.


## 2.2 Удаление дубликатов

- Сначала посчитаем количество явных дублированных строк
- Выведем их для анализа методом `.value_counts()`, который анализирует столбец, выбирает каждое уникальное значение и подсчитывает частоту его встречаемости в списке.

In [23]:
print('Количество явных дубликатов: ', df.duplicated().sum())

Количество явных дубликатов:  54


In [24]:
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      667
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [25]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4176
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

- Наблюдаем множество неявных дубликатов в `education` - одни и те же фразы прописаны в разных регистрах.
- В `family_status` нет дубликатов, но также присутствуют фразы в разных регистрах. Это потенциально может создать проблемы.
- Для устранения неявных дубликатов сперва преобразуем все строковые типы данных в столбцах `education`, `family_status` к нижнему регистру.
- Вновь посчитаем оставшееся количество дублированных строк и выведем их для анализа.

In [26]:
# для преобразования к нижнему регистру используем метод str.lower()
# затем запишем преобразованные данные в таблицу
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()

In [27]:
print('Количество дубликатов: ', df.duplicated().sum())

Количество дубликатов:  71


- Удалось обнаружить еще 17 дубликатов. Изначально было 54.
- Поскольку для каждого человека есть уникальная информация со стажем и доходом, то каждая строчка является индивидуальной, что позволяет нам утверждать, что повторяющиеся строки действительно дубликаты. 
- Удалим дублированные строки в методом drop_duplicates(). Когда из датафреймов удаляют строки, нарушается порядок индексов, поэтому восстановим индексы после удаления строк методом reset_index().

In [28]:
df = df.drop_duplicates().reset_index(drop = True)
print('Количество строк до удаления дубликатов: 21524')
print('Количество строк после удаления дубликатов:', len(df))
print('Количество удаленных дубликатов:', 21524 - len(df))

Количество строк до удаления дубликатов: 21524
Количество строк после удаления дубликатов: 21453
Количество удаленных дубликатов: 71


- Убедимся, что скрытых дубликатов для исправленных колонок точно не возникнет.

In [29]:
df['education'].value_counts()

среднее                15172
высшее                  5250
неоконченное высшее      743
начальное                282
ученая степень             6
Name: education, dtype: int64

In [30]:
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4150
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [31]:
print('Количество дубликатов: ', df.duplicated().sum())

Количество дубликатов:  0


### Вывод

- Был обнаружен и успешно удален 71 дубликат: 54 явных и 17 неявных.
- Возможные причины появления дубликатов: повторное заполнение или сохранение данных о клиенте в базе данных, сбой в системе при копировании/выгрузке базы данных.


## 2.3 Классификация по типу

Оптимизируем данные в таблице `df` по столбцам `education` (типы образования) и `family_status` (семейный статус) для дальнейшего анализа. Сначала создадим два новых словаря:

- `education_dict` со столбцами `education_id` и `education`, идентификатор и уровень образования;
- `family_status_dict` со столбцами `family_status_id` и `family_status`, идентификатор и семейный статус.

In [32]:
# создаем словарь из данных df, удаляем дубликаты
family_status_dict = df[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)
display(family_status_dict)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [33]:
# создаем словарь из данных df, удаляем дубликаты в словаре
education_dict = df[['education_id', 'education']].drop_duplicates().reset_index(drop=True)
display(education_dict.head(10))

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


После удаления дубликатов представление данных с уровнем образования и семейным статусом стало компактнее. Каждой группе соответствует свой идентификатор.

Названия уровня образования и семейного положения сохранены в словарях `education_dict` и `family_status_dict` соответственно. Уберем из основной таблицы семейное положение `family_status` и уровень образования клиента `education`, оставив только идентификаторы `education_id` и `family_status_id`. Так основная таблица станет более наглядна. Названия для отчетов можно будет позже брать из словарей.

In [34]:
# Удаляем 'education', 'family_status' из основной таблицы методом drop()
# axis = 1 применяем ко всем строкам
df = df.drop(['education', 'family_status'], axis = 1)
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,2194,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,1,0,M,сотрудник,0,135823,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи


##  Классификация по категориям доходов

Cгруппируем данные, чтобы численности каждой группы хватало для формулировки выводов. 
- Создадим функцию `income_category(income)` , которая возвращает категорию дохода по значению месячного дохода `total_income`.
- Создадим столбец с категориями доходов `total_income_category` в `df`:
- После создадим новый датафрейм: `total_income_dict`  со столбцами `total_income` и `total_income_category`, ежемесячный доход и категория доходов и заполним новую  таблицу данными из `df`.

In [35]:
def income_category(income):
    """
    Возвращает категорию дохода по значению месячного дохода total_income, используя правила:
    - 'E', если доход <= 30000;
    - 'D', если доход от 30001 до 50000;
    - 'C', если доход от 50001 до 200000;
    - 'B', если доход от 200001 до 1000000;
    - 'A', если доход от 1000001 и выше;
    """

    if income <= 30000:
        return 'E'
    elif 30001 <= income <= 50000:
        return 'D'
    elif 50001 <= income <= 200000:
        return 'C'
    elif 200001 <= income <= 1000000:
        return 'B'
    return 'A'

Проверим работу функции:

In [36]:
print(income_category(30000))
print(income_category(50000))
print(income_category(200000))
print(income_category(1000000))
print(income_category(1000001))

E
D
C
B
A


Добавляем к таблице `df` столбец `total_income_category`, где хранятся результаты применения функции `income_category(income)`

In [37]:
# 'apply' - применяем функцию 'income_category' к столбцу 'total_income'
df['total_income_category'] = df['total_income'].apply(income_category)
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,2194,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


Сгруппируем и посчитаем количество категорий дохода `total_income_category` и выведем результат на экран.

In [38]:
df['total_income_category'].value_counts()

C    16016
B     5040
D      350
A       25
E       22
Name: total_income_category, dtype: int64

Преимущественно в среднем доход колеблется в значениях от 50001 до 200000.

##  Классификация целей получения кредитов. Функция для одной строки

Уточним, какие возможны цели получения кредитов для анализа. Используем метод `value_counts()`.

In [39]:
print(df['purpose'].value_counts().head(15))

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
Name: purpose, dtype: int64


Узнаем, сколько целей всего:

In [40]:
print(len(df['purpose'].unique()))

38


Цели кредитов хранятся в виде строк разной длины. 
- Название и тип целей многократно повторяются в данных - усложняется визуальная работа с таблицей.
- Увеличивается размер файла и время обработки данных - строки с целями занимают много места.
- Усложняется фильтрация данных по типу обращения. Появляется возможность ошибки при наборе полного названия.
- Создание новых целей и изменение старых отнимает много времени.

Создадим словарь и оптимизируем данные.

В таблице `purposes` будем хранить исходные цели для кредитов и созданные после классификации категории.

In [41]:
purposes = pd.DataFrame(columns = ['purpose', 'purpose_category'])

Найдем все цели в таблице `df` с помощью метода `unique()` и запишем их в новую таблицу

In [42]:
purposes['purpose'] = df['purpose'].unique()
display(purposes.head(15))

Unnamed: 0,purpose,purpose_category
0,покупка жилья,
1,приобретение автомобиля,
2,дополнительное образование,
3,сыграть свадьбу,
4,операции с жильем,
5,образование,
6,на проведение свадьбы,
7,покупка жилья для семьи,
8,покупка недвижимости,
9,покупка коммерческой недвижимости,


Сгруппируем цели получения кредита при помощи функции `categorize`.
Функция `categorize` сформирует новый столбец `purpose_category` на основании данных из столбца `purpose` (цель получения кредита). На выходе функция выделит следующие категории:

- `операции с автомобилем`
- `операции с недвижимостью`
- `проведение свадьбы`
- `получение образования`
- `другое` -  для возможных несовпадений с основными целями 

In [43]:
# input: purpose (object) - строка, описывает цель для кредита
# output: (object) - строка, название категории для цели кредита
# Функция принимает на вход цель кредита, категоризирует ее и по встречающимся в цели словам
# определяет категорию цели:
"""
Категория:
- `операции с автомобилем`
- `операции с недвижимостью`
- `проведение свадьбы`
- `получение образования`
- 'другое'
    
    При несовпадении целей ни с одной из категорий присваивается категория 'другое'
"""
def categorize(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'
    elif 'образован' in purpose:
        return 'образование'
    elif 'жиль' or 'недвижим' or 'ремонт' in purpose:
        return 'операции с недвижимостью'
    else:
        return 'другое'

In [44]:
# для каждой цели в таблице purposes вызывается функция categorize с помощью метода apply().
# возвращенные функцией категории целей записываются в столбец 'purpose_category'
purposes['purpose_category'] = purposes['purpose'].apply(categorize)

In [45]:
display(purposes.head(10))

Unnamed: 0,purpose,purpose_category
0,покупка жилья,операции с недвижимостью
1,приобретение автомобиля,операции с автомобилем
2,дополнительное образование,образование
3,сыграть свадьбу,проведение свадьбы
4,операции с жильем,операции с недвижимостью
5,образование,образование
6,на проведение свадьбы,проведение свадьбы
7,покупка жилья для семьи,операции с недвижимостью
8,покупка недвижимости,операции с недвижимостью
9,покупка коммерческой недвижимости,операции с недвижимостью


Категории целей кредитов успешно присвоены к каждой цели. С помощью метода merge() добавим `purpose_category` к основной таблице `data`:

In [46]:
df = df.merge(purposes, on='purpose', how='left')
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,образование
4,0,2194,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


Применим метод `value_counts()` для подсчёта значений каждой категории в таблице `df`. 

In [47]:
display(df['purpose_category'].value_counts()) 

операции с недвижимостью    10810
операции с автомобилем       4306
образование                  4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

Удалим столбцы `purpose` и `purpose_category` в основной таблице. Заменим их на идентификаторы `purpose_id` и `purpose_cat_id` соответственно. Описание каждой цели будет храниться только в словаре. Так основная таблица будет занимать меньше места и станет более наглядной.

In [48]:
# создадим в таблице purposes столбцы purpose_id и purpose_cat_id
purposes['purpose_id'] = purposes.index

def set_purpose_cat_id(purpose_category):
    """
    input: purpose_category (object) - строка, описывает категорию цели для кредита
    output: (int64) - целое число, идентификатор категории цели кредита
    Функция принимает на вход категорию цели кредита, и сопоставляет ей уникальное 
    десятичное целое число (идентификатор):
    
    Категория:          Идентификатор:
    жилье/недвижимость  0
    автомобиль          1
    образование         2 
    свадьба             3
    неопределённая кат. 4
    """
    
    if purpose_category == 'жилье/недвижимость':
        return 0
    elif purpose_category == 'автомобиль':
        return 1
    elif purpose_category == 'свадьба':
        return 3
    elif purpose_category == 'образование':
        return 2
    else:
        return 4

# с помощью метода apply применяем функцию set_purpose_cat_id ко всем 'purpose_category' 
# в таблице 'purposes'
purposes['purpose_cat_id'] = purposes['purpose_category'].apply(set_purpose_cat_id)
display(purposes.head(15))

Unnamed: 0,purpose,purpose_category,purpose_id,purpose_cat_id
0,покупка жилья,операции с недвижимостью,0,4
1,приобретение автомобиля,операции с автомобилем,1,4
2,дополнительное образование,образование,2,2
3,сыграть свадьбу,проведение свадьбы,3,4
4,операции с жильем,операции с недвижимостью,4,4
5,образование,образование,5,2
6,на проведение свадьбы,проведение свадьбы,6,4
7,покупка жилья для семьи,операции с недвижимостью,7,4
8,покупка недвижимости,операции с недвижимостью,8,4
9,покупка коммерческой недвижимости,операции с недвижимостью,9,4


In [49]:
 # с помощью метода merge добавим 'purpose_id' и 'purpose_cat_id' в основную таблицу
 # и удалим из нее столбцы 'purpose' и 'purpose_category' методом drop()
df = df.merge(purposes, on=['purpose', 'purpose_category'], how='left')
df = df.drop(['purpose', 'purpose_category'], axis = 1)
display(df.head(10))

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,total_income_category,purpose_id,purpose_cat_id
0,1,8437,42,0,0,F,сотрудник,0,253875,B,0,4
1,1,4024,36,1,0,F,сотрудник,0,112080,C,1,4
2,0,5623,33,1,0,M,сотрудник,0,145885,C,0,4
3,3,4124,32,1,0,M,сотрудник,0,267628,B,2,2
4,0,2194,53,1,1,F,пенсионер,0,158616,C,3,4
5,0,926,27,0,1,M,компаньон,0,255763,B,0,4
6,0,2879,43,0,0,F,компаньон,0,240525,B,4,4
7,0,152,50,1,0,M,сотрудник,0,135823,C,5,2
8,2,6929,35,0,1,F,сотрудник,0,95856,C,6,4
9,0,2188,41,1,0,M,сотрудник,0,144425,C,7,4


### Вывод
Среди целей на получение кредита было выявлено 4 основные группы: 
- В 50 % случаев целью являются `операции с недвижимостью`,
- В 20 % `операции с автомобилем`,
- В 19 % `получение образования`,
- В оставшихся 11 % `проведение свадьбы`.
- Для целей, не подходящих ни под одну категорию была выделена группа `другое`(для возможных новых целей при дальнейшем накапливании данных).


 Предыдущими шагами были созданы словари: 
- 1. Цели кредита `purpose` с идентификаторами и категориями целей.
- 2. Семейное положение `family_status` с идентификаторами.
- 3. Уровень образования клиента `education` с идентификаторами.
- Из основной таблицы были удалены `purpose`, `family_status`, `education`, поскольку к этим данным можно обратиться при помощи идентификаторов. Таким образом мы сделали основную таблицу более читаемой, уменьшили размер файла и время обработки данных, упростили фильтрацию данных.

## Часть 3. Исследование данных


### 3.1 Зависимость между наличием детей и возвратом кредита в срок

Для ответа на вопрос: "Есть ли зависимость между количеством детей и возвратом кредита в срок?" 
- Cоздадим сводную таблицу .pivot_table(). 
- Сгруппируем данные при помощи аргумента `index` по столбцу `children`.
- Значения столбца `debt`, по которым мы хотим увидеть сводную таблицу, имеют всего два варианта 0 и 1. 0 значит, что задолженности нет, 1 - задолженность есть.
- Аргументу `aggfunc` передаем функции `count`, `sum`, `mean`. В столбце `mean` мы увидим отношение между должниками `sum` и общим количеством клиентов в группе `count`.

Таким образом мы наглядно предоставим обобщенные данные задолженностей по клиентам с разным количеством детей.

In [50]:
pivot_children = df.pivot_table(
    index='children', values='debt', aggfunc=['count', 'sum', 'mean'])
display(pivot_children)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14090,1063,0.075444
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


### Вывод
- У клиентов с детьми процент задолженности выше приблизительно на 1,5%, нежели у бездетных. Это объяснимо расходами на содержание детей. 
- Судя по предоставленным данным доля задолженностей по кредитам среди клиентов незначительно увеличивается с количеством детей, то есть находится в слабо выраженной зависимости (сравнивая группы с 1 и 2 детьми).
- Максимальная доля клиентов с задолженностями в группе с 4 детьми 9.7%. Но ввиду малочисленности группы нельзя из этого делать однозначный вывод.
- Просадка в группе с 3 и 5 детьми также может быть вызвана недостаточным количеством данных - чем больше данных, тем достовернее результат.


## 3.2 Зависимость между семейным положением и возвратом кредита в срок

Для ответа на вопрос "Существует ли зависимость между семейным положением и возвратом кредита в срок?":

- Составим сводную таблицу `family_status_pivot`. 
- Сгруппируем данные по идентификаторам семейного статуса и количеству задолженностей в каждой группе
- Посчитаем соотношение количества должников к общему количеству в каждой группе

In [52]:
# вспомним соответствие идентификаторов семейному статусу
display(family_status_dict)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


In [53]:
# создаем сводную таблицу по столбцу family_status_id
family_status_pivot  = df.pivot_table(
    index='family_status_id', columns='debt', values='total_income', aggfunc='count')
display(family_status_pivot)

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,3762,388
2,896,63
3,1110,85
4,2536,274


In [54]:
# заменим названия столбцов 0 и 1 для удобства восприятия
family_status_pivot.columns = ['no_debt', 'debt']
display(family_status_pivot)

Unnamed: 0_level_0,no_debt,debt
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,3762,388
2,896,63
3,1110,85
4,2536,274


In [55]:
# посчитаем соотношение клиентов с задолженностью к клиентам без задолженности
family_status_pivot['ratio'] = family_status_pivot.debt / (family_status_pivot.debt + family_status_pivot.no_debt)
display(family_status_pivot.sort_values(by='ratio'))

Unnamed: 0_level_0,no_debt,debt,ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,896,63,0.065693
3,1110,85,0.07113
0,11408,931,0.075452
1,3762,388,0.093494
4,2536,274,0.097509


##  Вывод
- Максимальная доля клиентов с задолженностями среди в группах `не женат / не замужем` - 9,7%  и `гражданский брак`- 9,3%. Можно предположить, что данные клиенты меньше готовы к ответственности, чем остальные или получают меньше финансовой поддержки/страховки со стороны близких.
- Минимальная доля клиентов с задолженностями среди группы вдовец / вдова (6.5%).
- Cредние показатели оказались в самой многочисленной категории `женат / замужем` - 7.5% должников от общего количества 12339 клиентов. Показатели в группе `в разводе` отличаются не сильно - 7,1%.
- Возвращаясь к поставленному вопросу: "Есть ли зависимость между семейным положением и возвратом кредита в срок?", можем ответить, опираясь на полученные цифры, что доля задолженностей по кредитам среди клиентов меняется от семейного положения (в пределах 3%) и  `женатые / замужние` имеют меньше задолженностей по кредитам, нежели `неженатые/незамужние` и состоящие в `гражданском браке`. Почему же люди из категорий `Вдовец / вдова` и `В разводе` имеют меньшую задолженность? Предположительно из за возраста клиентов. Поскольку в большей массе сначала все люди неженаты, затем женятся, затем разводятся и эти процессы протекают с течением времени - растет и возраст клиентов. С возрастом клиентов растет их жизненный опыт, а зачастую и доход. А люди с большим доходом имеют больше возможности платить по счетам. 

## 3.3 Зависимость между уровнем дохода и возвратом кредита в срок

* Создадим таблицу `total_income_debt` из таблицы `df` c названиями полученных ранее категорий `total_income_category` и с данными о задолженностях по кредиту `debt` 

In [56]:
total_income_debt = df[['total_income_category', 'debt']]
print(total_income_debt.head(10))

  total_income_category  debt
0                     B     0
1                     C     0
2                     C     0
3                     B     0
4                     C     0
5                     B     0
6                     B     0
7                     C     0
8                     C     0
9                     C     0


Посмотрим, сколько всего значений в каждой из категорий.

In [57]:
total_income_debt['total_income_category'].value_counts()

C    16016
B     5040
D      350
A       25
E       22
Name: total_income_category, dtype: int64

Из исходных данных таблицы `df` по столбцу `total_income` значениям присвоены категории:
- `E`, если доход <= 30000;
- `D`, если доход от 30001 до 50000;
- `C`, если доход от 50001 до 200000;
- `B`, если доход от 200001 до 1000000;
- `A`, если доход от 1000001 и выше;

Встроенная в Python функция среднего арифметического `.mean()` в сочетании с  группировкой по количеству детей `.groupby('total_income_category')` срабатывает так, что:
- делит `Количество должников` на `количество итераций`(=100%).
- `Количество должников` получается так: складываются все значения в столбце `debt`. Функция складывает задолженности только в том случае, если они равны 1. Автоматически ненужные нам значения (0) не учитываются (0+0=0). То есть в сумме мы получим количество должников для каждой группы.
- `Количество итераций` считает общее количество детей для каждой группы. Например, в группе с 1 ребенком функция `.mean()` проведет 4808 итераций.
- .sort_values('debt',ascending=False) просто сортирует результат в порядке убывания по колонке `debt`

In [58]:
display(total_income_debt.groupby('total_income_category').mean().sort_values('debt',ascending=False))

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
E,0.090909
C,0.084915
A,0.08
B,0.070635
D,0.06


## Вывод
- Клиенты самой малочисленной категории `E` с самыми низкими доходами до 30000 имеют самый высокий процент невозврата задолженности по кредитам - 9,1 %. Трижды рекордсмены.
- Клиенты соседней категории `D` с доходами от 30001 до 50000 самые добросовестные платильщики по кредитам их процент невозврата - 6,0 %. Это разрушает возникшие подозрения о прямой зависимости возврата долгов вовремя от дохода. Хотя в этой группе тоже немного людей - 350, что составляет всего 1,6% от общей выборки. Возможно не стоит делать преждевременные выводы и  еще копить данные, наблюдая за статистикой.
- Клиенты категории `C` с доходами от 50001 до 200000 расположились на второй позиции рейтинга по невозврату кредита в срок. Их процент - 8,5 %. Данная категория самая многочисленная - три четверти выборки приходится именно на эту группу.
- Достаточно надежными платильщиками оказались люди с доходами от 200001 до 1000000. Всего 7% клиентов с задолженностями. Категорию `B` можно назвать самой надежной для банка - хороший процент возврата по долгам в сравнении с остальными и 23% из имеющихся данных. Категории `B` и `C` вместе формируют почти 100 % клиентов банка.
- Самые богатые клиенты категории `A` на пол процента чаще отдают долги, чем клиенты самой многочисленной категории С. Большие деньги не дают большую фору в статистике. Данная категория занимает всего 0,1 % от выборки.
- Нельзя однозначно утверждать, что с изменением уровня доходов процент невозврата долгов критически меняется. Всего по группам он распределяется в пределах 3%. Если сравнивать самые многочисленные группы `B` и `C` между собой, то разница в 1,5 % склоняется в пользу категории `B`. Клиенты данной категории чаще отдают долги.


## 3.4 Влияние целей кредита на его возврат в срок

Для ответа на вопрос составим новую таблицу `purposes_debt` с данными о задолженностях по кредиту `debt` из таблицы `df`, а также информацией о ежемесячных доходах `purpose_category` и `purpose_cat_id` из словаря `purposes`.
Далее для наглядности результаты выведем в сводную таблицу.
Также рассчитаем отношение количества клиентов с задолженностями к общему количеству клиентов по каждой группе.


In [59]:
display(purposes.head(6))

Unnamed: 0,purpose,purpose_category,purpose_id,purpose_cat_id
0,покупка жилья,операции с недвижимостью,0,4
1,приобретение автомобиля,операции с автомобилем,1,4
2,дополнительное образование,образование,2,2
3,сыграть свадьбу,проведение свадьбы,3,4
4,операции с жильем,операции с недвижимостью,4,4
5,образование,образование,5,2


In [60]:
purposes_debt = df.merge(purposes,
                           on='purpose_id', how='left')[['purpose_id','purpose_category', 'debt']]
#
display(purposes_debt.head())

Unnamed: 0,purpose_id,purpose_category,debt
0,0,операции с недвижимостью,0
1,1,операции с автомобилем,0
2,0,операции с недвижимостью,0
3,2,образование,0
4,3,проведение свадьбы,0


In [61]:
purposes_debt['debt'].value_counts()

0    19712
1     1741
Name: debt, dtype: int64

- Cводную таблицу получим методом pivot_table().
- index — столбец или столбцы, по которым группируют данные (название категории)
- columns — столбец, по значениям которого происходит группировка (debt)
- values — значения, по которым мы хотим увидеть сводную таблицу (количество проданного товара)
- aggfunc — функция, применяемая к значениям (количество значений в столбце)

In [62]:
purposes_debt_pivot = purposes_debt.pivot_table(index = 'purpose_category', columns = 'debt',
                                                     values = 'purpose_id', aggfunc = 'count')

In [63]:
display(purposes_debt_pivot.head())

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
образование,3643,370
операции с автомобилем,3903,403
операции с недвижимостью,10028,782
проведение свадьбы,2138,186


Возврат кредита в срок имеет 2 варианта: 
- "1" - есть задолженность 
- "0" - задолженности нет.

Найдем в каждой группе долю клиентов с задолженностями относительно общего числа клиентов в данной группе

In [64]:
purposes_debt_pivot['debt'] = purposes_debt_pivot[1] / (purposes_debt_pivot[0] + purposes_debt_pivot[1])
display(purposes_debt_pivot.sort_values('debt', ascending=False))

debt,0,1,debt
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,0.09359
образование,3643,370,0.0922
проведение свадьбы,2138,186,0.080034
операции с недвижимостью,10028,782,0.07234


## Вывод
- Чаще всего клиенты банка вовремя не возвращают долги по категории `операции с автомобилем` - 9,3 %. Возможно дело в высоких ставках по кредитам или в постоянно возникающих незапланированных расходах. Как известно, автомобили требуют постоянного ухода, это требует дополнительных средств.
- Рядом расположилась категория `Образование` - в 9,2 % случаев оплата кредитов задержается. Сама по себе цель благородная, но тяжело достижимая, не приносящая доход в краткосрочной перспективе. Студенты и проблемы с финансами давно уже вошли в бытовой фольклор как синонимы. Отсюда неудивителен вывод, что студенты оказались в аутсайдерах списка должников. Даже по названию категорий видно, как образование проигрывает в статусности остальным. Автомобиль, недвижимость, свадьба по общему портрету больше подходят людям, которые уже получили образование, а студенты только стремятся в этот круговорот новых долговых обязательств. Тем не менее ранее мы наблюдали прямую зависимость между уровнем образования и возвратом кредита в срок. Чем выше уровень образования, тем ниже процент должников.
- Кредиты на свадьбу задерживают в 8% случаев.
- Самая многочисленная группа клиентов объединена категорией `операции с недвижимостью` - 7,2% в должниках. Без образования можно и прожить, но никто не сбежит от вопроса - "где жить?". Исходя из статистики по зарплатам клиентов можно предположить, что большинство операций связано с ипотекой для собственного проживания, а не для инвестиций. Перспектива остаться без крыши над головой никого не прельщает, поэтому видим, что на базовую потребность люди более ответственно планируют бюджет, чем в остальных категориях. Также можно подметить, что данная категория самая долгосрочная, массовая и дорогая среди остальных.

## Часть 4. Общий вывод



1) При предобработке данных были выявлены пропуски, отрицательные и завышенные значения, некорректный тип данных в столбце `days_employed` и пропуски в `total_income`. Столбцы стажа и дохода непосредственно участвуют в исследовании, поэтому полнота и достоверность сведений в них может быть критична. Было принято решение данные по столбцам с пропущенными и завышенными значениями заполнить медианными значениями, а также измененить тип данных на целочисленный, отрицательные значения взять по модулю. Возможная причина появления пропусков в данных - сбой в работе системы, поскольку по разным столбцам были пропущены одни и те же строки. Отрицательные и завышенные значения также указывают на это. Завышенные значения также могут указывать на сбор данных в других единицах измерения, например в часах. Некорректные значения в столбце `children` намеренно не были исправлены, для более подробного исследования и сравнения по группам. Отличия по значениям задолженностей по кредитам свидетельствует, что данные для некорректных значений в столбце `children` значительно отличаются от других групп. Решение по замене данных значений следует принимать с работниками банка.

2) После преобразования строковых данных была обнаружена 71 дублированная строка. 
Несмотря на то, что в данных нет уникальных идентификаторов клиентов, маловероятны случайные совпадения по количеству отработанных дней, возрасту, доходу и прочим столбцам. Соответственно обнаруженные дубликаты указывают на проблемы с выгрузкой в данных, что мы уже наблюдали ранее. Для того, чтобы вышеперечисленные проблемы не возникали впредь, следует передать подробную информацию ответственным за выгрузку.

3) Среди целей на получение кредита при помощи функции было выделено 4 категории: `операции с автомобилем`, `операции с недвижимостью`, `проведение свадьбы`, `получение образования`. 

4) При категоризации данных были выделены словари с информацией:
- Цели кредита (словарь `purposes`)
- Ежемесячный доход (словарь `total_income_dict`)
- Уровень образования клиента (словарь `education`)
- Семейное положение (словарь `family_status`)
- Количество детей (словарь `children_table`)  
Информация о категориях была вынесена в словари, в основной таблице оставлены идентификаторы категорий. Данные преобразования были сделаны для сокращения места, занимаемого основной таблицей, а также для наглядности и удобства работы.

5) Было проверено четыре гипотезы по взаимосвязи задолженности клиентов с различными факторами и выявлено, что:
- Существует зависимость между наличием детей и возвратом кредита в срок. Доля задолженностей увеличивается с количеством детей.
- Существует зависимость между семейным положением и возвратом кредита в срок. Самая низкая доля задолженностей у клиентов категории `вдова/вдовец`, самая высокая у неженатых/ незамужних.
- Существует зависимость между уровнем дохода и возвратом кредита в срок. Доля задолженностей уменьшается по мере увеличения уровня дохода.
- Разные цели кредита по разному влияют на возврат в срок. Самая низкая доля задолженности сопоставима с целью `операции с недвижимостью`, самая высокая у операций с автомобилем. 
    Преимущественно по всем категориям доли клиентов с задолженностями по кредитам находятся в пределах 10%, а различия значений между отдельными группами разделения не превышают 3.5%.