# Исследование надежности заемщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — Проверить три гипотизы:
- Количество детей влияет на факт погашения кредита в срок.
- Семейное положение влияет на факт погашения кредита в срок.
- Уровень дохода влияет на факт погашения кредита в срок.

А также ответить на вопрос
- Как разные цели кредита влияют на его возврат в срок?

**Ход исследования** — Данные о клиентах содержатся в файле `/datasets/data.csv`. О качестве данных известно, что в них могут встречаться пропущенные значения, дубликаты и артефакты (аномалии). Поэтому перед проверкой гипотез понадобится обзор данных.
Также потребуется замена типа данных в одном и столбцов для повышения информативности.

**Шаг 1. Открыть таблицу и изучить общую информацию о данных**

Путь к файлу: `/datasets/data.csv`.

**Шаг 2. Предобработка данных**
1. В двух столбцах есть пропущенные значения, найти и заполнить медианным значением по столбцу:
 - описать, какие пропущенные значения были обнаружены;
 - проверить, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;
 - привести возможные причины появления пропусков в данных;
 - объяснить, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.


2. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке.

*Например, отрицательное количество дней трудового стажа в столбце days_employed. Для реальных данных это нормально. Обработать значения в столбцах с аномалиями и описать возможные причины появления таких данных.*


3. Заменить вещественный тип данных в столбце total_income на целочисленный, например, с помощью метода astype().


4. Если в данных присутствуют строки-дубликаты, удалить их. Также обработать неявные дубликаты. 
*Например, в столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв.*

Привести их к одному регистру. Проверить остальные столбцы. После удаления дубликатов сделать следующее:
 - пояснить, как был выбран метод для поиска и удаления дубликатов в данных;
 - привести возможные причины появления дубликатов.


5. Создать два новых датафрейма со столбцами:
 - education_id и education— в первом;
 - family_status_id и family_status— во втором.
Удалить из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. Новые датафреймы — это те самые «словари» (не путать с одноимённой структурой данных в Python), к которым можно обращаться по идентификатору.


6. На основании диапазонов, указанных ниже, создать столбец total_income_category с категориями:
 - 0–30000 — 'E';
 - 30001–50000 — 'D';
 - 50001–200000 — 'C';
 - 200001–1000000 — 'B';
 - 1000001 и выше — 'A'.

*Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.*


7. Создать функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:'операции с автомобилем','операции с недвижимостью','проведение свадьбы','получение образования'.

*Например, если в столбце purpose находится подстрока 'на покупку автомобиля', то в столбце purpose_category должна появиться строка 'операции с автомобилем'.*

Можно использовать собственную функцию и метод apply(). Изучить данные в столбце purpose и определить, какие подстроки помогут правильно определить категорию.

**Шаг 3. Ответить на вопросы**

- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

Ответы сопроводить интерпретацией — пояснить, о чём именно говорит полученный результат.

**Шаг 4. Написать общий вывод**

Оформление: Задание выполнить в Jupyter Notebook. Программный код заполнить в ячейках типа code, текстовые пояснения — в ячейках типа markdown. Применить форматирование и заголовки.

## Обзор данных

In [1]:
import pandas as pd # импорт библиотеки pandas

Прочитаем файл `/datasets/data.csv` из папки `/datasets` и сохраним его в переменной `df`:

In [2]:
df = pd.read_csv('/datasets/data.csv') # чтение файла с данными и сохранение в df

Выведем на экран первые десять строк таблицы:

In [3]:
display(df.head(10)) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Ознакомимся с общей информацией о таблице:

In [4]:
df.info() # получение общей информации о данных в таблице df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Применим метод `describe()`, что бы увидеть разброс значений, максимум, минимум, среднее и медиану.

In [5]:
df.describe() # отображение статистической сводки

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Итак, в таблице двенадцать столбцов. Типы данных в столбцах — `object`, `int64`, `float64`.

<b>Согласно документации к данным:</b>
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

✔️ <b>В названиях колонок нарушений стиля не наблюдается:</b>
1. Все названия написаны строчными буквами;
2. В названиях не встречаются пробелы;
3. Названия столбцов написаны в «змеином_регистре».

❌ <b>С первого взгляда на таблицу заметны следующие нарушения:</b>
1. Количество значений в столбцах `days_employed` и `total_income` различается. Значит, в данных есть пропущенные значения;
2. В данных о трудовом стаже (`days_employed`) встречаются отрицательные значения;
3. В данных об уровне образования (`education`) нарушается стиль написания — регистр;
4. Несмотря на то что ежемесячном доходе (`total_income`) не указывается единица измерения, значение после запятой слишком большое — это лишает информативности;
5. В целях получения кредита (`purpose`) наблюдаются неявные дубликаты.

**Выводы**

В каждой строке таблицы — данные статистики платёжеспособности клиента банка. Часть колонок описывает самого клиента: пол, возраст, уровень образования, семейное положение, наличие детей, тип занятости и трудовой стаж. Остальные данные рассказывают о кредитной истории: есть ли задолженность по возврату кредитов, цель получения кредита. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а также были замечены аномалии и дубликаты.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

### Заполнение пропусков

Сначала посчитаем, сколько в таблице пропущенных значений. Для этого достаточно двух методов pandas:

In [6]:
df.isna().sum() # подсчёт пропусков

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Проверим какую долю составляют пропущенные значения в каждом из столбцов с пропусками. Поскольку количество пропусков одинаковое, то достаточно посчитать только для одного из столбцов. Результат выведем как привычно, в процентах:


In [7]:
print('Пропущенные значения total_income составляют {:.0%}'.format(len(df[df['total_income'].isna()]) / len(df))) # Доля пропущенных значений total_income

Пропущенные значения total_income составляют 10%


In [8]:
df.isna().mean() # альтернативный метод подсчета пропущенных значений

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

На практике было бы правильно установить причину пропусков `days_employed` и `total_income` и восстановить данные. Такой возможности нет в учебном проекте. Однако можно сделать предположение, что они вызванны непредоставлением соответствующей справки.

Столбцы отражают количественные значения. Пропуски в таких колонках обычно заполняются характерными значениями: средним арифметическим или медианой. **В нашем случае лучше использовать медиану**, ведь в данных могут быть выдяющиеся значения, которые сместят среднее. Заполнять пропуски нулем или максимальным значением не стоит — такие значения нельзя назвать характерными.

Прежде чем заменить пропуски столбца `days_employed` (общий трудовой стаж в днях) медианой в зависимости от типа занятости, исправим отрицательные значения, воспользовавшись методом `abs()`.

In [9]:
df['days_employed'] = df['days_employed'].abs()

In [10]:
df['days_employed'] = df['days_employed'].fillna(df.groupby('income_type')['days_employed'].transform("median"))

Аналогично заменим пропуски медианой в столбце `total_income` в зависимости от типа занятости.

In [11]:
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform("median"))

Убедимся, что в таблице не осталось пропусков. Для этого посчитаем пропущенные значения.

In [12]:
df.isna().sum() # Подсчёт пропусков

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Проверка данных на аномалии и исправления.

По условию исследования было сказано, что в данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Необходимо найти и обработать значения в столбцах с аномалиями и описать возможные причины появления таких данных.
Для начала проверим уникальные значения каждого из столбцов, что бы определить аномалии. Для этого переберем элементы таблицы с помощью цикла `for`.

In [13]:
for row in df:
    print(df[row].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
1574.202821      1105
1547.382223       509
365213.306266     414
2689.368353       147
520.848083          2
                 ... 
339.153770          1
2849.351119         1
5619.328204         1
448.829898          1
582.538413          1
Name: days_employed, Length: 19353, dtype: int64
35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75    

Можно заметить следующие аномалии:
* В столбце `children` указанны аномальные значения 20 и -1. Возможная причина - человеческий фактор. Заменим эти данные на 2 и 1 соответственно;
* В столбце `days_employed` указанны вещественные данные, однако правильнее было бы указать полные дни. Кроме того наблюдается техническая ошибка при переносе данных в таблицу. Значения скорее отражают часы, а не дни. В этом случае было бы правильно обратиться к источнику данных для уточнения информации. В качестве общей работы над аномальными значениями превратим данные из часов в дни;
* В столбце `dob_years` возраст не указан в 101 позиции. Возможная причина - человеческий фактор. Поскольку эти данные не влияют на ход исследования, можно их упустить;
* В столбце `education` нарушается стиль написания - регистр, вследствие чего возникают дубликаты. Возможная причина - человеческий фактор. Необходимо привести все данные к единому регистру;
* В столбце `gender` одна строка с неопределенным типом данных. Так как мы не можем определить пол клиента по другим столбцам, то эту строку можно исключить из выборки;
* В столбце `total_income`указанны вещественные данные. Необходимо поменять тип данных в шаге 2.3;
* В столбце `purpose` наблюдаются дубликаты категорий. Необходимо объединить идентичные категории в шаге 2.4.

Отразим данные столбца `days_employed` (общий трудовой стаж в днях) в полных днях, воспользовавшись функцией.

In [14]:
# Функция для преобразования дней
def convert_time(time):
    days, remaining = divmod(time, 1) # расчет дней и оставшегося времени
    hours, remaining = divmod(remaining * 24, 1) # расчет часов и оставшегося времени
    minutes = divmod(remaining * 60, 1)[0] # расчет минут

    # формирование списка с округлением значений
    strings = [str(round(days)), 'дня/дней',
               str(round(hours)), 'часа/часов',
               str(round(minutes)), 'минут']

    return ' '.join(strings) # возврат строк с объединением в одну строку

In [15]:
df['days_employed_convert_time'] = df['days_employed'].apply(lambda t: convert_time(t)) # создание нового столбца с отображением значений

In [16]:
df['days_employed_convert_time']

0          8437 дня/дней 16 часа/часов 9 минут
1         4024 дня/дней 19 часа/часов 17 минут
2          5623 дня/дней 10 часа/часов 8 минут
3         4124 дня/дней 17 часа/часов 55 минут
4        340266 дня/дней 1 часа/часов 43 минут
                         ...                  
21520      4529 дня/дней 7 часа/часов 35 минут
21521    343937 дня/дней 9 часа/часов 41 минут
21522      2113 дня/дней 8 часа/часов 19 минут
21523     3112 дня/дней 11 часа/часов 33 минут
21524     1984 дня/дней 12 часа/часов 10 минут
Name: days_employed_convert_time, Length: 21525, dtype: object

Заменим аномальные значения столбца `children`.

In [17]:
df['children'] = df['children'].replace(20, 2).replace(-1, 1) # Заменяем значения

Проверим работу кода по замене данных в столбце `children`, вызвав уникальные значения:

In [18]:
print(df['children'].sort_values().unique()) # Просмотр уникальных значений

[0 1 2 3 4 5]


Приведем регистр к единой форме в столбце `education` с помощью метода `str.lower()`.

In [19]:
df['education'] = df['education'].str.lower()  # Приводим данные к нижнему регистру

Убедимся, что в столбце нет прописных букв.

In [20]:
print(df['education'].sort_values().unique()) # Просмотр уникальных значений

['высшее' 'начальное' 'неоконченное высшее' 'среднее' 'ученая степень']


Исключим неопределенное значение из столбца `gender`.

In [21]:
df = df[df['gender'] != 'XNA']

 Проверим работу кода, вызвав уникальные значения столбца `gender`.

In [22]:
print(df['gender'].sort_values().unique()) # Просмотр уникальных значений

['F' 'M']


### Изменение типов данных.

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода astype().

In [23]:
df['total_income'] = df['total_income'].astype('int')

Проверим тип данных после изменения.

In [24]:
df['total_income']

0        253875
1        112080
2        145885
3        267628
4        158616
          ...  
21520    224791
21521    155999
21522     89672
21523    244093
21524     82047
Name: total_income, Length: 21524, dtype: int64

### Удаление дубликатов.

Посчитаем количество явных дубликатов.

In [25]:
df.duplicated().sum() # подсчёт явных дубликатов

71

Вызовем специальный метод `pandas`, чтобы удалить явные дубликаты:

In [26]:
df = df.drop_duplicates().reset_index(drop=True) # удаление явных дубликатов (с удалением старых индексов и формированием новых)

Ещё раз посчитаем явные дубликаты в таблице — убедимся, что полностью от них избавились:

In [27]:
df.duplicated().sum() # подсчёт явных дубликатов

0

Теперь избавимся от неявных дубликатов в колонке `purpose`. Цели получения кредита записаны немного по-разному, поскольку заполняются вручную играет человеческий фактор. Такие ошибки могли бы повлиять на результат исследования *(но не повлияют)*.

Выведем на экран список уникальных целей получения кредита, отсортируем в алфавитном порядке. Для этого:

1. Извлечем нужный столбец датафрейма;
2. Применим к нему метод сортировки;
3. Для отсортированного столбца вызовем метод, который вернёт уникальные значения из столбца.

In [28]:
print(df['purpose'].sort_values().unique()) # Просмотр уникальных целей получения кредита

['автомобили' 'автомобиль' 'высшее образование'
 'дополнительное образование' 'жилье' 'заняться высшим образованием'
 'заняться образованием' 'на покупку автомобиля'
 'на покупку подержанного автомобиля' 'на покупку своего автомобиля'
 'на проведение свадьбы' 'недвижимость' 'образование' 'операции с жильем'
 'операции с коммерческой недвижимостью' 'операции с недвижимостью'
 'операции со своей недвижимостью' 'покупка жилой недвижимости'
 'покупка жилья' 'покупка жилья для сдачи' 'покупка жилья для семьи'
 'покупка коммерческой недвижимости' 'покупка недвижимости'
 'покупка своего жилья' 'получение высшего образования'
 'получение дополнительного образования' 'получение образования'
 'приобретение автомобиля' 'профильное образование' 'ремонт жилью'
 'свадьба' 'свой автомобиль' 'сделка с автомобилем'
 'сделка с подержанным автомобилем' 'строительство жилой недвижимости'
 'строительство недвижимости' 'строительство собственной недвижимости'
 'сыграть свадьбу']


Встречаются следующие неявные дубликаты:
* операции с автомобилем — `автомобили`, `автомобиль`, `на покупку автомобиля`, `на покупку подержанного автомобиля`, `на покупку своего автомобиля`, `приобретение автомобиля`, `свой автомобиль`, `сделка с автомобилем`, `сделка с подержанным автомобилем`;

* операции с недвижимостью — `жилье`, `недвижимость`, `операции с жильем`, `операции с коммерческой недвижимостью`, `операции с недвижимостью`, `операции со своей недвижимостью`, `покупка жилой недвижимости`, `покупка жилья`, `покупка жилья для сдачи`, `покупка жилья для семьи`, `покупка коммерческой недвижимости`, `покупка недвижимости`, `покупка своего жилья`, `строительство жилой недвижимости`, `строительство недвижимости`, `строительство собственной недвижимости`, **`ремонт жилью` опечатка!**;

* получение образования — `высшее образование`, `дополнительное образование`, `заняться высшим образованием`, `заняться образованием`, `образование`, `получение высшего образования`, `получение дополнительного образования`, `получение образования`, `профильное образование`;

* проведение свадьбы — `на проведение свадьбы`, `свадьба`, `сыграть свадьбу`.

Прежде чем избавляться от дубликатов, исправим опечатку в данных.

In [29]:
df['purpose'] = df['purpose'].replace('ремонт жилью', 'ремонт жилья') # Заменяем значения

Чтобы очистить от неявных дубликатов таблицу, напишем функцию `replace_wrong_purpose()`

In [30]:
# функция для категоризации целей на взятие кредита
def replace_wrong_purpose(row):
    if  'авто' in row:
        return 'операции с автомобилем'
    elif 'недвиж' in row or 'жиль' in row:
        return 'операции с недвижимостью'
    elif 'свадьб' in row or 'свадеб' in row:
        return 'проведение свадьбы'
    elif 'образо' in row:
        return 'получение образования'

In [31]:
 df['purpose'] = df['purpose'].apply(replace_wrong_purpose) # применяем функцию к столбцу

Проверим, что заменили неправильные значения. Выведем отсортированный список уникальных значений столбца `purpose`:

In [32]:
print(df['purpose'].sort_values().unique()) # Проверка на неявные дубликаты

['операции с автомобилем' 'операции с недвижимостью'
 'получение образования' 'проведение свадьбы']


### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма со столбцами:

* `education_id` и `education` — в первом;
* `family_status_id` и `family_status` — во втором. 

In [33]:
df_education = df[['education_id', 'education']] # создание нового словаря данных

In [34]:
display(df_education.head(10)) # получение первых 10 строк таблицы df_education

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
5,0,высшее
6,0,высшее
7,1,среднее
8,0,высшее
9,1,среднее


In [35]:
df_family_status = df[['family_status_id', 'family_status']] # создание нового словаря данных

In [36]:
display(df_family_status.head(10)) # получение первых 10 строк таблицы df_family_status

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
5,1,гражданский брак
6,0,женат / замужем
7,0,женат / замужем
8,1,гражданский брак
9,0,женат / замужем


Удалим из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: `education_id` и `family_status_id`.

In [37]:
df.drop (columns = ['education', 'family_status'])

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_convert_time
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,операции с недвижимостью,8437 дня/дней 16 часа/часов 9 минут
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,операции с автомобилем,4024 дня/дней 19 часа/часов 17 минут
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,операции с недвижимостью,5623 дня/дней 10 часа/часов 8 минут
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,получение образования,4124 дня/дней 17 часа/часов 55 минут
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,проведение свадьбы,340266 дня/дней 1 часа/часов 43 минут
...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,1,1,F,компаньон,0,224791,операции с недвижимостью,4529 дня/дней 7 часа/часов 35 минут
21449,0,343937.404131,67,1,0,F,пенсионер,0,155999,операции с автомобилем,343937 дня/дней 9 часа/часов 41 минут
21450,1,2113.346888,38,1,1,M,сотрудник,1,89672,операции с недвижимостью,2113 дня/дней 8 часа/часов 19 минут
21451,3,3112.481705,38,1,0,M,сотрудник,1,244093,операции с автомобилем,3112 дня/дней 11 часа/часов 33 минут


### Категоризация дохода.

На основании диапазонов, указанных ниже, создадим столбец `total_income_category` с категориями:
* 0–30000 — `E`;
* 30001–50000 — `D`;
* 50001–200000 — `C`;
* 200001–1000000 — `B`;
* 1000001 и выше — `A`.

Так, например, кредитополучателю с доходом 25000 нужно назначить категорию `E`, а клиенту, получающему 235000, — `B`.

In [38]:
# Функция для проведения категоризации доходов
def income_category(income):
    if income <= 30000:
        return 'E'
    if 30001 <= income <= 50000:
        return 'D'
    if 50001 <= income <= 200000:
        return 'C'
    if 200001 <= income <= 1000000:
        return 'B'
    return 'A'

Вызовем `income_category()` пять раз, меняя значение параметров — так, чтобы получить данные для каждой категории доходов.

In [39]:
income_category(20000)

'E'

In [40]:
income_category(40000)

'D'

In [41]:
income_category(200000)

'C'

In [42]:
income_category(1000000)

'B'

In [43]:
income_category(1000001)

'A'

Создадим новый столбец `total_income_category` с категориями доходов с учетом результатов функции.

In [44]:
df['total_income_category'] = df['total_income'].apply(income_category)

Проверим работу кода, вызвав первые 10 строчек таблицы df.

In [45]:
display(df.head(10)) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_convert_time,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,операции с недвижимостью,8437 дня/дней 16 часа/часов 9 минут,B
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,операции с автомобилем,4024 дня/дней 19 часа/часов 17 минут,C
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,операции с недвижимостью,5623 дня/дней 10 часа/часов 8 минут,C
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,получение образования,4124 дня/дней 17 часа/часов 55 минут,B
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,проведение свадьбы,340266 дня/дней 1 часа/часов 43 минут,C
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,операции с недвижимостью,926 дня/дней 4 часа/часов 27 минут,B
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с недвижимостью,2879 дня/дней 4 часа/часов 50 минут,B
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,получение образования,152 дня/дней 18 часа/часов 42 минут,C
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,проведение свадьбы,6929 дня/дней 20 часа/часов 46 минут,C
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,операции с недвижимостью,2188 дня/дней 18 часа/часов 9 минут,C


**Выводы**

Предобработка обнаружила 4 проблемы в данных, которые мы в процессе исправили:

* Пропущенные значения;
* Аномалии в значениях;
* Опечатки;
* Наличие дубликатов — явных и неявных.

Кроме этого мы упростили работу с таблицей, за счет выноса данных в дополнительные словари.
Категоризация дохода позволит детально изучить каждую группу клиентов.

Теперь можно перейти к проверке гипотез.

## Проверка гипотез

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

На основе методов groupby() и agg() построим сводную таблицу и узнаем соотношение числа детей в семье к количеству задолженностей по кредиту.

In [46]:
hypothesis_children_debt = df.groupby('children').agg({'debt':['count','sum']}) # создание агрегирующей функции

Ознакомимся со сводной таблицей и вычислим процентное соотношение.

In [47]:
hypothesis_children_debt

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14090,1063
1,4855,445
2,2128,202
3,330,27
4,41,4
5,9,0


In [48]:
print((100 * hypothesis_children_debt['debt']['sum'] / hypothesis_children_debt['debt']['count']).round(2).astype(str) + '%')

children
0    7.54%
1    9.17%
2    9.49%
3    8.18%
4    9.76%
5     0.0%
dtype: object


Но основе полученной информации можно сделать вывод, что количество детей влияет на возврат кредита в срок. Чем больше детей, тем выше вероятность неуплаты. Можно предположить, что это связанно с финансовой нагрузкой клиента.

Решим задачу более оптимальным способом, построив сводную таблицу используя метод pivot_table.

In [51]:
df_children_debt = df.pivot_table(index=['debt'], columns='children', values = 'family_status_id', aggfunc='mean')

In [50]:
df_children_debt

children,0,1,2,3,4,5
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,1.111768,0.798866,0.459502,0.389439,0.459459,0.222222
1,1.260583,0.905618,0.509901,0.555556,1.0,


### Есть ли зависимость между семейным положением и возвратом кредита в срок?

На основе методов groupby() и agg() построим сводную таблицу и узнаем соотношение между семейным положением клиента и количеством задолженностей по кредиту.

In [52]:
hypothesis_family_status_debt = df.groupby('family_status').agg({'debt':['count','sum']}) # создание агрегирующей функции

Ознакомимся со сводной таблицей и вычислим процентное соотношение.

In [53]:
hypothesis_family_status_debt

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2810,274
в разводе,1195,85
вдовец / вдова,959,63
гражданский брак,4150,388
женат / замужем,12339,931


In [54]:
print((100 * hypothesis_family_status_debt['debt']['sum'] / hypothesis_family_status_debt['debt']['count']).round(2).astype(str) + '%')

family_status
Не женат / не замужем    9.75%
в разводе                7.11%
вдовец / вдова           6.57%
гражданский брак         9.35%
женат / замужем          7.55%
dtype: object


Прямой зависимости между семейным положением и выплатой кредита в срок не прослеживается. Люди состоящие в отношениях могут иметь задолженность точно так же, как одинокие люди. Но можно заметить, что люди состоящие/состоявшие в официально закрепленных отношениях реже имеют задолженность по выплате кредита в срок.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

На основе методов groupby() и agg() построим сводную таблицу и узнаем зависимость между уровнем дохода клиента и количеством задолженностей по кредиту.

In [55]:
hypothesis_total_income_category_debt = df.groupby('total_income_category').agg({'debt':['count','sum']}) # создание агрегирующей функции

Ознакомимся со сводной таблицей и вычислим процентное соотношение.

In [56]:
hypothesis_total_income_category_debt 

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,25,2
B,5041,356
C,16015,1360
D,350,21
E,22,2


In [57]:
print((100 * hypothesis_total_income_category_debt['debt']['sum'] / hypothesis_total_income_category_debt['debt']['count']).round(2).astype(str) + '%')

total_income_category
A     8.0%
B    7.06%
C    8.49%
D     6.0%
E    9.09%
dtype: object


На основе полученной информации можно сделать вывод, что люди с наименьшим уровнем дохода чаще имеют задолженность по кредиду. Можно сделать предположение, что это связанно с финансовой нагрузкой клиента.

### Как разные цели кредита влияют на его возврат в срок?

На основе методов groupby() и agg() построим сводную таблицу и узнаем зависимость между целями взятия кредита и количеством задолженностей по кредиту.

In [58]:
hypothesis_purpose_debt = df.groupby('purpose').agg({'debt':['count','sum']}) # создание агрегирующей функции

Ознакомимся со сводной таблицей и вычислим процентное соотношение.

In [59]:
hypothesis_purpose_debt

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4306,403
операции с недвижимостью,10810,782
получение образования,4013,370
проведение свадьбы,2324,186


In [60]:
print((100 * hypothesis_purpose_debt['debt']['sum'] / hypothesis_purpose_debt['debt']['count']).round(2).astype(str) + '%')

purpose
операции с автомобилем      9.36%
операции с недвижимостью    7.23%
получение образования       9.22%
проведение свадьбы           8.0%
dtype: object


Можно сделать вывод, что если целью получения кредита является операция с жильем или проведение свадьбы, то люди реже имеют задолженности по выплате кредита в срок. Можно предположить, что это связанно перспективой дальнейшего формирования жизни.

## Итоги исследования

Мы провели предобработку данных и проверили 4 гипотезы:

1. Чем больше детей в семье, тем выше вероятность образования задолженности по выплате кредита. 

Первая гипотеза полностью подтвердилась.

2. Семейное положение не сильно влияет на выплату кредита. Небольшие различия заметны между людьми состоящими в официально закрепленных законодательством отношениях и состоящими в неофициальных отношениях.

Таким образом, вторая гипотеза подтвердилась лишь отчасти.

3. Чем ниже уровень дохода, тем вероятнее образование задолженности по выплате кредита.

Третья гипотеза подтвердилась.

4. Люди реже имеют задолженность, если берут кредит на операции с недвижимостью и проведение свадьбы.

Как показывает исследование, формирование новой ячейки общества повышает вероятность выплаты кредита в срок. Однако этот результат может оказаться иным, если брать в учет и другие данные — образование клиента, возраст и пр.