# Исследование надежности заемщиков.

**Цель проекта** — проверить две гипотезы:

* Семейное положение заемщика влияет на факт погашения погашения кредита
* Количество детей у заемщика влияет на факт погашения погашения кредита

Сначала проверим данные на ошибки, пропуски и дубликаты. Проведем предобработку, затем проверим гипотезы и ответим на вопросы.

## Шаг 1. Обзор данных

In [None]:
import pandas as pd # импорт необходимых для работы библиотек
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('russian')

In [None]:
# проект выполнялся локально, поэтому путь может быть неверным.
df = pd.read_csv('/datasets/data.csv') # читаем данные
df.head(10) # выводим первые 10 строк

In [None]:
df.info() # общая информация по данным

#### Описание данных
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Названия колонок соответствуют стилю.

Видно, что есть явные пропуски в столбцах `days_employed`, `total_income`. Количество пропусков в этих столбцах одинаковое.

Также видно, что в столбце `education` записи в разном регистре.

**Вывод:**

Чтобы продолжить исследование, нужно подготовить данные. В них есть проблемы:

* В двух столбцах датафрейма есть пропущенные значения. Их нужно как то заполнить или удалить.
* Столбцы типа `object` нужно проверить на явные и неявные дубликаты, привести к нормальному виду.

## Шаг 2.1 Заполнение пропусков

Заполним пропуски в колонке `total_income`.

In [None]:
df[df['total_income'].isna()]

Видим, что во всех видимых строчках, где `total_income` равен `NaN`, `days_employed` тоже равен `NaN`. Проверим, везде ли так.

In [None]:
# Смотрим на уникальные значения столбца days_emploed, где total_income равен NaN
df[df['total_income'].isna()]['days_employed'].value_counts()

Действительно, это так. У людей, с пропущенным суммарным доходом отсутствуют значения отработанных дней.

Теперь проверим долю пропущенных значений в колонке `total_income` от всех значений.

In [None]:
# количество пропущенных значений делим на общее количество значений
df[df['total_income'].isna()].shape[0] / df['total_income'].shape[0]

Примерно 10% данных в `total_income` - пропуски

Возможные причины пропуска могут быть связаны с тем, что человек не имел задекларированного дохода, работал неофициально. Причина пропуска не напоминает технический характер. Пропуск в этом столбце можно охарактеризовать как **случайный**.

**Заполним пропуски в `total_income` медианой, пропуски в `days_employed` нулями.**

Заполнять будем именно медианным значением, так как оно описывает данные более объективно и меньше подвержено выбросам, чем среднее значение.

In [None]:
df['total_income'].median() # медиана

In [None]:
# заменяем медианой пропущенные значения 'total_income'
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

In [None]:
# заменяем 0 пропущенные значения 'days_employed'
df['days_employed'] = df['days_employed'].fillna(0)

Проверим, остались ли пропуски:

In [None]:
df.info()

## Шаг 2.2 Проверка данных на аномалии и исправления.

Посмотрим на общие статистики, чтобы понять, какие есть аномалии

In [None]:
df.describe()

**Сразу бросается в глаза две проблемы:**

* минимальное значение `children` равно -1 (максимальное 20, что тоже вызывает подозрения.)
* показатели `days_employed` отрицательные, а максимальное значение равно ~1100 годам

И еще стоит проверить значения `dob_years`, которые равны 0

### 2.2.1 days_employed

В колонке `days_employed` аномалия. Трудовой стаж не может быть отрицательным. Посмотрим на значения, которые больше нуля.

In [None]:
df[df['days_employed'] > 0].head()

In [None]:
df[df['days_employed'] > 0]['income_type'].value_counts()

In [None]:
df[(df['days_employed'] > 0) & (df['income_type'] != 'пенсионер')]

Видим, что все, кто работал положительное число дней являются пенсионерами, кроме двух безработных людей.

In [None]:
df[df['days_employed'] > 0].describe()

Смотря на интервал минимальных и максимальных значений по данной выборке можно предположить, что людям, которые находятся на пенсии, присваивали большое число отработанных дней. Двое безработных, которые попали в этот список не могли столько отработать. Их будем считать за выбросы.

In [None]:
df[df.days_employed < 0].describe()

У людей с отрицательными значениями всё выглядит приемлимо. Минимальное значение взятое по модулю 18388 дня примерно равно 50 годам. А максимальное по модулю 24 дня.

In [None]:
df[df.days_employed < 0].sort_values('days_employed').head(10)

Люди, которые отработали больше всего времени из возрастной категории 55+. Ещё раз убеждаемся в том, что данные похожи на реальные.

**Аномалию устраним так:**

* Людям, которые в положительном диапазоне, заполним нулями. Это явные выбросы, они нам будут мешать.
* Людям, кто отработал отрицательное количество времени, присвоим положительный знак.

In [None]:
# заполняем нулями аномальные значения
df.loc[df['days_employed'] > 0, 'days_employed'] = 0

In [None]:
# проверяем
df[df.days_employed > 0].value_counts()

In [None]:
# заменяем знак минус на знак плюс - переписываем число, взяв его по модулю
df.loc[df['days_employed'] < 0, 'days_employed'] = df.loc[df['days_employed'] < 0, 'days_employed'].apply(lambda num : abs(num))


In [None]:
#проверяем
df.days_employed.describe()

### 2.2.2 children

Минимальное значение children равно -1 (максимальное 20, что тоже вызывает подозрения.)

In [None]:
# список уникальных значений колонки children
df['children'].value_counts()

Видим, что есть определенный ряд количества детей: 0, 1, 2, 3, 4, 5. Значения -1, 20 из этого ряда явно выделяются.

20 детей - выбросы, либо это ошибка с вводом данных, где случайно добавили 0. Данные о доходах тоже никак не позволяют судить о том, что это не выбросы.

Сравнение статистик, где 20 и 2 детей соответственно.

In [None]:
df[df.children == 20].describe()

In [None]:
df[df.children == 2].describe()

In [None]:
(76 / (2055 + 76)) * 100

Показатели примерно похожи. Количество таких значений составляет 3.6% от всех данных с детьми равными 2 + 20.

Изменим количество детей с 20 на 2.

In [None]:
df.loc[df.children == 20, 'children'] = 2

Теперь разберемся со строками, где значение равно -1

In [None]:
df[df.children == -1].describe()

In [None]:
(47 / (4818 + 47)) * 100

Тоже напоминает техническую ошибку. Добавили - к 1 и получилось -1.

Так как количество таких значений составляет меньше 1% от всех данных с детьми равными 1 + (-1), присвоим 1 вместо -1.

In [None]:
df.loc[df.children == -1, 'children'] = 1

Проверим уникальные значения

In [None]:
df.children.value_counts()

### 2.2.3 dob_years == 0

In [None]:
df.loc[df['dob_years'] <= 18, ['dob_years']].value_counts()

В промежутке от 0 до 18 лет встречаются только значения 0 лет. Заполним их медианным значением возраста.

In [None]:
df[df['dob_years'] != 0]['dob_years'].median() # медиана не учитывая 0

In [None]:
# заменяем значения
df.loc[df['dob_years'] == 0, 'dob_years'] = df[df['dob_years'] != 0]['dob_years'].median()

In [None]:
# проверяем что нули ушли
df.loc[df['dob_years'] < 18, ['dob_years']].value_counts()

## Шаг 2.3. Изменение типов данных.

In [None]:
df.info()

Заменим тип данных `float64` колонки `total_income` на `int`.

In [None]:
df['total_income'] = df['total_income'].astype('int')

In [None]:
# проверим изменения
df.info()

## Шаг 2.4. Удаление дубликатов.

Сначала удалим явные дубликаты. Так как у нас нет колонки `id` мы не сможем судить точно дубликаты ли это или нет. Но предлагаю всё равно их удалить, так как они занимают маленькую часть данных и их отсутствие не сильно скажется на анализе.

In [None]:
# количество дубликатов
df.duplicated().sum()

In [None]:
# удалим дубликаты
df = df.drop_duplicates().reset_index(drop=True)

In [None]:
# проверяем
df.duplicated().sum()

Теперь проверим неявные

In [None]:
df.info()

Неявные дубликаты могут быть в колонках `education`, `family_status`, `gender`, `income_type`, `purpose`

In [None]:
# смотрим на уникальные значения
df['education'].value_counts()

In [None]:
# исправляем, сведя все к маленьким буквам
df['education'] = df['education'].str.lower()

In [None]:
# проверяем
df['education'].value_counts()

In [None]:
df['family_status'].value_counts()

В колонке `family_status` всё хорошо. Исправление не требуется

In [None]:
df['gender'].value_counts()

 Тут тоже все хорошо. `XNA` - intersex гендер.

In [None]:
df['income_type'].value_counts()

Тут тоже всё оки.

In [None]:
df['purpose'].value_counts()

Выделим основные группы колонки `purpose`:
* Свадьба
* Жилье, недвижимость
* Автомобиль
* Образование

Это пригодится нам в [шаге 2.7](#step2_7)

In [None]:
# функция, которая разделит все значения колонки `purpose` на 4
def categorize_by_keywords(arg):
    stemmed_query = stemmer.stem(arg)
    for word in stemmed_query.split(' '):
        if word == 'жил' or word == 'недвижим':
            return 'операции с недвижимостью'
        elif word == 'автомобил':
            return 'операции с автомобилем'
        elif word == 'образован':
            return 'получение образования'
        elif word == 'свадьб':
            return 'проведение свадьбы'

In [None]:
df['purpose']

In [None]:
# заменим все значения на определенные
df['purpose'] = df['purpose'].apply(categorize_by_keywords)

In [None]:
# проверим
df['purpose'].value_counts()

**Вывод:**
В колонке `education` все значения уже были одинаковые, нужно было только привести их к единому регистру. Возможные причины этому могли быть неаккуратность введения данных. Кто то пишет с большой буквы, кто то с маленькой, кто то капсом.

В колонке `purpose` пришлось применить стемминг, чтобы выделить корни слов и по ключевым словам категоризировать цели взятия кредита. Такое происходит из-за того, что люди, которые заполняют колонку делают это разными словами, как придется.

## Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим два новых датафрейма с уникальными значениями по `education, education_id` и `family_status, family_status_id`

In [None]:
education_df = pd.DataFrame(df.loc[:, 'education':'education_id']).drop_duplicates().set_index('education_id')
family_status_df = pd.DataFrame(df.loc[:, 'family_status':'family_status_id']).drop_duplicates().set_index('family_status_id')


Проверим

In [None]:
education_df

In [None]:
family_status_df

Теперь удалим колонки `education` и `family_status` из основного датафрейма

In [None]:
# удаляем
df = df.drop(['education', 'family_status'], axis=1)

In [None]:
# проверяем
df.columns

## Шаг 2.6. Категоризация дохода.

Создадим новый столбец `total_income_category` на основании столбца `total_income` следующим образом:

* 0–30000 — `E`;
* 30001–50000 — `D`;
* 50001–200000 — `C`;
* 200001–1000000 — `B`;
* 1000001 и выше — `A`.

In [None]:
df.total_income.describe()

Все значения больше 0.

Напишем функцию, которая будет принимать число и возвращать строчку в зависимости от категории, в которое число попало.

In [None]:
def total_income_categoriser(arg):
    if arg > 0 and arg <= 30000:
        return 'E'
    elif arg >= 30001 and arg <= 50000:
        return 'D'
    elif arg >= 50001 and arg <= 200000:
        return 'C'
    elif arg >= 200001and arg <= 1000000:
        return 'B'
    else:
        return 'A'

In [None]:
# создадим новый столбец, применив функцию total_income_categoriser
df['total_income_category'] = df['total_income'].apply(total_income_categoriser)

In [None]:
# проверяем
df.head()

## Шаг 2.7. Категоризация целей кредита. <a id='step2_7'></a>

Так как мы уже категоризировали колонку `purpose` ранее в значения:
* операции с автомобилем,
* операции с недвижимостью,
* проведение свадьбы,
* получение образования.

Просто изменим название колонки `purpose` на `purpose_category`.

In [None]:
df = df.rename(columns={'purpose': 'purpose_category'}, errors='raise')

In [None]:
df.head()

## Ответы на вопросы.

#### Вопрос 1:
Есть ли зависимость между количеством детей и возвратом кредита в срок?

`debt` — имел ли задолженность по возврату кредитов

In [None]:
debt_children = df.pivot_table(index='children', columns= 'debt', values='days_employed', aggfunc='count')

debt_children['ratio_%'] = (debt_children[1] / (debt_children[0] + debt_children[1])) * 100
debt_children

#### Вывод 1:

Если у ребенка 0 детей, то он наиболее вероятно вернет кредит. Если у ребенка 4 ребенка, то он наименее вероятно вернет кредит.

Данные не позволяют четко утверждать о зависимости возврата кредита и детей, но можно предположить, что чем больше в семье детей, тем менее вероятен возврат кредита.

#### Вопрос 2:
Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
family_status_debt = df.join(family_status_df, on='family_status_id', how='left') \
                       .pivot_table(index='family_status', columns='debt', values='gender', aggfunc='count')
family_status_debt['ratio_%'] = (family_status_debt[1] / (family_status_debt[1] + family_status_debt[0])) * 100

In [None]:
family_status_debt

#### Вывод 2:

Люди со статусами `Не женат / не замужем`, `гражданский брак` наименее вероятно возвращали кредиты. Люди со статусом `женат / замужем`, `вдовец / вдова`, `в разводе` наиболее вероятно возвращали кредиты.

Делая такой вывод, следует помнить о том, что количество данных в группах довольно сильно различаются и такой прогноз может быть не точным.

#### Вопрос 3:
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
total_income_debt = df.pivot_table(index='total_income_category', columns='debt', values='gender', aggfunc='count')
total_income_debt['ratio_%'] = (total_income_debt[1] / (total_income_debt[1] + total_income_debt[0])) * 100

In [None]:
total_income_debt

#### Вывод 3:

Заработок напоминает нормальное распределение. Больше всего людей со средним заработком, меньше всего тех, кто зарабатывает очень много или совсем не зарабатывает.

Судить о том, кто наиболее вероятно вернет кредит сложно, но можно отметить, что наименьшая доля тех, кто не вернул кредит отмечается у людей с категориями зароботка `D` и `B`.

#### Вопрос 4:
Как разные цели кредита влияют на его возврат в срок?


In [None]:
purpose_category_debt = df.pivot_table(index='purpose_category', columns='debt', values='gender', aggfunc='count')
purpose_category_debt['ratio_%'] = (purpose_category_debt[1] / (purpose_category_debt[1] + purpose_category_debt[0])) * 100

In [None]:
purpose_category_debt

#### Вывод 4

Люди которые берут кредит на `операции с недвижимостью` и `проведение свадьбы` наиболее вероятно вернут кредит, чем те, кто берет кредит на `операции с автомобилем` и `получение образования`. 

# Общий вывод:

Было обнаружено много ошибок в данных. Все они были исправлены и очищены. 

Предобработанные данные можно интерпретировать так:
Если у человека нет детей, он женат / замужем, вдовец / вдова, в разводе, и он берет кредит на недвижимость или свадьбу, то вероятность того, что он вернет кредит - наибольшая.