# Исследование надежности заемщиков


## Цели и задачи исследования

Оценка надёжности заёмщиков является одной из важнейших задач при принятии решения о выдаче кредита - будь то микрозайм "до зарплаты" или ипотечный кредит для покупки недвижимости. Просрочка оплаты заёмщиком влечёт за собой значительные издержки для финансовой организации. Более того, для финансового планирования деятельности организации важно прогнозировать долю неплательщиков, чтобы учитывать это при построении успешной модели бизнеса. 

Таким образом, сформулируем основные **цели исследования**:

1. Выявить, какие факторы (семейное положение, уровень дохода, цель взятия кредита, количество детей) влияют на платёжеспособность заёмщика.
2. На основе полученных результатов сформулировать наиболее подходящий для кредитора портрет заёмщика.
3. Дать общие рекомендации по построению системы сбора данных и возможных ошибках при сборе данных.

Для выполнения целей исследования сформулируем **задачи**:

1. Ознакомиться с предоставленными данными. Дать предварительное заключение о том, достаточно ли предоставленных данных для проведения исследования и предоставляют ли они ценность в рамках целях исследования.
2. Осуществить предобработку данных: удалить строки с пропусками или заполнить пропуски, выявить аномальные значения (артефакты), выявить дубликаты, осуществить категоризацию данных
3. Выявить зависимость между количеством детей и возвратом кредита в срок. Сформулировать гипотезы и проверить их.
4. Выявить зависимость между семейным положением и возвратом кредита в срок. Сформулировать гипотезы и проверить их.
5. Выявить зависимость между уровнем дохода и возвратом кредита в срок. Сформулировать гипотезы и проверить их.
6. Выявить зависимость между целью кредита и возвратом кредита в срок. Сформулировать гипотезы и проверить их.
7. По полученным результатам сформулировать вывод о наиболее платёжеспособном заёмщике. Указать, необходимо ли проведение дополнительных исследований, предоставление новых данных.
8. Предоставить рекомендации по учёту данных и о том, как избежать появления пропущенных значений при сборе данных.

В качестве **исходных данных** была предоставлена таблица в формате csv

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [2]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Выводы по заданию №2:**

Как видно из таблицы, наименования столбцов указаны должным образом.

Также имеются дополнительные столбцы с указанием категории, что облегчит нам задачу при проведении расчетов.

В таблице имеются пропуски, необходимо определить, насколько они влияют на результат, рассмотреть возможность их заполнения или полного исключения из расчета таких строк.

Значения в столбце `days_employed` явно аномальны, так как некоторые имеют отрицательные значения, другие - слишком большие. 
Например, в строке `18` указано значение `400281.13`, что соответствует `1096.66` годам.

Также они имеют формат `float`, хотя правильнее в данном случае использовать `int`, 

Помимо вышеуказанного значения имеют значения после запятой, что не соответствует смыслу обозначения в днях. (никто не сообщает о том, что уже работает пять с половиной дней)

Возможно, произошёл технический сбой или столбец имеет неправильное наименование. Значения могут быть указаны, например, в часах, а не днях. Также не совсем понятно - количество дней работы указано для последнего места работы или это общее количество дней работы заёмщика.

Хотя в рамках данного исследования и не будут использованы эти значения, лучше всего в данном случае связаться с заказчиком и уточнить, так как это может повлиять на результаты других исследований.

**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Выводы по заданию №3:**

Общее количество строк - 21525

0   children - формат соответсвует данным, пропусков не имеется

1   days_employed - **формат не соответсвует данным, имеются пропуски**

2   dob_years - формат соответсвует данным, пропусков не имеется

3   education - формат соответсвует данным, пропусков не имеется

4   education_id - формат соответсвует данным, пропусков не имеется

5   family_status - формат соответсвует данным, пропусков не имеется

6   family_status_id - формат соответсвует данным, пропусков не имеется

7   gender - формат соответсвует данным, пропусков не имеется

8   income_type - формат соответсвует данным, пропусков не имеется

9   debt - формат соответсвует данным, пропусков не имеется

10  total_income - **формат соответствует данным, имеются пропуски**

11  purpose - формат соответсвует данным, пропусков не имеется

Таким образом, необходимо осуществить предобработку данных для столбца с индексом `[1]` и `[10]`, с учётом вывода по заданию №2

Количество используемой памяти: ≈2.0MB, применение высокопроизводительной системы не требуется

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

#### Выводы по заданию №4

В данных имеются пропуски, что нежелательно при проведении нашего исследования. Особенно, для столбца `total_income`

<div class="alert-info" style="padding: 20px; border-radius: 10px">
<b>Комментарий студента 💎</b>

Сформулировал выводы по заданию №4.</div>

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [6]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

#### Выводы по заданию №5

В соответствии с выводами задания №4, заполнили пропуски в столбце `total_income` медианным значением

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [7]:
data['days_employed'] = data['days_employed'].abs()

#### Выводы по заданию №6

В соответствии с выводами задания №2, применили функцию, возвращающую абсолютное значение чисел в столбце `days_employed`

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

#### Выводы по заданию №7

Вывели медианное значение каждой из категорий.
Гипотеза, указанная в выводе №2 оказалась верной, значения для некоторых категорий слишком большие. здесь мы подтвердили, что таких значений много. 

В целом, у двух данных категорий `безработный` и `пенсионер` не совсем корректно подсчитывать количество дней работы. Так как заёмщики категории `безработный` априори не имеют работы. Важнее в таком случае было бы учитывать количество дней без работы, но также такие заёмщики могут и иметь другие источники дохода. 

Что касается категории `пенсионер`, в основном, такие заёмщики не имеют работы либо могут её потерять и долгое время не найти новое место работы, поэтому оценивать эту категорию по длительности занятости не совсем корректно.

В нашем исследовании эти значения не используются, поэтому проводить какие-либо дальнейшие манипуляции с этими данными не имеет смысла.

Учтем данный вывод в рекомендациях заказчику

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [10]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

#### Выводы по заданиям №8-10

В столбце `children` выявились аномальные значения, для корректных результатов исследования они были исключены. Необходимо предоставить заказчику соответствующие рекомендации

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

#### Выводы по заданию №11

Как указывалось в выводе к заданию №7, эти значения нам не потребуются, тем не менее, все пропуски заполнить необходимо, это одна из ступеней в предобработке данных.

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [13]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

#### Выводы по заданию №12

Убедились, что пропусков в наших данных нет. Одна из подзадач исследования выполнена.

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [14]:
data['total_income'] = data['total_income'].astype(int)

#### Выводы по заданию №13

Заменили тип данных столбца `total_income` на целочисленный (int), так как такие значения проще отнести к категориям. 

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [15]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [16]:
data.duplicated().sum()

71

In [17]:
data = data.drop_duplicates()

#### Выводы по заданиям №14-15

Для того, чтобы учесть все возможные дубликаты в столбце `education`, привели строковые значения к нижнему регистру.
После этого удалили дубликаты при помощи функции drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

#### Выводы по заданию №16

Значений дохода слишком много, сами по себе они ни о чём не говорят. Поэтому важно отнести эти значения к разным категориям. 

Также в данном задании изначально были даны значения, к каким категориям отнести заёмщиков.

Но в реальной задаче мы изначально не представляем, какое значение в выборке максимальное, минимальное, `1000000` - это много или мало, поэтому для правильного отнесения значений к определенной категории необходимо провести дополнительные расчеты.

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

**Выводы по заданиям №17-18:**

Значений дохода слишком много, сами по себе они ни о чём не говорят. Поэтому важно отнести эти значения к разным категориям. 

Также в данном задании изначально были даны значения, к каким категориям отнести заёмщиков.

Но в реальной задаче мы изначально не представляем, какое значение в выборке максимальное, минимальное, `1000000` - это много или мало, поэтому для правильного отнесения значений к определенной категории необходимо провести дополнительные расчеты.

In [21]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

#### Выводы по заданиям №17-18

В данном случае мы имеем дело с неявными дубликатами, но нам повезло, разнобразия в ответах заёмщиков не слишком много. Для отнесения к определенной категории по цели кредита, сделали функцию и применили её к столбцу `purpose`. 

На выходе получили только 4 категории:
1) операции с автомобилем
2) операции с недвижимостью
3) проведение свадьбы
4) получение образования

А также отдельную категорию `нет категории` для строк, не попавших в созданную выборку

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

##### Цели исследования и гипотезы.
Целью поставленной задачи является выявление зависимости между количеством детей у заёмщика и возвратом кредита в срок. Результаты исследования позволят снизить издержки финансовой организации при выдаче кредитов.
Сначала, в соответствии с циклом HADI (гипотезы, действия, данные, выводы), выведем несколько гипотез:

<font color='blue'>**Гипотеза №1**</font>

У заёмщика без детей нет дополнительной финансовой нагрузки, неожиданных трат, связанных с детьми, поэтому такому заёмщику проще нести долговую нагрузку. У таких заёмщиков вероятность просрочки значительно ниже, чем у других категорий заёмщиков.

<font color='blue'>**Гипотеза №2**</font>

Наличие одного или двух детей в семье создаёт для заёмщика дополнительную финансовую нагрузку. Но такая нагрузка может быть не столь значительной. Также можно предположить, что заёмщики, имеющие детей, более ответственны, планируют свои расходы. Таким образом, наличие 1-2 детей незначительно влияет на срок возврата кредита.

<font color='blue'>**Гипотеза №3**</font>

Наличие более двух детей у заёмщика вызывает значительные риски. Потеря заёмщиком источника дохода будет критическим фактором, так как финансовая нагрузка не позволит осуществить возврат кредита в срок.

<font color='blue'>**Гипотеза №4**</font>

Чем больше детей, тем выше доля заёмщиков с просрочкой платежа по кредиту. 


##### Методы выполнения исследования
Для проверки гипотез необходимо выяснить, какая доля от общего числа заёмщиков, в зависимости от категории (количество детей) имеет просрочку по кредиту. 

##### Уникальные значения столбца `debt`

In [23]:
data['debt'].unique()

array([0, 1])

Как мы видим, столбец `debt` имеет значения `0` и `1`, где, вероятно, `0` - отсутствие просрочки платежа, а `1` - просрочка платежа. Таким образом, мы не учитываем в данном исследовании величину задолженности или продолжительность неплатежей, а только сам факт наличия задолженности.

##### Общее количество заёмщиков в зависимости от количества детей

In [24]:
data['children'].value_counts() 
#data.groupby('children')['children'].count() <= альтернативный способ подсчета

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

В основном, кредит имеется у заёмщиков без детей. Заёмщиков с тремя детьми и более настолько мало, что это может дать некорректные результаты. Учтем это в выводе.

##### Разработка универсальной функции  подсчета доли заёмщиков, имеющих просрочку платежа

Разработаем функцию, подсчитывающую долю заёмщиков (%), имеющих просрочку по платежу, в зависимости от категории. Так как вычисления типовые для каждой из категорий, это сэкономит много времени. 

In [25]:
def category_debt_calc(data, category):
    
    '''
    Функция осуществляет подсчет доли заёмщиков с просрочкой платежа
    и приводит таблицу в удобный формат для чтения

    Группируем data по столбцу category, применяем к значениям столбца debt функцию Pandas agg()
    где подсчитываем значения столбца debt. Так как значения 0 и 1, среднее значение (mean) подсчитает 
    долю заёмщиков с задолженностью по каждой группе.
    Иначе такой подсчет выглядел бы так:
    Количество заёмщиков с задолженностью (в определенной категории) / общее количество заёмщиков (в определенной категории)
    '''
    
    borrower_table = data.groupby(category)['debt'].agg(['count','mean'])
    #Умножим значения столбца "mean" на 100, чтобы получить значения в % и округлим их
    borrower_table['mean'] = round(borrower_table['mean']*100, 2)
    #Переименуем столбцы
    borrower_table = borrower_table.rename(columns=
    {'count': 'Кол-во заёмщиков', 'mean': 'Доля заёмщиков с просрочкой платежа, %'})
    #для большей информативности таблицы добавим столбец, расчитывающий общее кол-во заёмщиков с просрочкой платежа
    borrower_with_debt = (data.loc[data['debt'] == 1].groupby(category)[category].count())
    borrower_table.insert(0, 'Кол-во заёмщиков с долгом', borrower_with_debt, allow_duplicates = False)
    #переведём значения в int и заполним NaN
    borrower_table['Кол-во заёмщиков с долгом'] = borrower_table['Кол-во заёмщиков с долгом'].fillna(0).astype(int)
    
    return borrower_table

Применим разработанную функцию `category_debt_calc` к данным и столбцу `children`

In [26]:
children_table = category_debt_calc(data, 'children')
#Выведем таблицу на экран с сортировкой по убыванию
children_table.sort_values(by='Доля заёмщиков с просрочкой платежа, %', ascending=False)

Unnamed: 0_level_0,Кол-во заёмщиков с долгом,Кол-во заёмщиков,"Доля заёмщиков с просрочкой платежа, %"
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,4,41,9.76
2,194,2052,9.45
1,444,4808,9.23
3,27,330,8.18
0,1063,14091,7.54
5,0,9,0.0


##### Вывод

Гипотеза №1 подтвердилась, заёмщики без детей имеют наилучшие показатели.

Гипотеза №2 подтвердилась частично, значения по просрочке платежа для семей с 1 или 2 детьми примерно одинаковые. Но они выше, чем для заёмщика без детей.  

Гипотезы №3 и №4 не подтвердились. Значения для семей с 3 детьми оказались даже ниже, чем с 1-2. Значения для семей с 4 детьми незначительно выше, чем с 1-2. 

Но следует учитывать, что общее количество заёмщиков с 3 детьми и более слишком маленькое, результаты могут не отражать действительности. 

Поэтому перепроверим наши гипотезы сравнивая категории с 0, 1 и 2 детьми.

Заёмщик без детей по прежнему имеет лучшие показатели, гипотеза №1 остаётся верной. Также, из-за того, что выборка была несопоставима, изменились результаты гипотезы №4 (чем больше детей, тем больше просрочек по платежам). Данная гипотеза подтвердилась.

Таким образом, наиболее надёжным является бездетный заёмщик.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

##### Цели исследования и гипотезы.

Целью поставленной задачи является выявление зависимости между семейным положением заёмщика и возвратом кредита в срок. Результаты исследования позволят снизить издержки финансовой организации при выдаче кредитов.

Выдвинем несколько гипотез:

<font color='blue'>**Гипотеза №1**</font>

Граждане, находящиеся вне отношений (не женат/не замужем, в разводе, вдовец/вдова), менее ответственны и допускают просрочки по платежам.

<font color='blue'>**Гипотеза №2**</font>

Граждане, находящиеся в семейных отношениях не позволяют себе допускать просрочки по платежам.

##### Методы выполнения исследования
Для проверки гипотез необходимо выяснить, какая доля от общего числа заёмщиков, в зависимости от категории (семейное положение) имеет просрочку по кредиту. 

##### Подсчет доли заёмщиков с просрочкой платежа
Для дальнейшего удобства разработаем функцию, выполняющую подсчет доли заёмщиков с просрочкой платежа

In [27]:
#внесем в новую переменную результаты работы функции для дальнейших манипуляций
family_table = category_debt_calc(data, 'family_status_id')

#для удобства дополним таблицу со столбцом с текстовым указанием семейного положения
family_status_group = data.groupby('family_status_id')['family_status'].unique()
family_table.insert(0, 'Семейное положение', family_status_group, allow_duplicates = False)

#выведем таблицу на экран
family_table.sort_values(by='Доля заёмщиков с просрочкой платежа, %', ascending=False)

Unnamed: 0_level_0,Семейное положение,Кол-во заёмщиков с долгом,Кол-во заёмщиков,"Доля заёмщиков с просрочкой платежа, %"
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,[Не женат / не замужем],273,2796,9.76
1,[гражданский брак],385,4134,9.31
0,[женат / замужем],927,12261,7.56
3,[в разводе],84,1189,7.06
2,[вдовец / вдова],63,951,6.62


##### Вывод

Гипотеза №1 оказалась частично верна, граждане, находящиеся в статусе `не женат/не замужем` показывают наихудшие показатели, но, с другой стороны, граждане со статусом `вдовец/вдова` и `в разводе` имеют наилучшие показатели, по сравнению с остальными. 

Гипотеза №2 оказалась также частично верна, граждане находящиеся в отношениях, действительно имеют лучшие показатели по сравнению с теми, кто никогда не был в отношениях. 

Таким образом, наиболее благоприятным для финансовой организации заёмщиками являются граждане со статусом `вдовец/вдова`.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

##### Цели исследования и гипотезы.

Целью поставленной задачи является выявление зависимости между уровнем дохода заёмщика и возвратом кредита в срок. Результаты исследования позволят снизить издержки финансовой организации при выдаче кредитов.

Выдвинем несколько гипотез:

<font color='blue'>**Гипотеза №1**</font>

Чем больше уровень дохода у заёмщика, тем ниже доля просроченных кредитов


##### Методы выполнения исследования
Для проверки гипотез необходимо выяснить, какая доля от общего числа заёмщиков, в зависимости от категории (уровень дохода) имеет просрочку по кредиту. 

In [28]:
#воспользуемся ранее созданной функцией
income_table = category_debt_calc(data, 'total_income_category')
income_table.sort_values(by='Доля заёмщиков с просрочкой платежа, %', ascending=False)

Unnamed: 0_level_0,Кол-во заёмщиков с долгом,Кол-во заёмщиков,"Доля заёмщиков с просрочкой платежа, %"
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,2,22,9.09
C,1353,15921,8.5
A,2,25,8.0
B,354,5014,7.06
D,21,349,6.02


##### Вывод
Как видно, гипотеза №1 оказалась не совсем верной. Тем не менее, граждане с наименьшим достатком являются наименее благонадёжными заёмщиками. Но большой доход не означает, что заёмщики с доходом больше будут более надёжными. Из таблицы видно, что заёмщики со средним доходом и выше среднего также имеют просрочки по платежам.
Наиболее благонадёжными заёмщиками оказались заёмщики с доходом ниже среднего (из категории `D`)

Но так как выборки для категорий `A`,`D`, `E` слишком малочисленны, пересмотрим наши результаты. В таком случае, остаются только заёмщики категории `C` и `B`. 
Таким образом, мы получаем несколько другие результаты. У заёмщиков с более высоким доходом (`B`) доля просрочек по платежам ниже (`7.06%`), чем у заёмщиков с низким доходом (`C`) - (`8.5`)

Но здесь появляется другая проблема - сравнивать всего две категории по такому важному показателю как уровень дохода, вероятно, не совсем корректно. Возможно, следует пересмотреть способ распределения значений дохода по категориям.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

##### Цели исследования и гипотезы.

Целью поставленной задачи является выявление зависимости между целью взятия кредита заёмщиком и возвратом кредита в срок. Результаты исследования позволят снизить издержки финансовой организации при выдаче кредитов.

Выдвинем несколько гипотез:

<font color='blue'>**Гипотеза №1**</font>

Наименее надёжными заёмщиками будут покупатели автомобилей, так как зачастую люди склонны к импульсивным дорогостоящим покупкам, которые не могут себе позволить. Мало кто прогнозирует дополнительные затраты на содержание автомобиля и вероятность его повреждения свыше страховой суммы в случае ДТП, а также другие факторы. 

<font color='blue'>**Гипотеза №2**</font>

Операции с недвижимостью наиболее надёжные для кредитора, так как заёмщик, как правило, покупает недвижимость для ежедневного проживания, поэтому для него очень важно обеспечивать платежи по кредиту должным образом.

##### Методы выполнения исследования
Для проверки гипотез необходимо выяснить, какая доля от общего числа заёмщиков, в зависимости от категории (цели кредита) имеет просрочку по кредиту. 

In [29]:
#воспользуемся ранее созданной функцией
income_table = category_debt_calc(data, 'purpose_category')
income_table

Unnamed: 0_level_0,Кол-во заёмщиков с долгом,Кол-во заёмщиков,"Доля заёмщиков с просрочкой платежа, %"
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,400,4279,9.35
операции с недвижимостью,780,10751,7.26
получение образования,369,3988,9.25
проведение свадьбы,183,2313,7.91


#####  Вывод

Гипотеза №1 подтвердилась частично. Помимо относительно плохих показателей операций с автомобилями, заёмщики, которые берут займ для получения образования также имеют проблемы с платежами в срок. Вероятно, это связано с низким качеством получаемого образования или переизбытком кадров.
С другой стороны, гипотеза №2 подтвердилась, операции с недвижимостью действительно "заставляют" заёмщика ответственно относиться к своим обязательствам.
Хорошие показатели кредитов на проведение свадьбы, вероятно, связаны с тем, что молодожёны получают существенные денежные средства в качестве подарков.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

- Человеческий фактор (например, если ячейка для заполнения данных не является обязательной, то человек врятли её заполнит)
- Технический сбой (потеря данных при переносе, потеря базы данных и т.д.)
- Объективное отсутствие информации по указанному вопросу (например, информация на текущий момент неизвестна или она в принципе не может быть предоставлена в связи с какими-либо факторами)

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

- Среднее значение может дать некорректный результат анализа. Например, в случаях когда в выборке присутствуют сильно отличающиеся значения минимума и максимума. Как говорится, у Пети было 10 яблок, у Васи 0 яблок, в среднем у них 5 яблок. Поэтому медианное значение лучшим образом отражает действительное положение дел.

### Шаг 4: общий вывод.

Были выполнены основные цели, обозначенные исследованием. 

В качестве исходных данных была предоставлена таблица с данными о заёмщиках, включающая в себя 21525 строк и 11 столбцов:
 0   children (количество детей)          
 1   days_employed (дней занятости)     
 2   dob_years (возраст)          
 3   education (уровень образования)         
 4   education_id (категория образования)       
 5   family_status (семейное положение)      
 6   family_status_id (категория семейного положения)  
 7   gender (пол)            
 8   income_type (категория вида дохода)       
 9   debt (категория наличия задолженности)              
 10  total_income (суммарный доход)      
 11  purpose (цель займа) 

В рамках предобработки данных были выполнены следующие задачи:
- В ходе  предварительного ознакомления с данными выявлены аномальные значения столбца `days_employed`, выявлены пропуски данных
- Пропуски в столбцах `total_income` и `days_employed` были заполнены медианными значениями
- Были удалены аномальные значения столбца `children`
- Тип значений столбца 'total_income' был заменен на целочисленный (int)
- Удалены дубликаты в столбце `education`
- Произведена категоризация данных по столбцам `total_income` и `purpose`, созданы соответствующие им столбцы `total_income_category` и `purpose_category`

При проведении исследования были достигнуты поставленные задачи:
**Выявлена зависимость между количеством детей и возвратом кредита в срок.**

Исследование показало, что наиболее надёжный заёмщик - бездетный заёмщик. Чем больше детей у заёмщика, тем выше вероятность возникновения просрочки платежа.

**Выявлена зависимость между семейным положением и возвратом кредита в срок.**

Заёмщики, ранее не находившиеся в браке имеют наихудшие показатели по доле заёмщиков с просрочкой платежа. Заёмщики, находящиеся в отношениях, имеют лучшие показатели по сравнению с теми, кто никогда не был в отношениях. Наилучшие показатели имеют заёмщики со статусом вдовец/вдова и находящиеся в разводе.  

**Выявлена зависимость между уровнем дохода и возвратом кредита в срок.**

Как показало исследование, граждане с наименьшим достатком являются наименее благонадёжными заёмщиками.

**Выявлена зависимость между целью кредита и возвратом кредита в срок.**

В ходе исследования выявлено, что операции с недвижимостью наиболее надёжны, заёмщики ответственно относятся к своим обязательствам. Наихудшие показатели имеют операции с автомобилем и кредит на получение образования.


Таким образом, можно сделать вывод о том, что наиболее **перспективным и надёжным заёмщиком** для финансовой организации 
является вдовец/вдова, без детей, с доходом ниже среднего, целью взятие кредита которого являются операции с недвижимостью.

В заключение, предоставим некоторые **рекомендации**:
1. Следует больше уделять вопросу пропуска данных
Возможными причинами могут быть:
- Человеческий фактор (например, если ячейка для заполнения данных не является обязательной, то человек врятли её заполнит);
- Технический сбой (потеря данных при переносе, потеря базы данных и т.д.);
- Невозможность предоставления информации по отдельным вопросам.
2. Разобраться с возможными причинами появления аномальных значений в столбце данных `days_employed`
3. Дополнить данные такой информации о заёмщике как `место работы`, `наличие других кредитов`, `наличие исполнительных листов` и другой информацией, которая бы дала лучшее представление о заёмщике.
4. Для более точного прогнозирования требуется проведение дополнительных исследований, показывающих взаимосвязи, которые не были рассмотрены в рамках выполнения текущих задач.