# Исследование надежности заемщиков банка

<h2>  <a class="tocSkip"> </h2>

<a name="1"></a>
## Содержание

[1. Содержание](#1)

[2. Описание проекта](#2)

*    [2.1. Цель проекта](#21)
*    [2.2. Задачи проекта](#22)
*    [2.3. Описание данных](#23)
*    [2.4. План работ](#24)

[3. Изучение данных](#3)

*    [3.1. Общая информация](#31)
*    [3.2. Вывод](#32)

[4. Предобработка данных](#4)

*    [4.1. Удаление пропусков](#41)
*    [4.2. Обработка аномальных значений](#42)
*    [4.3. Удаление пропусков (продолжение)](#43)
*    [4.4. Изменение типов данных](#44)
*    [4.5. Обработка дубликатов](#45)
*    [4.6. Категоризация данных](#46)
*    [4.7. Вывод](#47)

[5. Исследование данных](#5)

*    [5.1. Влияние количества детей на возврат кредита в срок](#51)
*    [5.2. Влияние семейного положения на возврат кредита в срок](#52)
*    [5.3. Влияние уровня дохода на возврат кредита в срок](#53)
*    [5.4. Влияние цели кредита на возврат кредита в срок](#54)
*    [5.5. Вывод](#55)

[6. Общий вывод](#6)

## Описание проекта
<a name="2"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку в срок.

### Цель проекта
<a name="21"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Провести исследование с целью выявить влияние различных факторов на возврат кредита в срок. 

Результаты исследования будут учтены при построении модели кредитного скоринга – специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку в срок.

### Задачи проекта
<a name="22"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

1. Изучить данные.
2. Выполнить предобработку данных.
3. Исследовать данные.
4. Проверить гипотезы.
5. Написать общий вывод.


В ходе проведения исследования необходимо проверить несколько гипотез:

- Гипотеза 1: количество детей влияет на возврат кредита в срок;
- Гипотеза 2: семейное положение влияет на возврат кредита в срок;
- Гипотеза 3: уровень дохода влияет на возврат кредита в срок;
- Гипотеза 4: цель кредита влияет на возврат кредита в срок.

### Описание данных
<a name="23"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Входные данные: статистика о платёжеспособности клиентов банка в файле `solvency.csv`.

Описание столбцов:

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

### План работы
<a name="24"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

1. Изучение данных:

    - Тип данных.
    - Количество значений в столбцах.
    - Пропущенные значения.
    

2. Предобработка данных:

    - Удаление пропусков.
    - Обработка аномальных значений.
    - Изменение типов данных.
    - Обработка дубликатов.
    - Категоризация данных.
    
    
3. Исследование данных:

    - Влияние различных факторов на возврат кредита в срок:
        - Количество детей;
        - Семейное положение;
        - Уровень дохода;
        - Цели кредита.


4. Общий вывод

## Изучение данных
<a name="3"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

In [1]:
import pandas as pd

### Общая информация
<a name="31"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Прочитаем данные из csv-файла в датафрейм и сохраним в переменную `data`.

In [2]:
try:
    data = pd.read_csv('/content/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

Выведем первые 20 строк датафрейма `data` на экран.

In [3]:
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведем основную информацию о датафрейме с помощью метода `.info()`.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод
<a name="32"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

В разделе [**Изучение данных**](#3.-Изучение-данных) была получена общая информация о данных, а именно:
- тип данных;
- количество значений в столбцах;
- пропущенные значения.


В результате выполнения задач этого раздела было выявлено следующее:
1. В данных содержатся пропуски и аномальные значения.
2. Для некоторых столбцов необходимо изменить тип данных.

## Предобработка данных
<a name="4"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

### Удаление пропусков
<a name="41"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Выведем количество пропущенных значений для каждого столбца.

In [5]:
display(data.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполним пропуски в этом столбце медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости "сотрудник" пропуск в столбце `total_income` заполним медианным доходом среди всех записей с тем же типом.

In [6]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & \
             (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений
<a name="42"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `.abs()`.

In [7]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов ("безработные" и "пенсионеры") получаются аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится нам для исследования.

Выведем перечень уникальных значений столбца `children`.

In [9]:
display(data['children'].unique())

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [10]:
data = data[(data['children'] != 20) & (data['children'] != -1)]

Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [11]:
display(data['children'].unique())

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)
<a name="43"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Заполним пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & \
             (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведем количество пропущенных значений для каждого столбца.

In [13]:
display(data.isna().sum())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных
<a name="44"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `.astype()`.

In [14]:
data['total_income'] = data['total_income'].astype('int')

### Обработка дубликатов
<a name="45"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру. Проверим остальные столбцы.

In [15]:
data['education'] = data['education'].str.lower()

Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.

In [16]:
display(data.duplicated().sum())

71

In [17]:
data.drop_duplicates()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Категоризация данных
<a name="46"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:

- 0–30000 — "E";
- 30001–50000 — "D";
- 50001–200000 — "C";
- 200001–1000000 — "B";
- 1000001 и выше — "A".


Например, кредитополучателю с доходом 25000 нужно назначить категорию "E", а клиенту, получающему 235000, — "B". Используем собственную функцию с именем `categorize_income()` и метод `.apply()`.

In [18]:
# создадим функцию categorize_income()

def categorize_income(row):
    if 0 <= row <= 30000:
        return 'E'
    elif 30001 <= row <= 50000:
        return 'D'
    elif 50001 <= row <= 200000:
        return 'C'
    elif 200001 <= row <= 1000000:
        return 'B'
    else:
        return 'A'

In [19]:
# применим функцию при помощи метода .apply()
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведим на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [20]:
display(data['purpose'].unique())

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:

- "операции с автомобилем";
- "операции с недвижимостью";
- "проведение свадьбы";
- "получение образования".

Например, если в столбце `purpose` находится подстрока "на покупку автомобиля", то в столбце `purpose_category` должна появиться строка "операции с автомобилем".

Используем собственную функцию с именем `categorize_purpose()` и метод `.apply()`. Изучим данные в столбце `purpose` и определим, какие подстроки помогут нам правильно определить категорию.

In [21]:
# создадим функцию categorize_purpose()

def categorize_purpose(row):
    if 'автомобил' in row:
        return 'операции с автомобилем'
    elif 'жил' in row or 'недвижимост' in row:
        return 'операции с недвижимостью'
    elif 'свад' in row:
        return 'проведение свадьбы'
    elif 'образован' in row:
        return 'получение образования'

In [22]:
# применим функцию при помощи метода .apply()
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Вывод
<a name="47"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

В разделе [**Предобработка данных**](#4.-Предобработка-данных) были выполнены следующие задачи:
- удалены пропуски;
- обработаны аномальные значения;
- изменены типы данных;
- обработаны дубликаты;
- выполнена категоризация данных.

В результате выполнения задач этого раздела было выявлено следующее:
1. Пропуски содержатся в двух столбцах - `days_employed` (общий трудовой стаж в днях) и `total_income` (ежемесячный доход). Причём количество пропусков в этих двух столбцах совпадает (2174). Исходя из этого, можно сделать предположение, что пропуски в данных, как и другие артефакты (например, отрицательное количество дней трудового стажа в столбце `days_employed`), появились в результате сбоя системы кредитного скоринга.
2. Заполнение пропусов медианным значением — лучшее решение для количественных переменных, потому что в данных могут храниться аномально высокие или низкие значения, которые не отражают характерные тенденции значений для исследуемого параметра. Если принимать среднее значение в такой выборке, результат может оказаться неоправданно завышенным или заниженным.

## Исследование данных
<a name="5"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Исследуем влияние различных факторов на возврат кредита в срок.

### Влияние количества детей на возврат кредита в срок
<a name="51"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Проверим, есть ли зависимость между количеством детей и возвратом кредита в срок.

In [23]:
data_pivot_children = data.pivot_table(
    index='children', values='debt', aggfunc=['count', 'sum', 'mean'])
display(data_pivot_children)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14149,1063,0.075129
1,4818,444,0.092154
2,2055,194,0.094404
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


Клиенты, имеющие детей, больше склонны к появлению задолженности по возврату кредитов. При этом существенной зависимости от колическтва детей не наблюдается. Выборка клиентов, имеющих 5 детей, слишком мала для того, чтобы на её основе делать какие-либо выводы о возврате кредитов по этой категории.

### Влияние семейного положения на возврат кредита в срок
<a name="52"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Проверим, есть ли зависимость между семейным положением и возвратом кредита в срок.

In [24]:
data_pivot_family_status = data.pivot_table(
    index='family_status', values='debt', aggfunc=['count', 'sum', 'mean'])
display(data_pivot_family_status)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2799,273,0.097535
в разводе,1189,84,0.070648
вдовец / вдова,952,63,0.066176
гражданский брак,4160,385,0.092548
женат / замужем,12302,927,0.075354


Клиенты, не состоящие в зарегистрированном браке, а также проживающие в гражданском браке, больше склонны к появлению задолженности по возврату кредитов. Исправней всех платят по кредитам клиенты категории "вдовец / вдова".

### Влияние уровня дохода на возврат кредита в срок
<a name="53"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Проверим, есть ли зависимость между уровнем дохода и возвратом кредита в срок.

In [25]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [26]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [27]:
data_pivot_total_income = data.pivot_table(
    index='total_income_category', values='debt', aggfunc=['count', 'sum', 'mean'])
display(data_pivot_total_income)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5014,354,0.070602
C,15992,1353,0.084605
D,349,21,0.060172
E,22,2,0.090909


Клиенты с доходом от 50001 до 200000 руб. больше склонны к появлению задолженности по возврату кредитов. Выборка клиентов с доходом до 30000 руб. слишком мала для того, чтобы на её основе делать какие-либо выводы о возврате кредитов по этой категории.

### Влияние цели кредита на возврат кредита в срок
<a name="54"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Проверим, как разные цели кредита влияют на его возврат в срок.

In [28]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [29]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

In [30]:
data_pivot_purpose = data.pivot_table(
    index='purpose_category', values='debt', aggfunc=['count', 'sum', 'mean'])
display(data_pivot_purpose)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4288,400,0.093284
операции с недвижимостью,10780,780,0.072356
получение образования,3997,369,0.092319
проведение свадьбы,2337,183,0.078306


Иметь задолженность по возврату кредитов больше склонны клиенты целевой категории "операции с автомобилем", а также получишие кредит для получения образования.

### Вывод
<a name="55"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

В разделе [**Исследование данных**](#5.-Исследование-данных) было изучено влияние различных факторов на возврат кредита в срок, а именно:
- количество детей;
- семейное положение;
- уровень дохода;
- цели кредита.

В результате выполнения задач этого раздела было выявлено следующее:
1. Клиенты, имеющие детей, больше склонны к появлению задолженности по возврату кредитов. При этом существенной зависимости от колическтва детей не наблюдается. Выборка клиентов, имеющих 5 детей, слишком мала для того, чтобы на её основе делать какие-либо выводы о возврате кредитов по этой категории.
2. Клиенты, не состоящие в зарегистрированном браке, а также проживающие в гражданском браке, больше склонны к появлению задолженности по возврату кредитов. Исправней всех платят по кредитам клиенты категории "вдовец / вдова".
3. Клиенты с доходом от 50001 до 200000 руб. больше склонны к появлению задолженности по возврату кредитов. Выборка клиентов с доходом до 30000 руб. слишком мала для того, чтобы на её основе делать какие-либо выводы о возврате кредитов по этой категории.
4. Иметь задолженность по возврату кредитов больше склонны клиенты целевой категории "операции с автомобилем", а также получишие кредит для получения образования.

## Общий вывод
<a name="6"></a> <div style="text-align: left">[Cодержание](#Содержание)</div>

Проведено исследование с целью выявить влияние различных факторов на возврат кредита в срок. 
        
Результаты исследования будут учтены при построении модели кредитного скоринга – специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку в срок.

Входные данные: статистика о платёжеспособности клиентов банка. 

Перед проведением исследования были сформулированы несколько гипотез:

- Гипотеза 1: количество детей влияет на возврат кредита в срок;
- Гипотеза 2: семейное положение влияет на возврат кредита в срок;
- Гипотеза 3: уровень дохода влияет на возврат кредита в срок;
- Гипотеза 4: цель кредита влияет на возврат кредита в срок.

В результате исследования удалось выявить следующие зависимости.

<b>Гипотеза 1 подтвердилась частично:</b>

(* для более точных выводов необходимо больше данных по клиентам с 3, 4 и 5 детьми)

- 7,5% - доля просроченных кредитов у заёмщиков без детей;
- 9,2% - доля просроченных кредитов у заёмщиков с 1 ребёнком;
- 9,5% - доля просроченных кредитов у заёмщиков с 2 детьми.

Рекомендация: провести дополнительное исследование на большей выборке данных.

<b>Гипотеза 2 подтвердилась:</b>

- У клиентов, не состоящих в зарегистрированном браке (9,8%), а также проживающих в гражданском браке (9,3%), выше вероятность стать должником.
- Клиенты  с семейным положением «в разводе» (7,1%), «женат/замужем» (7,6%) или «вдовец/вдова» (6,6%), менее вероятно становятся должниками.

Рекомендация: разница между двумя пунктами списка всего 3%, поэтому я бы не рекомендовала придавать этой зависимости большое значение при принятии решения о кредитоспособности.

<b>Гипотеза 3 подтвердилась частично:</b>

(* для более точных выводов необходимо больше данных по клиентам с уровнем дохода категории "D" (от 30001 до 50000), "A" (от 1000001), "E" (до 30000))

- 7,1% - доля просроченных кредитов у заёмщиков с уровнем дохода от 200001 до 1000000;
- 8,5% - доля просроченных кредитов у заёмщиков с уровнем дохода от 50001 до 200000.

Рекомендация: провести дополнительное исследование на большей выборке данных.

<b>Гипотеза 4 подтвердилась:</b>

- 7,3% - доля просроченных кредитов, целью которых были операции с недвижимостью;
- 7,9% - доля просроченных кредитов, целью которых было проведение свадьбы;
- 9,3% - доля просроченных кредитов, целью которых были операции с автомобилем;
- 9,3% - доля просроченных кредитов, целью которых было получение образования.

Рекомендация: разница между 1 и 4 пунктами списка всего 2%, поэтому я бы не рекомендовала придавать этой зависимости большое значение при принятии решения о кредитоспособности.

<b>Общие рекомендации:</b>

1.	Специалистам, которые занимаются построением модели кредитного скоринга, можно использовать зависимости из гипотез 2 и 4 (семейное положение и цели кредита).
2.	Необходимо собрать более полную выборку для повторной проверки гипотез 1 и 3.