# Исследование надежности заемщиков


Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Описание проекта
**Заказчик**: кредитный отдел банка. 

**Цель исследования** - проверить гипотезы: 
1. Семейное положение влияет на факт погашения кредита в срок. 
2. Количество детей клиента влияет на факт погашения кредита в срок. 

**Входные данные от банка**: статистика о платёжеспособности клиентов.

**Результаты исследования**: будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [11]:
# импорт библиотеки pandas
import pandas as pd

# чтение csv-файла с данными статистика о платёжеспособности клиентов (/datasets/data.csv) в DataFrame 
# и сохранение в  переменную "data"
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [12]:
# получение первых 20 строк таблицы data
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Из данной выборки видим, что в полученных данных имеются явные нарушения качества данных:

1. В двух столбцах есть пропущенные значения:
    * `days_employed`.
    * `total_income`
2. Отрицательное количество дней трудового стажа в столбце `days_employed`. 
3. В столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв.
        
В связи с этим возникает необходимость проведения предподготовки данных к анализу.

**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [13]:
# получение общей информации о данных в таблице data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. 
Тип данных столбцов:
* вещественный тип(float64):  `days_employed`, `total_income`
* целочисленный тип(int64): `children`, `dob_years`, `education_id`, `family_status_id`, `debt`
* строковый тип(object): `education`, `family_status`, `gender`, `income_type`, `purpose`

Согласно документации к данным:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита


Количество значений в столбцах `days_employed`(19351) и  `total_income`(19351) отличаются от общего количества строк (21525). 
Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные о клиентах получавших кредит в банке. 
Часть колонок описывает саму информацию необходимую для получения кредита клиентом: 
* тип занятости (`income_type`)
* имелась ли задолженость по кредиту (`debt`)
* ежемесячный доход (`total_income`)
* цель получения кредита (`purpose`). 

Остальные данные рассказывают о клиенте: 
* сколько у него детей (`children`)
* общий трудовой стаж (`days_employed`)
* возраст клиента (`dob_years`) 
* уровень образования клиента (`education` и `education_id`)
* семейное положение (`family_status` и `family_status_id`)
* пол клиента (`gender`)

Предварительно можно утверждать, что данных достаточно для проверки гипотез. Но:

* встречаются пропуски в данных
* анамалии в виде отрицательных значений в столбце общий трудовой стаж (`days_employed`)
* в столбце `education` одни и те же значения записаны в отдних и техже реестрах 
* для двух пар столбцов наблюдается избыточность данных требующая декомпозиции основной таблицы `data`   
    * `education` и `education_id` - данные дублируют друг друга в строковом и числовом-категориальном формате
    * `family_status` и `family_status_id` - данные дублируют друг друга в строковом и числовом-категориальном формате
      
       
Заметим, что  названия колонок соответствуют требованиям хорошего стиля и не требуют корректировки.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [14]:
# подсчет пропусков
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [15]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [16]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [17]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [18]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [19]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [20]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [21]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [22]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [23]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [24]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [25]:
data.duplicated().sum()

71

In [26]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [27]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [28]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [29]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [30]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [31]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

Для тоого, чтобы определить категории по возрастанию риска невозврата (или просрочек) по кредиту, необходимо сгруппировать клиентов по искомым категориям, посчитать их просрочки и найти процент клиентов от текущей группы, которые имеют задолженность.

Поэтому, важно анализировать процент просрочек, а не их абсолютное значение для анализа и дальнейшего применения при построении модели кредитного скоринга клиентов.

В связи с тем что в каждой группе может быть различное количество клиентов, будем выводить 2 результата:

общий список по искомым категориям;

усеченный список с исключением категорий, в которых менее 100 клиентов.

Количество в 100 клиентов дает точность с минимальным шагом в 1% и составляет менее 1% от представленной выборки, поэтому не является критичным для общего массива данных.

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Составим таблицу для анализа взаимосвязи между количеством детей и невозвратом кредита в срок:
* группы клиентов по количеству детей;
* абсолютное количество просрочек по группе;
* количество клиентов по группе;
* процент просрочек в группе.

In [99]:
#сгруппируем информацию о просроченых кредитах в разрезе количества детей клиентов и запишем в таблицу data_grouped_children
data_grouped_children = data.groupby('children')['debt'].agg(['count','sum','mean'])
data_grouped_children.columns = ['общее_количество_кредитов', 'количество_невозвратов', 'доля_должников']

print(data_grouped_children.sort_values(by='доля_должников', ascending=True))

          общее_количество_кредитов  количество_невозвратов  доля_должников
children                                                                   
5                                 9                       0        0.000000
0                             14091                    1063        0.075438
3                               330                      27        0.081818
1                              4808                     444        0.092346
2                              2052                     194        0.094542
4                                41                       4        0.097561


Как видим из таблицы, количество клиентов с пятью и четырмя детьми не превышает 100 человек. Очевидно, общее количество людей, у которых 4 и более детей в семье - это редкость. Эти данные можно использовать для анализа, но они, с моей точки зрения, полноценны для проведения анализа.

Уберем эти группы и подготовим данные для анализа

In [80]:
data_grouped_children.loc[data_grouped_children['count'] > 100].sort_values(by='percentage',ascending=True)

Unnamed: 0_level_0,debt,count,percentage
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14091,7.543822
3,27,330,8.181818
1,444,4808,9.234609
2,194,2052,9.454191


**Вывод:** 
Заемщики без детей наиболее чаще берут кредиты, их доля составляет 66% от общего количества кредитов и  выплачивают кредиты исправнее, чем заемщики с детьми. 

Возвожно, это связано с увеличенными рисками внезапных трат связанными с детьми.


#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Составим таблицу для анализа взаимосвязи между семейным положением и возвратом кредита в срок:
* группы семейного положения клиентов;
* абсолютное количество просрочек по группе;
* количество клиентов по группе;
* процент просрочек в группе.

In [105]:
#сгруппируем информацию о просроченых кредитах в разрезе семейного положения клиентов и запишем в таблицу data_grouped_family_status
data_grouped_family_status = data.groupby('family_status')['debt'].agg(['count','sum','mean'])
data_grouped_family_status.columns = ['общее_количество_кредитов', 'количество_невозвратов', 'доля_должников']

print(data_grouped_family_status.sort_values(by='доля_должников', ascending=True))


                       общее_количество_кредитов  количество_невозвратов  \
family_status                                                              
вдовец / вдова                               951                      63   
в разводе                                   1189                      84   
женат / замужем                            12261                     927   
гражданский брак                            4134                     385   
Не женат / не замужем                       2796                     273   

                       доля_должников  
family_status                          
вдовец / вдова               0.066246  
в разводе                    0.070648  
женат / замужем              0.075606  
гражданский брак             0.093130  
Не женат / не замужем        0.097639  


В данной выборке нет ни одной группы, которая могла бы быть нерелевантной для выборки. Отсекать нечего, поэтому эти данные идут в анализ для скоринга.

**Вывод:** 
Наименьшие количество невозвратов по платежам принадлежат группе вдов/вдовцов, в то время как у клиентов, которые не находятся в отношениях (Не женат / не замужем) в 1.5 раза выше, чем у вдов и вдовцов. Возможно, это связано с тем, что наличие текущих отношений или отношений в прошлом заставляют людей быть более дисциплинированными.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Составим таблицу для анализа взаимосвязи между уровнем дохода и невозвратом кредита в срок:
* категории дохода клиентов;
* абсолютное количество просрочек по группе;
* количество клиентов по группе;
* процент просрочек в группе.


Напомним что для клиентов определены, следующие категории доходов

* 0–30000 — `'E'`;
* 30001–50000 — `'D'`;
* 50001–200000 — `'C'`;
* 200001–1000000 — `'B'`;
* 1000001 и выше — `'A'`.


In [108]:
#сгруппируем информацию о просроченых кредитах в разрезе категории доходов (total_income_category) и запишем в таблицу data_grouped_purpose_category

data_grouped_purpose_category = data.groupby('total_income_category')['debt'].agg(['count','sum','mean'])
data_grouped_purpose_category.columns = ['общее_количество_кредитов', 'количество_невозвратов', 'доля_должников']

print(data_grouped_purpose_category.sort_values(by='доля_должников', ascending=True))


                       общее_количество_кредитов  количество_невозвратов  \
total_income_category                                                      
D                                            349                      21   
B                                           5014                     354   
A                                             25                       2   
C                                          15921                    1353   
E                                             22                       2   

                       доля_должников  
total_income_category                  
D                            0.060172  
B                            0.070602  
A                            0.080000  
C                            0.084982  
E                            0.090909  


В данной таблице взаимосвязи присутствуют группы заемщиков категорий доходов `А` и `Е`, в которых менее 100 человек. Убираем эти группы и подготовим таблицу для дальнейшего анализа зависимости.

In [92]:
data_grouped_income_category.loc[data_grouped_income_category['count'] > 100].sort_values(by='percentage',ascending=True)

Unnamed: 0_level_0,debt,count,percentage
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,21,349,6.017192
B,354,5014,7.060231
C,1353,15921,8.49821


**Вывод:** 
Наиболее дисциплинированными заемщиками являются клиенты категории дохода "D" - с уровнем дохода от 30 до 50 тясяч рублей.
Но при этом зависимость между уровнем дохода и возвратом кредита в срок прослеживается слабо.
Вероятне всего на получение влияют дополнительные неучтенные внешние факторы.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

Составим таблицу для анализа взаимосвязи между целями кредита и невозвратом кредита в срок:
* цель кредита;
* абсолютное количество просрочек по группе;
* количество клиентов по группе;
* процент просрочек в группе.


Напомним что для клиентов определены, цели кредитов:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`


In [109]:
#сгруппируем информацию о просроченых кредитах в разрезе категорий целей кредитов (purpose_category)  и запишем в таблицу data_grouped_total_category

data_grouped_total_category = data.groupby('purpose_category')['debt'].agg(['count','sum','mean'])
data_grouped_total_category.columns = ['общее_количество_кредитов', 'количество_невозвратов', 'доля_должников']

print(data_grouped_total_category.sort_values(by='доля_должников', ascending=True))


                          общее_количество_кредитов  количество_невозвратов  \
purpose_category                                                              
операции с недвижимостью                      10751                     780   
проведение свадьбы                             2313                     183   
получение образования                          3988                     369   
операции с автомобилем                         4279                     400   

                          доля_должников  
purpose_category                          
операции с недвижимостью        0.072551  
проведение свадьбы              0.079118  
получение образования           0.092528  
операции с автомобилем          0.093480  


В данной выборке нет ни одной группы с количеством заемщиков <100, поэтому эти данные идут в анализ для скоринга в полном объеме.

**Вывод:** 
Займы по операциям с недвижимостью составляют 50% от общего количества и при этом заемщики ответственнее подходят к выплатам. Займы по автокредитам имеют и на образование приблизительно равны друг дуругу, и имеют наибольшую долю задолженностей.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

Судя по количеству недостающих данных (ровно по 2174 в каждом из столбцов), кажется, что отсутствие данных связано с человеческим фактором - оператор не внес размер дохода и стаж заемщика или какой-то определенный контрагент не собирает эти данные. Возможно, при более глубоком анализе можно будет обнаружить, что пропуски связаны с какой-то определенной категорией:

* заемщики по свадебным кредитам, для будущей семьи-студентов без стажа и дохода;
* заемщики по образовательным кредитам, которые не имеют стажа и дохода.


Причина пропуска может быть технологической - это сбой работы БД при выгрузке, сбой работы приложений, при внесении данных в базу, неудачная миграция данных в процессе переноса данных или обновления.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Когда мы обнаружили пустые значения можно сделать несколько действий с этими значениями.

1) Ничего не делать
Тогда эти значения будут мешать операциям с ячейками и искажать данные. Например, если мы захотим посчитать средний стаж по определенной группе, нам надо будет поделить общий стаж на количество людей. При этом, мы ошибемся не посчитав пустые ячейки. Таким образом среднее значение будет отличаться от реального.

2) Удалить строки с пустыми значениями
Это сделать можно, если нет никаких разумных подходов по заполнению этих пустых значений и удаление такого количества данных не скажется на общие посчеты

3) Заменить значения на определенные, заранее заданные
Для этого необходимо определиться, на что меняем пустые значения. Пустые значения можно заменить медианным или среднеарифметическим значением. Среднеарифметическое значение чувствительно к пиковым и экстремальным значениям в выборке и не всегда отображает реальность. 

В то же время медианное значение не искажает картину распределения по пользователям. 

Например, если в выборке появится несколько людей с экстремально высокими или низкими показателями, они не повлияют (или не значительно повлияют) на медианное значение, когда среднеарифметическое значение может резко вырасти или уменьшиться. Среднее арифметическое может совпадать с медианой только в симметричных выборках, что на практике встречается крайне редко.

**Вывод:
Таким образом, замена пустых ячеек на медианное значение является оптимальным. Таким образом мы сохраняем остальные данные в этих строках и не вносим искажения в общую статистику по пустым ячейкам.**

### Шаг 4: общий вывод.

Для улучшения системы скоринга клиентов была проанализирована выборка текущих клиентов и их задолженностей по платежам.

В рамках анализа были проверены следующие гипотезы:

**1. Есть ли зависимость между количеством детей и возвратом кредита в срок?**


В рамках данного исследования не удалось оценить группы клиентов с 4 и 5 детьми - выборка оказалась слишком малой для анализа.

Категория клиентов без детей оказалась самой многочисленной и процент задержек по кредиту самый низкий - 7.54%. 
Самый высокий процент задержек по оплатам оказался у клиентов с двумя детьми и составляет 9.45%.
Заемщики без детей наиболее чаще берут кредиты, их доля составляет 66% от общего количества кредитов 
При этом наблюдается явная зависимоть  снижения общего количества кредитов от увеличения количества детей
Вероятно, это связано с увеличенными рисками внезапных трат на детей и возрастанием уровня оценки необходимости получения кредита.

**2.Есть ли зависимость между семейным положением и возвратом кредита в срок?**

По результатам проверки данной гипотезы выявлена следующая закономерность - меньше всего просрочек по кредитам у вдов/вдовцев (6.62%), больше всего у клиентов, не состоящих в отношениях (9.76%). Самой массовой категорией являются клиенты в браке, процент просрочек по данной категории составляет 7.56%

количество невозвратов у клиентов, которые не находятся в отношениях (Не женат / не замужем) в 1.5 раза выше, чем у вдов и вдовцов. Возможно, это связано с тем, что наличие текущих отношений или отношений в прошлом заставляют людей быть более дисциплинированными.

**3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

По результатам проверки данной гипотезы выявлена следующая закономерность - меньше всего просрочек по кредитам у клиентов с уровнем дохода от 30 000 до 50 000 руб в месяц (6.02%), больше всего у клиентов с уровнем дохода от 200 000 до 1 000 000 руб в месяц (8.50%). Эта же категория (от 200 000 до 1 000 000) является наиболее массовой в выборке.

Наиболее дисциплинированными заемщиками являются клиенты категории дохода "D" - с уровнем дохода от 30 до 50 тясяч рублей, но при этом они не так часто берут кредиты их  доля кредитов от общего количества составляет:  1,6 %

В то время как:
* для клиенов с уровнем дохода от 50 000 до 200 000 руб  доля кредитов от общего количества составляет:  75%
* для клиентов с уровнем дохода от 200 000 до 1 000 000 руб  доля кредитов от общего количества составляет:  24%
 

Категория клиентов с экстремальными значениями доходов (ниже 30 000 руб или выше 1 000 000 руб) являются слишком малой. Достоверно говорить о вероятностях просрочек от этих клиентов нельзя.


**4.Как разные цели кредита влияют на его возврат в срок?**
По результатам проверки данной гипотезы выявлена следующая закономерность - меньше всего просрочек по кредитам по займам на недвижимость (7.26%), больше всего по займам на автомобиль (9.35%). 
Займы по операциям с недвижимостью составляют 50% от общего количества и при этом заемщики ответственнее подходят к выплатам. 

Помимо проведенного анализа, было бы неплохо еще провести анализ по количеству дней просрочки и объемам просрочек. Этот анализ позволит определить более точно, какая группа, с точки зрения задолженности порождает наибольшие финансовые проблемы. Данные можно использовать для скоринга.