# Исследование надежности заемщиков


Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
children = data.pivot_table(index=['children'], values='debt', aggfunc=('mean','sum','count'))

def percent(i):
    return '{0:.2%}'.format(i)

children['mean'] = children['mean'].apply(percent)

children = children.rename(columns={
    'sum': 'сумма',
    'count': 'количество',
    'mean': 'среднее'
})
children

Unnamed: 0_level_0,количество,среднее,сумма
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,7.54%,1063
1,4808,9.23%,444
2,2052,9.45%,194
3,330,8.18%,27
4,41,9.76%,4
5,9,0.00%,0


**Вывод:** 
Взглянув на таблицу мы увидим, что у заёмщиков с 3,4 и 5 детьми недостаточное количество данных в сравненнии другими категориями.

    14091 - бездетные 
    4808 - 1 ребёнок
    2052 - 2 ребёнка
    330 - 3 ребёнка
    41 - 4 ребёнка
    9 - 5 детей

Отбросив малочисленные группы и продолжив анализ оставив только три самые большие выборки с одним, двумя и отсутствием детей, можем заметить,что бездетные заёмщики(7.54%) с большей вероятностью возвращают кредиты в сравнении с гражданами с 1(9.23%) и 2(9.45%) детьми.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [23]:
family = data.pivot_table(index=['family_status'], values='debt', aggfunc=('mean','sum','count'))

def percent(i):
    return '{0:.2%}'.format(i)

family['mean'] = family['mean'].apply(percent)

family = family.rename(columns={
    'sum': 'сумма',
    'count': 'количество',
    'mean': 'среднее'
})
family

Unnamed: 0_level_0,количество,среднее,сумма
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,9.76%,273
в разводе,1189,7.06%,84
вдовец / вдова,951,6.62%,63
гражданский брак,4134,9.31%,385
женат / замужем,12261,7.56%,927


***Глядя на таблицу сложно определить зависимость от семейного положения.Углубимся в анализ и разделим людей на 2 группы: 'состоявшие или состоящие в зарегистрированном браке' и 'не состоявшие в зарегистрированном браке'***

In [24]:
def family_groups(i):
    try:
        if 'Не женат / не замужем' in i or 'гражданский брак' in i:
            return 'не состоявшие в зарегистрированном браке'
        elif 'в разводе' in i or 'вдовец / вдова' in i or 'женат / замужем' in i:
            return 'состоявшие или состоящие в зарегистрированном браке'
    except:
        return 'некорректное значение'
    
data['family_groups'] = data['family_status'].apply(family_groups)    
    

**Создадим таблицу категоризированных данных**

In [25]:
family = data.pivot_table(index=['family_groups'], values='debt', aggfunc=('mean','sum','count'))

def percent(i):
    return '{0:.2%}'.format(i)

family['mean'] = family['mean'].apply(percent)

family = family.rename(columns={
    'sum': 'сумма',
    'count': 'количество',
    'mean': 'среднее'
})

family

Unnamed: 0_level_0,количество,среднее,сумма
family_groups,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
не состоявшие в зарегистрированном браке,6930,9.49%,658
состоявшие или состоящие в зарегистрированном браке,14401,7.46%,1074


**Вывод:** 
В таблице мы можем наблюдать разницу в 2.03% между 'не состоявшие в зарегистрированном браке' и 'состоявшие или состоящие в зарегистрированном браке', что в свою очередь является существенным показателем. Следовательно мы можем подтвердить зависимость погашения кредита от семейного положения.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [26]:
income = data.pivot_table(index=['total_income_category'], values='debt', aggfunc=['sum', 'count', 'mean'])
income.columns = ['сумма', 'количество', 'среднее']
income['среднее'] = [f'{x:.2%}' for x in income['среднее']]

income

Unnamed: 0_level_0,сумма,количество,среднее
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,25,8.00%
B,354,5014,7.06%
C,1353,15921,8.50%
D,21,349,6.02%
E,2,22,9.09%


**Вывод:** 
Ознакомившись с таблицей мы можем наблюдать две категории граждан: 'B' и 'C' с наибольшим количеством займов.Остальные группы:'A','D','E' можем отбросить из анализа, так как их количество несущественно. Обратившись к таблице мы увидим существенное отличие в количестве кредитуемых граждан: 'С'- 15921 и 'B'- 5014.Помимо этого заёмшики категории 'C' реже заёмщиков категории 'B' оплачивают задолженность вовремя, разница составляет 1.44%. Следовательно мы наблюдаем зависимость от уровня дохода для погашения кредита в срок.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [27]:
purpose_group = data.pivot_table(index=['purpose_category'], values='debt', aggfunc=['sum', 'count', 'mean'])
purpose_group.columns = ['сумма', 'количество', 'среднее']
purpose_group['среднее'] = [f'{x:.2%}' for x in purpose_group['среднее']]

purpose_group

Unnamed: 0_level_0,сумма,количество,среднее
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,400,4279,9.35%
операции с недвижимостью,780,10751,7.26%
получение образования,369,3988,9.25%
проведение свадьбы,183,2313,7.91%


**Вывод:** 
Посмотрев на таблицу мы обнаружим,что задолженность по операциям с недвижимостью наименьшая и равна 7.26%.Так же интересной особенностью категории с недвижимостью является большое количество займов, равное 10751,возможно это связано с государственными льготами.Операции с автомобилями имеют самую высокую задолженность и равны 9.35%.Практически аналогичный показатель автомобильным операциям имеет категория взявшая кредит на получение высшего образования - 9.25%.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*
Проанализировав исходные данные были выявлены пропуски в столбцах "days_employed" и "total_income".Обратившись к таблице полученной методами "isna" и "sum" было обнаружено одинаковое количество пропусков - 2174, руководствуясь этими данными можем наблюдать корреляцию между "days_employed" и "total_income".Причиной пропусков в "days_employed" может быть отсутствие официального трудоустройства, а следовательно логичны пропуски в "total_income".

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 
Медиана, как и среднее значение, нужна для определения типичного значения в наборе данных. Чтобы найти медиану, данные нужно расположить в порядке возрастания. Медианой будет значение, которое совпадает с серединой набора данных. Если количество значений чётное, то берётся среднее двух значений, которые «окружают» середину. Чтобы застраховаться от ошибок, вызванных средним значением, можно применять медианное. Медиана поможет найти именно тот показатель, который ближе всего к истинно среднему. На неё не влияют выбивающиеся из общей массы числа, поэтому она считается одним из самых надёжных и устойчивых показателей. С помощью медианы можно получить более точные данные и правильнее интерпретировать статистику. Например, при расчёте средней заработной платы, когда 19 сотрудников получают по 20 тысяч рублей, а директор — миллион. Среднее арифметическое в этом случае будет равным 69 тысячам рублей, а медиана — 20.

### Шаг 4: общий вывод.

Было проведено исследование,чтобы выявить влияние разных факторов на факт погашения кредита в скрок.Входные данные - статистика о платёжеспособности клиентов.Результаты исследования будут учтены при построении модели кредитного скоринга - специальной системы,которая оценивает способность потенциального заёмщика вернуть кредит банку.

Преред проведением исследования были поставлены несколько гипотез:

    -Гипотеза 1: количество детей влияет на возврат кредита в срок;
    -Гипотеза 2: семейное положение влияет на возврат кредита в срок;
    -Гипотеза 1: уровень дохода влияет на возврат кредита в срок;
    -Гипотеза 1: цели кредита влияют на возврат кредита в срок.

В результате удалость выявить зависимости.

**Гипотеза 1 частично подтверждена:** для более точных выводов необходимо больше данных по клиентам с 3,4 и 5 детьми.

    -7.54% - доля просроченых кредитов у заёмщиков без детей;
    -9.23% - доля просроченых кредитов у заёмщиков у заёмщиков с 1 ребёнком;
    -9.45% - доля просроченых кредитов у заёмщиков с 2 детьми.

Рекомендация: провести дополнительное исследование на большей выборке данных.

**Гипотеза 2 подверждена**

У не женатых клиентов(9.76%) и тех у кого официально не зарегестрирован брак(9.31%), выше вероятность неуплаты по кредиту.
Те кто в разводе (7.06%), женат/замужем(7.56%) или вдовец/вдова(6.62%), меньше вероятность не выполнить обязательства по кредиту.

Из даннного исследования мы можем сделать вывод,что люди состоявшие или состоящие в зарегистрированном браке чаще выплачивают задолженнности по кредиту(7.46%),в сравнении с категорией никогда не состоявшей в зарегестрированном браке(9.49%).

**Гипотеза 3 частично подверждена:** для более точных выводов необходимо больше данных по клиентам с уровнем дохода из категорий: 'D'(от 30001 до 50000),'E'(до 30000),'A'(от 1000001).

    -7.06% - доля просроченных кредитов у заёмщиков с уровнем дохода от 200001 до 1000000;
    -8.50% - доля просроченных кредитов у заёмщиков с уровнем дохода от 50001 до 200000.

Рекомендация: провести дополнительное исследование на большей выборке данных.

**Гипотеза 4 подтверждена:**

    -7.26% - доля просроченных кредитов,целью которых были операции с недвижимостью;
    -7.91% - доля просроченных кредитов,целью которых было проведение свадьбы;
    -9.35% - доля просроченных кредитов,целью которых были операции с автомобилями;
    -9.25% - доля просроченных кредитов,целью которых было получени образования.

Из даннного исследования мы можем сделать вывод,что люди берущие кредит на оперции с недвижимостью более ответственно подходят к задолженности(7.26%).Так же люди берущие кредит для проведения свадьбы более ответственно подходят к выполнению своих обязательств(7.91%) в сравнениями с другими категориями: 'операции с автомобилями'(9.35%), 'получени образования'(9.25%).
**Общие рекомендации:**
1.Специалистам,которые занимаются построением моделикредитного скоринга,можно использовать зависимости из второй и четвёртой гипотезы(семейное положение и цели кредита).
2.Необходимо собрать более полную выборку для повторной проверки первой и третьей гипотез.