# Исследование надежности заемщиков


**Входные данные:**

- статистика о платёжеспособности клиентов:

https://code.s3.yandex.net/datasets/data.csv

**Цель исследования:**
        
- Проверить влияние факторов:
        
    - Cемейное положение влияет на факт погашения кредита в срок.

    - Количество детей клиента влияет на факт погашения кредита в срок.

**Этапы проекта:**

- Обзор данных

- Предобработка данных

- Общий вывод

## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [746]:
import pandas as pd

In [747]:
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [748]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [749]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
children,21525.0,0.538908,1.381587,-1.0,0.0,0.0,1.0,20.0
days_employed,19351.0,63046.497661,140827.311974,-18388.949901,-2747.423625,-1203.369529,-291.095954,401755.4
dob_years,21525.0,43.29338,12.574584,0.0,33.0,42.0,53.0,75.0
education_id,21525.0,0.817236,0.548138,0.0,1.0,1.0,1.0,4.0
family_status_id,21525.0,0.972544,1.420324,0.0,0.0,0.0,1.0,4.0
debt,21525.0,0.080883,0.272661,0.0,0.0,0.0,0.0,1.0
total_income,19351.0,167422.302208,102971.566448,20667.263793,103053.152913,145017.937533,203435.067663,2265604.0


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [750]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

- Необходимо обработать пропуски в столбцах "days_employed" и "total_income".
        
- В столбцах "children" и "days_employed" присутствуют аномальные (отрицательные значения).
        
- Необходимо проверить соответствие типов данных в датасете.
        
- Проверить датасет на полные и неполные дубликаты.

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [751]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [752]:
data.total_income = data.total_income.fillna(data.groupby('income_type')['total_income'].transform('median'))

In [753]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [754]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [755]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [756]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [757]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [758]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [759]:
data.days_employed = data.days_employed.fillna(data.groupby('income_type')['days_employed'].transform('median'))

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [760]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [761]:
data.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

In [762]:
data['total_income'] = data['total_income'].astype(int)

In [763]:
data['days_employed'] = data['days_employed'].astype(int)

In [764]:
def mem_usage(pandas_obj):
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b = pandas_obj.memory_usage(deep=True).sum()
    else:
        usage_b = pandas_obj.memory_usage(deep=True)
    usage_mb = usage_b / 1024 ** 2 # преобразуем байты в мегабайты
    return "{:03.2f} MB".format(usage_mb)

gl_int = data.select_dtypes(include=['int'])
converted_int = gl_int.apply(pd.to_numeric,downcast='unsigned')

print(mem_usage(gl_int))
print(mem_usage(converted_int))

1.31 MB
0.43 MB


In [765]:
compare_ints = pd.concat([gl_int.dtypes,converted_int.dtypes],axis=1)
compare_ints.columns = ['before','after']
compare_ints.apply(pd.Series.value_counts)

Unnamed: 0,before,after
uint8,,5.0
uint32,,2.0
int64,7.0,


In [766]:
gl_float = data.select_dtypes(include=['float'])
converted_float = gl_float.apply(pd.to_numeric,downcast='float')

print(mem_usage(gl_float))
print(mem_usage(converted_float))

compare_floats = pd.concat([gl_float.dtypes,converted_float.dtypes],axis=1)
compare_floats.columns = ['before','after']
compare_floats.apply(pd.Series.value_counts)

0.16 MB
0.16 MB


Unnamed: 0,before,after


In [767]:
optimized_gl = data.copy()

optimized_gl[converted_int.columns] = converted_int
optimized_gl[converted_float.columns] = converted_float

print(mem_usage(data))
print(mem_usage(optimized_gl))

11.78 MB
10.90 MB


### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [768]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [769]:
data.duplicated().sum()

71

In [770]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [771]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [772]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [773]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [774]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [775]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Посмотрим какие могут быть значения в столбце 'debt'

In [776]:
data.debt.unique()

array([0, 1])

Просрочки по погашению либо были, либо нет.

Проверим какое среднее число несвоевременных погашений среди всех заёмщиков, чтобы понимать, какие значения можно считать хорошими/плохими, а какие аномальными.

In [777]:
data.debt.mean()

0.08119638085415593

Для формулировки вывода, предварительно, сгруппировал данные по колонке 'children', и вычислил долю обращений за кредитом по этой группе.

In [778]:
def share(x):
    return f'{x.count() / len(data) * 100}%'

In [779]:
data.groupby('children').agg({'debt':'mean', 'children':share})

Unnamed: 0_level_0,debt,children
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.075438,66.05878767990248%
1,0.092346,22.53996530870564%
2,0.094542,9.619802165861891%
3,0.081818,1.5470442079602456%
4,0.097561,0.19220852280718204%
5,0.0,0.04219211476255215%


**Вывод:** 

- По данным значениям: подавляющее число обращений (66%) - это заемщики без детей; и всего 9 человек из списка имею 5 детей.

- Можем сделать вывод, что между количеством детей и возвратом кредита в срок, **зависимость есть.**
        
- Показатель своевременного погашения только заемщиков **без детей** ниже среднего. Остальные категории попадают в "группу риска". Больше всего просроченных платежей у заёмщиков с 4мя детьми (заемщиков с 5 детьми в данной категории проигнорируем, в виду очень низкого % таких заёмщиков).

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

Изучим долю обращений по категории 'Семейное положение', чтобы понять, есть ли аномальные значения, которые лучше изучить отдельно.

In [780]:
data.groupby('family_status').agg({'debt':'mean', 'children':share})

Unnamed: 0_level_0,debt,children
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,0.097639,13.107683652899535%
в разводе,0.070648,5.574047161408279%
вдовец / вдова,0.066246,4.4583001265763444%
гражданский брак,0.09313,19.380244714265622%
женат / замужем,0.075606,57.47972434485021%


**Вывод:** 

Чаще всего за кредитом обращаются женатые (замужние) - 57,5%. Однако, для формирования вывода, этого не достаточно. Например, люди, которые находятся в отношениях, не всегда определяют свой статус, как 'в гражданском браке'. Аналогично, со статусом 'Не женат / не замужем'.\
В итоге, можем сделать вывод, что между семейным положением и возвратом кредита в срок, зависимость есть.\
Но, учитывая специфичность категорий и наличие фактора субъективного распределения людей по данным группам, не следует рассматривать данную зависимость, как решающую, но можно учеть результат данного исследования, как вспомогательный, при принятии решения.\
Отметим, что самая многочисленная группа ("женат / замужем"), по сравнению с другими, имеет неплохой средний показатель возврата в срок (0.076), что является показателем просрочек по платежам - ниже среднего.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

- На основании категоризации из п.2.6, сгруппируем данные по столбцу "total_income_category" и посчитаем средне значение просроченных платежей по каждой категории.
        
0–30000 — 'E';
        
30001–50000 — 'D';
        
50001–200000 — 'C';
        
200001–1000000 — 'B';
        
1000001 и выше — 'A'


In [781]:
data.total_income_category.unique()

array(['B', 'C', 'D', 'E', 'A'], dtype=object)

In [782]:
data.groupby('total_income_category')['debt'].mean()

total_income_category
A    0.080000
B    0.070602
C    0.084982
D    0.060172
E    0.090909
Name: debt, dtype: float64

**Вывод:** 

Чаще всего имеют просроченные платежы заемщики из категории Е (доход от до 30 000). 
        
- Наиболее ответственная категория - D, с доходом от 30 001 до 50 000.

- Как не удивительно, категории с доходом более 50 000 чаще имеют просроченные задолженности.\
Нужно анализировать суммы выданных кредитов по данным категориям. Возможно они сильно выше, чем для категорий D и E и с платяжами сложно справится, даже с высоким уровнем дохода.

В столбце "total_income" было много пропущенных значений, которые мы заменили медианными. Это может сильно повлиять на исследование.\
Попробуем найти зависимость не от уровня дохода, а от типа занятости, т.к. эти категории наиболее пересекаются.
        
- Проверим какие типы занятости есть в датасете, чтобы исключить аномальные значения, не влияющие на общий вывод.\
Проигнорируем категории "безработный", "в декрете", "предприниматель" и "студент", т.к. для вывода по ним недостаточно данных (слишком мало обращений).
        
- Вычислим среднее значение несвоевременных выплат для каждого типа занятости.

In [783]:
data.total_income.median()

142594.0

In [784]:
data.total_income.value_counts().head()

142594    1066
172357     498
118514     384
150447     144
244123       3
Name: total_income, dtype: int64

In [785]:
data.groupby('income_type').agg({'debt':'mean', 'total_income':['median','count']})

Unnamed: 0_level_0,debt,total_income,total_income
Unnamed: 0_level_1,mean,median,count
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,0.5,131339,2
в декрете,1.0,53829,1
госслужащий,0.059269,150447,1451
компаньон,0.074103,172357,5047
пенсионер,0.056663,118514,3812
предприниматель,0.0,499163,2
сотрудник,0.095688,142594,11015
студент,0.0,98201,1


**Вывод:** 

- Из-за большого количества полных дубликатов в столбце "total_income", без дополнительных разъяснений, делать вывод о влиянии уровня дохода на возврат кредита в срок нельзя, т.к. невозможно объективно разделить уровень дохода на категории.

- Если данные в таблице все же верны, то разумнее проследить зависимость от типа занятости. 
       
- К рискованной категории можно отнести заёмщиков с типом занятости "сотрудник" (0.096). Среднее значение возврата по остальным категориям - ниже 0.08.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [788]:
data.groupby('purpose_category').agg({'debt':['mean', share]})

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,mean,share
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,0.09348,20.060006563217854%
операции с недвижимостью,0.072551,50.40082509024425%
получение образования,0.092528,18.695794852562%
проведение свадьбы,0.079118,10.843373493975903%


**Вывод:**

- Кредиты на "операции с недвижимостью" и "проведение свадьбы" чаще возвращают в срок, чем средства выданные на "операции с автомобилем" или "получение образования".

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

- Ошибка при переносе данных
        
- Необязательный пункт для заполнения и люди не захотели оставлять данные
        
- Человечиский фактор. Кто-то мог забыть заполнить или удалить данные
        
- Это может быть намеренно оставленная "заглушка"(специальный код).
        
- Пропущенные значения могут соответствовать нулевому значению или знаку "-", при внесении.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

- Медианное значение менее подвержено наличию выбросов и аномально маленьких или больших значений. Меньше влияние крайних значений на среднее.

### Шаг 4: общий вывод.

- Семейное положение и количество детей клиента **влияют** на факт погашения кредита в срок.
    
- `66%` заемщиков не имеют детей, и у этой группы самый низкий средний показатель просрочек платежей. Всего `7,5%` - что является ниже среднего общего показателя `8,1%`.\
- Самая рискованная категория в данной группе - заемщики с 2мя детьми. `9,5%` из них допускают несвовременное погашение. Группы с 4мя и 5ю детьми в данном исследовании проигнорированы, в виду своей малочисленности.\
- Люди в браке, в среднем, реже допускают просрочки чем другие категории в группе "Семейное положение" - всего `7,6%`. Эта категория, так же, самая обширная - `57,5%`.\
- Уровень дохода, тип занятости и цель займа, так же, влияют на своевременное погашение.\
- Необходимо учесть, что каждое значение, по-отдельности, оказывает косвенное влияние. Решение необходимо принимать на совокупности всех факторов и доступных вводных данных.

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 

