# Исследование надежности заемщиков


<div class="alert-info" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px">
<b></b>
    
## Краткое описание
    
**Цели исследования:**
    
1) Выявим влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.
    
2) Определим какие еще факторы могут влиять на способность клиента вернуть кредит вовремя.
    
3) Проанализируем какие клиенты представляют для банка наибольший риск, а какие являются наиболее надежными.
      
**Описание данных:**
    
Входные данные от банка — статистика о платёжеспособности клиентов.
    
children — количество детей в семье
    
days_employed — общий трудовой стаж в днях
    
dob_years — возраст клиента в годах
    
education — уровень образования клиента
    
education_id — идентификатор уровня образования
    
family_status — семейное положение
    
family_status_id — идентификатор семейного положения
    
gender — пол клиента
    
income_type — тип занятости
    
debt — имел ли задолженность по возврату кредитов
    
total_income — ежемесячный доход
    
purpose — цель получения кредита
    
    
**План работы:** 

- изучим общую информацию о данных;
- выявим пропуски, аномальные значения и дубликаты;
- удалим пропуски, обработаем аномальные значения и дубликаты;
- при необходимости изменим тип данных для анализа;
- категоризируем данные;
- сгруппируем и произведем вычисления;
- изучим полученные результаты и сделаем выводы. 
</div>

## Знакомство с данными

In [1]:
import pandas as pd

In [2]:
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<div class="alert-info" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px">
<b></b>

**Промежуточный вывод:** 
Мы посмотрели таблицу и изучили общую информацию о данных. Видно что встречаются аномальные значения, пропуски и дубликаты, их необходимо будет обработать в следующих разделах.
    </div>

## Предобработка данных

### Удаление пропусков

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [6]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработаем значения в этом столбце: заменим все отрицательные значения положительными с помощью метода `abs()`.**

In [7]:
data['days_employed'] = data['days_employed'].abs()

**Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.**

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим их как есть. Тем более этот столбец не понадобится нам для исследования.

**Выведем перечень уникальных значений столбца `children`.**

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [10]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Ещё раз выведем перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Убедимся, что все пропуски заполнены. Проверим себя и ещё раз выведем количество пропущенных значений для каждого столбца.**

In [13]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [14]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру.**

In [15]:
data['education'] = data['education'].str.lower()

**Выведем на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.**

In [16]:
data.duplicated().sum()

71

In [17]:
data = data.drop_duplicates()

<div class="alert-info" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px">
<b></b>

**Промежуточный вывод:** 
Мы выявили пропуски в столбцах с данными о стаже и доходе. Пропуски в доходах заполнили медианным значением по типу занятости клиентов. Обработали отрицательные значения по стажу заменив их на положительные и заполнили пропуски медианным значением также по типу занятости. Убедились что пропусков в данных больше нет. Изменили тип данных на количественные в столбце с доходом для дальнейших вычислений. Обработали дубликаты по столбцу образование и удалили их. **Теперь данные готовы для дальнейшего анализа.**
    </div>

### Категоризация данных

**На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используем собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучим данные в столбце `purpose` и определим, какие подстроки помогут нам правильно определить категорию.**

In [21]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

<div class="alert-info" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px">
<b></b>

**Промежуточный вывод:** 
Мы создали 2 новых столбца: категории клиентов, сгрупированные по уровню дохода и категории по цели взятия кредита. Эти данные будут необходимы для последующих вычислений.
    </div>

## Исследуем данные и ответим на вопросы

#### 1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [23]:
data_grouped_by_children = data.groupby(['children']).agg({'debt':['sum', 'count', 'mean']})
data_grouped_by_children
# группируем данные по количеству детей методом groupby(), 
# методу agg() передаем словарь, где ключ - столбец с данными о долгах, 
# а значение - агрегирующие функции: сумма, количество, среднее значение
# Сумма - показывает сколько человек в группе имеет задолженность, 
# Количество - сколько человек в группе, 
# Среднее значение - отношение должников к общему количеству человек в группе

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,444,4808,0.092346
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


**Вывод:** 
Согласно проведенному анализу не вернули кредит в срок:
- 7,5% заемщиков без детей, от их общего количества
- 9,2% заемщиков с 1 ребенком,
- 9,4% заемщиков с 2 детьми,
- 8,1% заемщиков с 3 детьми, 
- 9,7% заемщиков с 4 детьми,
- 0% заемщиков с 5 детьми.

Количество заемщиков с 5 детьми всего 9 человек, тогда как общая их численность 21331 человек, поэтому эти данные не показательны. 

Данные по остальным группам варьируются в пределах от 7,5% до 9,7%, для заемщиков без детей и заемщиков с 4 детьми, соответственно. 

Сравнивая самые большие, сопоставимые по размеру категории заемщиков мы видим, что с увеличением количества детей увеличивается и риск не возврата кредита в срок.

Таким образом, можно сделать вывод, что количество детей влияет платежеспособность клиентов.

#### 2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [24]:
data_grouped_by_family_status = data.groupby(['family_status']).agg({'debt':['sum', 'count', 'mean']})
data_grouped_by_family_status # группируем данные по семейному положению методом groupby() 
#методом agg() считаем должников, общее количество и долю должников в общем количестве заемщиков по соответствующей группе

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,273,2796,0.097639
в разводе,84,1189,0.070648
вдовец / вдова,63,951,0.066246
гражданский брак,385,4134,0.09313
женат / замужем,927,12261,0.075606


**Вывод:** 
Меньше всего людей не вернувших кредит в срок в категории 'вдовец/вдова' - 6,6% от общего количества по группе, но и сама группа немногочисленна.
Далее следует категория людей 'в разводе' - 7% должников, 
Категория людей 'женат/замужем' - 7,5% и это самая многочисленная группа (более половины всех заемщиков), 
В 'гражданском браке' риск не возврата составляет уже 9,3% 
И наибольший показатель в категории 'Не женат/не замужем' - 9,7%.
Семейное положение тоже оказывает влияние на платежеспособность потенциальных заемщиков.

#### 3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [25]:
data_grouped_by_total_income = data.groupby(['total_income_category']).agg({'debt':['sum', 'count', 'mean']})
data_grouped_by_total_income # группируем данные по категориям дохода.

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2,25,0.08
B,354,5014,0.070602
C,1353,15921,0.084982
D,21,349,0.060172
E,2,22,0.090909


**Вывод:**  

В самых малочисленных категориях А и Е (самый высокий доход -более 1 млн. и самый низкий доход-менее 30 тыс.) процент должников равен 8 и 9 соответственно, но следует обратить внимание на более многочисленные выборки это категории В и С.

В категории В (доход от 200 тыс. до 1 млн.) не вернули кредит в срок 7%,

В категории С (доход от 50 тыс. до 200 тыс.) не вернули кредит в срок 8,5%.

Из чего следует вывод что чем выше уровень дохода у клиентов, тем меньше риск у банка и данные клиенты являются более надежными.


#### 4 Как разные цели кредита влияют на его возврат в срок?

In [26]:
data_grouped_by_purpose = data.groupby(['purpose_category']).agg({'debt':['sum', 'count', 'mean']})
data_grouped_by_purpose # группируем данные по цели кредита.

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,sum,count,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,400,4279,0.09348
операции с недвижимостью,780,10751,0.072551
получение образования,369,3988,0.092528
проведение свадьбы,183,2313,0.079118


**Вывод:** 
Самый высокий показатель не возврата кредита в срок на цели операций с автомобилем - 9,3%,
С целью получения образования - 9,2%,
С целью проведения свадьбы - 7,9%
И самый низкий показатель на цели операций с недвижимостью - 7,2%, и данная группа составляет около половины всех кредитов.

#### 5 Приведем возможные причины появления пропусков в исходных данных.

Пропуски в данных были по двум столбцам: стаж работы и уровень дохода, возможными причинами могут быть простая ошибка ввода данных, технические ошибки, которые могут возникать во время копирования, считывания или записи данных, изменения формата файла или же сознательное неуказание информации, люди могут быть официально не трудоустроены и не могут подтвердить свой доход и стаж.

#### 6 Объясним, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Когда в количественных данных есть значительные различия, запонение пропусков средним значением может исказить результаты иследования, лучше использовать медианное значение для отражения более верной картины.

### Общий вывод.

**Мы проанализировали входные данные от банка - информацию о платежеспособности клиентов.** 

На этапе предобработки были выявлены несколько отклонений, которые необходимо было устранить для корректного отображения результатов иследования, а именно:

- пропуски;
- аномальные значения;
- дубликаты;
- некоррректный тип данных.

**Далее были выявлены следующие зависимости:**
1) Чем больше у клиентов детей, тем выше риск не возврата кредита в срок;

2) Состоящие или состоявшие в браке заемщики реже допускают просрочки;

3) Чем выше уровень дохода у клиентов, тем меньше риск у банка и данные клиенты являются более надежными;

4) По цели кредита самыми проблемными выглядят автокредиты и кредиты на образование.

**На основании вышеизложенного мы предлагаем следующие рекомендации:**

Чтобы улучшить качество сбора данных необходимо обращать внимание на обязательное и корректное заполнение информации о доходах клиентов и стаже работы, использовать нужный тип данных и стандартную форму заполнения для избежания дубликатов.

При построении модели кредитного скоринга необходимо учитывать выявленные зависимости для оценки платежеспособности клиентов.
