# Сreditworthiness evaluation


### Data we have:

In [42]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [43]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [44]:
data[data.isna().any(1)].head(10) #строки в которых есть пропуски для ответа на вопрос о причине их появления

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [45]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Data preparation:

#### Удаление пропусков

In [46]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [47]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**В данных есть аномалия - отрицательное количество дней трудового стажа в столбце `days_employed`. Обработаем значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [48]:
data['days_employed'] = data['days_employed'].abs()

**Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.**

In [49]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Выведем перечень уникальных значений столбца `children`.**

In [50]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Удалим строки с аномальным значением `children`**

In [51]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [52]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [53]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [54]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

In [55]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Обработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв.**

In [56]:
data['education'] = data['education'].str.lower()

**количество строк-дубликатов в данных. Если такие строки присутствуют, удалим их.**

In [57]:
data.duplicated().sum()

71

In [58]:
data = data.drop_duplicates()

### Категоризация данных

**На основании диапазонов, указанных ниже, создаем в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


In [59]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [60]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**перечень уникальных целей взятия кредита из столбца `purpose`.**

In [61]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Сформируем новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [62]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [63]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Исследуем данные

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [72]:
#для удобства переведем долю семей с задолженностью в проценты
def percent(x):
    cent = round(x.mean()*100, 2)
    return str(cent)+'%'

#выведем сводную таблицу в которой определим долю семей с задолженностью по кредиту в зависимости от количества детей
pivot = data.pivot_table(index = 'children', values = 'debt', aggfunc = ['count', 'sum', percent])
pivot.columns = ['observations_number', 'sum_people_with_outstanding_loan', 'outstanding_loan_rate']
pivot


Unnamed: 0_level_0,observations_number,sum_people_with_outstanding_loan,outstanding_loan_rate
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54%
1,4808,444,9.23%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.0%


**Вывод:** 
* В группе с пятью детьми мы получили ноль семей, имеющих задолженности по возврату кредитов. Однако число таких семей в исходных данных всего 9, что делает выборку очень маленькой для того, чтобы утверждать, что такие семьи не имеют задолженностей по кредитам
* **Наличие в семье детей**, судя по полученным данным, **увеличивает вероятность задолженности по кредиту**. Однако, в семьях с детьми **не удается проследить зависимость между задолженностью по кредиту и количеством детей в семье**.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [82]:
#создадим сводную таблицу, в которой подсчитаем долю людей с задолженностью по кредиту в зависимости от их семейного статуса
pivot = data.pivot_table(index = 'family_status', values = 'debt', aggfunc = ['count', 'sum', percent]).reset_index()
pivot.columns = ['family_status', 'observations_number', 'sum_people_with_outstanding_loan', 'outstanding_loan_rate']
pivot

Unnamed: 0,family_status,observations_number,sum_people_with_outstanding_loan,outstanding_loan_rate
0,Не женат / не замужем,2796,273,9.76%
1,в разводе,1189,84,7.06%
2,вдовец / вдова,951,63,6.62%
3,гражданский брак,4134,385,9.31%
4,женат / замужем,12261,927,7.56%


**Вывод:** 
* Наибольший процент невозврата кредита в срок (9.76%) наблюдается в группе "Не женат / Не замужем", а наименьший в группе "вдовец / вдова" (6.62%). 
* Большое число наблюдений в каждой группе (больше 950) позволяет сказать, что **есть зависимость между семейным статусом и возвратом кредита в срок, но различие между группами не превышает 3%**.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [91]:
pivot = data.pivot_table(index = 'total_income_category', values = 'debt', aggfunc = ['count', 'sum', percent]).reset_index()
pivot_limits = ['1000001 и выше', '200001–1000000', '50001–200000', '30001–50000', '0–30000']
idx = 0
pivot.insert(loc=idx, column='income_limits', value=pivot_limits)
pivot.columns = ['income_limits', 'income_categories','observations_number', 'sum_people_with_outstanding_loan', 'outstanding_loan_rate']
pivot

Unnamed: 0,income_limits,income_categories,observations_number,sum_people_with_outstanding_loan,outstanding_loan_rate
0,1000001 и выше,A,25,2,8.0%
1,200001–1000000,B,5014,354,7.06%
2,50001–200000,C,15921,1353,8.5%
3,30001–50000,D,349,21,6.02%
4,0–30000,E,22,2,9.09%


**Вывод:** 
- Люди с наименьшим и наибольшим доходом (категории Е и А соответственно) почти не представлены в данной выборке (22 и 25 измерений), поэтому нельзя сделать каких-либо однозначных выводов. 
- На основании предложенных данных можно сказать, корреляция между уровнем дохода и возвратом кредита в срок есть. При этом меньше всего задолженностей наблюдается в группе с доходом 30001-50000 (группа D) и больше всего в группе с доходом 500001-200000 (группа С).

#### Как разные цели кредита влияют на его возврат в срок?

In [94]:
#для последнего вопроса создадим сводную таблицу через группировку, применим к колонке debt расчет среднего и подсчет строк 
pivot_table_purpose = data.groupby('purpose_category')['debt'].agg([percent, 'count']).reset_index()

pivot_table_purpose

Unnamed: 0,purpose_category,percent,count
0,операции с автомобилем,9.35%,4279
1,операции с недвижимостью,7.26%,10751
2,получение образования,9.25%,3988
3,проведение свадьбы,7.91%,2313


**Вывод:** 
- Наибольший процент возникающих по кредиту задолженностей наблюдается в группе "Операции с автомобилем" (9.35%), а наименьший в группе "Операции с недвижимостью" (7.26%).
- Наблюдается отличие в значениях доли заемщиков имеющих задолженность по кредиту в зависимости от цели кредита (debt_rate_purpose). Так, больше задолженностей приходится на группы "операции с автомобилем" и " получение образования", меньше задолженностей в "операциях с недвижимостью" и "проведении свадьбы".

#### Возможные причины появления пропусков в исходных данных.

*Ответ:* 
- Пропуски в данных есть только в колонках days_employed и total_income. При этом нет четкого паттерна их появления (то есть пустые строки появляются у людей с разным семейным положением, разной целью кредита, разным числом детей и т.д.). Соответственно, при заполнении документов на получение кредита эти данные могли быть не были указаны заемщиками намеренно или случайно. А также эти данные могли быть потеряны в процессе обработки/хранения в банке.

#### Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 
- В случае, если речь идет о выборке количественных величин с большим разбросом крайних значений, как в случае с доходом или дней трудового стажа, например, имеет смысл заменять пропуски медианой. Медиана представляет собой серединное значение выборки и, поэтому не подвержена влиянию сильно высоких значений (например, очень высокому доходу) или очень низким значениям (если доход или трудовой стаж очень малы). 

### Conclusion

* The study identified correlations between:
1. Number of children and timely loan repayment. The data shows that having children increases the likelihood of loan default. 

2. marital status and timely loan repayment. According to the data, people who are married or have been married (categories “married,” “divorced,” or “widowed”) are more likely to repay loans than those who have never been married.

3. Income level and timely loan repayment. The lowest level of loan debt was found in the group with an income of 30,001-50,000 (group D) and the highest in the group with an income of 500,001-200,000 (group C). There is insufficient data for categories 0-30,000 (E) and 100,0001 and above (A). 

4. The purpose of the loan affects its timely repayment. The highest percentage of loan defaults is observed in the “Car transactions” and ‘Education’ groups, and the lowest in the “Real estate transactions” and “Weddings” groups.

* In some cases, there is insufficient data for a correct conclusion (for example, there are no loan debtors in families with five children, although there are only nine such families in the sample). 

* This study can serve as a basis for a more detailed study of borrower behavior. In the next stages, it would be possible, for example, to study the influence of several factors on the probability of loan repayment. In addition, if conclusions or forecasts are needed for categories where there is insufficient data, the sample needs to be expanded.