# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [14]:
data.duplicated().sum()

54

In [15]:
data = data.drop_duplicates()

**Задание 15. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [16]:
data['education'] = data['education'].str.lower()

data = data.drop_duplicates()
data.duplicated().sum()

0

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data['dob_years'].max()

75

## Исследуйте данные и ответьте на вопросы

In [22]:
def years_categorize(years):
    if 18 <= years <= 30:
        return 'граждане до 30 лет'
    elif 31 <= years <= 45:
        return 'граждане до 45 лет'
    elif 46 <= years <= 75:
        return 'граждане до 75 лет'
    
data['years'] = data['dob_years'].apply(years_categorize)

data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,years
21515,1,467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486,заняться образованием,C,получение образования,граждане до 30 лет
21516,0,914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807,покупка своего жилья,B,операции с недвижимостью,граждане до 45 лет
21517,0,404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059,на покупку своего автомобиля,C,операции с автомобилем,граждане до 45 лет
21518,0,373995.710838,59,среднее,1,женат / замужем,0,F,пенсионер,0,153864,сделка с автомобилем,C,операции с автомобилем,граждане до 75 лет
21519,1,2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949,покупка коммерческой недвижимости,C,операции с недвижимостью,граждане до 45 лет
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью,граждане до 45 лет
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем,граждане до 75 лет
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью,граждане до 45 лет
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем,граждане до 45 лет
21524,2,1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,C,операции с автомобилем,граждане до 45 лет


**Задание 19. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [23]:
pivot_1 = data.pivot_table(index=['children'], values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_1

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


In [24]:
pivot_1[('mean', 'debt')].sort_values(ascending=False)

children
4    0.097561
2    0.094542
1    0.092346
3    0.081818
0    0.075438
5    0.000000
Name: (mean, debt), dtype: float64

In [25]:
pivot_1[('count', 'debt')].median()

1191.0

In [26]:
pivot_1_med = (pivot_1[pivot_1[('count', 'debt')] > 1191])
pivot_1_med

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542


In [27]:
pivot_1_med[('mean', 'debt')].sort_values(ascending=False)

children
2    0.094542
1    0.092346
0    0.075438
Name: (mean, debt), dtype: float64

**Вывод:** мы посчитали среднее количество должников на долю всех заемщиков, сгруппировав данные по количеству детей. После чего расположили их в порядке убывания. По отсортированным данным можно было бы сказать, что заемщики с 4-мя детьми самые проблемные, но я считаю, что общее количество заемщиков в этой категории слишком мало для объективного вывода. Для того, чтобы вывод был объективным, нам стоит установить 'планку' минимального числа заемщиков в общем. Для меня этой планкой будет медианное значение заемщиков (1191). Оставляем только те строчки, которые подходят под наши критерии объективности, 0, 1, и 2 ребенка. Уже по этим данным можно сделать вывод, что клиенты имеющие 1-го или 2-ух детей не сильно отличаются по количеству должников, а среди клиентов не имеющих детей вообще, должников гораздо меньше. Общий вывод: клиенты без детей обладают большей возможностью погашать кредит в срок

**Задание 20. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [28]:
pivot_2 = data.pivot_table(index='family_status', values='debt', aggfunc=['count', 'sum', 'mean'])
pivot_2

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


In [29]:
pivot_2[('mean', 'debt')].sort_values(ascending=False)

family_status
Не женат / не замужем    0.097639
гражданский брак         0.093130
женат / замужем          0.075606
в разводе                0.070648
вдовец / вдова           0.066246
Name: (mean, debt), dtype: float64

**Вывод:** из всей группы, с сильным превосходством по количеству заемщиков выделяется группа с семейным положением 'женат/замужем', но в рейтинге количества должников среди заемщиков, эта группа обладает неплохим показателем возврата кредита в срок. И стоит наравне с группами, обладающими минимальным показателем количества заемщиков. Проблемными категориями, являются клиенты с семейным положением 'не женат/не замужем' и 'гражданский брак' 

**Задание 21. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [30]:
pivot_3 = data.pivot_table(index='total_income_category', values='debt', aggfunc = ['count', 'sum', 'mean'])
pivot_3

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172
E,22,2,0.090909


In [31]:
pivot_3[('mean', 'debt')].sort_values(ascending=False)

total_income_category
E    0.090909
C    0.084982
A    0.080000
B    0.070602
D    0.060172
Name: (mean, debt), dtype: float64

In [32]:
pivot_3_sr = pivot_3[pivot_3[('count', 'debt')] > 300]
pivot_3_sr

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172


In [33]:
pivot_3_sr[('mean', 'debt')].sort_values(ascending=False)

total_income_category
C    0.084982
B    0.070602
D    0.060172
Name: (mean, debt), dtype: float64

**Вывод:** как и в группировке по количеству детей, здесь мы не можем сделать объективные выводы, поскольку в категориях А, Е и D очень маленький размах, но проводить исследование по двум строкам тоже некорректно. Поэтому выбирем 3 группы с наибольшим размахом среди заемщиков. Группа С превосходит другие группы по количеству должников, но если учитывать, что эта группа с самым большим размахом, то можно предположить, что количество должников со временем растет не равномерно в процентном соотношении. То есть не факт, что у категории В сохранилось текущее соотношение задолжников к заемщикам, если бы общее число заемщиков равнялось числу заемщиков категории С. Как мы видим, чем больше количество заемщиков, тем больше процент должников.

**Задание 22. Как разные цели кредита влияют на его возврат в срок?**

In [34]:
pivot_4 = data.pivot_table(index='purpose_category', values='debt', aggfunc = ['count', 'sum', 'mean'])
pivot_4

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4279,400,0.09348
операции с недвижимостью,10751,780,0.072551
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118


In [35]:
pivot_4[('mean', 'debt')].sort_values(ascending=False)

purpose_category
операции с автомобилем      0.093480
получение образования       0.092528
проведение свадьбы          0.079118
операции с недвижимостью    0.072551
Name: (mean, debt), dtype: float64

**Вывод:** сгруппировав данные по целям взятия кредита, нельзя сказать, что в какой то из групп данные являются необъективными. Можно только сравнить сколько проблемных заемщиков в каждой из них и выдвинуть гепотизы, которые объяснят способность или неспособность погашать кредит в срок по той или иной цели. Можно заметить, что клиенты, которые занимают деньги на проведение свадьбы и операции с недвижимостью, обладают большей способностью выплачивать кредит в срок. Можно предположить, что как правило, свадьбы окупаются и есть чем возвращать кредит в срок. По поводу тех, кто берет деньги на операции с недвижимостью, можно предположить, что большинство клиентов покупают на занятые деньги недвижимость c коммерческой целью, например: под сдачу или для расшириния бизнеса, то есть занимают деньги с рассчетом на то, что недвижимость будет приносить им деньги. 

И если недвижимость можно отнести в класс 'активов'(то что приносит деньги), то автомобиль является скорее 'пассивом', требующим постоянных вложений (бензина, ремонта) и не всегда заемщики могут вернуть кредит без просрочек. Те же, кто берут кредит на получение образования, могут являться студентами без большого капитала или же теми, кто из за отсутствия образования вынужден работать на низкооплачиваемой работе.

**Задание 23. Приведите возможные причины появления пропусков в исходных данных.**

*Ответ:* В данном датасете были пропущены значения столбцов days employed (рабочий стаж) и total income (доход). Можно было бы сказать, что клиент просто решил не указывать информацию о доходах и рабочем стаже и что это и привело к появлению пропусков, но так как речь идет о банковской сфере, где количество дней трудового стажа и доход это важные показатели, то можно предположить, что пропуски возникли из за сбоев в системе или неправильно заполненых полей

**Задание 24. Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.**

*Ответ:* Заполнять пропуски средним значеним в количественных переменных некорректно, потому что в данных могут встречаться "выбросы" или аномальные, но тем не менее, прошедшие проверку рельностью, значения. Например: если к выборке из 9-ти человек с зарплатой ~ 30000 прибавить человека с зарплатой 500000, то среднее значение не будет отражать действительное положение дел о средней зарплате в данной выборке

## Общий вывод.

Процент должников по отношению ко всем заемщикам со временем может расти неравномерно. Больше заемщиков - больше шанс, что процент должников вырастет. Однако в группировке по семейному положению видны обратные результаты - большое количество заемщиков, но не самое большое количество должников среди них.

Клиенты не имеющие детей вообще обладают большей способностью погашать кредиты. 

Клиенты, берущие кредит на операции связаные с недвижимостью или на проведение свадьбы чаще погашают кредиты в срок нежели клиенты, которые берут кредит на операции с автомобилем или на оплату образования