# Исследование надежности заемщиков


## Открываем таблицу и изучаем общую информацию о данных

**Задание 1. Импорт библиотеки pandas. Считываем данные из csv-файла в датафрейм и сохраняем в переменную `data`.**


In [None]:
import pandas as pd

data = pd.read_csv('/datasets/data.csv')

**Задание 2. Выводим первые 20 строчек датафрейма `data` на экран.**

In [None]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выводим основную информацию о датафрейме с помощью метода `info()`.**

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выводим количество пропущенных значений для каждого столбца. Используеем комбинацию двух методов.**

In [None]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обрабатываем значения в этом столбце: заменяем все отрицательные значения положительными с помощью метода `abs()`.**

In [None]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выводим медианное значение трудового стажа `days_employed` в днях.**

In [None]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выводим перечень уникальных значений столбца `children`.**

In [None]:
data['children'].unique()
print(data.groupby('children')['debt'].sum())

children
-1        1
 0     1063
 1      444
 2      194
 3       27
 4        4
 5        0
 20       8
Name: debt, dtype: int64


**Задание 9. В столбце `children` есть два аномальных значения. Удаляем строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [None]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выводим перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [None]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполняем пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убеждаемся, что все пропуски заполнены. Проверяем и ещё раз выводим количество пропущенных значений для каждого столбца с помощью двух методов.**

In [None]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Заменяем вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [None]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обрабатываем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приводим их к нижнему регистру. Проверяем остальные столбцы.**

In [None]:
data['education'] = data['education'].str.lower()

**Задание 15. Выводим на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удаляем их.**

In [None]:
data.duplicated().sum()

71

In [None]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создаем в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
print (data.head(20))

    children  days_employed  dob_years            education  education_id  \
0          1    8437.673028         42               высшее             0   
1          1    4024.803754         36              среднее             1   
2          0    5623.422610         33              среднее             1   
3          3    4124.747207         32              среднее             1   
4          0  340266.072047         53              среднее             1   
5          0     926.185831         27               высшее             0   
6          0    2879.202052         43               высшее             0   
7          0     152.779569         50              среднее             1   
8          2    6929.865299         35               высшее             0   
9          0    2188.756445         41              среднее             1   
10         2    4171.483647         36               высшее             0   
11         0     792.701887         40              среднее             1   

**Задание 17. Выводим на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создаем функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучаем данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
print (data.head(10))

   children  days_employed  dob_years education  education_id  \
0         1    8437.673028         42    высшее             0   
1         1    4024.803754         36   среднее             1   
2         0    5623.422610         33   среднее             1   
3         3    4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   
5         0     926.185831         27    высшее             0   
6         0    2879.202052         43    высшее             0   
7         0     152.779569         50   среднее             1   
8         2    6929.865299         35    высшее             0   
9         0    2188.756445         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

### Шаг 3. Исследуем данные и отвечаем на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [None]:
#находим количество клиентов, взявших кредит, в разрезе количества детей в семьях клиентов
data_children = data.groupby('children')['children'].count()
print(data_children)
#находим количество клиентов, имевших задолженность по кредиту, в разрезе количества детей в семьях клиентов
data_debt = data.groupby('children')['debt'].sum()
print(data_debt)
#находим конверсию по каждой группе клиентов, сортируем по убыванию
conversion = data_debt/data_children
print(conversion.sort_values(ascending = False))

children
0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64
children
0    1063
1     444
2     194
3      27
4       4
5       0
Name: debt, dtype: int64
children
4    0.097561
2    0.094542
1    0.092346
3    0.081818
0    0.075438
5    0.000000
dtype: float64


In [None]:
print(pd.pivot_table(data, index='children', values = 'debt', aggfunc=['count','sum','mean']))

          count   sum      mean
           debt  debt      debt
children                       
0         14091  1063  0.075438
1          4808   444  0.092346
2          2052   194  0.094542
3           330    27  0.081818
4            41     4  0.097561
5             9     0  0.000000


**Вывод:** Из анализа данных видно, что больше всего берут кредиты клиенты не имеющие детей. Таких клиентов в два раза больше, чем всех остальных в совокупности. Далее проведена группировка клиентов по метрике наличие задолженности по кредиту в разрезе количества детей. Из представленных данных видно, что больше всех клиентов, имевших задолженность, находятся в группе клиентов, не имеющих детей, при этом семьи имеющие 5 детей всегда возвращали кредиты в срок. Для большего понимания необходимо найти долю клиентов, имевших задолженность по кредитам, от общего количества клиентов, взявших кредит в соответствующей группе. Оказалась, что несмотря на многочисленных задолжников без детей их доля в общем количестве взявших кредит составляет минимальное количество всего 7,5 процента, остальные категории семей-должников находятся в диапазоне от 8 до 9,7 процентов. Наблюдается общая тенденция: чем больше детей тем чаще кредит не возвращался в срок. Однако, данные по двум категориям выпадают из общей тенденции. Требуется анализ информации по группам клиентов имеющих 5 детей и не имеющих детей.

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
#находим количество клиентов, взявших кредит, в разрезе семейного положения
data_children = data.groupby('family_status')['family_status'].count()
print(data_children)
#находим количество клиентов, имевших задолженность по кредиту, в разрезе семейного положения
data_debt_family = data.groupby('family_status')['debt'].sum()
print(data_debt_family)
#находим конверсию по каждой группе клиентов, сортируем по убыванию
conversion = data_debt_family/data_children
print(conversion.sort_values(ascending = False))

family_status
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
гражданский брак          4134
женат / замужем          12261
Name: family_status, dtype: int64
family_status
Не женат / не замужем    273
в разводе                 84
вдовец / вдова            63
гражданский брак         385
женат / замужем          927
Name: debt, dtype: int64
family_status
Не женат / не замужем    0.097639
гражданский брак         0.093130
женат / замужем          0.075606
в разводе                0.070648
вдовец / вдова           0.066246
dtype: float64


In [None]:
print(pd.pivot_table(data, index=['family_status'], values = ['debt'],  aggfunc=['count','sum','mean']))

                       count  sum      mean
                        debt debt      debt
family_status                              
Не женат / не замужем   2796  273  0.097639
в разводе               1189   84  0.070648
вдовец / вдова           951   63  0.066246
гражданский брак        4134  385  0.093130
женат / замужем        12261  927  0.075606


**Вывод:** По результатам анализа данных можно сделать следующие выводы: Максимальное количество клиентов, обратившихся за кредитом - это люди, находящиеся в браке. Их на 35% больше, чем всех остальных. Однако основными неплательщиками в срок являются клиенты,  которые не женаты или не замужем.Также из анализа видно, что в топ-3 клиентов-неплательщиков также попадают клиенты, которые находяться в браке (хоть официальном, хоть не официальном). Самыми надежными клиентами по рассматриваемой выборке являются клиенты, которые в силу жизненных обстоятельств могут рассчитывать только на собственные доходы (вдовцы или в разводе).

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
#находим количество клиентов, взявших кредит, в разрезе уровня дохода клиента
data_income_category = data.groupby('total_income_category')['total_income_category'].count()
print(data_income_category)
#находим количество клиентов, имевших задолженность по кредиту, в разрезе уровня дохода клиента
data_debt_category = data.groupby('total_income_category')['debt'].sum()
print(data_debt_category)
#находим конверсию по каждой группе клиентов, сортируем по убыванию
conversion = data_debt_category/data_income_category
print(conversion.sort_values(ascending = False))

total_income_category
A       25
B     5014
C    15921
D      349
E       22
Name: total_income_category, dtype: int64
total_income_category
A       2
B     354
C    1353
D      21
E       2
Name: debt, dtype: int64
total_income_category
E    0.090909
C    0.084982
A    0.080000
B    0.070602
D    0.060172
dtype: float64


In [None]:
print(pd.pivot_table(data, index=['total_income_category'], values = ['debt'],aggfunc=['count','sum','mean']))

                       count   sum      mean
                        debt  debt      debt
total_income_category                       
A                         25     2  0.080000
B                       5014   354  0.070602
C                      15921  1353  0.084982
D                        349    21  0.060172
E                         22     2  0.090909


In [None]:
print(pd.pivot_table(data, index=['total_income_category','purpose_category'], values = ['debt'],  \
                     aggfunc=['count','sum','mean']))

                                               count  sum      mean
                                                debt debt      debt
total_income_category purpose_category                             
A                     операции с автомобилем       2    0  0.000000
                      операции с недвижимостью    17    1  0.058824
                      получение образования        4    1  0.250000
                      проведение свадьбы           2    0  0.000000
B                     операции с автомобилем    1022   85  0.083170
                      операции с недвижимостью  2558  172  0.067240
                      получение образования      890   69  0.077528
                      проведение свадьбы         544   28  0.051471
C                     операции с автомобилем    3181  305  0.095882
                      операции с недвижимостью  7997  599  0.074903
                      получение образования     3014  297  0.098540
                      проведение свадьбы        

 **Вывод:** По анализу данной выборки можно сказать, что основными клиентами кредитных отделов являются заемщики со средним уровнем ежемесячного дохода от 50,0 до 200,0 тыс. рублей. Их в три раза больше, чем остальных. Если анализировать надежность клиентов по уровню доходов, то какой то явной закономерности от доходности не прослеживается. Самыми не надежными ожидаемо оказались клиенты в минимальной доходностью (менее 30,0 тыс. рублей). Каждый десятый клиент с максимальной доходностью находится в группе должников. Самыми надежными оказались клиенты с доходами ниже среднего (от 30 до 50 тыс. рублей).

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [None]:
#находим количество клиентов, взявших кредит, в разрезе цели кредита
data_purpose = data.groupby('purpose_category')['purpose_category'].count()
print(data_purpose)
#находим количество клиентов, имевших задолженность по кредиту, в разрезе цели кредита
data_debt_purpose_category = data.groupby('purpose_category')['debt'].sum()
print(data_debt_purpose_category)
#находим конверсию по каждой группе клиентов, сортируем по убыванию
conversion = data_debt_purpose_category/data_purpose
print(conversion.sort_values(ascending = False))

purpose_category
операции с автомобилем       4279
операции с недвижимостью    10751
получение образования        3988
проведение свадьбы           2313
Name: purpose_category, dtype: int64
purpose_category
операции с автомобилем      400
операции с недвижимостью    780
получение образования       369
проведение свадьбы          183
Name: debt, dtype: int64
purpose_category
операции с автомобилем      0.093480
получение образования       0.092528
проведение свадьбы          0.079118
операции с недвижимостью    0.072551
dtype: float64


In [None]:
print(pd.pivot_table(data, index=['purpose_category'], values = ['debt'],\
                     aggfunc=['count','sum','mean']))

                          count  sum      mean
                           debt debt      debt
purpose_category                              
операции с автомобилем     4279  400  0.093480
операции с недвижимостью  10751  780  0.072551
получение образования      3988  369  0.092528
проведение свадьбы         2313  183  0.079118


**Вывод:** Операции с недвижимостью являются наиболее восстребованными жизненными ситуациями, когда клиенты привлекают заемные средства. Кредиты на операции с недвижимостью составляют половину от всех займов. Кредиты на недвижимость, согласно анализу, попадают в самую менее рискованную группу по возврату в сравнеии с другими целями кредитования. К самым рискованным кредитам являются кредиты на автомобили. Зависимость цели кредита на его возврат в срок целесообразно рассматривать с точки зрения срока кредитования. Как правило самые длительные кредиты и большие по объему кредиты выдаются на сделки с недвижимостью. Поэтому клиенты таких кредитов выбирают наиболее удобные суммы ежемесячных платежей и период погашения кредита. Три другие целевые группы - это кредиты на текущие нужны, у них всегда есть ограниченный срок для погашения.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* В исходных данных наблюдались пропуски в информации об общем трудовом стаже и ежемесячном доходе клиентов. Эта информация между собой взаимоувязана. Поэтому нельзя считать, что ее отсутствие носит случайных характер. Этот факт подтверждаетсяо отсутствием пропущенных данных в других группах сведений. Можно предположить, что данные отсутствуют по причине того, что клиент при подписании согласия на обработку персональных данных не дал согласие на разглашение этих сведений. Также можно предположить, что клиенты, по которым нет информации о трудовом стаже и ежемесячном доходе, никогда не являлись заемщиками и не имеют кредитной истории.

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* Исходя из определения медиана - это статистическая характеристика распределения случайной величины. Медина является лучшим решением для исследования упорядоченных последовательностей. Медиана определяет центр распределения, то есть ту область, где его значения более вероятны. Чем дальше значения (измерения) отклоняются от центра распределения, тем более аномальными они являются. Поэтому медианное значение по каждой группе клиентов - это наиболее вероятная величина, которая имеет минимальное влияние на результат анализа данных.

### Шаг 4: общий вывод.

Проверили четыре гипотезы и установили:

Количество детей влияет на задолженность по возврату кредита. Чем больше детей тем выше риск погашения кредита не в срок. Однако требуется дополнительное изучение данных по клиентам, имеющих максимальное количество детей (5) и совсем не имеющих детей (0).
Первая гипотеза подтвердилась с оговоркой. Этот результат мог оказаться иным, если бы не пропуски в данных.

Зависимость между семейным положением и возвратом кредита в срок существует. Люди, состоящие в браке (хоть официально, хоть не официально), имеют больше риска не вернуть кредит в срок. Самыми надежными являются клиенты, не состоящие в браке (разведены или вдовцы).
Таким образом, вторая гипотеза подтвердилась полностью.

Зависимость между уровнем дохода и возвратом кредита подверждается только на уровне группы клиентов с самым низким уровнем доходности менее 30.0 тыс. рублей. По остальным группам заемщиков в разрезе доходности зависимость не потвердилась.
Третья гипотеза подтвердилась частично.

Зависимость цели кредита на его возврат в срок подтверждается. Реже всего задерживалась выплата по кредитам на недвижимость. Скорее всего это связано с условиями кредитования операций с недвижимостью. Чаще всего выплачивали кредиты не в срок клиенты, целью которых была покупка автомобильной техники. Таким образом, вторая гипотеза подтвердилась полностью.

Учитывая выводы исследования отдельных гипотез, можно сделать вывод о том, что для полноты картины и разработки алгоритма оценки потенциальных клиентов требуется рассмотривать все гипотезы в совокупности.