### Определение надежности заёмщиков банка
_____
##### В данном исследовании мы будем изучать таблицу с данными заемщиков банка.
______

##### Часть 1. Изучение общей информации:
* [1. Изучение файлов с данными, получение общей информации, загрузка библиотек.](#section1)
* [2. Нахождение и ликвидация пропусков.](#section2)

##### Часть 2. Подготовка данных:
* [1. Приведение данных к нужным типам.](#section3)
* [2. Нахождение и исправление аномалий и ошибок.](#section4)
* [3. Поиск и обработка дубликатов.](#section5)

##### Часть 3. Категоризация данных:

* [1. Лемматизация.](#section6)
* [2. Классификация по возрастным группам.](#section7)
* [3. Классификация по доходам.](#section8)

##### Часть 4. Подведение итогов:
* [1. Ответы на вопросы.](#section9)
* [2. Общий вывод.](#section10)

# <a id="section1">1.1 Изучение файлов с данными, получение общей информации, загрузка библиотек.</a>

In [27]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [28]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Вывод

Как видно из таблицы, у нас есть 2 проблемных столбца: "days_employed" и "total_income" в которых пропущены данные и тип данных не соотвествует действительности. Для расчетов нам понадобиться только столбец "total_income", поэтому и начнем его изменять.

# <a id="section2">1.2 Нахождение и ликвидация пропусков</a>

In [29]:
print(df.isna().mean())

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64


In [30]:
for x in df['income_type'].unique():
    df.loc[(df['income_type'] == x) & (df['total_income'].isnull()), 'total_income']\
    = df.loc[df['income_type'] == x, 'total_income'].median()


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

Для заполнения пропущенных значений в строке общего дохода, мы посчитали медианные значения дохода по типам занятости, и заполнили ими пропуски. Медианый доход предпочти среднему доходу, чтобы исключить влияние на данные запредельных показателей.

# <a id='section3'>2.1 Приведение данных к нужным типам<a/>

In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [33]:
df['total_income'] = df['total_income'].astype('int')

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Вывод

Воспользовавшись методом "astype", преобразовали столбец с общим доходом к целочисленному типу данных.

# <a id='section4'>2.2 Нахождение и исправление аномалий и ошибок</a>

In [35]:
print(df['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


In [36]:
# как видим в таблице есть артефакты значений в графе дети, примем -1 как бездетных, а 20 как ошибку при вводе '2'
df.loc[df['children'] == -1, 'children'] = 0
df.loc[df['children'] == 20, 'children'] = 2
print(df['children'].value_counts())

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


# <a id='section5'>2.3 Поиск и обработка дубликатов</a>

In [37]:
#посмотрим количество уникальных значений в столбце "образование"
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [38]:
#из-за использования заглавных букв в названиях образовались дубликаты значений
#приведем все названия к нижнему регистру
df['education'] = df['education'].str.lower()

In [39]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

### Вывод

Удалив дубликаты в столбце "образование" мы теперь явно видим зависимость, заемщики со средним образованием в 3 раза чаще берут кредит, по сравнению с заемщиками закончившими ВУЗы. Также можем отметить, что всего чуть больше 1% заемщиков имеют начальное образование, что говорит о общей уровне образованности у клиентов банка.

# <a id='section6'>3.1 Лемматизация</a>

In [40]:
# проводим лемматизацию значений столбца с целями кредита
# для наглядности результат склеим методом join()
# с помощью  контейнера Counter подсчитаем частоту упоминаний слов в тексте
from pymystem3 import Mystem
from collections import Counter
m = Mystem()
Counter(m.lemmatize(' '.join(df['purpose'])))

Counter({'покупка': 5912,
         ' ': 55201,
         'жилье': 4473,
         'приобретение': 462,
         'автомобиль': 4315,
         'дополнительный': 909,
         'образование': 4022,
         'сыграть': 774,
         'свадьба': 2348,
         'операция': 2610,
         'с': 2924,
         'на': 2233,
         'проведение': 777,
         'для': 1294,
         'семья': 641,
         'недвижимость': 6367,
         'коммерческий': 1315,
         'жилой': 1233,
         'строительство': 1881,
         'собственный': 635,
         'подержать': 858,
         'свой': 2235,
         'со': 630,
         'заниматься': 908,
         'сделка': 944,
         'получение': 1316,
         'высокий': 1375,
         'подержанный': 110,
         'профильный': 436,
         'сдача': 653,
         'ремонт': 612,
         '\n': 1})

In [41]:
df['lemmas'] = df['purpose'].apply(m.lemmatize)
def main_purpose(row):
    # функция преобразует цели кредита в более общие благодаря найденным лемам
        if 'недвижимость' in row or 'жилье' in row:
            return 'недвижимость'
        if 'автомобиль' in row:
            return 'автомобиль' 
        if 'свадьба' in row:
            return 'свадьба'
        if 'образование' in row:
            return 'образование'
        return 'другое'    
df['main_purpose'] = df['lemmas'].apply(main_purpose)
print(df['main_purpose'].value_counts())

недвижимость    10840
автомобиль       4315
образование      4022
свадьба          2348
Name: main_purpose, dtype: int64


### Вывод

Приведение целей кредита к общей форме позволило определиться с самыми популярными причина для получения кредита: 40% всех кредитов выдано на недвижимость, затем идут приорбетение автомобиля и получения образования, а также набирающая популярность цель: на свадьбу.

# <a id='section7'>3.2 Классификация по возрастным группам</a>

In [42]:
# распределим заемщиков по возрастным категориям
# сначала посмотрим разнообразие возрастных значений 
print(df['dob_years'].value_counts())

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


In [43]:
def age_group(age):
    # до 31 года у нас будет молодёжь, с 31 до 60 - средний возраст, больше 60 лет - пенсионеры
    # заметили большое количество строк с 0 в учейке возраста, этих ззаемщиков не будем учитывать.
    # функция вернет возрастную группу
    if (age < 31) and (age != 0):
        return 'молодёжь'
    if 31 < age < 60:
        return 'средний возраст'
    if age > 60:
        return 'пенсионеры'
    return 'группа не определена'
df['age_group'] = df['dob_years'].apply(age_group)
    

In [44]:
#выводим статистику по возрастной группе
print(df['age_group'].value_counts())

средний возраст         14624
молодёжь                 3723
пенсионеры               2140
группа не определена     1038
Name: age_group, dtype: int64


# <a id='section8'>3.2 Классификация по доходу</a>

In [45]:
def income_group(income):
    # функция распределить заемщиков на категории в соответсвии с общим доходом
    # до 30 000 - низкий доход
    # от 30 000 до 100 000 - средний доход
    # выше 100 000 высокий доход
    if income < 30000:
        return 'низкий доход'
    if 30000 < income < 100000:
        return 'средний доход'
    if income > 100000:
        return 'высокий доход'
    return 'группа не определена'
df['income_group'] = df['total_income'].apply(income_group)
print(df['income_group'].value_counts())

высокий доход    17062
средний доход     4441
низкий доход        22
Name: income_group, dtype: int64


### Вывод

Категоризация данных позволила узнать, что более половины заемщиков банка люди среднего возраста, а молодежь и пенсионеры составляют не такую значимую часть в общей доле кредитного портфеля. Также мы распределили заемщиков по их общему доходу и увидели, что практически не имеем в базе заемщиков с низким доходом, а даже наоборот, заемщики с доходом более 100 000 в месяц составляют 2/3 от общего количества. Это говорит о том, что кредиты имеют популярность у вполне состоятельных граждан.

# <a id=section9>4.1 Ответы на вопросы</a>

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [46]:
print(df['children'].value_counts())

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


In [47]:
print(df.groupby('children')['debt'].mean())

children
0    0.074951
1    0.092154
2    0.094791
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64


In [48]:
def children_id(children):
    # функция присвоит id заемщикам 
    # 1 - есть дети
    # 0 - нет детей
    if children > 0:
        return 1
    return 0
df['children_id'] = df['children'].apply(children_id)
print(df.groupby('children_id')['debt'].mean())

children_id
0    0.074951
1    0.092373
Name: debt, dtype: float64


# Вывод

Как мы можем видеть: бездетные заемщики немного реже допускают просрочки по кредитам. Также стоит отметить, что если у семьи есть дети, то их количество не влияет на возратность кредита, все примерно с одинаковой частотой допускают просрочки. Отдельно выбиваются из общей массы заемщики с 5 детьми и отсутствием задолженностей, но их настолько мало в выборке, что этим показателем можно принебречь.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [49]:
print(df.groupby('family_status')['debt'].mean())

family_status
Не женат / не замужем    0.097405
в разводе                0.071130
вдовец / вдова           0.065625
гражданский брак         0.092890
женат / замужем          0.075202
Name: debt, dtype: float64


### Вывод

Расчеты показали, что неженатые\незамужние, а также лица состоящие в гражданском браке в процентном соотношении чаще допускают задолженности по кредитам, из этого можно сделать вывод, что наиболее надежные заемщики семейные, либо побывавшие в семейных отношениях.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [50]:
print(df.groupby('income_group')['debt'].mean())

income_group
высокий доход    0.081292
низкий доход     0.090909
средний доход    0.079261
Name: debt, dtype: float64


### Вывод

Низкий доход немного влияет в худшую сторону на возврат кредита в срок, но не так значительно, как мы могли предполагать до расчетов.

- Как разные цели кредита влияют на его возврат в срок?

In [51]:
print(df.groupby('main_purpose')['debt'].mean())

main_purpose
автомобиль      0.093395
недвижимость    0.072140
образование     0.091994
свадьба         0.079216
Name: debt, dtype: float64


### Вывод

Если смотреть по целям кредита, то тут уже заметная разница: по кредитам на автомобиль и образование чаще допускают просрочки. Кредиты на недвижмость хоть и являются наиболее крупными, но и заемщики, как показывают расчеты, относятся к ним более серьезно. 

In [52]:
# код ревьювера
purpose_category_grouped_1 = df.pivot_table(index = 'main_purpose', 
                                                   columns = 'children',
                                                   values = 'debt', 
                                                   aggfunc = ['sum'])
purpose_category_grouped_1.style.background_gradient('coolwarm')

Unnamed: 0_level_0,sum,sum,sum,sum,sum,sum
children,0,1,2,3,4,5
main_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
автомобиль,244,103,50,5,1,0
недвижимость,476,200,90,13,3,0
образование,229,90,47,4,0,0
свадьба,115,51,15,5,0,0


# <a id='section10'>4.1 Общий вывод</a>

Проанализировав полученные данны в ходе проекта, мы можем предоставить общую картину для кредитного отдела банка. Главной задачей было разобраться с влиянием семейного положения и количества детей на погашение кредитам в срок. 

Теперь мы можем сделать однозначный вывод: ваш лучший заемщик - это человек, состоящий в браке\разведенный и не имеющий детей. В идеале, если он берет кредит на недвижимость и имеет высокий доход. 
P.S. Отдельно хотелось бы отметить заемщиков с 5 детьми, которые не допустили ни одной просрочки по кредиту.