
# Шаг 1: Загрузка датасета
Сперва я загрузила датасет, открыла таблицу и изучила общую информацию о файле


In [378]:
import numpy as np
import seaborn as sns
import pandas as pd
df = pd.read_csv('bank_clients.csv')
df.info()
df.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


# Шаг 2: Предобработка данных
Cначала я определила, где в таблице у меня пропущенные значения.
Возможно, для некоторых записей данные о days_employed и total_income не были собраны или не были доступны на момент ввода данных. Или, в целом, пропущенные значения могут быть связаны с проблемами во время импорта данных. Если есть записи о людях, которые не работают, то для них может не быть данных о количестве дней занятости и доходе. Например, если человек не имеет работы, система может не записывать данные о days_employed или total_income.Также, для некоторых типов дохода (например, пенсионеров или студентов) могут отсутствовать данные о доходе или днях занятости, что может объяснить пропущенные значения в этих колонках.
Здесь, еще можно увидеть, что количество пропущенных значений в двух колонках одинаково. Это может указывать, что эти две переменные связаны и что пропуски могут быть связаны с тем, что они пенсионеры или безработные. 

In [380]:
pd.isnull(df).sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [348]:
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [382]:
#проверяю есть ли закономерность между двумя переменными
missing_pattern = df[(df['days_employed'].isna()) & (df['total_income'].isna())]
print(len(missing_pattern))

2174


In [384]:
#заменяю пропущенные данные на ноль тк в этом контексте мне показалось это более разумным, чем заменить на медиану
df['days_employed'] = df['days_employed'].fillna(0)
df['total_income'] = df['total_income'].fillna(0)

In [386]:
#здесь я проверяю не осталось ли пропущенных значений
pd.isnull(df).sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

## Шаг 2.1: Конвертирование
Здесь я сначала превращаю отрицательные значения колонки стажа на позитивные и затем превращаю их в integers вместо float. Затем, я также преобразую значения колонки дохода.

In [388]:
df['days_employed'] = df['days_employed'].abs()
df['days_employed'] = df['days_employed'].astype(int)
df['total_income'] = df['total_income'].astype(int)

## Шаг 2.2: Удаление дубликатов
Здесь я убираю дублированные данные по всей таблице

In [390]:
df.drop_duplicates()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


## Шаг 2.3: Лемматизация

In [392]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


## Шаг 2.4: Разбивка данных по дополнительным категориям
Здесь я сначала проверила через функцию describe какая сумма в доходах будет низкой, средней и высокой. Это 25%, 50%, 75%. Затем я добавила новую колонку, которая называется category_of_income, которая показывает какой вид дохода у пользователя. 

In [394]:
def categorize_income(income):
    if income == 0:
        return 'Отсутствие дохода'
    elif income <= 89000:
        return 'Низкий уровень дохода'
    elif income <= 136000:
        return 'Средний уровень дохода'
    else:
        return 'Высокий уровень дохода'

In [396]:
df['category_of_income'] = df['total_income'].apply(categorize_income)

In [420]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_of_income,new_purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,Высокий уровень дохода,Покупка квартиры/жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,Средний уровень дохода,Приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,Высокий уровень дохода,Покупка квартиры/жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,Высокий уровень дохода,Получение образования
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,Высокий уровень дохода,Проведение свадьбы


In [454]:
#здесь я уже применила лемматизацию и по итогам можно увидеть, что покупка недвижимости является лидирующей категорией
import pandas as pd
from collections import Counter
import re


# Определяем категории и ключевые слова
wedding_keywords = ['свадьба', 'свадьбы', 'свадьбу']
education_keywords = ['образование', 'образования', 'образованием']
home_keywords = ['квартира', 'квартиры', 'квартирой', 'жилье', 'жилья', 'жильем', 'жилью']
avto_keywords = ['автомобиль', 'автомобиля', 'автомобили', 'автомобилем']
realty_keywords = ['недвижимость', 'недвижимостью', 'недвижимости']

# Инициализируем новый столбец для категорий
df['new_purpose'] = None

# Функция для категоризации на основе ключевых слов
def categoryzer(list_of_words, category):
    # Создаем шаблон regex из ключевых слов
    join_pattern = '|'.join(list_of_words)
    # Находим индексы, где шаблон совпадает в столбце 'purpose'
    index = df[df['purpose'].str.lower().str.contains(join_pattern)].index.to_list()
    # Присваиваем категорию совпадающим индексам
    for i in index:
        df.loc[i, 'new_purpose'] = category
    return df

# Применяем категории на основе ключевых слов
categoryzer(wedding_keywords, 'Проведение свадьбы')
categoryzer(education_keywords, 'Получение образования')
categoryzer(home_keywords, 'Покупка квартиры/жилья')
categoryzer(avto_keywords, 'Приобретение автомобиля')
categoryzer(realty_keywords, 'Покупка недвижимости')

# Проверяем результат
# Подсчет категорий
category_counts = Counter(df['new_purpose'])
print("\nПодсчет категорий:")
print(category_counts)


Подсчет категорий:
Counter({'Покупка недвижимости': 6367, 'Покупка квартиры/жилья': 4473, 'Приобретение автомобиля': 4315, 'Получение образования': 4022, 'Проведение свадьбы': 2348})


In [448]:
#тк следующим шагом нужно было сделать зависимость, я решила проверить данные по детям.
#тут я увидела аномальные данные такие как 20 детей и -1 ребенок.Решив, что это вероятно опечатка, я решила их изменить.
df.loc[df['children'] == 20, 'children'] = 2
df.loc[df['children'] == -1, 'children'] = 1

In [422]:
df['children'].value_counts()

children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: count, dtype: int64


# Step 3: Анализ зависимости
В этой секции я анализирую зависимость между переменными.


### 1. Зависимость между наличием детей и возвратом кредита в срок
С увеличением числа детей доля заемщиков, имеющих задолженность, уменьшается. Это может указывать на то, что семьи с большим количеством детей более ответственно относятся к финансовым обязательствам. Наибольшее количество заемщиков без долгов - это семьи без детей. Это может быть связано с различными факторами, такими как более высокий доход у бездетных пар или меньшее количество обязательных расходов. В категории с 5 детьми отсутствуют данные о заемщиках с долгами. Это может быть связано с малым количеством наблюдений в этой категории или с особенностями выборки данных.

In [433]:
df['in_debt'] = df['debt'].map({0:'Нет долга', 1:'Есть долг'})
df.groupby(['in_debt', 'children'])['debt'].size()
df.pivot_table(index='children', columns = 'in_debt', values='debt', aggfunc='size')

in_debt,Есть долг,Нет долга
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1063.0,13086.0
1,445.0,4420.0
2,202.0,1929.0
3,27.0,303.0
4,4.0,37.0
5,,9.0


### 2. Зависимость между семейным положением и возвратом кредита в срок
Женатые/замужние заемщики имеют наименьшую долю задолженностей относительно общего числа кредитов, что указывает на их большую финансовую дисциплину. В то же время, заемщики, находящиеся в гражданском браке и одинокие, имеют более высокий уровень задолженностей.
  
Возможные объяснения
- Финансовая ответственность: Женатые/замужние люди могут чувствовать большую финансовую ответственность из-за семьи и стремиться своевременно погашать кредиты.
- Стабильность: Брак может ассоциироваться с большей финансовой стабильностью и регулярным доходом.
- Социальные факторы: Социальное давление и ожидания могут влиять на поведение заемщиков.
- Возраст: Семейное положение часто связано с возрастом. Более взрослые люди, как правило, имеют больше опыта и стабильный доход.

In [435]:
family_status_pivot = df.pivot_table(index='in_debt', columns = 'family_status', values='family_status_id', aggfunc='size')
family_status_pivot

family_status,Не женат / не замужем,в разводе,вдовец / вдова,гражданский брак,женат / замужем
in_debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Есть долг,274,85,63,388,931
Нет долга,2539,1110,897,3789,11449


### 3. Зависимость между уровнем дохода и возвратом кредита в срок

Заемщики с высоким доходом чаще берут более крупные кредиты и имеют большую общую задолженность. Однако это не означает, что они чаще не возвращают кредиты. В то же время, заемщики с низким и отсутствующим доходом более осторожны в кредитовании, реже допускают задолженности и, вероятно, реже обращаются за кредитами.

In [277]:
df.pivot_table(index='in_debt', columns='category_of_income', values='debt', aggfunc='size')

category_of_income,Высокий уровень дохода,Низкий уровень дохода,Отсутствие дохода,Средний уровень дохода
in_debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Есть долг,862,249,170,460
Нет долга,9844,3003,2004,4933


### 4. Зависимость между целью кредита и возвратом кредита в срок
Большинство долгов приходится на кредиты, связанные с покупкой недвижимости или жилья, однако доля задолженностей по этим категориям относительно общего числа кредитов для этих целей остается низкой. Это может говорить о том, что хотя заемщики и берут кредиты на крупные покупки, связанные с недвижимостью, они стараются их погасить вовремя.

In [439]:
df.pivot_table(index='in_debt', columns='new_purpose', values='debt', aggfunc='size')

new_purpose,Покупка квартиры/жилья,Покупка недвижимости,Получение образования,Приобретение автомобиля,Проведение свадьбы
in_debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Есть долг,308,474,370,403,186
Нет долга,4165,5893,3652,3912,2162



# Шаг 4: Выводы
Рекомендации для скоринговой системы:

Уровень дохода:

Заемщики с высоким доходом, несмотря на более частое обращение за кредитами, показывают высокий уровень финансовой надежности. В скоринговой системе им можно назначить высокий балл, так как их риск невозврата ниже. Однако следует учитывать общую сумму их задолженности при одобрении крупных кредитов.
Заемщики с низким или отсутствующим доходом имеют повышенный риск возникновения задолженности, поэтому в их скоринговом балле стоит учитывать данный фактор и, возможно, предусмотреть более строгие условия или лимиты.

Семейное положение:

Семейное положение также оказывает значительное влияние на кредитоспособность. Женатые/замужние заемщики, а также состоящие в гражданском браке, чаще возвращают кредиты своевременно, что можно учитывать как положительный фактор в скоринговой системе.
Не женатые/не замужние, а также разведенные заемщики, как показало исследование, имеют больше задолженностей. Их скоринговый балл может быть снижен, особенно если у них отсутствуют дополнительные факторы надежности, такие как высокий доход или положительная кредитная история.

Цель кредита:

Заемщики, обращающиеся за кредитом на покупку жилья или образование, показали высокую степень ответственности при возврате средств. Для таких целей можно предусмотреть повышенный скоринговый балл, так как это долгосрочные инвестиции, связанные с ответственным подходом.
Напротив, кредиты на приобретение автомобиля и проведение свадьбы сопряжены с более высоким риском задолженности. В этом случае стоит снизить скоринговый балл или предусмотреть дополнительные условия.

Наличие детей:

Бездетные заемщики имеют высокий процент случаев без задолженностей, что также может служить положительным фактором в скоринговой системе, хотя для них можно учитывать и другие факторы, такие как уровень дохода. 
Насчет заемщиков с детьми, особенно многодетных, требуется чуть больше информации, чтобы сделать полноценный вывод.