Данные связаны с прямыми маркетинговыми кампаниями португальского банковского учреждения.
Маркетинговые кампании были основаны на телефонных звонках. Часто требовалось более одного контакта с одним и тем же клиентом,
чтобы узнать, будет ли (или нет) подписан продукт (срочный банковский депозит).

Цель классификации — предсказать, подпишется ли клиент на срочный депозит (переменная y).

Citation Request:
  This dataset is public available for research. The details are described in [Moro et al., 2011]. 
  Please include this citation if you plan to use this database:

  [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. 
  In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.

  Available at: [pdf] http://hdl.handle.net/1822/14838
                [bib] http://www3.dsi.uminho.pt/pcortez/bib/2011-esm-1.txt

1. Title: Bank Marketing

2. Sources
   Created by: Paulo Cortez (Univ. Minho) and Sérgio Moro (ISCTE-IUL) @ 2012
   
3. Past Usage:

  The full dataset was described and analyzed in:

  S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. 
  In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, 
  Portugal, October, 2011. EUROSIS.


Входные переменные:

Количество данных клиента банка:

1 - возраст (числовой)

2 - работа: тип работы (категория: "админ.", "неизвестно", "безработный", "управление", "горничная", "предприниматель", "студент",
"синий воротничок", "самозанятый", "пенсионер", "техник", "услуги")

3 - семейное: семейное положение (категория: "женат", "разведен", "холост"; примечание: "разведен" означает разведенный или вдовец)

4 - образование (категория: "неизвестно", "среднее", "начальное", "высшее")

5 - по умолчанию: есть кредит в дефолте? (двоичное: "да", "нет")

6 - баланс: среднегодовой баланс в евро (числовой)

7 - жилье: есть жилищный кредит? (двоичное: "да", "нет")

8 - кредит: есть личный кредит? (двоичный: "да", "нет")
# связан с последним контактом текущей кампании:
9 - контакт: тип связи с контактом (категория: "неизвестно", "телефон", "сотовый")
10 - день: день последнего контакта в месяце (числовой)
11 - месяц: месяц последнего контакта в году (категория: "янв", "фев", "мар", ..., "ноябрь", "дек")
12 - длительность: продолжительность последнего контакта в секундах (числовой)
# другие атрибуты:
13 - кампания: количество контактов, выполненных в течение этой кампании и для этого клиента (числовой, включает последний контакт)
14 - pdays: количество дней, прошедших с момента последнего контакта с клиентом из предыдущей кампании (числовой, -1 означает, что с клиентом ранее не связывались)
15 - предыдущий: количество контактов, выполненных до этой кампании и для этого клиента (числовой)
16 - poutcome: результат предыдущей маркетинговой кампании (категория: "неизвестно", "другое", "неудача", "успех")

Выходная переменная (желаемая цель):
17 - y - подписался ли клиент на срочный депозит? (двоичное: "да", "нет")

8. Отсутствующие значения атрибутов: нет

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv(r"C:\Users\mmd28\OneDrive\Рабочий стол\Academic_potfolio\Classical Machine Learning\Classification\data\bank-full.csv", sep=';', low_memory=False)

# EDA - исследование данных

In [4]:
df.head(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


In [6]:
# Преобразование целевой переменной в бинарный формат
df['y'] = df['y'].map({'yes': 1, 'no': 0})

In [7]:
# Проверка уникальных значений в категориальных переменных
categorical_cols = df.select_dtypes(include=['object']).columns
for col in categorical_cols:
    print(f"{col}: {df[col].unique()}")

job: ['management' 'technician' 'entrepreneur' 'blue-collar' 'unknown'
 'retired' 'admin.' 'services' 'self-employed' 'unemployed' 'housemaid'
 'student']
marital: ['married' 'single' 'divorced']
education: ['tertiary' 'secondary' 'unknown' 'primary']
default: ['no' 'yes']
housing: ['yes' 'no']
loan: ['no' 'yes']
contact: ['unknown' 'cellular' 'telephone']
month: ['may' 'jun' 'jul' 'aug' 'oct' 'nov' 'dec' 'jan' 'feb' 'mar' 'apr' 'sep']
poutcome: ['unknown' 'failure' 'other' 'success']


У нас еть значения unknown. Проверим их и, при необходимости, преобразуем их в NA, а потом заполним их значениями, которые наиболее часто встречаются в категориях.

In [8]:
# Подсчет доли 'unknown' в категориальных переменных
for col in ['job', 'education', 'contact', 'poutcome']:
    unknown_ratio = (df[col] == 'unknown').mean()
    print(f"{col}: {unknown_ratio:.2%} unknown values")

job: 0.64% unknown values
education: 4.11% unknown values
contact: 28.80% unknown values
poutcome: 81.75% unknown values


1. job: 0.64% unknown values - низкая доля, заменяем модой.
2. education: 4.11% unknown values - тоже заменим модой.
3. contact: 28.80% и poutcome: 81.75% unknown values требется изучить и возможно удалить столбцы.

In [9]:
# Подсчет доли 'unknown' в категориальных переменных
unknown_thresholds = {
    "job": 0.01,
    "education": 0.05,
    "contact": 0.20,
    "poutcome": 0.50
}

In [10]:
# Анализ влияния contact и poutcome на y
for col in ['contact', 'poutcome']:
    print(f"\nРаспределение y для {col}:")
    print(df.groupby(col)['y'].mean())


Распределение y для contact:
contact
cellular     0.149189
telephone    0.134205
unknown      0.040707
Name: y, dtype: float64

Распределение y для poutcome:
poutcome
failure    0.126097
other      0.166848
success    0.647253
unknown    0.091615
Name: y, dtype: float64


contact:
- Клиенты, с которыми связывались через cellular (14.9%) и telephone (13.4%), подписываются чаще, чем те, кто отмечен как unknown (4.1%). Значение unknown явно отличается, его можно интерпретировать как отсутствие контакта, а не просто пропуск. Закодируем unknown как отдельную категорию.

poutcome:
- Клиенты, у которых исход предыдущей кампании был success, подписываются в 64.7% случаев, что значительно выше остальных. unknown (9.1%) ближе к failure (12.6%), но ниже other (16.7%). Полностью удалять poutcome не стоит, так как он содержит важную информацию. Оставим и также закодируем unknown отдельно.

In [11]:
# Обработка значений 'unknown' в job и education
df.loc[df['job'] == 'unknown', 'job'] = df['job'].mode()[0]
df.loc[df['education'] == 'unknown', 'education'] = df['education'].mode()[0]

# Кодирование категориальых и масштабирование числовых признаков. 

In [12]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [13]:
# Кодирование категориальных переменных (One-Hot Encoding)
df = pd.get_dummies(df, columns=df.select_dtypes(include=['object']).columns, drop_first=True)

In [14]:
# Выбор числовых признаков
numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns

In [15]:
# Масштабирование числовых признаков
scaler = StandardScaler()
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

In [16]:
# Проверка изменений
df.head(3)

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous,y,job_blue-collar,job_entrepreneur,...,month_jul,month_jun,month_mar,month_may,month_nov,month_oct,month_sep,poutcome_other,poutcome_success,poutcome_unknown
0,1.606965,0.256419,-1.298476,0.011016,-0.569351,-0.411453,-0.25194,-0.363983,False,False,...,False,False,False,True,False,False,False,False,False,True
1,0.288529,-0.437895,-1.298476,-0.416127,-0.569351,-0.411453,-0.25194,-0.363983,False,False,...,False,False,False,True,False,False,False,False,False,True
2,-0.747384,-0.446762,-1.298476,-0.707361,-0.569351,-0.411453,-0.25194,-0.363983,False,True,...,False,False,False,True,False,False,False,False,False,True


Результат масштабирования числовых признаков выглядит корректно: числовые столбцы теперь находятся в стандартизированном формате (среднее значение 0, стандартное отклонение 1). Также видно, что для категориальных признаков были применены one-hot encoding, что расширило количество столбцов.

# обучению модели K-NN
Используем две различные метрики расстояния (евклидова и манхэттенского) и подберем гиперпараметры.

**Обучим модель K-NN, используя евклидову метрику.**

In [17]:
from sklearn.model_selection import train_test_split

In [18]:
# Разделение данных на обучающую и тестовую выборки
X = df.drop(columns=['y'])
y = df['y']

In [19]:
# Преобразуем целевую переменную в целочисленный тип
y = y.astype(int)

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [21]:
print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

Размер обучающей выборки: (31647, 40)
Размер тестовой выборки: (13564, 40)


Далее обучим модель K-NN

In [22]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [23]:
# Обучение модели K-NN с евклидовой метрикой
knn_euclidean = KNeighborsClassifier(n_neighbors=5, metric='euclidean')

In [24]:
knn_euclidean.fit(X_train, y_train)

In [25]:
# Прогнозирование на тестовой выборке
y_pred_euclidean = knn_euclidean.predict(X_test)
accuracy_euclidean = accuracy_score(y_test, y_pred_euclidean)
print(f"Точность модели с евклидовой метрикой: {accuracy_euclidean:.4f}")

Точность модели с евклидовой метрикой: 0.8988


Точность модели с евклидовой метрикой составляет 89.88%, что является хорошим результатом для данного набора данных. Это подтверждает, что K-NN с евклидовой метрикой хорошо справляется с задачей классификации, предсказывая, подпишется ли клиент на срочный депозит.

Теперь можно продолжить обучение модели с использованием другой метрики или выполнить дальнейший анализ.

**Обучим модель K-NN, используя метрику Манхэттена.**

In [26]:
# Создание и обучение модели K-NN с метрикой Манхэттена
knn_manhattan = KNeighborsClassifier(metric='manhattan')
knn_manhattan.fit(X_train, y_train)

In [27]:
# Прогнозирование на тестовых данных
y_pred_manhattan = knn_manhattan.predict(X_test)

In [28]:
# Оценка точности модели
accuracy_manhattan = accuracy_score(y_test, y_pred_manhattan)
print(f"Точность модели с метрикой Манхэттена: {accuracy_manhattan:.4f}")

Точность модели с метрикой Манхэттена: 0.8981


Точность модели с метрикой Манхэттена составила 89.81%, что очень близко к результату с евклидовой метрикой (89.88%). Это подтверждает, что обе метрики хорошо справляются с задачей классификации, и результат в целом стабилен.

# Сравненим результаты с другими моделями

In [29]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score

In [30]:
# Список моделей
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier()
}

In [31]:
# Обучение моделей и вывод точности
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    results[name] = accuracy

In [32]:
# Сравнение точности моделей
for name, accuracy in results.items():
    print(f"{name}: {accuracy:.4f}")

Logistic Regression: 0.8999
Decision Tree: 0.8707
Random Forest: 0.9060
Gradient Boosting: 0.9038


На основе точности, Random Forest оказалась самой лучшей моделью. Она немного превзошла Gradient Boosting и Logistic Regression, и ее результат близок к K-NN с метрикой Евклида.

# Подберём гиперпараметры для K-NN

In [33]:
from sklearn.model_selection import GridSearchCV

In [34]:
# Параметры для поиска
param_grid = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'metric': ['euclidean', 'manhattan'],
    'weights': ['uniform', 'distance']
}

In [35]:
# Создание модели K-NN
knn = KNeighborsClassifier()

In [36]:
# Инициализация GridSearchCV
grid_search = GridSearchCV(estimator=knn, param_grid=param_grid, cv=5, scoring='accuracy')

In [37]:
# Обучение с подбором гиперпараметров
grid_search.fit(X_train, y_train)

In [38]:
# Результаты поиска
print("Лучшие гиперпараметры:", grid_search.best_params_)
print("Лучшее значение точности:", grid_search.best_score_)

Лучшие гиперпараметры: {'metric': 'euclidean', 'n_neighbors': 11, 'weights': 'distance'}
Лучшее значение точности: 0.8981895869386312


**Оценим другие метрики для анализа модели**

In [39]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

In [40]:
# Прогноз для тестовых данных
y_pred = knn_euclidean.predict(X_test)

In [41]:
# Оценка метрик для моделей с метками 0 и 2
precision = precision_score(y_test, y_pred, pos_label=2)
recall = recall_score(y_test, y_pred, pos_label=2)
f1 = f1_score(y_test, y_pred, pos_label=2)
roc_auc = roc_auc_score(y_test, y_pred)

In [42]:
# Вывод результатов
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")
print(f"ROC-AUC: {roc_auc:.4f}")

Precision: 0.6212
Recall: 0.3623
F1-Score: 0.4577
ROC-AUC: 0.6664


Precision: 0.6212 — это означает, что 62.12% предсказанных положительных случаев действительно являются положительными.

Recall: 0.3623 — из всех реальных положительных случаев модель правильно определила 36.23%.

F1-Score: 0.4577 — это среднее гармоническое значение precision и recall, что указывает на сбалансированность модели.

ROC-AUC: 0.6664 — показывает, насколько хорошо модель различает положительные и отрицательные классы. Значение около 0.67 свидетельствует о том, что модель работает лучше, чем случайный выбор.

Эти метрики указывают на то, что модель имеет хорошие результаты по precision, но требуется улучшение recall, так как она не распознает все положительные случаи.

# Обучим и оценим модель XGBoost

In [43]:
import xgboost as xgb

In [44]:
# Преобразуем целевую переменную: заменим все значения, отличные от 0, на 1
y_binary = y.apply(lambda x: 1 if x != 0 else 0)

In [45]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y_binary, test_size=0.2, random_state=42)

In [47]:
xgb_model = xgb.XGBClassifier(eval_metric='mlogloss')
xgb_model.fit(X_train, y_train)

In [48]:
# Прогнозирование на тестовой выборке
y_pred = xgb_model.predict(X_test)

In [49]:
# Оценка метрик
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred)

In [50]:
# Вывод результатов
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")
print(f"ROC-AUC: {roc_auc:.4f}")

Accuracy: 0.9060
Precision: 0.6396
Recall: 0.5060
F1-Score: 0.5650
ROC-AUC: 0.7334


Подберем гиперпараметры с помощью GridSearchCV

In [51]:
from xgboost import XGBClassifier

In [52]:
# Определение гиперпараметров для XGBoost
param_grid = {
    'max_depth': [3, 5, 7, 9],
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0]
}

In [53]:
# Инициализация модели XGBoost
xgb = XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')

In [56]:
# Подбор гиперпараметров с помощью GridSearchCV
grid_search = GridSearchCV(estimator=xgb, param_grid=param_grid, cv=3, n_jobs=-1, verbose=2, scoring='accuracy')

In [57]:
# Обучение модели
grid_search.fit(X_train, y_train)

Fitting 3 folds for each of 432 candidates, totalling 1296 fits


Parameters: { "use_label_encoder" } are not used.



In [58]:
# Лучшие параметры
print("Лучшие параметры:", grid_search.best_params_)

Лучшие параметры: {'colsample_bytree': 0.9, 'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 300, 'subsample': 0.9}


In [59]:
# Оценка модели с лучшими параметрами
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)

In [60]:
# Метрики для лучшей модели
accuracy_best = accuracy_score(y_test, y_pred_best)
precision_best = precision_score(y_test, y_pred_best, average='weighted')
recall_best = recall_score(y_test, y_pred_best, average='weighted')
f1_best = f1_score(y_test, y_pred_best, average='weighted')
roc_auc_best = roc_auc_score(y_test, y_pred_best)

print(f"\nТочность (Accuracy): {accuracy_best:.4f}")
print(f"Точность (Precision): {precision_best:.4f}")
print(f"Полнота (Recall): {recall_best:.4f}")
print(f"F1-Score: {f1_best:.4f}")
print(f"ROC-AUC: {roc_auc_best:.4f}")


Точность (Accuracy): 0.9059
Точность (Precision): 0.8959
Полнота (Recall): 0.9059
F1-Score: 0.8983
ROC-AUC: 0.7116


На основе этих результатов можно сказать, что модель с XGBoost показывает отличные результаты.

- Точность (Accuracy): 0.9059 — модель отлично классифицирует данные в целом.
- Точность (Precision): 0.8959 — модель имеет хорошую способность правильно классифицировать положительные примеры.
- Полнота (Recall): 0.9059 — модель успешно находит большинство положительных примеров.
- F1-Score: 0.8983 — хорошее соотношение между точностью и полнотой.
- ROC-AUC: 0.7116 — модель обладает определенным уровнем уверенности в своем прогнозировании