In [None]:
import pandas as pd

# Завантаження даних з файлу
data = pd.read_csv('banking.csv')

# Видалення непотрібних колонок
columns_to_drop = ['education', 'default', 'contact', 'month', 'day_of_week', 'duration', 'poutcome', 'campaign', 'pdays', 'previous', 'job']
data = data.drop(columns=columns_to_drop)

# Перетворення колонки 'housing' на числові значення
data['housing'] = data['housing'].map({'yes': 1, 'no': 0})

# Перетворення колонки 'marital' на числові значення
data['marital'] = data['marital'].map({'divorced': 0, 'married': 1, 'single': 2})

# Перетворення колонки 'loan' на числові значення
data['loan'] = data['loan'].map({'yes': 1, 'no': 0, 'unknown': -1})

# Заповнюєм NaN
data = data.fillna(data.mode().iloc[0])

# Видалення рядків з віком менше 18 і більше або рівним 80
data = data[(data['age'] >= 18) & (data['age'] < 80)]

# Збереження оновленого датасету у файлі CSV
data.to_csv('updated_banking.csv', index=False)

print("Starting Grid Search...")
grid_search.fit(X_train, y_train)
print("Grid Search completed.")



In [None]:
# Import required libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV

# Load data
df = pd.read_csv('updated_banking.csv')

# One-hot encode categorical features
df = pd.get_dummies(df)

# Prepare data
X = df.drop('y', axis=1)
y = df['y']

# Split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Set parameters to search
parameters = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10]
}

# Create and train the model with GridSearchCV for hyperparameters tuning
model = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(estimator=model, param_grid=parameters, cv=5)
grid_search.fit(X_train, y_train)

# Use the model with best parameters found
best_model = grid_search.best_estimator_

# Make predictions
y_pred = best_model.predict(X_test)




# Evaluate the model
print("Confusion Matrix: ", confusion_matrix(y_test, y_pred))
print("Precision: ", precision_score(y_test, y_pred))
print("Recall: ", recall_score(y_test, y_pred))
print("F1 Score: ", f1_score(y_test, y_pred))

# Plot the AUC-ROC curve
y_pred_proba = best_model.predict_proba(X_test)[::,1]
fpr, tpr, _ = roc_curve(y_test,  y_pred_proba)
auc = roc_auc_score(y_test, y_pred_proba)
plt.plot(fpr,tpr,label="data 1, auc="+str(auc))
plt.legend(loc=4)
plt.show()
