In [26]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score

X = data.drop("default", axis=1)
y = data["default"]

# Разделение датасета на обучающую и тестовую выборки (80:20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели решающего дерева и подбор оптимальных гиперпараметров
# Мы будем использовать DecisionTreeClassifier, но можно изменить его на другую модель дерева.
# В данном примере применяется глубина дерева max_depth=5, но это может быть изменено в зависимости от данных.
model = DecisionTreeClassifier(max_depth=5, random_state=42)
model.fit(X_train, y_train)

# Оценка качества модели на обучающей и тестовой выборках с помощью метрики ROC AUC
y_train_pred = model.predict_proba(X_train)[:, 1]
y_test_pred = model.predict_proba(X_test)[:, 1]

train_roc_auc = roc_auc_score(y_train, y_train_pred)
test_roc_auc = roc_auc_score(y_test, y_test_pred)

print(f"ROC AUC на обучающей выборке: {train_roc_auc:.4f}")
print(f"ROC AUC на тестовой выборке: {test_roc_auc:.4f}")

# Важность признаков
feature_importance = pd.DataFrame({'Feature': X.columns, 'Importance': model.feature_importances_})
feature_importance = feature_importance.sort_values(by='Importance', ascending=False)
print(feature_importance)

# Визуализация
from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(model, out_file=None, 
                           feature_names=X.columns,
                           class_names=["No Default", "Default"],
                           filled=True, rounded=True,
                           special_characters=True)

graph = graphviz.Source(dot_data)
graph.render("credit_scoring_tree", view=True)

NameError: name 'data' is not defined