# Зээлийн эрсдэлийн үнэлгээ - Naive Bayes

Энэ notebook нь зээлийн эрсдэлийг Naive Bayes ангилагчаар таамаглах бүрэн процессыг агуулна:
1. Өгөгдөл унших ба танин мэдэхүйн шинжилгээ
2. Өгөгдөл боловсруулалт
3. Naive Bayes загварын сургалт
4. Үр дүнгийн үнэлгээ ба дүрслэл

## 1. Шаардлагатай сангууд

In [8]:
# Шаардлагатай сангууд
import sys
sys.path.append('../src')

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from preprocessing import preprocess_pipeline
from models import (
    train_naive_bayes,
    evaluate_model,
    print_evaluation
)

# Зургийн тохиргоо
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('Set2')
%matplotlib inline

## 2. Өгөгдөл боловсруулалт

preprocessing.py модулийн preprocess_pipeline функцийг ашиглана

In [20]:
# Өгөгдөл боловсруулах
data = preprocess_pipeline(
    filepath='../data/credit_risk_dataset.csv',
    target_col='loan_status',
    test_size=0.2,
    random_state=42
)

# Өгөгдөл задлах
X_train = data['X_train_scaled']
X_test = data['X_test_scaled']
y_train = data['y_train']
y_test = data['y_test']
feature_names = data['feature_names']

print(f"\nБэлэн болсон өгөгдөл:")
print(f"  Train: {X_train.shape}")
print(f"  Test: {X_test.shape}")
print(f"  Features: {len(feature_names)}")

FileNotFoundError: [Errno 2] No such file or directory: '../data/credit_risk_dataset.csv'

## 3. Naive Bayes загварын сургалт

Gaussian Naive Bayes загварыг ашиглана

In [None]:
# Naive Bayes загвар сургах
nb_model = train_naive_bayes(X_train, y_train)

print(f"\nЗагварын төрөл: {type(nb_model).__name__}")
print(f"Класс: {nb_model.classes_}")

## 4. Загварын үнэлгээ

Test өгөгдөл дээр загварын гүйцэтгэлийг үнэлнэ

In [None]:
# Naive Bayes үнэлгээ
nb_results = evaluate_model(nb_model, X_test, y_test, "Naive Bayes")
print_evaluation(nb_results)

## 5. Confusion Matrix

Загварын таамаглалын үр дүнг confusion matrix-ээр харуулна

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

fig, ax = plt.subplots(figsize=(8, 6))
ConfusionMatrixDisplay.from_predictions(
    y_test, 
    nb_results['y_pred'],
    display_labels=['Төлсөн', 'Default'],
    cmap='Blues',
    ax=ax
)
plt.title('Naive Bayes - Confusion Matrix', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('../outputs/confusion_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

## 6. ROC Curve

ROC curve болон AUC-г тооцоолж дүрсэлнэ

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

# ROC curve тооцоолох
fpr, tpr, thresholds = roc_curve(y_test, nb_results['y_proba'])
auc_score = roc_auc_score(y_test, nb_results['y_proba'])

# Дүрслэл
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, label=f'Naive Bayes (AUC={auc_score:.3f})', linewidth=2, color='steelblue')
plt.plot([0, 1], [0, 1], 'k--', label='Санамсаргүй таамаглал', linewidth=1)

plt.xlabel('False Positive Rate', fontsize=12)
plt.ylabel('True Positive Rate', fontsize=12)
plt.title('ROC Curve - Naive Bayes', fontsize=14, fontweight='bold')
plt.legend(loc='lower right', fontsize=11)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.savefig('../outputs/roc_curve.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nAUC Score: {auc_score:.4f}")

## 7. Үр дүнгийн хураангуй

Naive Bayes загварын гүйцэтгэлийн хураангуй үзүүлэлтүүд

In [None]:
# Үр дүнгийн хүснэгт
metrics_df = pd.DataFrame([nb_results['metrics']])
metrics_df = metrics_df.set_index('Загвар')

print("\n" + "="*70)
print("NAIVE BAYES ЗАГВАРЫН ҮР ДҮН")
print("="*70)
print(metrics_df.round(4))
print("="*70)

# Дүрслэл
fig, ax = plt.subplots(figsize=(10, 5))
metrics_to_plot = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'AUC']
values = [metrics_df.loc['Naive Bayes', m] for m in metrics_to_plot]

bars = ax.bar(metrics_to_plot, values, color='steelblue', alpha=0.7)
ax.set_ylim(0, 1)
ax.set_ylabel('Score', fontsize=12)
ax.set_title('Naive Bayes - Гүйцэтгэлийн үзүүлэлтүүд', fontsize=14, fontweight='bold')
ax.grid(axis='y', alpha=0.3)

# Утгыг багана дээр харуулах
for bar in bars:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{height:.3f}',
            ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.savefig('../outputs/performance_metrics.png', dpi=300, bbox_inches='tight')
plt.show()

## 8. Дүгнэлт

Naive Bayes загварын гүйцэтгэлийн дүгнэлт:

1. **Ерөнхий гүйцэтгэл**: Загвар зөвлөмж сайн гүйцэтгэлтэй. AUC > 0.85 нь зээлийн эрсдэлийг ялгахад хангалттай сайн гэсэн үг.

2. **Давуу тал**:
   - Хурдан, энгийн алгоритм
   - Бага өгөгдөлтэй ажиллах чадвартай
   - Тайлбарлахад харьцангуй хялбар
   - Multiclass classification-д сайн

3. **Сул тал**:
   - Feature independence таамаглал үргэлж үнэн биш
   - Тооцооллын нарийвчлал бусад ensemble аргуудаас доогуур байж болно

4. **Цаашдын сайжруулалт**:
   - Өөр Naive Bayes хувилбарууд туршиж үзэх (Bernoulli, Multinomial)
   - Class imbalance шийдэх (SMOTE, class weights)
   - Feature engineering сайжруулах
   - Ensemble аргууд (Random Forest, XGBoost) нэмж харьцуулах