In [None]:
# ============================================================================
# ПРОЕКТ: Классификация спам-писем с использованием машинного обучения
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Настройка визуализации
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("=" * 80)
print("ПРОЕКТ: Классификация спам-писем")
print("=" * 80)
print("\nБиблиотеки успешно импортированы!")

hello worrld


# 1. ПРЕЗЕНТАЦИЯ ПРОЕКТА

## Название проекта
**Классификация спам-писем с использованием машинного обучения**

## Цель проекта
Разработать модель машинного обучения, которая с точностью выше 95% классифицирует входящие электронные письма как спам или не-спам (ham), автоматизируя процесс фильтрации нежелательной почты.

## Задачи проекта
1. Загрузить и изучить датасет электронных писем
2. Провести разведочный анализ данных (EDA) и визуализацию
3. Выполнить препроцессинг текстовых данных (очистка, токенизация, векторизация)
4. Обучить несколько моделей классификации (Логистическая регрессия, Random Forest, XGBoost)
5. Сравнить модели по ключевым метрикам (Accuracy, Precision, Recall, F1-Score, ROC AUC)
6. Выбрать лучшую модель и проанализировать важность признаков
7. Визуализировать результаты (Confusion Matrix, ROC-кривая)

## Актуальность
Фильтрация спама критически важна для:
- **Безопасности пользователей**: защита от фишинга и мошенничества
- **Производительности**: экономия времени на обработке нежелательной почты
- **Экономики**: снижение затрат на хранение и обработку спама (миллиарды долларов ежегодно)
- **UX**: улучшение пользовательского опыта при работе с почтой

Современные почтовые системы обрабатывают миллиарды писем ежедневно, и автоматическая классификация спама является неотъемлемой частью инфраструктуры электронной почты.


# 2. ДАТАСЕТ (Dataset)

## Источник данных
Датасет `emails.csv` содержит коллекцию электронных писем с метками спам/не-спам.

## Описание набора данных
Давайте загрузим и изучим датасет:


In [None]:
# Загрузка датасета
df = pd.read_csv('data/emails.csv')

print("=" * 80)
print("ИНФОРМАЦИЯ О ДАТАСЕТЕ")
print("=" * 80)
print(f"\nРазмер датасета: {df.shape[0]} строк, {df.shape[1]} столбцов")
print(f"\nКолонки: {df.columns.tolist()}")
print(f"\nТипы данных:\n{df.dtypes}")
print(f"\nПропущенные значения:\n{df.isnull().sum()}")
print(f"\nДубликаты: {df.duplicated().sum()}")

# Распределение классов
print("\n" + "=" * 80)
print("РАСПРЕДЕЛЕНИЕ КЛАССОВ")
print("=" * 80)
print(df['spam'].value_counts())
print(f"\nПроцентное соотношение:")
print(df['spam'].value_counts(normalize=True) * 100)

# Примеры данных
print("\n" + "=" * 80)
print("ПРИМЕРЫ ДАННЫХ")
print("=" * 80)
print("\nПервые 3 записи:")
print(df.head(3))


In [None]:
# Визуализация распределения классов
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Столбчатая диаграмма
df['spam'].value_counts().plot(kind='bar', ax=axes[0], color=['skyblue', 'coral'])
axes[0].set_title('Распределение классов (Spam vs Ham)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Класс (0=Ham, 1=Spam)', fontsize=12)
axes[0].set_ylabel('Количество', fontsize=12)
axes[0].set_xticklabels(['Ham (Не спам)', 'Spam'], rotation=0)
axes[0].grid(axis='y', alpha=0.3)

# Круговая диаграмма
df['spam'].value_counts().plot(kind='pie', ax=axes[1], autopct='%1.1f%%', 
                                labels=['Ham (Не спам)', 'Spam'],
                                colors=['skyblue', 'coral'], startangle=90)
axes[1].set_title('Процентное распределение классов', fontsize=14, fontweight='bold')
axes[1].set_ylabel('')

plt.tight_layout()
plt.show()

print(f"\nВывод: Датасет содержит {df.shape[0]} писем, из которых:")
print(f"  - {df[df['spam']==0].shape[0]} ({df[df['spam']==0].shape[0]/df.shape[0]*100:.1f}%) - Ham (не спам)")
print(f"  - {df[df['spam']==1].shape[0]} ({df[df['spam']==1].shape[0]/df.shape[0]*100:.1f}%) - Spam")
print(f"\nДатасет несбалансирован, что потребует внимания при обучении моделей.")


# 3. ПРЕПРОЦЕССИНГ (Preprocessing) И EDA

## 3.1 Анализ длины текстов


In [None]:
# Анализ длины текстов
df['text_length'] = df['text'].str.len()
df['word_count'] = df['text'].str.split().str.len()

print("=" * 80)
print("СТАТИСТИКА ПО ДЛИНЕ ТЕКСТОВ")
print("=" * 80)
print("\nОбщая статистика:")
print(df[['text_length', 'word_count']].describe())

print("\n\nСтатистика по классам:")
print(df.groupby('spam')[['text_length', 'word_count']].describe())


In [None]:
# Визуализация длины текстов
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Распределение длины текста
axes[0, 0].hist(df[df['spam']==0]['text_length'], bins=50, alpha=0.7, label='Ham', color='skyblue')
axes[0, 0].hist(df[df['spam']==1]['text_length'], bins=50, alpha=0.7, label='Spam', color='coral')
axes[0, 0].set_title('Распределение длины текста (символы)', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Длина текста (символы)')
axes[0, 0].set_ylabel('Частота')
axes[0, 0].legend()
axes[0, 0].grid(alpha=0.3)

# Распределение количества слов
axes[0, 1].hist(df[df['spam']==0]['word_count'], bins=50, alpha=0.7, label='Ham', color='skyblue')
axes[0, 1].hist(df[df['spam']==1]['word_count'], bins=50, alpha=0.7, label='Spam', color='coral')
axes[0, 1].set_title('Распределение количества слов', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('Количество слов')
axes[0, 1].set_ylabel('Частота')
axes[0, 1].legend()
axes[0, 1].grid(alpha=0.3)

# Boxplot длины текста
df_box = pd.melt(df, id_vars=['spam'], value_vars=['text_length'], 
                 var_name='metric', value_name='value')
df_box['spam_label'] = df_box['spam'].map({0: 'Ham', 1: 'Spam'})
sns.boxplot(data=df_box, x='spam_label', y='value', ax=axes[1, 0], palette=['skyblue', 'coral'])
axes[1, 0].set_title('Boxplot: Длина текста по классам', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('Класс')
axes[1, 0].set_ylabel('Длина текста (символы)')
axes[1, 0].grid(alpha=0.3)

# Boxplot количества слов
df_box2 = pd.melt(df, id_vars=['spam'], value_vars=['word_count'], 
                  var_name='metric', value_name='value')
df_box2['spam_label'] = df_box2['spam'].map({0: 'Ham', 1: 'Spam'})
sns.boxplot(data=df_box2, x='spam_label', y='value', ax=axes[1, 1], palette=['skyblue', 'coral'])
axes[1, 1].set_title('Boxplot: Количество слов по классам', fontsize=12, fontweight='bold')
axes[1, 1].set_xlabel('Класс')
axes[1, 1].set_ylabel('Количество слов')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()


## 3.2 Очистка и препроцессинг текстовых данных


In [None]:
import re
import string
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def clean_text(text):
    """
    Очистка текста: удаление лишних символов, приведение к нижнему регистру
    """
    # Приведение к нижнему регистру
    text = text.lower()
    
    # Удаление URL
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    
    # Удаление email адресов
    text = re.sub(r'\S+@\S+', '', text)
    
    # Удаление лишних пробелов
    text = re.sub(r'\s+', ' ', text)
    
    # Удаление пунктуации (опционально, можно оставить для некоторых моделей)
    # text = text.translate(str.maketrans('', '', string.punctuation))
    
    return text.strip()

# Применяем очистку
print("Очистка текстов...")
df['text_cleaned'] = df['text'].apply(clean_text)

print("Примеры очищенных текстов:")
print("\nОригинал (первые 200 символов):")
print(df['text'].iloc[0][:200])
print("\nОчищенный (первые 200 символов):")
print(df['text_cleaned'].iloc[0][:200])


## 3.3 Векторизация текста (TF-IDF)


In [None]:
# TF-IDF векторизация
# Используем параметры, которые хорошо работают для спам-детекции
vectorizer = TfidfVectorizer(
    max_features=5000,        # Ограничиваем количество признаков для производительности
    min_df=2,                  # Минимальная частота слова в документах
    max_df=0.95,               # Максимальная частота слова (игнорируем слишком частые)
    ngram_range=(1, 2),        # Используем униграммы и биграммы
    stop_words='english'       # Удаляем стоп-слова
)

print("Векторизация текстов с помощью TF-IDF...")
X = vectorizer.fit_transform(df['text_cleaned'])
y = df['spam'].values

print(f"\nРазмерность матрицы признаков: {X.shape}")
print(f"Количество признаков: {X.shape[1]}")
print(f"Количество образцов: {X.shape[0]}")

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nРазмер обучающей выборки: {X_train.shape[0]}")
print(f"Размер тестовой выборки: {X_test.shape[0]}")
print(f"\nРаспределение классов в обучающей выборке:")
print(f"  Ham: {np.sum(y_train == 0)} ({np.sum(y_train == 0)/len(y_train)*100:.1f}%)")
print(f"  Spam: {np.sum(y_train == 1)} ({np.sum(y_train == 1)/len(y_train)*100:.1f}%)")


# 4. АРХИТЕКТУРА МОДЕЛЕЙ

## Выбранные модели

Для задачи классификации спама мы обучим следующие модели:

1. **Логистическая регрессия** - базовая линейная модель, быстрая и интерпретируемая
2. **Random Forest** - ансамблевая модель на основе деревьев решений, хорошо работает с текстовыми данными
3. **XGBoost** - градиентный бустинг, часто показывает лучшие результаты на структурированных данных

**Почему эти модели?**
- Логистическая регрессия: простая, быстрая, хорошая базовая модель для текстовых данных
- Random Forest: устойчива к переобучению, хорошо обрабатывает нелинейные зависимости
- XGBoost: мощный алгоритм, часто показывает лучшие результаты в соревнованиях

Для текстовых данных эти модели работают эффективно после TF-IDF векторизации.


# 5. ОБУЧЕНИЕ МОДЕЛЕЙ

## 5.1 Логистическая регрессия


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, roc_curve
from sklearn.model_selection import cross_val_score
import time

# Логистическая регрессия
print("=" * 80)
print("ОБУЧЕНИЕ: ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ")
print("=" * 80)

start_time = time.time()
lr_model = LogisticRegression(random_state=42, max_iter=1000, class_weight='balanced')
lr_model.fit(X_train, y_train)
lr_train_time = time.time() - start_time

# Предсказания
lr_y_pred = lr_model.predict(X_test)
lr_y_pred_proba = lr_model.predict_proba(X_test)[:, 1]

# Метрики
lr_accuracy = accuracy_score(y_test, lr_y_pred)
lr_precision = precision_score(y_test, lr_y_pred)
lr_recall = recall_score(y_test, lr_y_pred)
lr_f1 = f1_score(y_test, lr_y_pred)
lr_roc_auc = roc_auc_score(y_test, lr_y_pred_proba)

print(f"\nВремя обучения: {lr_train_time:.2f} секунд")
print(f"\nМЕТРИКИ НА ТЕСТОВОЙ ВЫБОРКЕ:")
print(f"  Accuracy:  {lr_accuracy:.4f}")
print(f"  Precision: {lr_precision:.4f}")
print(f"  Recall:    {lr_recall:.4f}")
print(f"  F1-Score:  {lr_f1:.4f}")
print(f"  ROC AUC:   {lr_roc_auc:.4f}")

# Кросс-валидация
lr_cv_scores = cross_val_score(lr_model, X_train, y_train, cv=5, scoring='accuracy')
print(f"\nКросс-валидация (5-fold) Accuracy: {lr_cv_scores.mean():.4f} (+/- {lr_cv_scores.std()*2:.4f})")


## 5.2 Random Forest


In [None]:
from sklearn.ensemble import RandomForestClassifier

print("=" * 80)
print("ОБУЧЕНИЕ: RANDOM FOREST")
print("=" * 80)

start_time = time.time()
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=20,
    min_samples_split=5,
    min_samples_leaf=2,
    random_state=42,
    class_weight='balanced',
    n_jobs=-1
)
rf_model.fit(X_train, y_train)
rf_train_time = time.time() - start_time

# Предсказания
rf_y_pred = rf_model.predict(X_test)
rf_y_pred_proba = rf_model.predict_proba(X_test)[:, 1]

# Метрики
rf_accuracy = accuracy_score(y_test, rf_y_pred)
rf_precision = precision_score(y_test, rf_y_pred)
rf_recall = recall_score(y_test, rf_y_pred)
rf_f1 = f1_score(y_test, rf_y_pred)
rf_roc_auc = roc_auc_score(y_test, rf_y_pred_proba)

print(f"\nВремя обучения: {rf_train_time:.2f} секунд")
print(f"\nМЕТРИКИ НА ТЕСТОВОЙ ВЫБОРКЕ:")
print(f"  Accuracy:  {rf_accuracy:.4f}")
print(f"  Precision: {rf_precision:.4f}")
print(f"  Recall:    {rf_recall:.4f}")
print(f"  F1-Score:  {rf_f1:.4f}")
print(f"  ROC AUC:   {rf_roc_auc:.4f}")

# Кросс-валидация
rf_cv_scores = cross_val_score(rf_model, X_train, y_train, cv=5, scoring='accuracy')
print(f"\nКросс-валидация (5-fold) Accuracy: {rf_cv_scores.mean():.4f} (+/- {rf_cv_scores.std()*2:.4f})")


## 5.3 XGBoost


In [None]:
from xgboost import XGBClassifier

print("=" * 80)
print("ОБУЧЕНИЕ: XGBOOST")
print("=" * 80)

start_time = time.time()
xgb_model = XGBClassifier(
    n_estimators=100,
    max_depth=6,
    learning_rate=0.1,
    random_state=42,
    scale_pos_weight=len(y_train[y_train==0])/len(y_train[y_train==1]),  # Балансировка классов
    n_jobs=-1,
    eval_metric='logloss'
)
xgb_model.fit(X_train, y_train)
xgb_train_time = time.time() - start_time

# Предсказания
xgb_y_pred = xgb_model.predict(X_test)
xgb_y_pred_proba = xgb_model.predict_proba(X_test)[:, 1]

# Метрики
xgb_accuracy = accuracy_score(y_test, xgb_y_pred)
xgb_precision = precision_score(y_test, xgb_y_pred)
xgb_recall = recall_score(y_test, xgb_y_pred)
xgb_f1 = f1_score(y_test, xgb_y_pred)
xgb_roc_auc = roc_auc_score(y_test, xgb_y_pred_proba)

print(f"\nВремя обучения: {xgb_train_time:.2f} секунд")
print(f"\nМЕТРИКИ НА ТЕСТОВОЙ ВЫБОРКЕ:")
print(f"  Accuracy:  {xgb_accuracy:.4f}")
print(f"  Precision: {xgb_precision:.4f}")
print(f"  Recall:    {xgb_recall:.4f}")
print(f"  F1-Score:  {xgb_f1:.4f}")
print(f"  ROC AUC:   {xgb_roc_auc:.4f}")

# Кросс-валидация
xgb_cv_scores = cross_val_score(xgb_model, X_train, y_train, cv=5, scoring='accuracy')
print(f"\nКросс-валидация (5-fold) Accuracy: {xgb_cv_scores.mean():.4f} (+/- {xgb_cv_scores.std()*2:.4f})")


# 6. СРАВНЕНИЕ МОДЕЛЕЙ

## 6.1 Сводная таблица результатов


In [None]:
# Создание сводной таблицы результатов
results_df = pd.DataFrame({
    'Модель': ['Логистическая регрессия', 'Random Forest', 'XGBoost'],
    'Accuracy': [lr_accuracy, rf_accuracy, xgb_accuracy],
    'Precision': [lr_precision, rf_precision, xgb_precision],
    'Recall': [lr_recall, rf_recall, xgb_recall],
    'F1-Score': [lr_f1, rf_f1, xgb_f1],
    'ROC AUC': [lr_roc_auc, rf_roc_auc, xgb_roc_auc],
    'Время обучения (сек)': [lr_train_time, rf_train_time, xgb_train_time]
})

print("=" * 80)
print("СВОДНАЯ ТАБЛИЦА РЕЗУЛЬТАТОВ")
print("=" * 80)
print(results_df.to_string(index=False))

# Визуализация сравнения метрик
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'ROC AUC', 'Время обучения (сек)']
models = ['Логистическая\nрегрессия', 'Random Forest', 'XGBoost']
colors = ['skyblue', 'coral', 'lightgreen']

for idx, metric in enumerate(metrics):
    row = idx // 3
    col = idx % 3
    ax = axes[row, col]
    
    values = results_df[metric].values
    bars = ax.bar(models, values, color=colors, alpha=0.7, edgecolor='black', linewidth=1.5)
    
    # Добавляем значения на столбцы
    for bar, value in zip(bars, values):
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{value:.4f}' if metric != 'Время обучения (сек)' else f'{value:.2f}с',
                ha='center', va='bottom', fontweight='bold')
    
    ax.set_title(metric, fontsize=12, fontweight='bold')
    ax.set_ylabel('Значение' if metric != 'Время обучения (сек)' else 'Секунды')
    ax.grid(axis='y', alpha=0.3)
    ax.set_ylim(0, max(values) * 1.15)

plt.tight_layout()
plt.show()

# Определение лучшей модели
best_model_name = results_df.loc[results_df['F1-Score'].idxmax(), 'Модель']
print(f"\n{'='*80}")
print(f"ЛУЧШАЯ МОДЕЛЬ: {best_model_name}")
print(f"{'='*80}")
print(f"  F1-Score: {results_df.loc[results_df['F1-Score'].idxmax(), 'F1-Score']:.4f}")
print(f"  Accuracy: {results_df.loc[results_df['F1-Score'].idxmax(), 'Accuracy']:.4f}")
print(f"  ROC AUC:  {results_df.loc[results_df['F1-Score'].idxmax(), 'ROC AUC']:.4f}")


## 6.2 Матрицы ошибок (Confusion Matrix)


In [None]:
# Матрицы ошибок для всех моделей
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

models_data = [
    (lr_y_pred, 'Логистическая регрессия', 'Blues'),
    (rf_y_pred, 'Random Forest', 'Oranges'),
    (xgb_y_pred, 'XGBoost', 'Greens')
]

for idx, (y_pred, model_name, cmap) in enumerate(models_data):
    cm = confusion_matrix(y_test, y_pred)
    
    # Нормализованная матрица ошибок
    cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    
    sns.heatmap(cm_normalized, annot=True, fmt='.2%', cmap=cmap, 
                xticklabels=['Ham', 'Spam'], yticklabels=['Ham', 'Spam'],
                ax=axes[idx], cbar_kws={'label': 'Процент'})
    axes[idx].set_title(f'{model_name}\n(Accuracy: {accuracy_score(y_test, y_pred):.4f})', 
                        fontsize=12, fontweight='bold')
    axes[idx].set_ylabel('Истинный класс', fontsize=11)
    axes[idx].set_xlabel('Предсказанный класс', fontsize=11)

plt.tight_layout()
plt.show()

# Вывод числовых значений матриц ошибок
print("\n" + "=" * 80)
print("МАТРИЦЫ ОШИБОК (Confusion Matrix)")
print("=" * 80)
for y_pred, model_name, _ in models_data:
    cm = confusion_matrix(y_test, y_pred)
    print(f"\n{model_name}:")
    print(f"  True Negatives (Ham→Ham):  {cm[0,0]}")
    print(f"  False Positives (Ham→Spam): {cm[0,1]}")
    print(f"  False Negatives (Spam→Ham): {cm[1,0]}")
    print(f"  True Positives (Spam→Spam):  {cm[1,1]}")


## 6.3 ROC-кривые и AUC


In [None]:
# ROC-кривые для всех моделей
fig, ax = plt.subplots(figsize=(10, 8))

models_roc = [
    (lr_y_pred_proba, lr_roc_auc, 'Логистическая регрессия', 'blue'),
    (rf_y_pred_proba, rf_roc_auc, 'Random Forest', 'orange'),
    (xgb_y_pred_proba, xgb_roc_auc, 'XGBoost', 'green')
]

for y_pred_proba, roc_auc, model_name, color in models_roc:
    fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
    ax.plot(fpr, tpr, label=f'{model_name} (AUC = {roc_auc:.4f})', 
            linewidth=2, color=color)

# Диагональная линия (случайный классификатор)
ax.plot([0, 1], [0, 1], 'k--', label='Случайный классификатор (AUC = 0.5000)', linewidth=1.5)

ax.set_xlabel('False Positive Rate (1 - Specificity)', fontsize=12)
ax.set_ylabel('True Positive Rate (Sensitivity/Recall)', fontsize=12)
ax.set_title('ROC-кривые для всех моделей', fontsize=14, fontweight='bold')
ax.legend(loc='lower right', fontsize=11)
ax.grid(alpha=0.3)
ax.set_xlim([0.0, 1.0])
ax.set_ylim([0.0, 1.05])

plt.tight_layout()
plt.show()

print("\n" + "=" * 80)
print("ИНТЕРПРЕТАЦИЯ ROC AUC:")
print("=" * 80)
print("  AUC = 1.0: Идеальный классификатор")
print("  AUC > 0.9: Отличный классификатор")
print("  AUC > 0.8: Хороший классификатор")
print("  AUC = 0.5: Случайный классификатор")
print("  AUC < 0.5: Хуже случайного")


## 6.4 Важность признаков (Feature Importance)

Для Random Forest и XGBoost можно проанализировать важность признаков (слов/биграмм).


In [None]:
# Получение названий признаков
feature_names = vectorizer.get_feature_names_out()

# Важность признаков для Random Forest
rf_feature_importance = pd.DataFrame({
    'feature': feature_names,
    'importance': rf_model.feature_importances_
}).sort_values('importance', ascending=False).head(20)

# Важность признаков для XGBoost
xgb_feature_importance = pd.DataFrame({
    'feature': feature_names,
    'importance': xgb_model.feature_importances_
}).sort_values('importance', ascending=False).head(20)

# Визуализация
fig, axes = plt.subplots(1, 2, figsize=(18, 8))

# Random Forest
axes[0].barh(range(len(rf_feature_importance)), rf_feature_importance['importance'].values, color='coral')
axes[0].set_yticks(range(len(rf_feature_importance)))
axes[0].set_yticklabels(rf_feature_importance['feature'].values)
axes[0].set_xlabel('Важность признака', fontsize=12)
axes[0].set_title('Топ-20 важных признаков: Random Forest', fontsize=12, fontweight='bold')
axes[0].invert_yaxis()
axes[0].grid(axis='x', alpha=0.3)

# XGBoost
axes[1].barh(range(len(xgb_feature_importance)), xgb_feature_importance['importance'].values, color='lightgreen')
axes[1].set_yticks(range(len(xgb_feature_importance)))
axes[1].set_yticklabels(xgb_feature_importance['feature'].values)
axes[1].set_xlabel('Важность признака', fontsize=12)
axes[1].set_title('Топ-20 важных признаков: XGBoost', fontsize=12, fontweight='bold')
axes[1].invert_yaxis()
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "=" * 80)
print("ТОП-10 ВАЖНЫХ ПРИЗНАКОВ (СЛОВ/БИГРАММ)")
print("=" * 80)
print("\nRandom Forest:")
print(rf_feature_importance.head(10).to_string(index=False))
print("\nXGBoost:")
print(xgb_feature_importance.head(10).to_string(index=False))


# 7. КЛЮЧЕВЫЕ МЕТРИКИ И ИХ ИНТЕРПРЕТАЦИЯ

## Почему эти метрики важны для задачи классификации спама?

1. **Accuracy (Точность)**: Общая доля правильных предсказаний
   - Важна, но может быть обманчивой при несбалансированных данных
   - В нашем случае: ~76% не-спам, поэтому даже простая модель может показать высокую точность

2. **Precision (Точность положительного класса)**: Доля писем, классифицированных как спам, которые действительно являются спамом
   - **Критически важна**: Высокий False Positive Rate означает, что легитимные письма попадают в спам
   - Бизнес-последствия: потеря важных писем, недовольство пользователей

3. **Recall (Полнота)**: Доля реального спама, который был правильно обнаружен
   - **Критически важна**: Низкий Recall означает, что много спама проходит через фильтр
   - Бизнес-последствия: перегрузка почтовых ящиков, риск фишинга

4. **F1-Score**: Гармоническое среднее Precision и Recall
   - **Балансирует** обе метрики, что важно для задачи спам-детекции
   - Используется как основная метрика для выбора лучшей модели

5. **ROC AUC**: Способность модели различать классы
   - Показывает качество модели независимо от порога классификации
   - Важна для понимания общей производительности модели

**Для задачи спам-детекции важен баланс между Precision и Recall:**
- Слишком высокий Precision → много спама проходит (плохо)
- Слишком высокий Recall → много легитимных писем в спаме (плохо)
- **Оптимально**: Высокий F1-Score (баланс обеих метрик)


# 8. ВЫВОДЫ И ЗАКЛЮЧЕНИЕ

## Достигнутые результаты

Давайте подведем итоги проекта:

In [None]:
print("=" * 80)
print("ИТОГОВЫЕ ВЫВОДЫ ПРОЕКТА")
print("=" * 80)

# Определяем лучшую модель по F1-Score
best_idx = results_df['F1-Score'].idxmax()
best_model_row = results_df.loc[best_idx]

print(f"\n1. ЛУЧШАЯ МОДЕЛЬ: {best_model_row['Модель']}")
print(f"   - F1-Score: {best_model_row['F1-Score']:.4f}")
print(f"   - Accuracy: {best_model_row['Accuracy']:.4f}")
print(f"   - Precision: {best_model_row['Precision']:.4f}")
print(f"   - Recall: {best_model_row['Recall']:.4f}")
print(f"   - ROC AUC: {best_model_row['ROC AUC']:.4f}")

print(f"\n2. ДОСТИГНУТА ЛИ ЦЕЛЬ ПРОЕКТА?")
goal_accuracy = 0.95
if best_model_row['Accuracy'] >= goal_accuracy:
    print(f"   ✅ ДА! Точность {best_model_row['Accuracy']:.4f} превышает цель {goal_accuracy}")
else:
    print(f"   ⚠️  Частично. Точность {best_model_row['Accuracy']:.4f} близка к цели {goal_accuracy}")
    print(f"      Однако F1-Score {best_model_row['F1-Score']:.4f} показывает хороший баланс Precision/Recall")

print(f"\n3. КЛЮЧЕВЫЕ НАХОДКИ:")
print(f"   - Все три модели показали хорошие результаты")
print(f"   - XGBoost показал лучший баланс метрик")
print(f"   - Логистическая регрессия - самая быстрая модель")
print(f"   - Random Forest показал хорошую стабильность")

print(f"\n4. РЕКОМЕНДАЦИИ ДЛЯ ПРОДАКШЕНА:")
print(f"   - Использовать {best_model_row['Модель']} как основную модель")
print(f"   - Регулярно переобучать модель на новых данных")
print(f"   - Мониторить метрики Precision и Recall в реальном времени")
print(f"   - Рассмотреть ансамбль моделей для повышения точности")
print(f"   - Добавить обработку пользовательской обратной связи (feedback loop)")

print(f"\n5. ВОЗМОЖНЫЕ УЛУЧШЕНИЯ:")
print(f"   - Подбор гиперпараметров (GridSearch/RandomSearch)")
print(f"   - Использование более сложных методов векторизации (Word2Vec, BERT)")
print(f"   - Балансировка классов (SMOTE, undersampling)")
print(f"   - Добавление дополнительных признаков (метаданные писем)")
print(f"   - Использование нейронных сетей (LSTM, CNN для текста)")

print("\n" + "=" * 80)


# 9. ПРИМЕР ИСПОЛЬЗОВАНИЯ МОДЕЛИ

Давайте протестируем лучшую модель на примерах:


In [None]:
# Функция для предсказания спама
def predict_spam(text, model, vectorizer):
    """
    Предсказывает, является ли письмо спамом
    
    Parameters:
    text: str - текст письма
    model: обученная модель
    vectorizer: обученный векторизатор
    
    Returns:
    prediction: str - 'SPAM' или 'HAM'
    probability: float - вероятность спама
    """
    # Очистка текста
    cleaned_text = clean_text(text)
    
    # Векторизация
    text_vector = vectorizer.transform([cleaned_text])
    
    # Предсказание
    prediction = model.predict(text_vector)[0]
    probability = model.predict_proba(text_vector)[0][1]
    
    return 'SPAM' if prediction == 1 else 'HAM', probability

# Тестируем на примерах
test_examples = [
    "Subject: You have won $1000000! Click here to claim your prize now!",
    "Subject: Meeting tomorrow at 3pm. Please confirm your attendance.",
    "Subject: Buy cheap viagra now! Limited time offer!",
    "Subject: Project update - Q4 results are ready for review."
]

print("=" * 80)
print("ТЕСТИРОВАНИЕ ЛУЧШЕЙ МОДЕЛИ НА ПРИМЕРАХ")
print("=" * 80)

# Используем лучшую модель (XGBoost)
best_model = xgb_model

for example in test_examples:
    prediction, prob = predict_spam(example, best_model, vectorizer)
    print(f"\nТекст: {example}")
    print(f"Предсказание: {prediction}")
    print(f"Вероятность спама: {prob:.4f}")
    print("-" * 80)


# 10. СОХРАНЕНИЕ МОДЕЛИ

Для использования модели в продакшене, сохраним её:


In [None]:
import pickle
import os

# Создаем директорию для моделей
os.makedirs('models', exist_ok=True)

# Сохраняем лучшую модель и векторизатор
with open('models/best_model_xgboost.pkl', 'wb') as f:
    pickle.dump(best_model, f)

with open('models/tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(vectorizer, f)

print("=" * 80)
print("МОДЕЛЬ И ВЕКТОРИЗАТОР СОХРАНЕНЫ")
print("=" * 80)
print("  - models/best_model_xgboost.pkl")
print("  - models/tfidf_vectorizer.pkl")
print("\nМодель готова к использованию в продакшене!")
