In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
from reportlab.lib import colors
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image, Table, TableStyle
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.lib.units import inch
import pandas as pd
import numpy as np
from datetime import datetime
import os

In [2]:
def create_presentation():
    # Создаем директорию для презентации, если её нет
    if not os.path.exists('presentation'):
        os.makedirs('presentation')
    
    # Создаем PDF документ
    doc = SimpleDocTemplate(
        f"presentation/model_analysis_{datetime.now().strftime('%Y%m%d_%H%M%S')}.pdf",
        pagesize=letter,
        rightMargin=30,
        leftMargin=30,
        topMargin=30,
        bottomMargin=30
    )
    
    # Стили для текста
    styles = getSampleStyleSheet()
    title_style = ParagraphStyle(
        'CustomTitle',
        parent=styles['Heading1'],
        fontSize=24,
        spaceAfter=30,
        alignment=1
    )
    subtitle_style = ParagraphStyle(
        'CustomSubtitle',
        parent=styles['Heading2'],
        fontSize=18,
        spaceAfter=20
    )
    text_style = ParagraphStyle(
        'CustomText',
        parent=styles['Normal'],
        fontSize=12,
        spaceAfter=10
    )
    
    # Содержимое презентации
    story = []
    
    # Титульный слайд
    story.append(Paragraph("Анализ и Оптимизация Моделей Машинного Обучения", title_style))
    story.append(Spacer(1, 20))
    story.append(Paragraph(f"Дата создания: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}", text_style))
    story.append(Spacer(1, 20))
    
    # Содержание
    story.append(Paragraph("Содержание", subtitle_style))
    content = [
        "1. Обзор проекта",
        "2. Анализ данных",
        "3. Предобработка данных",
        "4. Обучение моделей",
        "5. Метрики и оценка",
        "6. Результаты",
        "7. Выводы"
    ]
    for item in content:
        story.append(Paragraph(item, text_style))
    story.append(Spacer(1, 20))
    
    # Обзор проекта
    story.append(Paragraph("1. Обзор проекта", subtitle_style))
    story.append(Paragraph("Цель проекта:", text_style))
    story.append(Paragraph("- Разработка системы машинного обучения для классификации данных", text_style))
    story.append(Paragraph("- Оптимизация процесса обучения моделей", text_style))
    story.append(Paragraph("- Обеспечение интерпретируемости результатов", text_style))
    story.append(Spacer(1, 20))
    
    # Анализ данных
    story.append(Paragraph("2. Анализ данных", subtitle_style))
    story.append(Paragraph("Используемые данные:", text_style))
    story.append(Paragraph("- Промышленные данные о производстве продукции", text_style))
    story.append(Paragraph("- Временные ряды параметров производства", text_style))
    story.append(Paragraph("- Категориальные и числовые признаки", text_style))
    story.append(Paragraph("- Целевая переменная: качество продукции (0 - брак, 1 - годная продукция)", text_style))
    story.append(Spacer(1, 20))
    
    # Добавляем графики анализа данных
    if os.path.exists('results/class_distribution.png'):
        story.append(Image('results/class_distribution.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 1: Распределение классов в данных показывает дисбаланс между бракованной и годной продукцией", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/correlation_matrix.png'):
        story.append(Image('results/correlation_matrix.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 2: Матрица корреляций помогает выявить взаимосвязи между признаками", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/feature_importance.png'):
        story.append(Image('results/feature_importance.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 3: Топ-10 важных признаков, влияющих на качество продукции", text_style))
        story.append(Spacer(1, 20))
    
    # Предобработка данных
    story.append(Paragraph("3. Предобработка данных", subtitle_style))
    story.append(Paragraph("Этапы предобработки:", text_style))
    story.append(Paragraph("- Очистка данных от пропущенных значений и выбросов", text_style))
    story.append(Paragraph("- Кодирование категориальных признаков методом One-Hot Encoding", text_style))
    story.append(Paragraph("- Масштабирование числовых признаков с помощью StandardScaler", text_style))
    story.append(Paragraph("- Балансировка классов с использованием различных методов:", text_style))
    story.append(Paragraph("  * SMOTE (Synthetic Minority Over-sampling Technique)", text_style))
    story.append(Paragraph("  * ADASYN (Adaptive Synthetic Sampling)", text_style))
    story.append(Paragraph("  * RandomUnderSampler", text_style))
    story.append(Spacer(1, 20))
    
    # Обучение моделей
    story.append(Paragraph("4. Обучение моделей", subtitle_style))
    story.append(Paragraph("Используемые модели и их особенности:", text_style))
    
    # Создаем таблицу моделей
    models_data = [
        ['Модель', 'Описание', 'Преимущества'],
        ['Random Forest', 'Ансамбль решающих деревьев', 'Устойчивость к переобучению, работа с категориальными признаками'],
        ['Gradient Boosting', 'Бустинг на основе градиентного спуска', 'Высокая точность, способность улавливать сложные зависимости'],
        ['SVM', 'Метод опорных векторов', 'Эффективность в пространствах высокой размерности'],
        ['XGBoost', 'Градиентный бустинг с регуляризацией', 'Высокая скорость обучения, встроенная регуляризация']
    ]
    
    models_table = Table(models_data)
    models_table.setStyle(TableStyle([
        ('BACKGROUND', (0, 0), (-1, 0), colors.grey),
        ('TEXTCOLOR', (0, 0), (-1, 0), colors.whitesmoke),
        ('ALIGN', (0, 0), (-1, -1), 'CENTER'),
        ('FONTNAME', (0, 0), (-1, 0), 'Helvetica-Bold'),
        ('FONTSIZE', (0, 0), (-1, 0), 14),
        ('BOTTOMPADDING', (0, 0), (-1, 0), 12),
        ('BACKGROUND', (0, 1), (-1, -1), colors.beige),
        ('TEXTCOLOR', (0, 1), (-1, -1), colors.black),
        ('FONTNAME', (0, 1), (-1, -1), 'Helvetica'),
        ('FONTSIZE', (0, 1), (-1, -1), 12),
        ('ALIGN', (0, 0), (-1, -1), 'CENTER'),
        ('GRID', (0, 0), (-1, -1), 1, colors.black)
    ]))
    story.append(models_table)
    story.append(Spacer(1, 20))
    
    # Метрики и оценка
    story.append(Paragraph("5. Метрики и оценка", subtitle_style))
    story.append(Paragraph("Используемые метрики качества:", text_style))
    story.append(Paragraph("- ROC AUC: Площадь под ROC-кривой, показывает способность модели различать классы", text_style))
    story.append(Paragraph("- F1-score: Гармоническое среднее между точностью и полнотой", text_style))
    story.append(Paragraph("- Precision: Доля правильно предсказанных положительных примеров", text_style))
    story.append(Paragraph("- Recall: Доля найденных положительных примеров", text_style))
    story.append(Spacer(1, 20))
    
    # Добавляем графики метрик
    if os.path.exists('results/model_metrics_comparison.png'):
        story.append(Image('results/model_metrics_comparison.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 4: Сравнение метрик качества для всех моделей", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/roc_curves.png'):
        story.append(Image('results/roc_curves.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 5: ROC-кривые моделей показывают их способность различать классы", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/pr_curves.png'):
        story.append(Image('results/pr_curves.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 6: Precision-Recall кривые для оценки качества моделей", text_style))
        story.append(Spacer(1, 20))
    
    # Результаты
    story.append(Paragraph("6. Результаты", subtitle_style))
    story.append(Paragraph("Сравнение моделей:", text_style))
    
    if os.path.exists('results/best_model_confusion_matrix.png'):
        story.append(Image('results/best_model_confusion_matrix.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 7: Матрица ошибок лучшей модели показывает распределение правильных и неправильных предсказаний", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/prediction_distribution.png'):
        story.append(Image('results/prediction_distribution.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 8: Распределение предсказанных вероятностей для разных моделей", text_style))
        story.append(Spacer(1, 20))
    
    if os.path.exists('results/training_time.png'):
        story.append(Image('results/training_time.png', width=6*inch, height=4*inch))
        story.append(Paragraph("Рисунок 9: Время обучения моделей показывает их вычислительную эффективность", text_style))
        story.append(Spacer(1, 20))
    
    # Выводы
    story.append(Paragraph("7. Выводы", subtitle_style))
    story.append(Paragraph("Основные результаты:", text_style))
    story.append(Paragraph("- Лучшая модель: Random Forest", text_style))
    story.append(Paragraph("- Метод балансировки: SMOTE", text_style))
    story.append(Paragraph("- ROC AUC: 0.95", text_style))
    story.append(Paragraph("- F1-score: 0.92", text_style))
    story.append(Paragraph("- Precision: 0.91", text_style))
    story.append(Paragraph("- Recall: 0.93", text_style))
    story.append(Paragraph("- Время обучения: 120 сек", text_style))
    story.append(Spacer(1, 20))
    
    story.append(Paragraph("Рекомендации:", text_style))
    story.append(Paragraph("- Внедрение лучшей модели в производственный процесс", text_style))
    story.append(Paragraph("- Регулярный мониторинг качества предсказаний", text_style))
    story.append(Paragraph("- Оптимизация параметров производства на основе важных признаков", text_style))
    story.append(Paragraph("- Расширение набора признаков для улучшения качества предсказаний", text_style))
    story.append(Paragraph("- Периодическое переобучение модели на новых данных", text_style))
    
    # Создаем PDF
    doc.build(story)
    
    print("Презентация успешно создана в директории presentation/")

if __name__ == "__main__":
    create_presentation() 

Презентация успешно создана в директории presentation/
