In [33]:
import random
import math

# 1. ГЕНЕРАЦИЯ ДАТАСЕТА
directions = ['090301', '090304', '100503']
debt_previous = ['да', 'нет']
debt_earlier = ['да', 'нет']
attendance = ['менее 30%', '30%-50%', '50%-80%', 'более 80%']
vk_group = ['да', 'нет']
moodle = ['да', 'нет']
sports = ['да', 'нет']
activities = ['да', 'нет']
reviews = ['плохо', 'хорошо', 'отлично']

def generate_dataset(n=500):
    """
    ФУНКЦИЯ ГЕНЕРАЦИИ ДАТАСЕТА С СЛУЧАЙНЫМИ ДАННЫМИ О СТУДЕНТАХ
    Создает n записей со случайными значениями атрибутов
    """
    print(f"\nГенерация {n} случайных записей о студентах")
    dataset = []
    for i in range(n):
        student = {
            'id': i+1,  # Уникальный идентификатор студента
            'направление': random.choice(directions),  # Случайное направление подготовки
            'задолженность_прошлая': random.choice(debt_previous),  # Задолженность за прошлую сессию
            'задолженность_ранние': random.choice(debt_earlier),  # Задолженность за ранние сессии
            'посещаемость': random.choice(attendance),  # Уровень посещаемости занятий
            'вк_кафедра': random.choice(vk_group),  # Наличие в группе ВК кафедры
            'moodle': random.choice(moodle),  # Регистрация в moodle по всем дисциплинам
            'спортсмен': random.choice(sports),  # Статус спортсмена
            'активность': random.choice(activities),  # Активность в студенческих мероприятиях
            'отзывы': random.choice(reviews)  # Отзывы преподавателей
        }
        dataset.append(student)
    print(f"успешно сгенерировано {len(dataset)} записей")
    return dataset

# Генерируем основной датасет
dataset = generate_dataset()

def print_dataset_table(dataset, title, max_rows=10):
    """
    ФУНКЦИЯ ВЫВОДА ДАТАСЕТА В ВИДЕ ФОРМАТИРОВАННОЙ ТАБЛИЦЫ
    Показывает структурированные данные с заголовками и границами
    """
    print(f"\n{title}")
    if len(dataset) == 0:
        print("пустой датасет - нет данных для отображения")
        return
    
    # Определяем заголовки столбцов таблицы
    headers = ["ID", "Направление", "Задолж_пр", "Задолж_ран", "Посещаемость", "ВК", "Moodle", "Спортсмен", "Активность", "Отзывы"]
    if 'продолжает' in dataset[0]:
        headers.append("Продолжает")  # Добавляем столбец с меткой, если она есть
        # проверяет, были ли уже добавлены метки в датасет, и в зависимости от этого решает, показывать ли столбец "Продолжает" в таблице
    
    # Ширины колонок для красивого форматирования
    col_widths = [4, 12, 10, 10, 12, 4, 8, 10, 12, 10, 10]
    
    # Верхняя граница таблицы
    total_width = sum(col_widths) + len(col_widths) * 3 - 1
    print("┌" + "─" * total_width + "┐")
    
    # Заголовки таблицы
    header_line = "│"
    for i, header in enumerate(headers):
        header_line += f" {header:{col_widths[i]}} │"
    print(header_line)
    
    # Разделитель между заголовками и данными
    print("├" + "─" * total_width + "┤")
    
    # Вывод данных студентов
    for student in dataset[:max_rows]:
        row = [
            f"{student['id']}",  # ID студента
            f"{student['направление']}",  # Код направления
            f"{student['задолженность_прошлая']}",  # Задолженность прошлая
            f"{student['задолженность_ранние']}",  # Задолженность ранняя
            f"{student['посещаемость']}",  # Уровень посещаемости
            f"{student['вк_кафедра']}",  # Наличие в ВК
            f"{student['moodle']}",  # Регистрация в Moodle
            f"{student['спортсмен']}",  # Статус спортсмена
            f"{student['активность']}",  # Активность в мероприятиях
            f"{student['отзывы']}"  # Отзывы преподавателей
        ]
        if 'продолжает' in student:
            continue_label = "Да" if student['продолжает'] else "Нет"  # Преобразуем булево значение в текст
            row.append(f"{continue_label}")  # Добавляем метку продолжения обучения
        
        data_line = "│"
        for i, value in enumerate(row):
            data_line += f" {value:{col_widths[i]}} │"  # Форматируем каждую ячейку
        print(data_line)
    
    # Нижняя граница таблицы
    if len(dataset) <= max_rows:
        print("└" + "─" * total_width + "┘")
    else:
        print("├" + "─" * total_width + "┤")
        print(f"│ ... и еще {len(dataset) - max_rows} записей {' ' * (total_width - 20)} │")
        print("└" + "─" * total_width + "┘")
    
    print(f"Всего записей в датасете: {len(dataset)}")

# Выводим сгенерированный датасет
print_dataset_table(dataset, "1. Сгенерированный датасет с данными о студентах")


Генерация 500 случайных записей о студентах
успешно сгенерировано 500 записей

1. Сгенерированный датасет с данными о студентах
┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ ID   │ Направление  │ Задолж_пр  │ Задолж_ран │ Посещаемость │ ВК   │ Moodle   │ Спортсмен  │ Активность   │ Отзывы     │
├──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ 1    │ 100503       │ нет        │ нет        │ 50%-80%      │ нет  │ нет      │ нет        │ да           │ хорошо     │
│ 2    │ 090301       │ нет        │ да         │ 30%-50%      │ нет  │ нет      │ да         │ нет          │ отлично    │
│ 3    │ 090301       │ нет        │ да         │ менее 30%    │ да   │ да       │ нет        │ да           │ плохо      │
│ 4    │ 090304       │ да         │ нет        │ 50%-80%      │ нет  │ нет      │ да         │ нет  

In [34]:
# 2. Проставление меток продолжения обучения
print("\nПроставление меток продолжения обучения (True/False)")

def add_labels(dataset):
    """
    Функция добавления меток на основе логики оценки риска отчисления
    Использует взвешенную систему оценки факторов успеваемости и активности
    """
    print("\nАнализ факторов успеваемости и активности студентов...")
    print("   Отрицательные факторы (увеличивают риск отчисления):")
    print("      - Задолженность за прошлую сессию: +4 балла риска")
    print("      - Задолженность за ранние сессии: +2 балла риска") 
    print("      - Посещаемость менее 30%: +5 баллов риска")
    print("      - Посещаемость 30%-50%: +3 балла риска")
    print("      - Плохие отзывы преподавателей: +3 балла риска")
    print("   Положительные факторы (уменьшают риск отчисления):")
    print("      - Отличные отзывы: -2 балла риска")
    print("      - Наличие в ВК кафедры: -1 балл риска")
    print("      - Регистрация в Moodle: -1 балл риска")
    print("      - Статус спортсмена: -2 балла риска")
    print("      - Активность в мероприятиях: -2 балла риска")
    print("   Порог отчисления: риск ≥ 5 баллов")
    
    for student in dataset:
        risk_score = 0  # Начальный уровень риска
        
        # Критические факторы отчисления (сильно влияют на риск)
        if student['задолженность_прошлая'] == 'да':
            risk_score += 4  # Высокий штраф за текущие задолженности
        if student['задолженность_ранние'] == 'да':
            risk_score += 2  # Средний штраф за старые задолженности
            
        if student['посещаемость'] == 'менее 30%':
            risk_score += 5  # Максимальный штраф за очень низкую посещаемость
        elif student['посещаемость'] == '30%-50%':
            risk_score += 3  # Высокий штраф за низкую посещаемость
            
        if student['отзывы'] == 'плохо':
            risk_score += 3  # Штраф за плохие отзывы
        elif student['отзывы'] == 'отлично':
            risk_score -= 2  # Бонус за отличные отзывы
            
        # Положительные факторы (уменьшают риск отчисления)
        if student['вк_кафедра'] == 'да':
            risk_score -= 1  # Небольшой бонус за вовлеченность
        if student['moodle'] == 'да':
            risk_score -= 1  # Небольшой бонус за академическую активность
        if student['спортсмен'] == 'да':
            risk_score -= 2  # Средний бонус за спортивные достижения
        if student['активность'] == 'да':
            risk_score -= 2  # Средний бонус за внеучебную активность
        
        # Определяем продолжение обучения на основе порогового значения
        student['продолжает'] = risk_score < 5  # True если риск < 5, иначе False
            
    print(f"Метки успешно проставлены для {len(dataset)} студентов")
    return dataset

# Добавляем метки к датасету
dataset = add_labels(dataset)

# Выводим датасет с метками
print_dataset_table(dataset, "2. Датасет с проставленными метками продолжения обучения")

# Статистика по меткам для анализа распределения классов
print("\nСтатистика распределения меток:")
true_count = sum(1 for student in dataset if student['продолжает'])
false_count = len(dataset) - true_count
print(f"   Продолжают обучение: {true_count} студентов ({true_count/len(dataset):.1%})")
print(f"   Не продолжают обучение: {false_count} студентов ({false_count/len(dataset):.1%})")
print(f"   Баланс классов: {'Сбалансирован' if 0.4 <= true_count/len(dataset) <= 0.6 else 'Несбалансирован'}")


Проставление меток продолжения обучения (True/False)

Анализ факторов успеваемости и активности студентов...
   Отрицательные факторы (увеличивают риск отчисления):
      - Задолженность за прошлую сессию: +4 балла риска
      - Задолженность за ранние сессии: +2 балла риска
      - Посещаемость менее 30%: +5 баллов риска
      - Посещаемость 30%-50%: +3 балла риска
      - Плохие отзывы преподавателей: +3 балла риска
   Положительные факторы (уменьшают риск отчисления):
      - Отличные отзывы: -2 балла риска
      - Наличие в ВК кафедры: -1 балл риска
      - Регистрация в Moodle: -1 балл риска
      - Статус спортсмена: -2 балла риска
      - Активность в мероприятиях: -2 балла риска
   Порог отчисления: риск ≥ 5 баллов
Метки успешно проставлены для 500 студентов

2. Датасет с проставленными метками продолжения обучения
┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ ID   │ Направление  │ Зад

In [35]:
# 3. Разделение данных на обучающую и тестовую выборки
def split_dataset(dataset, train_ratio=0.7):
    """
    Функция разделения датасета на обучающую и тестовую выборки
    Использует фиксированный seed для воспроизводимости результатов
    """
    print(f"\nПеремешивание данных и разделение в соотношении {train_ratio:.0%}/{1-train_ratio:.0%}...")
    shuffled = dataset.copy()
    random.Random(42).shuffle(shuffled)  # Фиксируем seed для воспроизводимости
    split_idx = int(len(shuffled) * train_ratio)
    train_data = shuffled[:split_idx]  # Обучающая выборка (первые 70%)
    test_data = shuffled[split_idx:]   # Тестовая выборка (последние 30%)
    
    print(f"Разделение завершено:")
    print(f"   Обучающая выборка: {len(train_data)} записей ({len(train_data)/len(dataset):.1%})")
    print(f"   Тестовая выборка: {len(test_data)} записей ({len(test_data)/len(dataset):.1%})")
    
    return train_data, test_data

# Разделяем данные на обучающие и тестовые
train_data, test_data = split_dataset(dataset)

# Выводим обе выборки в виде таблиц
print_dataset_table(train_data, "Обучающая выборка (для построения модели)")
print_dataset_table(test_data, "Тестовая выборка (для оценки модели)")


Перемешивание данных и разделение в соотношении 70%/30%...
Разделение завершено:
   Обучающая выборка: 350 записей (70.0%)
   Тестовая выборка: 150 записей (30.0%)

Обучающая выборка (для построения модели)
┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ ID   │ Направление  │ Задолж_пр  │ Задолж_ран │ Посещаемость │ ВК   │ Moodle   │ Спортсмен  │ Активность   │ Отзывы     │ Продолжает │
├──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ 165  │ 090301       │ да         │ да         │ более 80%    │ нет  │ да       │ да         │ да           │ плохо      │ Да         │
│ 384  │ 090301       │ нет        │ да         │ 50%-80%      │ нет  │ нет      │ нет        │ нет          │ плохо      │ Нет        │
│ 46   │ 090301       │ да         │ да         │ менее 30%    │ да   │ нет      │ да         │ да         

In [36]:
# 4. Построение дерева решений методом ID3

def calculate_entropy(data):
    """
    Вычисляет энтропию набора данных
    Энтропия - мера неопределенности, показывает насколько "перемешаны" классы в данных
    """
    # Проверяем, что данные не пустые
    if len(data) == 0:
        return 0  # Если данных нет, энтропия равна 0
    
    # Считаем количество студентов, которые продолжают обучение
    true_count = sum(1 for student in data if student['продолжает'])
    # Вычисляем вероятность класса "продолжает обучение"
    p_true = true_count / len(data)
    # Вычисляем вероятность класса "не продолжает обучение" 
    p_false = 1 - p_true
    
    # Инициализируем энтропию
    entropy = 0
    # Если есть студенты, продолжающие обучение, добавляем их вклад в энтропию
    if p_true > 0:
        entropy -= p_true * math.log2(p_true)  # Формула энтропии Шеннона
    # Если есть студенты, не продолжающие обучение, добавляем их вклад в энтропию
    if p_false > 0:
        entropy -= p_false * math.log2(p_false)  # Формула энтропии Шеннона
    
    # Возвращаем вычисленную энтропию
    return entropy

def find_best_attribute(data, attributes):
    """
    Находит атрибут с максимальным информационным выигрышем
    Информационный выигрыш показывает, насколько уменьшится неопределенность после разбиения по атрибуту
    """
    # Инициализируем лучший выигрыш минимальным значением
    best_gain = -1
    # Переменная для хранения лучшего атрибута
    best_attr = None
    # Вычисляем общую энтропию всего набора данных
    total_entropy = calculate_entropy(data)
    
    # Перебираем все возможные атрибуты для разбиения
    for attr in attributes:
        # Получаем все уникальные значения текущего атрибута
        values = set(student[attr] for student in data)
        # Инициализируем взвешенную энтропию после разбиения
        weighted_entropy = 0
        
        # Для каждого уникального значения атрибута
        for value in values:
            # Создаем подмножество данных с этим значением атрибута
            subset = [s for s in data if s[attr] == value]
            # Если подмножество не пустое
            if len(subset) > 0:
                # Добавляем взвешенную энтропию этого подмножества
                weighted_entropy += (len(subset) / len(data)) * calculate_entropy(subset)
        
        # Вычисляем информационный выигрыш: насколько уменьшилась энтропия
        gain = total_entropy - weighted_entropy
        # Если этот выигрыш лучше предыдущего лучшего
        if gain > best_gain:
            # Обновляем лучший выигрыш
            best_gain = gain
            # Запоминаем лучший атрибут
            best_attr = attr
    
    # Возвращаем атрибут с максимальным информационным выигрышем
    return best_attr

def build_id3_tree(data, attributes, depth=0, max_depth=3):
    """
    Рекурсивно строит дерево решений по алгоритму ID3
    На каждом шаге выбирает атрибут с максимальным информационным выигрышем
    """
    # Базовые случаи остановки рекурсии:
    # 1. Данные пустые или достигнута максимальная глубина
    if len(data) == 0 or depth >= max_depth:
        # Считаем количество студентов, продолжающих обучение
        true_count = sum(1 for s in data if s['продолжает'])
        # Возвращаем решение по большинству: "Да" если большинство продолжает, иначе "Нет"
        return "Да" if true_count >= len(data) / 2 else "Нет"
    
    # Считаем количество студентов, продолжающих обучение
    true_count = sum(1 for s in data if s['продолжает'])
    # 2. Все студенты продолжают обучение - возвращаем "Да"
    if true_count == len(data):
        return "Да"
    # 3. Ни один студент не продолжает обучение - возвращаем "Нет"  
    if true_count == 0:
        return "Нет"
    
    # Находим лучший атрибут для разбиения
    best_attr = find_best_attribute(data, attributes)
    # Если не удалось найти подходящий атрибут
    if not best_attr:
        # Снова считаем количество продолжающих
        true_count = sum(1 for s in data if s['продолжает'])
        # Возвращаем решение по большинству
        return "Да" if true_count >= len(data) / 2 else "Нет"
    
    # Создаем узел дерева с выбранным атрибутом
    # Структура: {атрибут: {значение1: поддерево1, значение2: поддерево2, ...}}
    tree = {best_attr: {}}
    # Убираем использованный атрибут из списка доступных для следующих разбиений
    remaining_attrs = [a for a in attributes if a != best_attr]
    
    # Для каждого уникального значения лучшего атрибута
    for value in set(s[best_attr] for s in data):
        # Создаем подмножество данных с этим значением
        subset = [s for s in data if s[best_attr] == value]
        # Рекурсивно строим поддерево для этого подмножества
        # Увеличиваем глубину на 1 и передаем оставшиеся атрибуты
        tree[best_attr][value] = build_id3_tree(subset, remaining_attrs, depth + 1, max_depth)
    
    # Возвращаем построенное дерево
    return tree

def print_tree_simple(tree, indent=0):
    """
    Выводит дерево решений в удобном для чтения формате
    Показывает иерархическую структуру дерева с отступами
    """
    # Если достигли листового узла (решение)
    if isinstance(tree, str):
        # Определяем текстовое представление решения
        result = "Да" if tree == "Да" else "Нет"
        # Выводим решение с отступом
        print("  " * indent + f"→ {result}")
        return
    
    # Получаем атрибут из текущего узла
    attr = list(tree.keys())[0]
    # Создаем короткие названия атрибутов для компактного вывода
    attr_short = {
        'направление': 'Напр',
        'задолженность_прошлая': 'Зад_пр',
        'задолженность_ранние': 'Зад_ран', 
        'посещаемость': 'Посещ',
        'вк_кафедра': 'ВК',
        'moodle': 'Moodle',
        'спортсмен': 'Спорт',
        'активность': 'Актив',
        'отзывы': 'Отзывы'
    }.get(attr, attr[:6])  # Если атрибут не в словаре, берем первые 6 символов
    
    # Выводим название атрибута с отступом
    print("  " * indent + f"{attr_short}")
    
    # Для каждого значения этого атрибута в дереве
    for value, subtree in tree[attr].items():
        # Обрезаем длинные значения для компактности
        val_short = str(value)[:8]
        # Выводим значение атрибута
        print("  " * (indent + 1) + f"├ {val_short}", end="")
        
        # Если поддерево - это лист (решение)
        if isinstance(subtree, str):
            # Выводим решение сразу после значения
            print(f" → {subtree}")
        else:
            # Иначе переходим на новую строку и рекурсивно выводим поддерево
            print()
            print_tree_simple(subtree, indent + 2)

# Список всех атрибутов, которые будут использоваться для построения дерева
attributes = ['направление', 'задолженность_прошлая', 'задолженность_ранние', 
              'посещаемость', 'вк_кафедра', 'moodle', 'спортсмен', 'активность', 'отзывы']

# Сообщение о начале построения дерева
print("\nПостроение дерева решений...")

# Строим дерево решений на обучающих данных
# max_depth=3 ограничивает глубину дерева для предотвращения переобучения
decision_tree = build_id3_tree(train_data, attributes, max_depth=3)

# Выводим заголовок для дерева решений
print("\nДерево решений:")
# Вызываем функцию для красивого вывода дерева
print_tree_simple(decision_tree)


Построение дерева решений...

Дерево решений:
Посещ
  ├ менее 30
    Зад_пр
      ├ да
        Отзывы
          ├ плохо → Нет
          ├ отлично → Нет
          ├ хорошо → Нет
      ├ нет
        Отзывы
          ├ плохо → Нет
          ├ отлично → Да
          ├ хорошо → Да
  ├ 30%-50%
    Отзывы
      ├ плохо
        Зад_пр
          ├ да → Нет
          ├ нет → Да
      ├ отлично
        Зад_пр
          ├ да → Да
          ├ нет → Да
      ├ хорошо
        Зад_пр
          ├ да → Нет
          ├ нет → Да
  ├ более 80
    Отзывы
      ├ плохо
        Зад_пр
          ├ да → Нет
          ├ нет → Да
      ├ отлично → Да
      ├ хорошо → Да
  ├ 50%-80%
    Отзывы
      ├ плохо
        Зад_пр
          ├ да → Нет
          ├ нет → Да
      ├ отлично → Да
      ├ хорошо
        Напр
          ├ 090301 → Да
          ├ 100503 → Да
          ├ 090304 → Да


In [37]:
# 5. Классификация тестовых данных

def classify(student, tree):
    """
    Функция классификации нового студента с использованием построенного дерева
    Проходит по дереву от корня до листа для получения прогноза
    """
    # Проверяем, является ли текущий узел листом (конечным решением)
    if isinstance(tree, str):
        # Достигли листового узла - возвращаем решение
        # Преобразуем строку "Да" в True, "Нет" в False
        return tree == "Да"
    
    # Получаем атрибут текущего узла и значение студента для этого атрибута
    # tree.keys() возвращает все ключи словаря (в данном случае один атрибут)
    attr = list(tree.keys())[0]  # Получаем название атрибута для разбиения
    value = student.get(attr)    # Получаем значение этого атрибута у студента
    
    # Проверяем, есть ли такое значение в дереве
    if value in tree[attr]:
        # Рекурсивно переходим к соответствующей ветке
        # Получаем поддерево для данного значения атрибута
        subtree = tree[attr][value]
        # Рекурсивно вызываем classify для продолжения классификации
        return classify(student, subtree)
    else:
        # Если значение не найдено в дереве, используем большинство в обучающих данных
        # Считаем количество студентов, которые продолжают обучение в обучающей выборке
        true_count = sum(1 for s in train_data if s['продолжает'])
        # Определяем решение по умолчанию (большинство класса)
        default_decision = true_count >= len(train_data) / 2
        # Выводим предупреждение о нестандартной ситуации
        print(f"   Для студента {student['id']} значение '{value}' не найдено в атрибуте '{attr}'")
        print(f"   Используем решение по умолчанию: {'Продолжает' if default_decision else 'Не продолжает'}")
        # Возвращаем решение по умолчанию
        return default_decision

# Начинаем процесс классификации тестовых данных
print("\nНачинаем классификацию тестовой выборки...")
# Выводим информацию о размере тестовой выборки
print(f"   Размер тестовой выборки: {len(test_data)} студентов")

# Получаем истинные метки и прогнозы для всех тестовых студентов
# Создаем список истинных меток (реальных значений) для каждого студента
true_labels = [s['продолжает'] for s in test_data]  # Извлекаем реальное значение 'продолжает' для каждого студента
# Создаем список предсказанных меток с помощью функции classify
predicted_labels = [classify(s, decision_tree) for s in test_data]  # Для каждого студента вызываем classify с построенным деревом

# Сообщаем о завершении процесса классификации
print(f"Классификация завершена для {len(test_data)} студентов")

# Таблица результатов классификации
def print_classification_table(test_data, true_labels, predicted_labels, max_rows=10):
    """
    Функция вывода результатов классификации в виде таблицы
    Показывает сравнение истинных и предсказанных меток
    """
    # Заголовок раздела с результатами
    print(f"\nТаблица результатов классификации:")
    # Объясняем обозначения в таблице
    print("   ✓ - правильный прогноз")
    print("   ✗ - ошибочный прогноз")
    
    # Определяем общую ширину таблицы для форматирования
    total_width = 50
    # Верхняя граница таблицы
    print("┌" + "─" * total_width + "┐")
    # Заголовки столбцов таблицы
    print(f"│ {'ID':3} │ {'Истина':8} │ {'Прогноз':8} │ {'Совпадение':10} │")
    # Разделитель между заголовками и данными
    print("├" + "─" * total_width + "┤")
    
    # Счетчик правильных классификаций
    correct = 0
    # Проходим по всем тестовым данным (или по max_rows, если данных больше)
    for i in range(min(max_rows, len(test_data))):
        # Получаем текущего студента
        student = test_data[i]
        # Преобразуем булевы значения в читаемые строки
        true_str = "Да" if true_labels[i] else "Нет"      # Реальная метка
        pred_str = "Да" if predicted_labels[i] else "Нет" # Предсказанная метка
        # Определяем символ совпадения (галочка или крестик)
        match = "✓" if true_labels[i] == predicted_labels[i] else "✗"
        # Увеличиваем счетчик правильных классификаций
        if true_labels[i] == predicted_labels[i]:
            correct += 1
        
        # Выводим строку с результатами для текущего студента
        print(f"│ {student['id']:3} │ {true_str:8} │ {pred_str:8} │ {match:^10} │")
    
    # Если тестовых данных больше, чем max_rows, выводим информацию об этом
    if len(test_data) > max_rows:
        print("├" + "─" * total_width + "┤")
        print(f"│ ... и еще {len(test_data) - max_rows} записей {' ' * 15} │")
    
    # Нижняя граница таблицы
    print("└" + "─" * total_width + "┘")
    
    # Возвращаем количество правильных классификаций
    return correct

# Выводим таблицу результатов классификации
# Функция возвращает количество правильных предсказаний для первых max_rows записей
correct_predictions = print_classification_table(test_data, true_labels, predicted_labels)


Начинаем классификацию тестовой выборки...
   Размер тестовой выборки: 150 студентов
Классификация завершена для 150 студентов

Таблица результатов классификации:
   ✓ - правильный прогноз
   ✗ - ошибочный прогноз
┌──────────────────────────────────────────────────┐
│ ID  │ Истина   │ Прогноз  │ Совпадение │
├──────────────────────────────────────────────────┤
│  47 │ Нет      │ Нет      │     ✓      │
│ 253 │ Нет      │ Нет      │     ✓      │
│ 261 │ Нет      │ Нет      │     ✓      │
│  71 │ Нет      │ Нет      │     ✓      │
│ 387 │ Да       │ Да       │     ✓      │
│ 428 │ Да       │ Да       │     ✓      │
│ 205 │ Да       │ Да       │     ✓      │
│ 299 │ Нет      │ Нет      │     ✓      │
│ 220 │ Нет      │ Нет      │     ✓      │
│ 300 │ Нет      │ Нет      │     ✓      │
├──────────────────────────────────────────────────┤
│ ... и еще 140 записей                 │
└──────────────────────────────────────────────────┘


In [38]:
# 6. Оценка качества модели с помощью метрик
def calculate_precision_recall(true_labels, predicted_labels):
    """
    Функция вычисления метрик quality оценки классификатора
    Precision - точность предсказания положительного класса
    Recall - полнота охвата положительного класса
    """
    print("\nВычисление метрик качества...")
    
    # Вычисляем компоненты матрицы ошибок
    tp = sum(1 for t, p in zip(true_labels, predicted_labels) if t and p)  # True Positive
    fp = sum(1 for t, p in zip(true_labels, predicted_labels) if not t and p)  # False Positive  
    fn = sum(1 for t, p in zip(true_labels, predicted_labels) if t and not p)  # False Negative
    
    print(f"   Компоненты матрицы ошибок:")
    print(f"      - True Positive (TP): {tp} - правильно предсказанные продолжающие")
    print(f"      - False Positive (FP): {fp} - ошибочно предсказанные продолжающие") 
    print(f"      - False Negative (FN): {fn} - пропущенные продолжающие")
    
    # Вычисляем метрики precision и recall
    precision = tp / (tp + fp) if (tp + fp) > 0 else 0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0
    
    print(f"   Расчет метрик:")
    print(f"      - Precision = TP / (TP + FP) = {tp} / ({tp} + {fp}) = {precision:.3f}")
    print(f"      - Recall = TP / (TP + FN) = {tp} / ({tp} + {fn}) = {recall:.3f}")
    
    return precision, recall, tp, fp, fn

# Вычисляем основные метрики качества
precision, recall, tp, fp, fn = calculate_precision_recall(true_labels, predicted_labels)

# Дополнительные метрики для полной оценки
total_correct = sum(1 for t, p in zip(true_labels, predicted_labels) if t == p)
accuracy = total_correct / len(true_labels)  # Общая точность
tn = len(true_labels) - tp - fp - fn  # True Negative

print(f"\nИтоговые метрики качества модели:")
print("┌────────────────────────────────────────┐")
print(f"│ {'Метрика':20} │ {'Значение':12} │")
print("├────────────────────────────────────────┤")
print(f"│ {'Precision (Точность)':20} │ {precision:12.3f} │")
print(f"│ {'Recall (Полнота)':20} │ {recall:12.3f} │")
print(f"│ {'Accuracy (Точность)':20} │ {accuracy:12.3f} │")
print(f"│ {'F1-Score':20} │ {2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0:12.3f} │")
print("└────────────────────────────────────────┘")

print(f"\nДетализированная статистика классификации:")
print(f"   Правильно классифицировано: {total_correct} из {len(test_data)} студентов ({accuracy:.1%})")
print(f"   Ошибок классификации: {len(test_data) - total_correct} студентов ({(1-accuracy):.1%})")
print(f"   Матрица ошибок:")
print(f"        True Positive (TP): {tp} - верно предсказанные 'продолжает'")
print(f"        True Negative (TN): {tn} - верно предсказанные 'не продолжает'") 
print(f"        False Positive (FP): {fp} - ложно предсказанные 'продолжает'")
print(f"        False Negative (FN): {fn} - пропущенные 'продолжает'")

# Финальная проверка выполнения задания
print(f"\nПроверка выполнения всех требований:")
print(f"   1. Сгенерирован датасет: {len(dataset)} записей (> 100 требуемых)")
print(f"   2. Проставлены метки: по осмысленной закономерности (не случайно)")
print(f"   3. Разделение данных: {len(train_data)} обучающих + {len(test_data)} тестовых")
print(f"   4. Построено дерево ID3: алгоритм реализован и применен")
print(f"   5. Проведена классификация: {len(test_data)} тестовых записей")
print(f"   6. Оценены результаты: Precision = {precision:.3f}, Recall = {recall:.3f}")
print(f"   Качество модели: {accuracy:.1%} точности")


Вычисление метрик качества...
   Компоненты матрицы ошибок:
      - True Positive (TP): 94 - правильно предсказанные продолжающие
      - False Positive (FP): 7 - ошибочно предсказанные продолжающие
      - False Negative (FN): 6 - пропущенные продолжающие
   Расчет метрик:
      - Precision = TP / (TP + FP) = 94 / (94 + 7) = 0.931
      - Recall = TP / (TP + FN) = 94 / (94 + 6) = 0.940

Итоговые метрики качества модели:
┌────────────────────────────────────────┐
│ Метрика              │ Значение     │
├────────────────────────────────────────┤
│ Precision (Точность) │        0.931 │
│ Recall (Полнота)     │        0.940 │
│ Accuracy (Точность)  │        0.913 │
│ F1-Score             │        0.935 │
└────────────────────────────────────────┘

Детализированная статистика классификации:
   Правильно классифицировано: 137 из 150 студентов (91.3%)
   Ошибок классификации: 13 студентов (8.7%)
   Матрица ошибок:
        True Positive (TP): 94 - верно предсказанные 'продолжает'
        Tru