Практическая работа 2. Обнаружение атак на веб-приложения с применением
обучения с подкреплением

Цель работы: Освоить методы обнаружения и предотвращения атак на
веб-приложения (SQL-инъекции, XSS, DDoS) с использованием обучения с
подкреплением (Reinforcement Learning, RL).


Задание:

Изучить основные типы атак на веб-приложения: SQL-инъекции, XSS, DDoS.
Подготовить датасет с примерами нормального и аномального трафика. Разработать
среду RL на основе OpenAI Gym для моделирования веб-трафика.Реализовать агента
обучения с подкреплением для автоматической фильтрации атакующего трафика.
Провести обучение агента и оценить его эффективность.

In [2]:
import pandas as pd  # Импортируем библиотеку pandas для работы с данными
from sklearn.model_selection import train_test_split  # Импортируем функцию для разделения данных на обучающую и тестовую выборки
from sklearn.preprocessing import StandardScaler  # Импортируем стандартный скейлер для нормализации данных

# Загрузим датасет из CSV файла
data = pd.read_csv('/content/ddos.csv')  # Читаем данные из файла 'ddos.csv' и сохраняем в переменной data
data.head()  # Выводим первые 5 строк датасета для предварительного просмотра


Unnamed: 0,packet_rate,inter_arrival_time,packet_size,duration,src_port,dst_port,num_packets,num_bytes,protocol,src_ip,dst_ip,label
0,32.05262,0.622677,419.336437,4.460177,8801,9250,73.20625,7068.07015,ICMP,53.110.216.129,177.21.88.93,attack
1,52.933578,0.492452,846.565643,4.435679,3708,51281,38.226238,3848.110143,TCP,218.27.101.33,188.53.205.189,normal
2,96.720151,0.185046,502.168275,4.431496,15306,6832,32.990155,7600.730151,TCP,70.115.47.70,115.8.160.190,attack
3,80.637373,0.137,462.529046,4.675813,48304,9779,71.610137,9700.65423,ICMP,173.214.29.104,112.116.204.53,attack
4,29.85509,0.601742,785.058163,5.295717,32704,65071,43.491605,4619.08746,TCP,120.227.151.189,201.71.89.46,normal


Предварительно обрабатываем данные, преобразуя их в формат, пригодный для обучения.

In [3]:
from sklearn.preprocessing import MinMaxScaler, LabelEncoder  # Импортируем MinMaxScaler для нормализации данных и LabelEncoder для кодирования меток

label_encoder = LabelEncoder()  # Создаем экземпляр класса LabelEncoder для преобразования категориальных меток в числовые значения

# Кодируем столбец 'protocol' в числовые значения
data['protocol'] = label_encoder.fit_transform(data['protocol'])  # Применяем кодирование к столбцу 'protocol' и сохраняем результат обратно в этот столбец


In [4]:
label_encoder = LabelEncoder()
data['label'] = label_encoder.fit_transform(data['label'])

In [5]:
# Удаляем столбцы 'src_ip' и 'dst_ip' из датафрейма
data.drop(['src_ip', 'dst_ip'], axis=1, inplace=True)  # Указываем axis=1 для удаления столбцов и inplace=True для изменения датафрейма на месте

# Проверяем, что столбцы удалены, и выводим оставшиеся столбцы
print("Оставшиеся столбцы:\n", data.columns)  # Выводим названия оставшихся столбцов в датафрейме


Оставшиеся столбцы:
 Index(['packet_rate', 'inter_arrival_time', 'packet_size', 'duration',
       'src_port', 'dst_port', 'num_packets', 'num_bytes', 'protocol',
       'label'],
      dtype='object')


In [6]:
data.head()

Unnamed: 0,packet_rate,inter_arrival_time,packet_size,duration,src_port,dst_port,num_packets,num_bytes,protocol,label
0,32.05262,0.622677,419.336437,4.460177,8801,9250,73.20625,7068.07015,0,0
1,52.933578,0.492452,846.565643,4.435679,3708,51281,38.226238,3848.110143,1,1
2,96.720151,0.185046,502.168275,4.431496,15306,6832,32.990155,7600.730151,1,0
3,80.637373,0.137,462.529046,4.675813,48304,9779,71.610137,9700.65423,0,0
4,29.85509,0.601742,785.058163,5.295717,32704,65071,43.491605,4619.08746,1,1


In [7]:
# Нормализуем числовые признаки с помощью MinMaxScaler
scaler = MinMaxScaler()  # Создаем экземпляр MinMaxScaler для нормализации данных
data[['packet_rate', 'inter_arrival_time', 'packet_size', 'duration', 'num_packets', 'num_bytes']] = scaler.fit_transform(
    data[['packet_rate', 'inter_arrival_time', 'packet_size', 'duration', 'num_packets', 'num_bytes']]
)  # Применяем нормализацию к указанным числовым признакам и сохраняем результат обратно в датафрейм

# Разделяем данные на признаки (X) и метки (y)
X = data.drop('label', axis=1)  # Убираем столбец 'label' из датафрейма для получения признаков
y = data['label'].apply(lambda x: 1 if x == 'attack' else 0)  # Преобразуем метки в бинарный формат: 1 для 'attack', 0 для остальных

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # Делим данные на 80% для обучения и 20% для тестирования


In [9]:
import pandas as pd  # Импортируем библиотеку pandas для работы с данными в формате таблиц
import numpy as np  # Импортируем библиотеку NumPy для работы с массивами и математическими операциями
import random  # Импортируем модуль random для генерации случайных чисел
import gym  # Импортируем библиотеку gym для создания и работы со средами обучения с подкреплением
import torch  # Импортируем библиотеку PyTorch для работы с нейронными сетями и тензорами
import torch.nn as nn  # Импортируем модуль nn из PyTorch для создания нейронных сетей
import torch.optim as optim  # Импортируем модуль optim для работы с оптимизаторами
from tqdm import trange  # Импортируем trange из библиотеки tqdm для отображения прогресс-бара
from gym import spaces  # Импортируем пространство действий и наблюдений из gym
from sklearn.model_selection import train_test_split  # Импортируем функцию для разделения данных на обучающую и тестовую выборки
from sklearn.preprocessing import StandardScaler  # Импортируем стандартный скейлер для нормализации


In [10]:
# Создание среды для обучения с подкреплением (RL)
class TrafficEnv(gym.Env):
    def __init__(self, X, y):
        super(TrafficEnv, self).__init__()  # Инициализация базового класса gym.Env
        self.X = X  # Матрица признаков (входные данные)
        self.y = y  # Вектор меток (0 или 1, целевая переменная)
        self.current_index = 0  # Индекс текущего состояния
        # Определяем пространство наблюдений (признаки)
        self.observation_space = spaces.Box(low=-np.inf, high=np.inf, shape=(X.shape[1],), dtype=np.float32)
        # Определяем пространство действий (доступные действия)
        self.action_space = spaces.Discrete(2)  # 0 = пропустить, 1 = заблокировать

    # Сброс среды к начальному состоянию
    def reset(self):
        self.current_index = 0  # Сбрасываем индекс текущего состояния
        return self.X[self.current_index]  # Возвращаем начальное состояние

    def step(self, action):
        true_label = self.y[self.current_index]  # Получаем истинную метку для текущего состояния

        # Награда: +1 за правильное действие, -1 за неправильное
        if action == true_label:
            reward = 1  # Правильное действие
        else:
            reward = -1  # Неправильное действие

        self.current_index += 1  # Переходим к следующему состоянию
        done = self.current_index >= len(self.X)  # Проверяем, достигли ли конца данных

        if not done:
            next_state = self.X[self.current_index]  # Получаем следующее состояние
        else:
            next_state = np.zeros_like(self.X[0])  # Пустое состояние в конце

        return next_state, reward, done, {}  # Возвращаем следующее состояние, награду, флаг завершения и дополнительную информацию

    def render(self, mode="human"):
        pass  # Метод для визуализации среды (пока не реализован)


In [11]:
# Определение нейросети (DQN)
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()  # Инициализация базового класса nn.Module
        self.model = nn.Sequential(  # Создаем последовательную модель
            nn.Linear(input_dim, 128),  # Полносвязный слой с 128 нейронами
            nn.ReLU(),  # Функция активации ReLU
            nn.Linear(128, 64),  # Второй полносвязный слой с 64 нейронами
            nn.ReLU(),  # Функция активации ReLU
            nn.Linear(64, output_dim)  # Выходной слой (2 нейрона — Q-значения для действий)
        )

    def forward(self, x):
        return self.model(x)  # Прямое распространение через модель

# Обучение DQN-агента
# Выводим параметры
state_dim = X_train.shape[1]  # Размерность состояния (количество признаков)
action_dim = 2  # Количество действий (0 = пропустить, 1 = заблокировать)
gamma = 0.99  # Коэффициент дисконтирования для будущих наград
epsilon = 1.0  # Начальное значение ε для ε-greedy стратегии
epsilon_min = 0.01  # Минимальное значение ε
epsilon_decay = 0.995  # Скорость уменьшения ε
lr = 0.001  # Скорость обучения (learning rate)
batch_size = 64  # Размер батча для обучения
replay_memory = deque(maxlen=10000)  # Буфер воспроизведения (replay memory) с максимальной длиной 10000

# Инициализация
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Определяем устройство (GPU или CPU)
policy_net = DQN(state_dim, action_dim).to(device)  # Создаем экземпляр DQN и отправляем на устройство
optimizer = optim.Adam(policy_net.parameters(), lr=lr)  # Инициализируем оптимизатор Adam
loss_fn = nn.MSELoss()  # Функция потерь (среднеквадратичная ошибка)

# Функция действия (ε-greedy)
def select_action(state, epsilon):
    # Выбор действия (ε-greedy):
    # С вероятностью ε — случайное действие
    # Иначе — действие с максимальным Q-значением

    if np.random.rand() < epsilon:  # Случайный выбор действия с вероятностью ε
        return random.randint(0, action_dim - 1)  # Возвращаем случайное действие
    state = torch.FloatTensor(state).unsqueeze(0).to(device)  # Преобразуем состояние в тензор и отправляем на устройство
    with torch.no_grad():  # Отключаем градиенты для вычисления Q-значений
        q_values = policy_net(state)  # Получаем Q-значения для текущего состояния
    return torch.argmax(q_values).item()  # Возвращаем действие с максимальным Q-значением


In [12]:
# Создаем экземпляр среды для обучения с подкреплением, передавая матрицу признаков и вектор меток
env = TrafficEnv(X_train, y_train.values)  # Инициализация среды TrafficEnv с обучающими данными

num_episodes = 100  # Устанавливаем количество эпизодов для обучения агента
epsilon = 1.0  # Начальное значение ε для ε-greedy стратегии (максимальная вероятность случайного выбора действия)


In [None]:
max_steps = 15000  # Максимальное количество шагов в одном эпизоде

# Цикл по количеству эпизодов обучения
for episode in trange(num_episodes, desc="Обучение агента"):
    state = env.reset()  # Сбрасываем среду и получаем начальное состояние
    total_reward = 0  # Общая награда за эпизод
    done = False  # Флаг завершения эпизода
    step_count = 0  # Счетчик шагов

    # Цикл, выполняющийся, пока эпизод не завершен и не достигнуто максимальное количество шагов
    while not done and step_count < max_steps:
        action = select_action(state, epsilon)  # Выбираем действие с помощью ε-greedy стратегии
        next_state, reward, done, _ = env.step(action)  # Выполняем действие и получаем следующее состояние, награду и флаг завершения
        total_reward += reward  # Обновляем общую награду
        step_count += 1  # Увеличиваем счетчик шагов

        # Сохраняем опыт в буфер воспроизведения
        replay_memory.append((state, action, reward, next_state, done))
        state = next_state  # Переходим к следующему состоянию

        # Обучение модели из буфера воспроизведения, если достаточно данных
        if len(replay_memory) >= batch_size:
            batch = random.sample(replay_memory, batch_size)  # Случайная выборка из буфера
            states, actions, rewards, next_states, dones = zip(*batch)  # Распаковываем выборку

            # Преобразуем данные в массивы NumPy
            states = np.array(states)
            next_states = np.array(next_states)
            actions = np.array(actions)
            rewards = np.array(rewards)
            dones = np.array(dones)

            # Преобразуем данные в тензоры PyTorch и отправляем на устройство
            states = torch.FloatTensor(states).to(device)
            actions = torch.LongTensor(actions).unsqueeze(1).to(device)
            rewards = torch.FloatTensor(rewards).unsqueeze(1).to(device)
            next_states = torch.FloatTensor(next_states).to(device)
            dones = torch.BoolTensor(dones).unsqueeze(1).to(device)

            # Вычисляем Q-значения и обновляем модель
            q_values = policy_net(states).gather(1, actions)  # Получаем Q-значения для выбранных действий
            next_q_values = policy_net(next_states).max(1)[0].unsqueeze(1)  # Получаем максимальные Q-значения для следующих состояний
            expected_q = rewards + gamma * next_q_values * (~dones)  # Вычисляем ожидаемые Q-значения

            loss = loss_fn(q_values, expected_q.detach())  # Вычисляем функцию потерь
            optimizer.zero_grad()  # Обнуляем градиенты
            loss.backward()  # Обратное распространение ошибки
            optimizer.step()  # Обновляем параметры модели

    # Обновляем значение epsilon для ε-greedy стратегии
    epsilon = max(epsilon_min, epsilon * epsilon_decay)
    # Выводим информацию о текущем эпизоде
    print(f"Эпизод {episode + 1}: Общая награда = {total_reward}, шагов: {step_count}, ε = {epsilon:.3f}")


Обучение агента:   1%|          | 1/100 [00:40<1:07:07, 40.68s/it]

Эпизод 1: Общая награда = -24, шагов: 15000, ε = 0.995


Обучение агента:   2%|▏         | 2/100 [01:21<1:06:14, 40.55s/it]

Эпизод 2: Общая награда = -202, шагов: 15000, ε = 0.990


Обучение агента:   3%|▎         | 3/100 [02:00<1:04:44, 40.04s/it]

Эпизод 3: Общая награда = 356, шагов: 15000, ε = 0.985


Обучение агента:   4%|▍         | 4/100 [02:40<1:03:52, 39.92s/it]

Эпизод 4: Общая награда = 170, шагов: 15000, ε = 0.980


Обучение агента:   5%|▌         | 5/100 [03:20<1:03:23, 40.04s/it]

Эпизод 5: Общая награда = 176, шагов: 15000, ε = 0.975


Обучение агента:   6%|▌         | 6/100 [04:01<1:03:19, 40.42s/it]

Эпизод 6: Общая награда = 536, шагов: 15000, ε = 0.970


Обучение агента:   7%|▋         | 7/100 [04:44<1:03:47, 41.16s/it]

Эпизод 7: Общая награда = 464, шагов: 15000, ε = 0.966


Обучение агента:   8%|▊         | 8/100 [05:26<1:03:26, 41.38s/it]

Эпизод 8: Общая награда = 520, шагов: 15000, ε = 0.961


Обучение агента:   9%|▉         | 9/100 [06:08<1:03:01, 41.56s/it]

Эпизод 9: Общая награда = 694, шагов: 15000, ε = 0.956


Обучение агента:  10%|█         | 10/100 [06:52<1:03:35, 42.40s/it]

Эпизод 10: Общая награда = 654, шагов: 15000, ε = 0.951


Обучение агента:  11%|█         | 11/100 [07:37<1:03:57, 43.12s/it]

Эпизод 11: Общая награда = 760, шагов: 15000, ε = 0.946


Обучение агента:  12%|█▏        | 12/100 [08:27<1:06:20, 45.23s/it]

Эпизод 12: Общая награда = 934, шагов: 15000, ε = 0.942


Обучение агента:  13%|█▎        | 13/100 [09:12<1:05:44, 45.34s/it]

Эпизод 13: Общая награда = 650, шагов: 15000, ε = 0.937


Обучение агента:  14%|█▍        | 14/100 [09:58<1:05:09, 45.45s/it]

Эпизод 14: Общая награда = 952, шагов: 15000, ε = 0.932


Обучение агента:  15%|█▌        | 15/100 [10:45<1:04:53, 45.81s/it]

Эпизод 15: Общая награда = 978, шагов: 15000, ε = 0.928


Обучение агента:  16%|█▌        | 16/100 [11:32<1:04:38, 46.17s/it]

Эпизод 16: Общая награда = 1068, шагов: 15000, ε = 0.923


Обучение агента:  17%|█▋        | 17/100 [12:18<1:04:01, 46.28s/it]

Эпизод 17: Общая награда = 1242, шагов: 15000, ε = 0.918


Обучение агента:  18%|█▊        | 18/100 [13:06<1:03:46, 46.67s/it]

Эпизод 18: Общая награда = 1348, шагов: 15000, ε = 0.914


Обучение агента:  19%|█▉        | 19/100 [13:54<1:03:25, 46.98s/it]

Эпизод 19: Общая награда = 1284, шагов: 15000, ε = 0.909


Обучение агента:  20%|██        | 20/100 [14:43<1:03:26, 47.58s/it]

Эпизод 20: Общая награда = 1306, шагов: 15000, ε = 0.905


Обучение агента:  21%|██        | 21/100 [15:32<1:03:17, 48.08s/it]

Эпизод 21: Общая награда = 1470, шагов: 15000, ε = 0.900


Обучение агента:  22%|██▏       | 22/100 [16:19<1:02:14, 47.88s/it]

Эпизод 22: Общая награда = 1418, шагов: 15000, ε = 0.896


Обучение агента:  23%|██▎       | 23/100 [17:07<1:01:32, 47.95s/it]

Эпизод 23: Общая награда = 1528, шагов: 15000, ε = 0.891


Обучение агента:  24%|██▍       | 24/100 [17:55<1:00:29, 47.75s/it]

Эпизод 24: Общая награда = 1516, шагов: 15000, ε = 0.887


Обучение агента:  25%|██▌       | 25/100 [18:42<59:41, 47.75s/it]  

Эпизод 25: Общая награда = 1708, шагов: 15000, ε = 0.882


Обучение агента:  26%|██▌       | 26/100 [19:30<58:40, 47.58s/it]

Эпизод 26: Общая награда = 1650, шагов: 15000, ε = 0.878


Обучение агента:  27%|██▋       | 27/100 [20:19<58:39, 48.21s/it]

Эпизод 27: Общая награда = 2088, шагов: 15000, ε = 0.873


Обучение агента:  28%|██▊       | 28/100 [21:08<58:03, 48.38s/it]

Эпизод 28: Общая награда = 2046, шагов: 15000, ε = 0.869


Обучение агента:  29%|██▉       | 29/100 [21:57<57:21, 48.48s/it]

Эпизод 29: Общая награда = 1784, шагов: 15000, ε = 0.865


Обучение агента:  30%|███       | 30/100 [22:45<56:35, 48.51s/it]

Эпизод 30: Общая награда = 1954, шагов: 15000, ε = 0.860


Обучение агента:  31%|███       | 31/100 [23:33<55:22, 48.15s/it]

Эпизод 31: Общая награда = 1982, шагов: 15000, ε = 0.856


Обучение агента:  32%|███▏      | 32/100 [24:21<54:37, 48.20s/it]

Эпизод 32: Общая награда = 2088, шагов: 15000, ε = 0.852


Обучение агента:  33%|███▎      | 33/100 [25:10<54:13, 48.55s/it]

Эпизод 33: Общая награда = 2188, шагов: 15000, ε = 0.848


Обучение агента:  34%|███▍      | 34/100 [25:59<53:20, 48.49s/it]

Эпизод 34: Общая награда = 2212, шагов: 15000, ε = 0.843


Обучение агента:  35%|███▌      | 35/100 [26:47<52:36, 48.57s/it]

Эпизод 35: Общая награда = 2202, шагов: 15000, ε = 0.839


Обучение агента:  36%|███▌      | 36/100 [27:37<52:10, 48.91s/it]

Эпизод 36: Общая награда = 2530, шагов: 15000, ε = 0.835


Обучение агента:  37%|███▋      | 37/100 [28:26<51:13, 48.79s/it]

Эпизод 37: Общая награда = 2530, шагов: 15000, ε = 0.831


Обучение агента:  38%|███▊      | 38/100 [29:17<51:19, 49.68s/it]

Эпизод 38: Общая награда = 2436, шагов: 15000, ε = 0.827


Обучение агента:  39%|███▉      | 39/100 [30:08<50:41, 49.86s/it]

Эпизод 39: Общая награда = 2616, шагов: 15000, ε = 0.822


Обучение агента:  40%|████      | 40/100 [30:57<49:51, 49.86s/it]

Эпизод 40: Общая награда = 2442, шагов: 15000, ε = 0.818


Обучение агента:  41%|████      | 41/100 [31:47<48:51, 49.69s/it]

Эпизод 41: Общая награда = 2726, шагов: 15000, ε = 0.814


Обучение агента:  42%|████▏     | 42/100 [32:37<48:19, 50.00s/it]

Эпизод 42: Общая награда = 2854, шагов: 15000, ε = 0.810


Обучение агента:  43%|████▎     | 43/100 [33:26<47:09, 49.63s/it]

Эпизод 43: Общая награда = 2972, шагов: 15000, ε = 0.806


Обучение агента:  44%|████▍     | 44/100 [34:15<46:04, 49.36s/it]

Эпизод 44: Общая награда = 2970, шагов: 15000, ε = 0.802


Обучение агента:  45%|████▌     | 45/100 [35:06<45:40, 49.82s/it]

Эпизод 45: Общая награда = 2940, шагов: 15000, ε = 0.798


Обучение агента:  46%|████▌     | 46/100 [35:56<45:00, 50.00s/it]

Эпизод 46: Общая награда = 3210, шагов: 15000, ε = 0.794


Обучение агента:  47%|████▋     | 47/100 [36:48<44:32, 50.42s/it]

Эпизод 47: Общая награда = 2916, шагов: 15000, ε = 0.790


Обучение агента:  48%|████▊     | 48/100 [37:37<43:28, 50.17s/it]

Эпизод 48: Общая награда = 3058, шагов: 15000, ε = 0.786


Обучение агента:  49%|████▉     | 49/100 [38:27<42:33, 50.08s/it]

Эпизод 49: Общая награда = 2876, шагов: 15000, ε = 0.782


Обучение агента:  50%|█████     | 50/100 [39:17<41:35, 49.90s/it]

Эпизод 50: Общая награда = 3238, шагов: 15000, ε = 0.778


Обучение агента:  51%|█████     | 51/100 [40:06<40:31, 49.63s/it]

Эпизод 51: Общая награда = 3266, шагов: 15000, ε = 0.774


Обучение агента:  52%|█████▏    | 52/100 [40:54<39:25, 49.28s/it]

Эпизод 52: Общая награда = 3472, шагов: 15000, ε = 0.771


Обучение агента:  53%|█████▎    | 53/100 [41:40<37:50, 48.30s/it]

Эпизод 53: Общая награда = 3510, шагов: 15000, ε = 0.767


Обучение агента:  54%|█████▍    | 54/100 [42:27<36:47, 47.99s/it]

Эпизод 54: Общая награда = 3532, шагов: 15000, ε = 0.763


Обучение агента:  55%|█████▌    | 55/100 [43:15<35:48, 47.75s/it]

Эпизод 55: Общая награда = 3634, шагов: 15000, ε = 0.759


Обучение агента:  56%|█████▌    | 56/100 [44:02<34:50, 47.51s/it]

Эпизод 56: Общая награда = 3704, шагов: 15000, ε = 0.755


Обучение агента:  57%|█████▋    | 57/100 [44:49<34:02, 47.50s/it]

Эпизод 57: Общая награда = 3674, шагов: 15000, ε = 0.751


Обучение агента:  58%|█████▊    | 58/100 [45:38<33:34, 47.96s/it]

Эпизод 58: Общая награда = 3648, шагов: 15000, ε = 0.748


Обучение агента:  59%|█████▉    | 59/100 [46:26<32:51, 48.08s/it]

Эпизод 59: Общая награда = 3560, шагов: 15000, ε = 0.744


Обучение агента:  60%|██████    | 60/100 [47:15<32:09, 48.24s/it]

Эпизод 60: Общая награда = 3830, шагов: 15000, ε = 0.740


Обучение агента:  61%|██████    | 61/100 [48:03<31:19, 48.20s/it]

Эпизод 61: Общая награда = 3798, шагов: 15000, ε = 0.737


Обучение агента:  62%|██████▏   | 62/100 [48:52<30:36, 48.33s/it]

Эпизод 62: Общая награда = 4034, шагов: 15000, ε = 0.733


Обучение агента:  63%|██████▎   | 63/100 [49:41<29:53, 48.48s/it]

Эпизод 63: Общая награда = 3880, шагов: 15000, ε = 0.729


Обучение агента:  64%|██████▍   | 64/100 [50:30<29:13, 48.71s/it]

Эпизод 64: Общая награда = 3876, шагов: 15000, ε = 0.726


Обучение агента:  65%|██████▌   | 65/100 [51:19<28:31, 48.90s/it]

Эпизод 65: Общая награда = 4112, шагов: 15000, ε = 0.722


Обучение агента:  66%|██████▌   | 66/100 [52:08<27:40, 48.83s/it]

Эпизод 66: Общая награда = 4146, шагов: 15000, ε = 0.718


Обучение агента:  67%|██████▋   | 67/100 [52:56<26:47, 48.73s/it]

Эпизод 67: Общая награда = 4102, шагов: 15000, ε = 0.715


Обучение агента:  68%|██████▊   | 68/100 [53:45<25:58, 48.71s/it]

Эпизод 68: Общая награда = 4482, шагов: 15000, ε = 0.711


Обучение агента:  69%|██████▉   | 69/100 [54:33<25:04, 48.54s/it]

Эпизод 69: Общая награда = 4288, шагов: 15000, ε = 0.708


Обучение агента:  70%|███████   | 70/100 [55:21<24:10, 48.35s/it]

Эпизод 70: Общая награда = 4140, шагов: 15000, ε = 0.704


Обучение агента:  71%|███████   | 71/100 [56:09<23:18, 48.23s/it]

Эпизод 71: Общая награда = 4538, шагов: 15000, ε = 0.701


Обучение агента:  72%|███████▏  | 72/100 [56:57<22:30, 48.24s/it]

Эпизод 72: Общая награда = 4434, шагов: 15000, ε = 0.697


Обучение агента:  73%|███████▎  | 73/100 [57:46<21:43, 48.28s/it]

Эпизод 73: Общая награда = 4682, шагов: 15000, ε = 0.694


Обучение агента:  74%|███████▍  | 74/100 [58:34<20:53, 48.21s/it]

Эпизод 74: Общая награда = 4630, шагов: 15000, ε = 0.690


Обучение агента:  75%|███████▌  | 75/100 [59:21<19:57, 47.89s/it]

Эпизод 75: Общая награда = 4548, шагов: 15000, ε = 0.687


Обучение агента:  76%|███████▌  | 76/100 [1:00:09<19:13, 48.05s/it]

Эпизод 76: Общая награда = 4916, шагов: 15000, ε = 0.683


Обучение агента:  77%|███████▋  | 77/100 [1:00:57<18:21, 47.88s/it]

Эпизод 77: Общая награда = 4694, шагов: 15000, ε = 0.680


Обучение агента:  78%|███████▊  | 78/100 [1:01:44<17:31, 47.80s/it]

Эпизод 78: Общая награда = 4698, шагов: 15000, ε = 0.676


Обучение агента:  79%|███████▉  | 79/100 [1:02:32<16:41, 47.67s/it]

Эпизод 79: Общая награда = 4878, шагов: 15000, ε = 0.673


Обучение агента:  80%|████████  | 80/100 [1:03:20<15:58, 47.93s/it]

Эпизод 80: Общая награда = 5178, шагов: 15000, ε = 0.670


Обучение агента:  81%|████████  | 81/100 [1:04:09<15:14, 48.15s/it]

Эпизод 81: Общая награда = 4932, шагов: 15000, ε = 0.666


Обучение агента:  82%|████████▏ | 82/100 [1:04:58<14:30, 48.34s/it]

Эпизод 82: Общая награда = 4860, шагов: 15000, ε = 0.663


Обучение агента:  83%|████████▎ | 83/100 [1:05:46<13:43, 48.43s/it]

Эпизод 83: Общая награда = 5034, шагов: 15000, ε = 0.660


Обучение агента:  84%|████████▍ | 84/100 [1:06:35<12:56, 48.51s/it]

Эпизод 84: Общая награда = 5200, шагов: 15000, ε = 0.656


Обучение агента:  85%|████████▌ | 85/100 [1:07:23<12:03, 48.22s/it]

Эпизод 85: Общая награда = 5056, шагов: 15000, ε = 0.653


Обучение агента:  86%|████████▌ | 86/100 [1:08:12<11:21, 48.69s/it]

Эпизод 86: Общая награда = 5266, шагов: 15000, ε = 0.650


Обучение агента:  87%|████████▋ | 87/100 [1:09:02<10:35, 48.88s/it]

Эпизод 87: Общая награда = 5178, шагов: 15000, ε = 0.647


Обучение агента:  88%|████████▊ | 88/100 [1:09:50<09:45, 48.79s/it]

Эпизод 88: Общая награда = 5232, шагов: 15000, ε = 0.643


Обучение агента:  89%|████████▉ | 89/100 [1:10:39<08:55, 48.66s/it]

Эпизод 89: Общая награда = 5176, шагов: 15000, ε = 0.640


Обучение агента:  90%|█████████ | 90/100 [1:11:27<08:04, 48.50s/it]

Эпизод 90: Общая награда = 5378, шагов: 15000, ε = 0.637


Обучение агента:  91%|█████████ | 91/100 [1:12:15<07:14, 48.31s/it]

Эпизод 91: Общая награда = 5460, шагов: 15000, ε = 0.634


Обучение агента:  92%|█████████▏| 92/100 [1:13:02<06:24, 48.04s/it]

Эпизод 92: Общая награда = 5432, шагов: 15000, ε = 0.631


Обучение агента:  93%|█████████▎| 93/100 [1:13:50<05:37, 48.15s/it]

Эпизод 93: Общая награда = 5612, шагов: 15000, ε = 0.627


Обучение агента:  94%|█████████▍| 94/100 [1:14:39<04:50, 48.34s/it]

Эпизод 94: Общая награда = 5620, шагов: 15000, ε = 0.624


Обучение агента:  95%|█████████▌| 95/100 [1:15:28<04:02, 48.45s/it]

Эпизод 95: Общая награда = 5600, шагов: 15000, ε = 0.621


Обучение агента:  96%|█████████▌| 96/100 [1:16:16<03:13, 48.39s/it]

Эпизод 96: Общая награда = 5410, шагов: 15000, ε = 0.618


Обучение агента:  97%|█████████▋| 97/100 [1:17:03<02:24, 48.06s/it]

Эпизод 97: Общая награда = 5812, шагов: 15000, ε = 0.615


Обучение агента:  98%|█████████▊| 98/100 [1:17:52<01:36, 48.16s/it]

Эпизод 98: Общая награда = 5764, шагов: 15000, ε = 0.612


Обучение агента:  99%|█████████▉| 99/100 [1:18:42<00:48, 48.72s/it]

Эпизод 99: Общая награда = 5902, шагов: 15000, ε = 0.609


Обучение агента: 100%|██████████| 100/100 [1:19:32<00:00, 47.73s/it]

Эпизод 100: Общая награда = 5888, шагов: 15000, ε = 0.606





In [None]:
# Переводим X_test в numpy
X_test_np = np.array(X_test)  # Преобразуем тестовые данные в массив NumPy
y_test_np = np.array(y_test)  # Преобразуем вектор меток тестовых данных в массив NumPy

# Получим предсказания от агента
predictions = []  # Список для хранения предсказанных действий

with torch.no_grad():  # Отключаем вычисление градиентов для экономии памяти
    for state in X_test_np:  # Проходим по каждому состоянию в тестовом наборе
        state_tensor = torch.FloatTensor(state).unsqueeze(0).to(device)  # Преобразуем состояние в тензор и отправляем на устройство
        q_values = policy_net(state_tensor)  # Получаем Q-значения от нейросети
        action = torch.argmax(q_values).item()  # Выбираем действие с максимальным Q-значением
        predictions.append(action)  # Добавляем предсказанное действие в список

# Метрики
print("Classification Report:")  # Выводим отчет о классификации
print(classification_report(y_test_np, predictions, target_names=["Benign", "Attack"]))  # Печатаем отчет с метриками для классов

print("Confusion Matrix:")  # Выводим матрицу ошибок
print(confusion_matrix(y_test_np, predictions))  # Печатаем матрицу ошибок для сравнения истинных и предсказанных меток


Classification Report:
              precision    recall  f1-score   support

      Benign       0.82      0.49      0.62      4020
      Attack       0.08      0.30      0.13       614

    accuracy                           0.47      4634
   macro avg       0.45      0.40      0.37      4634
weighted avg       0.72      0.47      0.55      4634

Confusion Matrix:
[[1980 2040]
 [ 431  183]]


In [None]:
# Оценка модели
def evaluate_model(model, X, y):
    model.eval()  # Убедимся, что модель в режиме оценки (выключаем режим обучения)
    # Получаем предсказания для каждого состояния в X
    predictions = [np.argmax(model(torch.tensor(np.array([x]), dtype=torch.float32)).detach().numpy()) for x in X]
    # Выводим отчет о классификации, сравнивая истинные метки и предсказанные
    print(classification_report(y, predictions))

# Вызываем функцию оценки модели, передавая нейросеть и тестовые данные
evaluate_model(policy_net, X_test, y_test)


              precision    recall  f1-score   support

           0       0.82      0.49      0.62      4020
           1       0.08      0.30      0.13       614

    accuracy                           0.47      4634
   macro avg       0.45      0.40      0.37      4634
weighted avg       0.72      0.47      0.55      4634



In [None]:
from sklearn.ensemble import RandomForestClassifier  # Импортируем класс RandomForestClassifier из библиотеки scikit-learn
from sklearn.svm import SVC  # Импортируем класс SVC (Support Vector Classifier) из библиотеки scikit-learn

# Сравнение с классическими методами
rf = RandomForestClassifier()  # Создаем экземпляр классификатора Random Forest
rf.fit(X_train, y_train)  # Обучаем модель на обучающих данных
y_pred_rf = rf.predict(X_test)  # Получаем предсказания для тестовых данных
print("Random Forest:")  # Выводим заголовок для результатов Random Forest
print(classification_report(y_test, y_pred_rf))  # Печатаем отчет о классификации для Random Forest

svm = SVC()  # Создаем экземпляр классификатора SVM
svm.fit(X_train, y_train)  # Обучаем модель на обучающих данных
y_pred_svm = svm.predict(X_test)  # Получаем предсказания для тестовых данных
print("SVM:")  # Выводим заголовок для результатов SVM
print(classification_report(y_test, y_pred_svm))  # Печатаем отчет о классификации для SVM


Random Forest:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      4020
           1       1.00      1.00      1.00       614

    accuracy                           1.00      4634
   macro avg       1.00      1.00      1.00      4634
weighted avg       1.00      1.00      1.00      4634

SVM:
              precision    recall  f1-score   support

           0       0.99      1.00      1.00      4020
           1       0.99      0.95      0.97       614

    accuracy                           0.99      4634
   macro avg       0.99      0.97      0.98      4634
weighted avg       0.99      0.99      0.99      4634

