#Практическая работа 2
Изучить основные типы атак на веб-приложения: SQL-инъекции, XSS, DDoS.


In [None]:
import pandas as pd #таблицы
import numpy as np #массивы
import random #рандомные числа
import gym # среда для обучения с подкреплением
import torch # фреймворк для машиного обучения
import torch.nn as nn #реализация слоев для нейтронных сетей
import torch.optim as optim #оптимизация параметров нейроной сети

In [None]:
from tqdm import trange #визуализация прогрессов
from gym import spaces
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
from collections import deque

In [None]:
webattacks = pd.read_csv("Thursday.csv")#загрузка CSV-файлов
ddos = pd.read_csv("Friday.csv")
normal = pd.read_csv("Monday.csv")

Подготовка данных для задачи классификации, связанной с обнаружением атак в сетевом трафике. Он включает в себя назначение меток, объединение данных, создание целевой переменной, очистку данных, нормализацию, разделение на обучающую и тестовую выборки, а также вывод информации о форме выборок и балансе классов

In [None]:
# Назначаем метки для различных типов атак
webattacks = webattacks.assign(attack_type="WebAttack")  # Метка для веб-атак
ddos = ddos.assign(attack_type="DDoS")                    # Метка для DDoS-атак
normal = normal.assign(attack_type="Normal")              # Метка для нормального трафика

# Объединяем все датафреймы в один
combined_data = pd.concat([webattacks, ddos, normal], axis=0, ignore_index=True)
combined_data.columns = combined_data.columns.str.strip()  # Удаляем лишние пробелы из названий столбцов

# Создаем целевую переменную: 1 - атака, 0 - нормальный трафик
combined_data["is_attack"] = combined_data["Label"].map(lambda lbl: 0 if lbl == "BENIGN" else 1)

# Заменяем бесконечные значения на NaN и удаляем строки с NaN
cleaned_data = combined_data.replace([np.inf, -np.inf], np.nan).dropna()

# Выбираем признаки, исключая целевую переменную и метки
feature_cols = [col for col in cleaned_data.columns if col not in {"Label", "attack_type", "is_attack"}]
X = cleaned_data[feature_cols]  # Признаки
y = cleaned_data["is_attack"]    # Целевая переменная

# Создаем объект для нормализации данных
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)  # Нормализуем признаки

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X_normalized, y,
    test_size=0.2,  # 20% данных отводится для тестирования
    random_state=42,  # Фиксированное значение для воспроизводимости
    stratify=y  # Сохраняем пропорции классов в выборках
)

# Выводим информацию о формах выборок и балансе классов
print("Форма обучающей выборки:", X_train.shape)
print("Форма тестовой выборки:", X_test.shape)
print("Баланс классов (обучение):", np.bincount(y_train))


Форма обучающей выборки: (740338, 78)
Форма тестовой выборки: (185085, 78)
Баланс классов (обучение): [636174 104164]


4) Создаю среду RL: TrafficEnv

In [None]:
class NetworkTrafficEnvironment(gym.Env):
    def __init__(self, features, labels):
        super(NetworkTrafficEnvironment, self).__init__()
        self.feature_data = features
        self.target_labels = labels
        self.data_position = 0


        self.observation_space = spaces.Box( #определение пространства наблюдений и действий
            low=-np.inf,
            high=np.inf,
            shape=(features.shape[1],),
            dtype=np.float32
        )
        self.action_space = spaces.Discrete(2)  #0 - пропустить, 1 - заблокировать

    def reset(self):
        """Сброс среды к начальному состоянию"""
        self.data_position = 0
        return self.feature_data[self.data_position]

    def step(self, action):
        """Выполнение одного шага в среде"""
        current_label = self.target_labels[self.data_position]


        reward = 1 if action == current_label else -1#вычисление награды


        self.data_position += 1
        episode_completed = self.data_position >= len(self.feature_data)#обновление позиции и проверка завершения эпизода


        next_state = (#получение следующего состояния
            self.feature_data[self.data_position] if not episode_completed
            else np.zeros_like(self.feature_data[0])
        )

        return next_state, reward, episode_completed, {}

    def render(self, mode="human"):
        pass

In [None]:
# Определяем нейросетевую модель для Q-обучения
class DeepQNetwork(nn.Module):
    def __init__(self, input_size, num_actions):
        super(DeepQNetwork, self).__init__()
        # Определяем слои нейросети
        self.network = nn.Sequential(
            nn.Linear(input_size, 128),  # Первый слой
            nn.ReLU(inplace=True),        # Функция активации ReLU
            nn.Linear(128, 64),           # Второй слой
            nn.ReLU(inplace=True),        # Функция активации ReLU
            nn.Linear(64, num_actions)    # Выходной слой
        )

    def forward(self, x):
        return self.network(x)  # Прямое распространение через сеть

# Настройка параметров
state_size = X_train.shape[1]  # Размерность состояния
num_actions = 2                # Количество возможных действий
discount_factor = 0.99         # Коэффициент дисконтирования
exploration_rate = 1.0         # Начальная вероятность случайного действия
min_exploration_rate = 0.01    # Минимальная вероятность исследования
exploration_decay = 0.995      # Скорость уменьшения exploration rate
learning_rate = 0.001          # Скорость обучения
sample_batch_size = 64         # Размер батча для обучения
experience_buffer = deque(maxlen=10000)  # Буфер воспроизведения опыта

# Инициализация устройства и модели
compute_device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Выбор устройства
q_network = DeepQNetwork(state_size, num_actions).to(compute_device)  # Создание модели
network_optimizer = optim.Adam(q_network.parameters(), lr=learning_rate)  # Оптимизатор
criterion = nn.MSELoss()  # Функция потерь

# Функция для выбора действия
def get_action(current_state, exploration_prob):
    if random.random() < exploration_prob:  # Исследование
        return random.randrange(num_actions)

    current_state = torch.FloatTensor(current_state).unsqueeze(0).to(compute_device)  # Преобразование состояния
    with torch.no_grad():  # Отключение градиентов
        action_values = q_network(current_state)  # Получение значений действий
    return action_values.argmax().item()  # Возврат действия с максимальным значением


Обучение агента

EPISODES = 100

BATCH_SIZE = 256

BUFFER_SIZE = 100000

GAMMA = 0.99

EPS_START, EPS_END = 1.0, 0.02

LR = 0.0005

WARMUP_STEPS = 1000

количество эпизодов, размер батча, размер буфера воспроизведения, коэффициент дисконтирования, начальная и конечная вероятности исследования, скорость обучения и количество шагов для разогрева

In [None]:

class FastDQN(nn.Module):  # Оптимизированная нейросеть (без BatchNorm для инференса)
    def __init__(self, input_dim, output_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 256),  # Первый слой с 256 нейронами
            nn.LayerNorm(256),          # Замена BatchNorm на LayerNorm
            nn.LeakyReLU(0.1),          # Функция активации LeakyReLU
            nn.Linear(256, 128),        # Второй слой с 128 нейронами
            nn.LayerNorm(128),          # Замена BatchNorm на LayerNorm
            nn.LeakyReLU(0.1),          # Функция активации LeakyReLU
            nn.Linear(128, output_dim)  # Выходной слой с количеством действий
        )

    def forward(self, x):
        return self.net(x)  # Прямое распространение через сеть



EPISODES = 100
BATCH_SIZE = 256
BUFFER_SIZE = 100000
GAMMA = 0.99
EPS_START, EPS_END = 1.0, 0.02
LR = 0.0005
WARMUP_STEPS = 1000


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Инициализация устройства для вычислений
state_dim = X_train.shape[1]  # Размерность состояния
policy_net = FastDQN(state_dim, 2).to(device)  # Создание экземпляра модели и перенос на устройство
target_net = FastDQN(state_dim, 2).to(device)  # Создание целевой сети
target_net.load_state_dict(policy_net.state_dict())  # Копирование весов из policy_net в target_net

optimizer = optim.AdamW(policy_net.parameters(), lr=LR, weight_decay=1e-5)  # Оптимизатор AdamW
loss_fn = nn.SmoothL1Loss()  # Функция потерь (Smooth L1 Loss)
memory = deque(maxlen=BUFFER_SIZE)  # Буфер воспроизведения опыта
global_step = 0  # Глобальный счетчик шагов



def select_action(state, epsilon):  # Функция выбора действия
    global global_step
    if random.random() < epsilon or global_step < WARMUP_STEPS:
        return random.randint(0, 1)  # Случайное действие

    with torch.no_grad():  # Отключение градиентов для вычислений
        policy_net.eval()  # Переключаем модель в режим оценки
        state_tensor = torch.FloatTensor(state).unsqueeze(0).to(device)  # Преобразование состояния в тензор
        action = policy_net(state_tensor).argmax().item()  # Получение действия с максимальным значением
        policy_net.train()  # Возвращаем модель в режим обучения
        return action



for episode in trange(EPISODES, desc="Обучение"):  # Основной цикл обучения
    state = env.reset()  # Сброс среды
    episode_reward = 0  # Награда за эпизод
    epsilon = max(EPS_END, EPS_START * (0.99 ** episode))  # Обновление вероятности исследования

    for step in range(1000):
        global_step += 1
        action = select_action(state, epsilon)  # Выбор действия
        next_state, reward, done, _ = env.step(action)  # Выполнение действия в среде

        priority = abs(reward) + 0.01  # Сохраняем опыт с простым приоритетом
        memory.append((state, action, reward, next_state, done, priority))  # Добавление опыта в буфер
        episode_reward += reward  # Обновление награды за эпизод
        state = next_state  # Переход к следующему состоянию

        if global_step % 4 == 0 and len(memory) >= BATCH_SIZE:  # Обучение на батче
            batch = random.choices(memory, k=BATCH_SIZE)  # Случайный выбор батча из буфера
            states, actions, rewards, next_states, dones, _ = zip(*batch)  # Распаковка батча

            # Конвертация в тензоры
            states = torch.FloatTensor(np.array(states)).to(device)
            actions = torch.LongTensor(np.array(actions)).unsqueeze(1).to(device)
            rewards = torch.FloatTensor(np.array(rewards)).unsqueeze(1).to(device)
            next_states = torch.FloatTensor(np.array(next_states)).to(device)
            dones = torch.BoolTensor(np.array(dones)).unsqueeze(1).to(device)

            with torch.no_grad():  # Double DQN
                next_actions = policy_net(next_states).argmax(1, keepdim=True)  # Получение действий для следующего состояния
                next_q = target_net(next_states).gather(1, next_actions)  # Получение Q-значений для следующего состояния
                targets = rewards + GAMMA * next_q * (~dones)  # Вычисление целевых Q-значений

            current_q = policy_net(states).gather(1, actions)  # Получение текущих Q-значений
            loss = loss_fn(current_q, targets)  # Вычисление потерь

            optimizer.zero_grad()  # Обнуление градиентов
            loss.backward()  # Обратное распространение
            torch.nn.utils.clip_grad_norm_(policy_net.parameters(), 10)  # Обрезка градиентов
            optimizer.step()  # Обновление весов

            if global_step % 100 == 0:  # Мягкое обновление целевой сети
                target_net.load_state_dict(policy_net.state_dict())  # Копирование весов из policy_net в target_net

        if done:  # Если эпизод завершен
            break

    print(f"Эпизод {episode + 1}: Награда={episode_reward:.1f}, ε={epsilon:.3f}")  # Вывод информации об эпизоде


Обучение:   1%|          | 1/100 [00:03<06:08,  3.72s/it]

Эпизод 1: Награда=-36.0, ε=1.000


Обучение:   2%|▏         | 2/100 [00:06<05:24,  3.31s/it]

Эпизод 2: Награда=52.0, ε=0.990


Обучение:   3%|▎         | 3/100 [00:08<04:31,  2.80s/it]

Эпизод 3: Награда=12.0, ε=0.980


Обучение:   4%|▍         | 4/100 [00:11<04:28,  2.79s/it]

Эпизод 4: Награда=2.0, ε=0.970


Обучение:   5%|▌         | 5/100 [00:14<04:22,  2.77s/it]

Эпизод 5: Награда=52.0, ε=0.961


Обучение:   6%|▌         | 6/100 [00:16<03:58,  2.53s/it]

Эпизод 6: Награда=76.0, ε=0.951


Обучение:   7%|▋         | 7/100 [00:18<03:38,  2.35s/it]

Эпизод 7: Награда=46.0, ε=0.941


Обучение:   8%|▊         | 8/100 [00:20<03:28,  2.26s/it]

Эпизод 8: Награда=18.0, ε=0.932


Обучение:   9%|▉         | 9/100 [00:22<03:22,  2.23s/it]

Эпизод 9: Награда=48.0, ε=0.923


Обучение:  10%|█         | 10/100 [00:25<03:44,  2.50s/it]

Эпизод 10: Награда=94.0, ε=0.914


Обучение:  11%|█         | 11/100 [00:28<03:41,  2.49s/it]

Эпизод 11: Награда=116.0, ε=0.904


Обучение:  12%|█▏        | 12/100 [00:30<03:28,  2.36s/it]

Эпизод 12: Награда=64.0, ε=0.895


Обучение:  13%|█▎        | 13/100 [00:32<03:14,  2.23s/it]

Эпизод 13: Награда=132.0, ε=0.886


Обучение:  14%|█▍        | 14/100 [00:34<03:11,  2.23s/it]

Эпизод 14: Награда=106.0, ε=0.878


Обучение:  15%|█▌        | 15/100 [00:37<03:16,  2.31s/it]

Эпизод 15: Награда=98.0, ε=0.869


Обучение:  16%|█▌        | 16/100 [00:40<03:33,  2.54s/it]

Эпизод 16: Награда=96.0, ε=0.860


Обучение:  17%|█▋        | 17/100 [00:42<03:23,  2.45s/it]

Эпизод 17: Награда=140.0, ε=0.851


Обучение:  18%|█▊        | 18/100 [00:44<03:14,  2.37s/it]

Эпизод 18: Награда=194.0, ε=0.843


Обучение:  19%|█▉        | 19/100 [00:46<03:04,  2.28s/it]

Эпизод 19: Награда=168.0, ε=0.835


Обучение:  20%|██        | 20/100 [00:48<02:57,  2.22s/it]

Эпизод 20: Награда=134.0, ε=0.826


Обучение:  21%|██        | 21/100 [00:51<03:06,  2.36s/it]

Эпизод 21: Награда=232.0, ε=0.818


Обучение:  22%|██▏       | 22/100 [00:53<03:07,  2.40s/it]

Эпизод 22: Награда=182.0, ε=0.810


Обучение:  23%|██▎       | 23/100 [00:56<03:00,  2.34s/it]

Эпизод 23: Награда=168.0, ε=0.802


Обучение:  24%|██▍       | 24/100 [00:58<02:54,  2.29s/it]

Эпизод 24: Награда=228.0, ε=0.794


Обучение:  25%|██▌       | 25/100 [01:00<02:47,  2.24s/it]

Эпизод 25: Награда=242.0, ε=0.786


Обучение:  26%|██▌       | 26/100 [01:02<02:43,  2.22s/it]

Эпизод 26: Награда=238.0, ε=0.778


Обучение:  27%|██▋       | 27/100 [01:05<03:03,  2.51s/it]

Эпизод 27: Награда=190.0, ε=0.770


Обучение:  28%|██▊       | 28/100 [01:08<02:58,  2.48s/it]

Эпизод 28: Награда=328.0, ε=0.762


Обучение:  29%|██▉       | 29/100 [01:10<02:55,  2.47s/it]

Эпизод 29: Награда=204.0, ε=0.755


Обучение:  30%|███       | 30/100 [01:12<02:47,  2.39s/it]

Эпизод 30: Награда=224.0, ε=0.747


Обучение:  31%|███       | 31/100 [01:14<02:39,  2.31s/it]

Эпизод 31: Награда=240.0, ε=0.740


Обучение:  32%|███▏      | 32/100 [01:17<02:52,  2.54s/it]

Эпизод 32: Награда=290.0, ε=0.732


Обучение:  33%|███▎      | 33/100 [01:20<02:49,  2.53s/it]

Эпизод 33: Награда=320.0, ε=0.725


Обучение:  34%|███▍      | 34/100 [01:22<02:39,  2.41s/it]

Эпизод 34: Награда=322.0, ε=0.718


Обучение:  35%|███▌      | 35/100 [01:24<02:31,  2.32s/it]

Эпизод 35: Награда=328.0, ε=0.711


Обучение:  36%|███▌      | 36/100 [01:26<02:25,  2.27s/it]

Эпизод 36: Награда=282.0, ε=0.703


Обучение:  37%|███▋      | 37/100 [01:29<02:30,  2.39s/it]

Эпизод 37: Награда=316.0, ε=0.696


Обучение:  38%|███▊      | 38/100 [01:32<02:37,  2.54s/it]

Эпизод 38: Награда=318.0, ε=0.689


Обучение:  39%|███▉      | 39/100 [01:34<02:27,  2.42s/it]

Эпизод 39: Награда=336.0, ε=0.683


Обучение:  40%|████      | 40/100 [01:36<02:24,  2.40s/it]

Эпизод 40: Награда=312.0, ε=0.676


Обучение:  41%|████      | 41/100 [01:39<02:21,  2.41s/it]

Эпизод 41: Награда=348.0, ε=0.669


Обучение:  42%|████▏     | 42/100 [01:41<02:16,  2.35s/it]

Эпизод 42: Награда=380.0, ε=0.662


Обучение:  43%|████▎     | 43/100 [01:45<02:39,  2.80s/it]

Эпизод 43: Награда=382.0, ε=0.656


Обучение:  44%|████▍     | 44/100 [01:47<02:27,  2.64s/it]

Эпизод 44: Награда=412.0, ε=0.649


Обучение:  45%|████▌     | 45/100 [01:49<02:19,  2.54s/it]

Эпизод 45: Награда=408.0, ε=0.643


Обучение:  46%|████▌     | 46/100 [01:52<02:11,  2.44s/it]

Эпизод 46: Награда=336.0, ε=0.636


Обучение:  47%|████▋     | 47/100 [01:54<02:05,  2.37s/it]

Эпизод 47: Награда=358.0, ε=0.630


Обучение:  48%|████▊     | 48/100 [01:57<02:16,  2.63s/it]

Эпизод 48: Награда=356.0, ε=0.624


Обучение:  49%|████▉     | 49/100 [02:00<02:12,  2.61s/it]

Эпизод 49: Награда=300.0, ε=0.617


Обучение:  50%|█████     | 50/100 [02:02<02:07,  2.54s/it]

Эпизод 50: Награда=444.0, ε=0.611


Обучение:  51%|█████     | 51/100 [02:05<02:04,  2.53s/it]

Эпизод 51: Награда=416.0, ε=0.605


Обучение:  52%|█████▏    | 52/100 [02:07<02:00,  2.51s/it]

Эпизод 52: Награда=472.0, ε=0.599


Обучение:  53%|█████▎    | 53/100 [02:11<02:11,  2.80s/it]

Эпизод 53: Награда=382.0, ε=0.593


Обучение:  54%|█████▍    | 54/100 [02:13<02:01,  2.63s/it]

Эпизод 54: Награда=396.0, ε=0.587


Обучение:  55%|█████▌    | 55/100 [02:15<01:52,  2.50s/it]

Эпизод 55: Награда=456.0, ε=0.581


Обучение:  56%|█████▌    | 56/100 [02:17<01:50,  2.50s/it]

Эпизод 56: Награда=412.0, ε=0.575


Обучение:  57%|█████▋    | 57/100 [02:20<01:48,  2.53s/it]

Эпизод 57: Награда=402.0, ε=0.570


Обучение:  58%|█████▊    | 58/100 [02:23<01:57,  2.79s/it]

Эпизод 58: Награда=430.0, ε=0.564


Обучение:  59%|█████▉    | 59/100 [02:26<01:49,  2.68s/it]

Эпизод 59: Награда=418.0, ε=0.558


Обучение:  60%|██████    | 60/100 [02:28<01:44,  2.62s/it]

Эпизод 60: Награда=420.0, ε=0.553


Обучение:  61%|██████    | 61/100 [02:31<01:39,  2.55s/it]

Эпизод 61: Награда=434.0, ε=0.547


Обучение:  62%|██████▏   | 62/100 [02:33<01:36,  2.54s/it]

Эпизод 62: Награда=478.0, ε=0.542


Обучение:  63%|██████▎   | 63/100 [02:37<01:45,  2.85s/it]

Эпизод 63: Награда=448.0, ε=0.536


Обучение:  64%|██████▍   | 64/100 [02:39<01:38,  2.73s/it]

Эпизод 64: Награда=474.0, ε=0.531


Обучение:  65%|██████▌   | 65/100 [02:42<01:33,  2.67s/it]

Эпизод 65: Награда=486.0, ε=0.526


Обучение:  66%|██████▌   | 66/100 [02:45<01:31,  2.70s/it]

Эпизод 66: Награда=458.0, ε=0.520


Обучение:  67%|██████▋   | 67/100 [02:47<01:27,  2.65s/it]

Эпизод 67: Награда=502.0, ε=0.515


Обучение:  68%|██████▊   | 68/100 [02:50<01:32,  2.88s/it]

Эпизод 68: Награда=526.0, ε=0.510


Обучение:  69%|██████▉   | 69/100 [02:53<01:26,  2.78s/it]

Эпизод 69: Награда=458.0, ε=0.505


Обучение:  70%|███████   | 70/100 [02:56<01:20,  2.70s/it]

Эпизод 70: Награда=512.0, ε=0.500


Обучение:  71%|███████   | 71/100 [02:58<01:16,  2.62s/it]

Эпизод 71: Награда=512.0, ε=0.495


Обучение:  72%|███████▏  | 72/100 [03:01<01:15,  2.68s/it]

Эпизод 72: Награда=514.0, ε=0.490


Обучение:  73%|███████▎  | 73/100 [03:04<01:16,  2.84s/it]

Эпизод 73: Награда=512.0, ε=0.485


Обучение:  74%|███████▍  | 74/100 [03:07<01:13,  2.81s/it]

Эпизод 74: Награда=528.0, ε=0.480


Обучение:  75%|███████▌  | 75/100 [03:09<01:07,  2.71s/it]

Эпизод 75: Награда=478.0, ε=0.475


Обучение:  76%|███████▌  | 76/100 [03:12<01:03,  2.65s/it]

Эпизод 76: Награда=524.0, ε=0.471


Обучение:  77%|███████▋  | 77/100 [03:15<01:04,  2.80s/it]

Эпизод 77: Награда=548.0, ε=0.466


Обучение:  78%|███████▊  | 78/100 [03:18<01:02,  2.83s/it]

Эпизод 78: Награда=542.0, ε=0.461


Обучение:  79%|███████▉  | 79/100 [03:20<00:57,  2.73s/it]

Эпизод 79: Награда=554.0, ε=0.457


Обучение:  80%|████████  | 80/100 [03:23<00:54,  2.72s/it]

Эпизод 80: Награда=546.0, ε=0.452


Обучение:  81%|████████  | 81/100 [03:29<01:13,  3.86s/it]

Эпизод 81: Награда=626.0, ε=0.448


Обучение:  82%|████████▏ | 82/100 [03:36<01:21,  4.55s/it]

Эпизод 82: Награда=560.0, ε=0.443


Обучение:  83%|████████▎ | 83/100 [03:39<01:13,  4.32s/it]

Эпизод 83: Награда=534.0, ε=0.439


Обучение:  84%|████████▍ | 84/100 [03:45<01:15,  4.72s/it]

Эпизод 84: Награда=566.0, ε=0.434


Обучение:  85%|████████▌ | 85/100 [03:49<01:07,  4.47s/it]

Эпизод 85: Награда=560.0, ε=0.430


Обучение:  86%|████████▌ | 86/100 [03:53<01:00,  4.29s/it]

Эпизод 86: Награда=536.0, ε=0.426


Обучение:  87%|████████▋ | 87/100 [03:56<00:50,  3.89s/it]

Эпизод 87: Награда=614.0, ε=0.421


Обучение:  88%|████████▊ | 88/100 [04:00<00:47,  3.98s/it]

Эпизод 88: Награда=616.0, ε=0.417


Обучение:  89%|████████▉ | 89/100 [04:04<00:43,  4.00s/it]

Эпизод 89: Награда=616.0, ε=0.413


Обучение:  90%|█████████ | 90/100 [04:07<00:36,  3.65s/it]

Эпизод 90: Награда=598.0, ε=0.409


Обучение:  91%|█████████ | 91/100 [04:10<00:32,  3.56s/it]

Эпизод 91: Награда=614.0, ε=0.405


Обучение:  92%|█████████▏| 92/100 [04:13<00:25,  3.23s/it]

Эпизод 92: Награда=608.0, ε=0.401


Обучение:  93%|█████████▎| 93/100 [04:15<00:21,  3.03s/it]

Эпизод 93: Награда=624.0, ε=0.397


Обучение:  94%|█████████▍| 94/100 [04:18<00:17,  2.84s/it]

Эпизод 94: Награда=624.0, ε=0.393


Обучение:  95%|█████████▌| 95/100 [04:20<00:13,  2.76s/it]

Эпизод 95: Награда=656.0, ε=0.389


Обучение:  96%|█████████▌| 96/100 [04:24<00:12,  3.01s/it]

Эпизод 96: Награда=606.0, ε=0.385


Обучение:  97%|█████████▋| 97/100 [04:27<00:08,  2.92s/it]

Эпизод 97: Награда=644.0, ε=0.381


Обучение:  98%|█████████▊| 98/100 [04:29<00:05,  2.88s/it]

Эпизод 98: Награда=588.0, ε=0.377


Обучение:  99%|█████████▉| 99/100 [04:32<00:02,  2.76s/it]

Эпизод 99: Награда=644.0, ε=0.373


Обучение: 100%|██████████| 100/100 [04:37<00:00,  2.77s/it]

Эпизод 100: Награда=620.0, ε=0.370





Резульаты предсказаний

In [None]:
# Преобразуем тестовые данные и метки в массивы NumPy
test_states = np.asarray(X_test)
test_labels = np.asarray(y_test)

# Инициализируем список для хранения предсказаний
test_predictions = []

# Переводим модель в режим оценки
policy_net.eval()

# Выполняем предсказания на тестовых данных
with torch.no_grad():  # Отключаем вычисление градиентов
    for current_state in test_states:
        # Подготавливаем данные для модели
        state_tensor = torch.FloatTensor(current_state).unsqueeze(0).to(device)  # Преобразуем состояние в тензор

        q_values = policy_net(state_tensor)  # Получаем Q-значения для текущего состояния

        # Выбираем действие с максимальным Q-значением
        predicted_action = torch.argmax(q_values).item()  # Получаем индекс действия с максимальным Q-значением

        # Сохраняем предсказание
        test_predictions.append(predicted_action)  # Добавляем предсказание в список

# Выводим результаты классификации
print("\nРезультаты классификации:")
print(classification_report(
    test_labels,
    test_predictions,
    target_names=["Без атаки", "Атака"],  # Названия классов
    digits=4  # Количество знаков после запятой
))

# Выводим матрицу ошибок
print("\nМатрица ошибок:")
print(confusion_matrix(test_labels, test_predictions))  # Выводим матрицу ошибок



Результаты классификации:
              precision    recall  f1-score   support

   Без атаки     0.9993    0.9960    0.9977    159044
       Атака     0.9762    0.9959    0.9859     26041

    accuracy                         0.9960    185085
   macro avg     0.9878    0.9959    0.9918    185085
weighted avg     0.9961    0.9960    0.9960    185085


Матрица ошибок:
[[158412    632]
 [   108  25933]]
