# Домашнее задание: Анализ сетевого трафика IoT с использованием методов обучения без учителя

simon.ilishaev@gmail.com

## Описание задания

Вам предоставлен набор данных RT-IoT2022, содержащий данные сетевого трафика IoT устройств с нормальными и атакующими паттернами. Ваша задача - проанализировать эти данные с помощью методов обучения без учителя.

In [None]:
!pip install ucimlrepo

In [None]:
# Основные библиотеки

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Предобработка данных
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split

# Методы снижения размерности
from sklearn.decomposition import PCA
import umap
import umap.plot  # Документация: https://umap-learn.readthedocs.io/en/latest/plotting.html

# Кластеризация
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.neighbors import NearestNeighbors

# Метрики
from sklearn.metrics import silhouette_score, adjusted_rand_score, accuracy_score

# Классификация
from sklearn.ensemble import RandomForestClassifier

## Часть 1: Подготовка данных (2 балла)
1. Загрузите набор данных RT-IoT2022, используя предоставленный код

2. Проведите разведочный анализ данных (проверка на пропуски, типы данных, распределения)

3. Подготовьте данные:

  - Обработайте категориальные признаки

  - Масштабируйте числовые признаки

  - (Уменьшите размерность перед кластеризацией)

## Часть 2: Кластерный анализ (3 балла)

1. Примените три алгоритма кластеризации:

  - K-Means (попробуйте K=2 для разделения на нормальный/атакующий трафик)

  - DBSCAN (автоматически определите параметр eps)

  - Иерархическая кластеризация

2. Для каждой кластеризации:

  - Рассчитайте коэффициент силуэта

  - Вычислите скорректированный Rand индекс относительно истинных меток

  - Визуализируйте кластеры с помощью проекций PCA и UMAP

## Часть 3: Анализ с UMAP (3 баллов)

1. Примените UMAP для уменьшения размерности до 2D

2. Создайте следующие визуализации:

  - Базовый график точек, раскрашенный по кластерам umap.plot.points

  - График связности (обычный и с "edge bundling") umap.plot.connectivity

  - Диагностические графики umap.plot.diagnostic

3. Сравните UMAP с PCA:

  - Визуализируйте обе проекции рядом

  - Сравните результаты кластеризации в обоих пространствах

## Часть 4: Классификация (2 баллов)

1. Используя результаты вашего обучения без учителя (например, используйте разметку кластеров в качестве новых признаков или признаки полученные с помощью UMAP/PCA):

  - Обучите классификатор для предсказания типов атак

  - Сравните производительность в зависимости от используемых фичей

2. Напишите краткий отчет (1 абзац), объясняющий:

 - Какая кластеризация сработала лучше и почему
 - Как UMAP помог понять структуру данных
 - Улучшили ли признаки кластеризации качество классификации

In [None]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
rt_iot2022 = fetch_ucirepo(id=942)

# data (as pandas dataframes)
X = rt_iot2022.data.features
y = rt_iot2022.data.targets

# metadata
print(rt_iot2022.metadata)

# variable information
print(rt_iot2022.variables)