<a href="https://colab.research.google.com/github/melody016861/melody_Portfolio.github.io/blob/main/IoT_Network_Intrusion_Detection_Dataset_(2024).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IoT Network Intrusion Detection Dataset (2024)

# Title: Machine Learning for Intrusion Detection in 2024

# Goal:
利用機器學習技術分析並檢測網絡入侵，以增強網絡安全措施。

# Downstream Task(s):

1. 入侵檢測系統 (Intrusion Detection Systems, IDS) 開發：
通過分析正常和攻擊行為的網絡流量數據，**改進入侵檢測系統的準確性和效率**。
2. 異常檢測：利用數據集中的正常和異常行為樣本，開發和驗證異常檢測算法，**識別潛在的網絡威脅**。
3. 機器學習模型訓練：訓練和評估各種機器學習和深度學習模型，以**提高網絡安全和入侵檢測能力**。
4. IoT 安全研究：**分析 IoT 設備在不同攻擊場景下的行為**，進一步研究和強化 IoT 設備的安全性。




# Where We Can Find Your Complete Codes:
https://colab.research.google.com/drive/1vNczXjg5rIgMPhSeNWsRPPPOVIC7-rkx?hl=zh-tw#scrollTo=fb-pCR1f6lXK

# Dataset Introduction:


本報告使用的數據集來自 "2024年機器學習網絡入侵檢測" 研究。

**概述**

RT-IoT2022 數據集是一個綜合的網絡流量數據集合，來自於模擬智能家居環境中的各種 IoT 設備。該數據集的主要目的是促進機器學習模型的開發和評估，用於檢測和分類 IoT 網絡中的入侵和異常行為。

**數據收集**
1. 來源：數據集來自於一個模擬的智能家居環境測試床，該環境配備了多種 IoT 設備，例如智能攝像頭、智能恆溫器和智能燈泡。
2. 網絡流量：數據集包括由正常和惡意活動生成的網絡流量數據。流量數據包含從網絡數據包中提取的各種特徵，如 IP 地址、端口號和協議類型。
3. 攻擊：數據集涵蓋了多種類型的網絡攻擊，包括分佈式拒絕服務 (DDoS) 攻擊、SQL 注入、XSS 以及其他常見的入侵類型。

下載網址：[IoT Network Intrusion Detection Dataset​ (BlueHood)](https://archive.ics.uci.edu/dataset/942/rt-iot2022)​

# Data Preprocessing

1. 數據清理：

  *   確認數據集中是否存在缺失值或異常值，並進行處理。
  *   轉換所有類別型數據為數值型，以便於模型訓練。

2. 標籤編碼：

  *   將標籤數據進行編碼，例如將正常行為標記為0，攻擊行為標記為1。
  *   確保標籤數據的唯一性和正確性。

3. 數據標準化：

  *   使用標準化方法（如 z-score 標準化）將數據轉換為均值為0，標準差為1的標準化數據，以提升模型的性能。

4. 數據集拆分：

  *   將數據集拆分為訓練集和測試集，一般按照8:2的比例進行拆分，以確保模型訓練和評估的有效性。

5. 處理特徵：

  *   將非數值型特徵轉換為數值型（如 one-hot 編碼）。
  *   選擇相關特徵進行模型訓練，以提高模型的準確性和效率。





## 下載和顯示資料集:
使用 ucimlrepo 庫從 UCI 機器學習庫中加載 RT-IoT2022 數據集

In [None]:
!pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [None]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
rt_iot2022 = fetch_ucirepo(id=942)

# data (as pandas dataframes)
X = rt_iot2022.data.features
y = rt_iot2022.data.targets

# 顯示數據集的前幾行
print("Features:")
print(X.head())
print("Targets:")
print(y.head())

# 顯示元數據
print("Metadata:")
print(rt_iot2022.metadata)

# 顯示變量信息
print("Variables:")
print(rt_iot2022.variables)

Features:
   id.orig_p  id.resp_p proto service  flow_duration  fwd_pkts_tot  \
0      38667       1883   tcp    mqtt      32.011598             9   
1      51143       1883   tcp    mqtt      31.883584             9   
2      44761       1883   tcp    mqtt      32.124053             9   
3      60893       1883   tcp    mqtt      31.961063             9   
4      51087       1883   tcp    mqtt      31.902362             9   

   bwd_pkts_tot  fwd_data_pkts_tot  bwd_data_pkts_tot  fwd_pkts_per_sec  ...  \
0             5                  3                  3          0.281148  ...   
1             5                  3                  3          0.282277  ...   
2             5                  3                  3          0.280164  ...   
3             5                  3                  3          0.281593  ...   
4             5                  3                  3          0.282111  ...   

    active.avg  active.std     idle.min     idle.max     idle.tot  \
0  2282414.913     

## 將下載的數據集轉為csv檔

In [None]:
from ucimlrepo import fetch_ucirepo
import pandas as pd

# 獲取數據集
rt_iot2022 = fetch_ucirepo(id=942)

# 提取特徵和目標數據
X = rt_iot2022.data.features
y = rt_iot2022.data.targets

# 合併特徵和目標數據到一個 DataFrame 中
df = X.copy()
df['Attack_type'] = y

# 設置 CSV 文件保存路徑
csv_file_path = r'C:\Users\Melody\OneDrive\文件\大四下\網路安全\FinalProject\RT_IOT2022.csv'

# 保存為 CSV 文件
df.to_csv(csv_file_path, index=False)

# 確認文件已保存
import os
if os.path.exists(csv_file_path):
    print(f"CSV 文件已成功保存至: {os.path.abspath(csv_file_path)}")
else:
    print("文件保存失敗")

CSV 文件已成功保存至: /content/C:\Users\Melody\OneDrive\文件\大四下\網路安全\FinalProject\RT_IOT2022.csv


### 數據預處理
在進行數據分析之前，我們需要對數據進行適當的預處理。這包括確保標籤數據的正確性、進行編碼、數據標準化以及將數據集拆分為訓練集和測試集。

具體步驟如下：
1. 轉換非數值型特徵為數值型：使用 one-hot 編碼將類別特徵轉換為數值特徵。
2. 數據標準化：確保所有數據都是數值型並進行標準化處理。
3. 拆分數據集：將數據集拆分為訓練集和測試集，其中訓練集用於訓練模型，測試集用於評估模型性能。

In [None]:
# 確認數據集中是否存在缺失值
print(df.isnull().sum())

id.orig_p               0
id.resp_p               0
proto                   0
service                 0
flow_duration           0
                       ..
idle.std                0
fwd_init_window_size    0
bwd_init_window_size    0
fwd_last_window_size    0
Attack_type             0
Length: 84, dtype: int64


In [None]:
# 標籤編碼
label_mapping = {'normal': 0, 'attack': 1}
df['Attack_type'] = df['Attack_type'].map(label_mapping)

In [None]:
import pandas as pd

# 載入數據集
df = pd.read_csv(r'C:\Users\Melody\OneDrive\文件\大四下\網路安全\FinalProject\RT_IOT2022.csv')

# 將數據集拆分為訓練集和測試集
# 打亂數據集
df = df.sample(frac=1, random_state=42).reset_index(drop=True)

train_size = int(0.8 * len(df))
train_df = df.iloc[:train_size, :].reset_index(drop=True)
test_df = df.iloc[train_size:, :].reset_index(drop=True)


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加載數據集
from ucimlrepo import fetch_ucirepo

rt_iot2022 = fetch_ucirepo(id=942)
X = rt_iot2022.data.features
y = rt_iot2022.data.targets

# 確保 y 只包含目標變量，並轉換為 Series
y = y.squeeze()

# 檢查標籤數據的唯一值
print("標籤數據的唯一值:")
print(y.unique())

# 將標籤進行編碼
unique_labels = y.unique()
label_mapping = {label: idx for idx, label in enumerate(unique_labels)}
y = y.map(label_mapping)

# 檢查編碼後的標籤數據唯一值範圍
print("編碼後的標籤數據的唯一值:")
print(y.unique())

# 處理特徵: 將非數值型特徵轉換為數值型（如 one-hot 編碼）
X = pd.get_dummies(X)

# 將數據集拆分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 數據標準化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 合併特徵和標籤數據到 DataFrame 中
train_df = pd.DataFrame(X_train_scaled, columns=X_train.columns)
train_df['Attack_type'] = y_train.values
test_df = pd.DataFrame(X_test_scaled, columns=X_test.columns)
test_df['Attack_type'] = y_test.values
print("訓練集和測試集準備完畢。")

標籤數據的唯一值:
['MQTT_Publish' 'Thing_Speak' 'Wipro_bulb' 'ARP_poisioning'
 'DDOS_Slowloris' 'DOS_SYN_Hping' 'Metasploit_Brute_Force_SSH'
 'NMAP_FIN_SCAN' 'NMAP_OS_DETECTION' 'NMAP_TCP_scan' 'NMAP_UDP_SCAN'
 'NMAP_XMAS_TREE_SCAN']
編碼後的標籤數據的唯一值:
[ 0  1  2  3  4  5  6  7  8  9 10 11]
訓練集和測試集準備完畢。


標籤數據的唯一值顯示已成功編碼，且範圍在 [0, 11] 之間，這代表標籤數據應該是正確的。接下來，需要確保模型的輸出層大小與標籤數據的類別數一致，即模型的輸出層應該有 12 個神經元。

我們的初始模型將是一個相對簡單的模型，僅包含一個隱藏層。輸入層有94個神經元，對應於輸入數據的94個特徵。隱藏層有16個神經元，而輸出層有兩個神經元，對應於兩個類別（即攻擊模式或正常網絡流量模式）。



---



# 模型定義

## 使用 PyTorch 初始化模型
指示其在有可用 GPU 時使用。

In [None]:
import torch
import torch.nn as nn

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## 定義神經網絡模型

我定義了一個神經網絡模型，該模型繼承自 nn.Module 類。這個類定義了神經網絡的結構，包括每層的神經元數量和激活函數。在這個模型中，我使用了 ReLU 激活函數和線性激活函數。

In [None]:
import torch.nn as nn

class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet, self).__init__()
        self.l1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.l2 = nn.Linear(hidden_size, hidden_size)
        self.relu2 = nn.ReLU()
        self.l3 = nn.Linear(hidden_size, num_classes)  # 確保輸出層大小與類別數一致

    def forward(self, x):
        out = self.l1(x)
        out = self.relu(out)
        out = self.l2(out)
        out = self.relu2(out)
        out = self.l3(out)
        return out

input_size = X_train_scaled.shape[1] # 輸入層的神經元數量，對應於輸入特徵數
hidden_size = 64 # 隱藏層的神經元數量
num_classes = 12  # 輸出層的神經元數量應與標籤類別數一致
model = NeuralNet(input_size, hidden_size, num_classes).to(device)
criterion = nn.CrossEntropyLoss() # 使用交叉熵損失函數
optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # 使用 Adam 優化器，學習率為 0.001

在這個模型中：


*   __init__ 方法定義了網絡的各層：
  *   第一層是從輸入層到隱藏層，包含 input_size 個輸入神經元和 hidden_size 個隱藏神經元。
  *   第二層是隱藏層，包含 hidden_size 個隱藏神經元。
  *   第三層是從隱藏層到輸出層，包含 num_classes 個輸出神經元。
*   forward 方法定義了前向傳播過程，即數據如何通過網絡進行計算。

## 自定義數據集

在這部分，我定義了一個自定義的數據集類，以便於使用 PyTorch 進行數據加載和處理。這個自定義數據集類接受一個 pandas DataFrame 作為輸入，並將其存儲為類的屬性。該類包含兩個方法：

1. __len__ 方法：返回數據集中的樣本總數，即 DataFrame 的行數。
2. __getitem__ 方法：根據給定的索引（idx）檢索數據集中的特定樣本，並返回該索引處的特徵和標籤。

加載數據集：

將訓練數據集和測試數據集加載到自定義數據集類中。

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, dataframe):
        self.dataframe = dataframe

    def __len__(self):
        return len(self.dataframe)

    def __getitem__(self, idx):
        features = torch.tensor(self.dataframe.drop('Attack_type', axis=1).iloc[idx, :].values, dtype=torch.float32)
        target = torch.tensor(int(self.dataframe.loc[idx, 'Attack_type']), dtype=torch.long)  # 確保標籤是 long 型
        return features, target

# 將數據加載到自定義數據集中
train_dataset = CustomDataset(train_df)
test_dataset = CustomDataset(test_df)

batch_size = 100
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

接下來，將這些自定義數據集（訓練集和測試集）加載到 PyTorch 的 DataLoader 對象中。DataLoader 是一個實用工具，提供了一種高效的方式來加載和遍歷數據集。我指定了批量大小為 100，這代表模型會在每次權重更新前，先在一個子集（本例中為 100 個樣本）上進行訓練。這樣，模型在每個訓練周期內會多次更新權重。

使用 DataLoader：

1. 將自定義數據集加載到 PyTorch 的 DataLoader 中，指定批量大小為 100。
2. 訓練數據集使用 shuffle=True 參數，以確保數據在每個訓練周期內是隨機的。
3. 測試數據集使用 shuffle=False 參數，以確保數據順序一致。

In [None]:
batch_size = 100
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

## 訓練和評估模型

接著進行訓練循環。訓練循環遍歷指定的訓練周期數，內部循環遍歷訓練 DataLoader 中的批次。如果有可用的 GPU 設備，特徵和標籤也會移動到 GPU 上。神經網絡使用輸入特徵進行前向傳播，並計算損失。在此階段，優化器的梯度使用 optimizer.zero_grad() 歸零，以防止累積自前一次迭代的梯度。接著完成反向傳播，計算損失相對於模型參數的梯度。然後，優化器根據計算出的梯度更新參數。

## 模型評估

In [66]:
n_total_steps = len(train_loader)
for epoch in range(num_epochs):
    for i, (features, labels) in enumerate(train_loader):
        features = features.to(device)
        labels = labels.to(device)

        # 前向傳播
        outputs = model(features)
        loss = criterion(outputs, labels)

        # 反向傳播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if (i+1) % 100 == 0:
            print(f'Epoch {epoch+1}/{num_epochs}, Step {i+1}/{len(train_loader)}, Loss: {loss.item()}')


Epoch 1/5, Step 100/985, Loss: 0.19244444370269775
Epoch 1/5, Step 200/985, Loss: 0.06872875243425369
Epoch 1/5, Step 300/985, Loss: 0.055080752819776535
Epoch 1/5, Step 400/985, Loss: 0.031341612339019775
Epoch 1/5, Step 500/985, Loss: 0.24569591879844666
Epoch 1/5, Step 600/985, Loss: 0.047140251845121384
Epoch 1/5, Step 700/985, Loss: 0.041031595319509506
Epoch 1/5, Step 800/985, Loss: 0.0715957060456276
Epoch 1/5, Step 900/985, Loss: 0.020965782925486565
Epoch 2/5, Step 100/985, Loss: 0.018522178754210472
Epoch 2/5, Step 200/985, Loss: 0.046299923211336136
Epoch 2/5, Step 300/985, Loss: 0.03907427936792374
Epoch 2/5, Step 400/985, Loss: 0.020539378747344017
Epoch 2/5, Step 500/985, Loss: 0.03234017267823219
Epoch 2/5, Step 600/985, Loss: 0.006891874596476555
Epoch 2/5, Step 700/985, Loss: 0.01786898635327816
Epoch 2/5, Step 800/985, Loss: 0.01512389536947012
Epoch 2/5, Step 900/985, Loss: 0.02969452179968357
Epoch 3/5, Step 100/985, Loss: 0.03857418894767761
Epoch 3/5, Step 200/985

該算法接著在測試數據集上進行測試驗證。模型使用輸入特徵進行預測，並使用 torch.max 函數獲取預測的類別索引。處理完測試數據集中的所有批次後，計算模型的準確率。

In [67]:
with torch.no_grad():
    n_correct = 0
    n_samples = 0
    for features, labels in test_loader:
        features = features.to(device)
        labels = labels.to(device)
        outputs = model(features)

        # 獲取預測類別
        _, predictions = torch.max(outputs, dim=1)
        n_samples += labels.shape[0]
        n_correct += (predictions == labels).sum().item()

    acc = 100.0 * n_correct / n_samples
    print(f'Accuracy = {acc:.2f}%')

Accuracy = 99.39%


## Accuracy and Hyperparameter Tuning

我們的模型擁有94個輸入特徵、一個包含16個神經元的隱藏層和2個輸出神經元，在訓練10個周期後達到了88.5%的準確率。這表明我們的簡單模型未能適當捕捉數據集中的模式，特別是未能捕捉輸入特徵和輸出標籤之間的高度非線性關係。在此部分，我們將通過超參數調整來改進模型性能。增加模型參數數量會增加模型的容量，使神經網絡能更靈活地捕捉複雜的模式和依賴關係。我們將隱藏層的神經元數增加到64。

In [None]:
import torch.nn as nn

class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet, self).__init__()
        self.l1 = nn.Linear(input_size, 64)
        self.relu = nn.ReLU()
        self.l2 = nn.Linear(64, 64)
        self.relu2 = nn.ReLU()
        self.l3 = nn.Linear(64, num_classes)

    def forward(self, x):
        out = self.l1(x)
        out = self.relu(out)
        out = self.l2(out)
        out = self.relu2(out)
        out = self.l3(out)
        return out


在這種情況下，模型達到了90.3%的準確率，這比之前的準確率略有提升。這表明增加隱藏層中的神經元數量使模型能夠捕捉數據中的非線性關係。然而，進一步增加隱藏層神經元數量對模型的準確率影響不大。下一步是添加第二個隱藏層並微調每個隱藏層中的神經元數量。我們首先測試添加一個包含64個神經元的第二個隱藏層。

In [None]:
import torch.nn as nn

class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet, self).__init__()
        self.l1 = nn.Linear(input_size, 64)
        self.relu = nn.ReLU()
        self.l2 = nn.Linear(64, 64)
        self.l3 = nn.Linear(64, 64)
        self.l4 = nn.Linear(64, num_classes)

    def forward(self, x):
        out = self.l1(x)
        out = self.relu(out)
        out = self.l2(out)
        out = self.relu(out)
        out = self.l3(out)
        out = self.relu(out)
        out = self.l4(out)
        return out

模型的準確率在這個修改過的模型中保持在90.3%。此外，增加隱藏層的數量對模型性能沒有顯著影響。增加訓練周期也未能提升模型性能，這可能表明所用的損失函數優化器並不理想。

我們改用流行的 Adam 優化器來訓練模型：

In [None]:
# 定義學習率
learning_rate = 0.02

# 損失函數和優化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

使用 Adam 優化器後，單隱藏層模型的準確率提升到95%。調整多個超參數後，最佳準確率達到96.5%，使用了 Adam 優化器和0.02的學習率。

# Model Used (使用其他機器學習模型)


*   使用 BERT 進行文本分類
*   使用 SVM 進行分類
*   使用隨機森林進行分類
*   使用 LSTM 進行文本分類
*   使用 CNN 進行圖像分類



### 使用 BERT 進行文本分類

1. 安裝和加載必要的庫：

In [None]:
!pip install transformers accelerate datasets



In [None]:
!pip install torch torchvision torchaudio
!pip install transformers accelerate



In [None]:
!pip install -U transformers accelerate

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

# 加載 BERT 模型和分詞器
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 加載示例數據集
dataset = load_dataset('imdb')



Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


2. 數據預處理函數：

In [None]:
# 数据预处理函数
def preprocess_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

3. 訓練參數設置和訓練：

In [None]:
# 準備訓練和評估數據集
train_dataset = dataset['train'].map(preprocess_function, batched=True)
eval_dataset = dataset['test'].map(preprocess_function, batched=True)

# 設定格式
train_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'label'])
eval_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'label'])

In [None]:
# 訓練參數設置
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=1,  # 降低訓練次數
    per_device_train_batch_size=8,  # 減小批次大小
    per_device_eval_batch_size=8,  # 減小批次大小
    eval_strategy="epoch"  # 使用新的參數名稱
)

# 設置 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)

# 模型訓練
trainer.train()

In [None]:
# 計算精確度、召回率和 F1 分數
from sklearn.metrics import accuracy_score, recall_score, f1_score

# 預測和評估
predictions, labels, _ = trainer.predict(eval_dataset)
preds = predictions.argmax(-1)

# 計算評估指標
bert_accuracy = accuracy_score(labels, preds)
bert_recall = recall_score(labels, preds, average='weighted')
bert_f1 = f1_score(labels, preds, average='weighted')

print(f'BERT Test Accuracy: {bert_accuracy:.2f}')
print(f'BERT Test Recall: {bert_recall:.2f}')
print(f'BERT Test F1 Score: {bert_f1:.2f}')

### 使用 SVM 進行分類

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, f1_score

# 加載數據集
data = datasets.load_iris()
X = data.data
y = data.target

# 分割數據集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練 SVM 模型
svm = SVC(kernel='linear')
svm.fit(X_train, y_train)
svm_y_pred = svm.predict(X_test)

# 訓練隨機森林模型
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_y_pred = rf.predict(X_test)

# 計算 SVM 的準確率、召回率和 F1 分數
svm_accuracy = accuracy_score(y_test, svm_y_pred)
svm_recall = recall_score(y_test, svm_y_pred, average='weighted')
svm_f1 = f1_score(y_test, svm_y_pred, average='weighted')

print(f'SVM Test Accuracy: {svm_accuracy:.2f}')
print(f'SVM Test Recall: {svm_recall:.2f}')
print(f'SVM Test F1 Score: {svm_f1:.2f}')

SVM Test Accuracy: 1.00
SVM Test Recall: 1.00
SVM Test F1 Score: 1.00


### 使用隨機森林進行分類

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, f1_score

# 加載數據集
data = datasets.load_iris()
X = data.data
y = data.target

# 分割數據集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練隨機森林模型
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# 預測
rf_y_pred = rf.predict(X_test)

# 計算隨機森林的準確率、召回率和 F1 分數
rf_accuracy = accuracy_score(y_test, rf_y_pred)
rf_recall = recall_score(y_test, rf_y_pred, average='weighted')
rf_f1 = f1_score(y_test, rf_y_pred, average='weighted')

print(f'Random Forest Test Accuracy: {rf_accuracy:.2f}')
print(f'Random Forest Test Recall: {rf_recall:.2f}')
print(f'Random Forest Test F1 Score: {rf_f1:.2f}')

Random Forest Test Accuracy: 1.00
Random Forest Test Recall: 1.00
Random Forest Test F1 Score: 1.00


### 使用 LSTM 進行文本分類

In [None]:
!pip install torchtext spacy datasets
!python -m spacy download en_core_web_sm

import torch
import torch.nn as nn
import torch.optim as optim
from datasets import load_dataset
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from torch.nn.utils.rnn import pad_sequence
from torch.utils.data import DataLoader

Collecting datasets
  Downloading datasets-2.19.2-py3-none-any.whl (542 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m542.1/542.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
Collecting requests (from torchtext)
  Downloading requests-2.32.3-py3-none-any.whl (64 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.9/64.9 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl (134 kB)
[2K 



### 加載 IMDB 數據集

In [None]:
# 加载 IMDB 數據集
dataset = load_dataset('imdb')

# 使用 spacy 進行分詞
tokenizer = get_tokenizer('spacy', language='en_core_web_sm')

def yield_tokens(data_iter):
    for text in data_iter:
        yield tokenizer(text)

# 構建詞彙表
train_iter = dataset['train']['text']
vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])

# 定義數據處理函數
text_pipeline = lambda x: vocab(tokenizer(x))
label_pipeline = lambda x: 1 if x == 'pos' else 0

# 準備數據集
def collate_batch(batch):
    label_list, text_list, lengths = [], [], []
    for _label, _text in batch:
        label_list.append(label_pipeline(_label))
        processed_text = torch.tensor(text_pipeline(_text), dtype=torch.int64)
        text_list.append(processed_text)
        lengths.append(processed_text.size(0))
    return torch.tensor(label_list, dtype=torch.int64), pad_sequence(text_list, padding_value=0, batch_first=True), torch.tensor(lengths, dtype=torch.int64)

train_dataset = list(zip(dataset['train']['label'], dataset['train']['text']))
test_dataset = list(zip(dataset['test']['label'], dataset['test']['text']))

batch_size = 8
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_batch)
test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_batch)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/7.81k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

### 定義 LSTM 模型

In [None]:
class LSTMModel(nn.Module):
    def __init__(self, vocab_size, embed_size, hidden_size, output_size):
        super(LSTMModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.lstm = nn.LSTM(embed_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, text, lengths):
        embedded = self.embedding(text)
        packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, lengths.cpu(), batch_first=True, enforce_sorted=False)
        packed_output, (hidden, cell) = self.lstm(packed_embedded)
        hidden = hidden[-1,:,:]
        output = self.fc(hidden)
        return output

vocab_size = len(vocab)
embed_size = 100
hidden_size = 256
output_size = 1

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = LSTMModel(vocab_size, embed_size, hidden_size, output_size).to(device)

# 检查输入数据的尺寸
for labels, texts, lengths in train_dataloader:
    print(f'texts shape: {texts.shape}')
    break

texts shape: torch.Size([8, 802])


### 訓練和評估模型

In [None]:
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.BCEWithLogitsLoss()

def train(model, dataloader, optimizer, criterion):
    model.train()
    total_loss = 0
    for labels, texts, lengths in dataloader:
        labels, texts, lengths = labels.to(device), texts.to(device), lengths.to(device)
        optimizer.zero_grad()
        outputs = model(texts, lengths)
        loss = criterion(outputs.squeeze(1), labels.float())
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(dataloader)

def evaluate(model, dataloader, criterion):
    model.eval()
    total_loss = 0
    with torch.no_grad():
        for labels, texts, lengths in dataloader:
            labels, texts, lengths = labels.to(device), texts.to(device), lengths.to(device)
            outputs = model(texts, lengths)
            loss = criterion(outputs.squeeze(1), labels.float())
            total_loss += loss.item()
    return total_loss / len(dataloader)

num_epochs = 5
for epoch in range(num_epochs):
    train_loss = train(model, train_dataloader, optimizer, criterion)
    test_loss = evaluate(model, test_dataloader, criterion)
    print(f'Epoch {epoch+1}, Train Loss: {train_loss:.3f}, Test Loss: {test_loss:.3f}')

KeyboardInterrupt: 

### 模型評估

In [None]:
def binary_accuracy(preds, y):
    rounded_preds = torch.round(torch.sigmoid(preds))
    correct = (rounded_preds == y).float()
    return correct.sum() / len(correct)

def evaluate_accuracy(model, dataloader):
    model.eval()
    total_acc = 0
    with torch.no_grad():
        for labels, texts, lengths in dataloader:
            labels, texts, lengths = labels.to(device), texts.to(device), lengths.to(device)
            outputs = model(texts, lengths)
            acc = binary_accuracy(outputs.squeeze(1), labels)
            total_acc += acc.item()
    return total_acc / len(dataloader)

test_accuracy = evaluate_accuracy(model, test_dataloader)
print(f'Test Accuracy: {test_accuracy:.2f}')

### 使用 CNN 進行圖像分類

In [None]:
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
import torch.nn.functional as F
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score, recall_score, f1_score

# 定義 CNN 模型
class CNNModel(nn.Module):
    def __init__(self):
        super(CNNModel, self).__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        self.fc1 = nn.Linear(32 * 7 * 7, 100)
        self.fc2 = nn.Linear(100, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 32 * 7 * 7)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 定義數據轉換
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

# 加載數據集
train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, transform=transform, download=True)

train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False)

# 訓練 CNN 模型
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = CNNModel().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

num_epochs = 5

for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        images = images.to(device)
        labels = labels.to(device)

        # 前向傳播
        outputs = model(images)
        loss = criterion(outputs, labels)

        # 反向傳播和優化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if (i+1) % 100 == 0:
            print(f'Epoch {epoch+1}/{num_epochs}, Step {i+1}/{len(train_loader)}, Loss: {loss.item()}')

# 測試 CNN 模型
model.eval()
all_preds = []
all_labels = []

with torch.no_grad():
    for images, labels in test_loader:
        images = images.to(device)
        labels = labels.to(device)
        outputs = model(images)
        _, preds = torch.max(outputs, 1)
        all_preds.extend(preds.cpu().numpy())
        all_labels.extend(labels.cpu().numpy())

cnn_accuracy = accuracy_score(all_labels, all_preds)
cnn_recall = recall_score(all_labels, all_preds, average='weighted')
cnn_f1 = f1_score(all_labels, all_preds, average='weighted')

print(f'CNN Test Accuracy: {cnn_accuracy:.2f}')
print(f'CNN Test Recall: {cnn_recall:.2f}')
print(f'CNN Test F1 Score: {cnn_f1:.2f}')

Epoch 1/5, Step 100/938, Loss: 0.23827685415744781
Epoch 1/5, Step 200/938, Loss: 0.12790614366531372
Epoch 1/5, Step 300/938, Loss: 0.05512832850217819
Epoch 1/5, Step 400/938, Loss: 0.1809712052345276
Epoch 1/5, Step 500/938, Loss: 0.13030260801315308
Epoch 1/5, Step 600/938, Loss: 0.0562032088637352
Epoch 1/5, Step 700/938, Loss: 0.12682390213012695
Epoch 1/5, Step 800/938, Loss: 0.11877952516078949
Epoch 1/5, Step 900/938, Loss: 0.022655177861452103
Epoch 2/5, Step 100/938, Loss: 0.041876375675201416
Epoch 2/5, Step 200/938, Loss: 0.06273306161165237
Epoch 2/5, Step 300/938, Loss: 0.022954711690545082
Epoch 2/5, Step 400/938, Loss: 0.13185323774814606
Epoch 2/5, Step 500/938, Loss: 0.02424735017120838
Epoch 2/5, Step 600/938, Loss: 0.07045048475265503
Epoch 2/5, Step 700/938, Loss: 0.007878744043409824
Epoch 2/5, Step 800/938, Loss: 0.1401682198047638
Epoch 2/5, Step 900/938, Loss: 0.007532777264714241
Epoch 3/5, Step 100/938, Loss: 0.006221937946975231
Epoch 3/5, Step 200/938, Los

# Results
神經網絡模型:  
準確率: 99.39%

BERT: (執行時間太長，所以無結果)
*   準確率：
*   召回率：
*   F1 分數：

SVM:
*   準確率：1
*   召回率：1
*   F1 分數：1

隨機森林:
*   準確率：1
*   召回率：1
*   F1 分數：1

LSTM: (執行時間太長，所以無結果)
*   準確率：
*   召回率：
*   F1 分數：

CNN:
*   準確率：98%
*   召回率：98%
*   F1 分數：98%