In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib

# โหลดข้อมูลการฝึก
training_data_path = r'D:\โปรเจค\Project\Data_Set\UNSW_NB15_training-set.csv' 
training_data = pd.read_csv(training_data_path)

# เลือกคอลัมน์ที่ใช้ในการฝึกและเป้าหมาย
features = ['sbytes', 'dbytes', 'spkts', 'dpkts',
            'response_body_len', 'sinpkt', 'dinpkt', 'is_sm_ips_ports', 
            'is_ftp_login', 'ct_srv_src', 'ct_srv_dst', 'ct_dst_ltm', 
            'ct_src_ltm', 'ct_src_dport_ltm', 'ct_dst_sport_ltm', 'ct_dst_src_ltm']
target = 'label'

X = training_data[features]
y = training_data[target]

# แยกชุดข้อมูลเป็นชุดฝึกและชุดทดสอบ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# การปรับแต่ง MinMaxScaler เพื่อปรับค่าตัวแปรต่อเนื่อง
numeric_features = X_train.columns
categorical_features = []

preprocessor = ColumnTransformer(
    transformers=[
        ('num', MinMaxScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)  # เพิ่ม Transformer สำหรับ One-Hot Encoding ตรงนี้
    ])

# สร้างและฝึกโมเดลโดยใช้ pipeline
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('classifier', RandomForestClassifier(random_state=42))])
pipeline.fit(X_train, y_train)

# ทำนายและคำนวณความแม่นยำ
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

# บันทึกโมเดลและการประมวลผล
model_path = 'rf_classifier+FS+DS2.pkl'
preprocessor_path = 'preprocessor+FS+DS2.pkl'
joblib.dump(pipeline['classifier'], model_path)
joblib.dump(pipeline['preprocessor'], preprocessor_path)


Accuracy: 0.9762348178137652


['preprocessor+FS+DS2.pkl']