In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# 필요한 패키지 설치
!pip install pymongo pandas scikit-learn matplotlib seaborn joblib

Collecting pymongo
  Downloading pymongo-4.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.6.1-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m55.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.6.1-py3-none-any.whl (307 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.7/307.7 kB[0m [31m21.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.6.1 pymongo-4.10.0


In [5]:
import os
import pandas as pd
from pymongo import MongoClient
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from imblearn.over_sampling import SMOTE
import pickle
import numpy as np

# 1. MongoDB 연결
client = MongoClient("mongodb+srv://ddos:3246@ddos.jj6hv.mongodb.net/?retryWrites=true&w=majority&appName=DDoS")
db = client["network_catcher_database"]
collection = db["traffic"]

# 2. UDP Flood 공격을 감지하는 함수 정의
def detect_udp_flood(doc):
    proto = doc.get("proto", "")
    state = doc.get("state", "")
    reason = doc.get("reason", "")
    bytes_toserver = doc.get("bytes_toserver", 0)
    pkts_toserver = doc.get("pkts_toserver", 0)
    bytes_toclient = doc.get("bytes_toclient", 0)
    pkts_toclient = doc.get("pkts_toclient", 0)

    # UDP Flood 공격 감지 조건 판단
    if proto != "UDP":
        return False, "프로토콜이 UDP가 아님"

    if state == "new" and reason == "timeout":
        # pkts_toserver가 pkts_toclient보다 5배 많고 bytes_toserver가 bytes_toclient보다 5배 많을 경우
        if pkts_toserver > pkts_toclient * 5 and bytes_toserver > bytes_toclient * 5:
            return True, "UDP Flood DDoS 공격이 탐지됨"
        else:
            return False, "패킷 및 바이트 조건 불충족"
    else:
        return False, "상태 및 이유 조건 불충족"

# 3. MongoDB에서 모든 트래픽 문서를 조회하여 데이터프레임 생성
documents = collection.find({})
results = []

for doc in documents:
    result, reason = detect_udp_flood(doc)
    entry = {
        'proto': doc.get("proto", ""),
        'state': doc.get("state", ""),
        'reason': doc.get("reason", ""),
        'pkts_toserver': doc.get("pkts_toserver", 0),
        'pkts_toclient': doc.get("pkts_toclient", 0),
        'bytes_toserver': doc.get("bytes_toserver", 0),
        'bytes_toclient': doc.get("bytes_toclient", 0),
        'src_ip': doc.get("src_ip", ""),
        'ddos_detected': result,
    }
    results.append(entry)

# 4. 데이터프레임으로 변환
df = pd.DataFrame(results)

# 5. 데이터 정제
numeric_columns = ['pkts_toserver', 'pkts_toclient', 'bytes_toserver', 'bytes_toclient']
for col in numeric_columns:
    df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0)

# 6. 데이터 전처리 및 학습을 위한 준비
df['ddos_detected'] = df['ddos_detected'].astype(int)
X = df[numeric_columns]
y = df['ddos_detected']

# 7. 데이터의 클래스 불균형 해결 (SMOTE 적용)
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# 8. 학습 데이터와 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

# 9. RandomForestClassifier 모델 학습
clf = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=5, min_samples_split=10)

# 교차 검증 수행
cross_val_scores = cross_val_score(clf, X_train, y_train, cv=5)
print(f"교차 검증 평균 정확도: {np.mean(cross_val_scores) * 100:.2f}%")

# 모델 학습
clf.fit(X_train, y_train)

# 10. 모델 성능 평가
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("Classification Report:")
print(classification_report(y_test, y_pred))

# 10. DDoS 탐지된 횟수와 탐지되지 않은 횟수 계산
ddos_detected_count = df['ddos_detected'].sum()  # DDoS 탐지된 횟수
ddos_not_detected_count = len(df) - ddos_detected_count  # 탐지되지 않은 횟수

print(f"DDoS 공격 탐지 횟수: {ddos_detected_count}")
print(f"DDoS 공격 탐지되지 않은 횟수: {ddos_not_detected_count}")

# 11. 학습된 모델을 파일로 저장
model_file_path = "/content/drive/MyDrive/aDDoS/Machine_Learning/UDP_Flood/udp_flood_model.pkl"
with open(model_file_path, 'wb') as f:
    pickle.dump(clf, f)
print(f"모델이 저장되었습니다: {model_file_path}")

# 12. 학습에 사용된 데이터를 CSV 파일로 저장
csv_file_path = "/content/drive/MyDrive/aDDoS/Machine_Learning/UDP_Flood/udp_flood.csv"
df.to_csv(csv_file_path, index=False)
print(f"데이터가 CSV 파일로 저장되었습니다: {csv_file_path}")


교차 검증 평균 정확도: 100.00%
모델 정확도: 100.00%
Confusion Matrix:
[[39352     0]
 [    1 39695]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     39352
           1       1.00      1.00      1.00     39696

    accuracy                           1.00     79048
   macro avg       1.00      1.00      1.00     79048
weighted avg       1.00      1.00      1.00     79048

DDoS 공격 탐지 횟수: 197618
DDoS 공격 탐지되지 않은 횟수: 5140
모델이 저장되었습니다: /content/drive/MyDrive/aDDoS/Machine_Learning/UDP_Flood/udp_flood_model.pkl
데이터가 CSV 파일로 저장되었습니다: /content/drive/MyDrive/aDDoS/Machine_Learning/UDP_Flood/udp_flood.csv
