In [None]:
import pandas as pd
import numpy as np

# 모든 열이 출력되도록 설정
pd.set_option('display.max_columns', None)

df = pd.read_csv("../data/processed/db_network_data_table.csv")

# 11.7s

In [None]:
# 라벨 인코딩 매핑
label_mapping = {
    'BENIGN': 0, 'FTP-Patator': 1, 'SSH-Patator': 2, 'DoS slowloris': 3,
    'DoS Slowhttptest': 4, 'DoS Hulk': 5, 'DoS GoldenEye': 6, 'Heartbleed': 7,
    'Web Attack � Brute Force': 8, 'Web Attack � XSS': 9,
    'Web Attack � Sql Injection': 10, 'Infiltration': 11, 'Bot': 12,
    'PortScan': 13, 'DDoS': 14
}

# 인코딩된 레이블을 원래 라벨로 변환하는 함수
def decode_label(encoded_label):
    for label, encoded in label_mapping.items():
        if encoded_label == encoded:
            return label
    return None  # 해당하는 라벨이 없을 경우 None 반환

# source 별로 Label의 고유값 빈도수 확인
source_label_distribution = df.groupby('source')['Label'].value_counts().unstack(fill_value=0)

# 인코딩된 Label 값을 원래 라벨로 변환하여 출력
source_label_distribution_with_labels = source_label_distribution.rename(columns={v: decode_label(v) for v in source_label_distribution.columns})

# 출력
print("Source별 Label의 고유값 빈도수 (원본 라벨 포함):")
print(source_label_distribution_with_labels)

# 0.1s

Source별 Label의 고유값 빈도수 (원본 라벨 포함):
Label   BENIGN  FTP-Patator  SSH-Patator  DoS slowloris  DoS Slowhttptest  \
source                                                                      
1        97718            0            0              0                 0   
2       127537            0            0              0                 0   
3       189067            0            0              0                 0   
4       529918            0            0              0                 0   
5       288566            0            0              0                 0   
6       168186            0            0              0                 0   
7       432074         7938         5897              0                 0   
8       440031            0            0           5796              5499   

Label   DoS Hulk  DoS GoldenEye  Heartbleed  Web Attack � Brute Force  \
source                                                                  
1              0              0           0     

In [None]:
# 타겟 변수의 고유값과 빈도수 확인 (전체 데이터에서)
target_distribution = df['Label'].value_counts()
target_distribution_with_labels = target_distribution.rename(
    index={v: f"{v} ({decode_label(v)})" for v in target_distribution.index}
)

print("\n타겟 변수의 고유값 및 분포 (원본 라벨 포함):")
print(target_distribution_with_labels)

# 0.0s


타겟 변수의 고유값 및 분포 (원본 라벨 포함):
Label
0 (BENIGN)                         2273097
5 (DoS Hulk)                        231073
13 (PortScan)                       158930
14 (DDoS)                           128027
6 (DoS GoldenEye)                    10293
1 (FTP-Patator)                       7938
2 (SSH-Patator)                       5897
3 (DoS slowloris)                     5796
4 (DoS Slowhttptest)                  5499
12 (Bot)                              1966
8 (Web Attack � Brute Force)          1507
9 (Web Attack � XSS)                   652
11 (Infiltration)                       36
10 (Web Attack � Sql Injection)         21
7 (Heartbleed)                          11
Name: count, dtype: int64


In [None]:
# 타겟 변수에 결측치가 있는지 확인
missing_values = df['Label'].isnull().sum()
print(f"\n타겟 변수의 결측치 개수: {missing_values}")

# 0.0s


타겟 변수의 결측치 개수: 0
