In [1]:
import pandas as pd
from sklearn.utils import resample
from collections import Counter

In [2]:
# 1. CSV 파일 불러오기
df = pd.read_csv('cleaned_url_dataset.csv')

In [3]:
print("🧾 전체 데이터 클래스 분포:")
for label, count in df['label'].value_counts().items():
    print(f"  클래스 {label}: {count}개")

🧾 전체 데이터 클래스 분포:
  클래스 0.0: 7015140개
  클래스 2.0: 160782개
  클래스 1.0: 129768개


In [4]:
# 2. 클래스별 데이터 분리
df_normal = df[df['label'] == 0]
df_malicious = df[df['label'].isin([1, 2])]

In [5]:
# 3. 악성 데이터 개수 확인
n_malicious = len(df_malicious)

In [6]:
# 4. 정상 데이터를 악성 데이터 수만큼 언더샘플링
df_normal_undersampled = resample(df_normal,
                                  replace=False,       # 복원 없이
                                  n_samples=n_malicious, # 악성 수만큼만 뽑기
                                  random_state=42)     # 재현 가능성

In [7]:
# 🔍 언더샘플링 결과 확인
y_resampled = pd.concat([df_normal_undersampled, df_malicious])['label']
print(Counter(y_resampled))  # ✅ 여기서 클래스별 개수 확인

Counter({0.0: 290550, 2.0: 160782, 1.0: 129768})


In [8]:
# 5. 언더샘플된 정상 데이터와 악성 데이터 합치기 
df_balanced = pd.concat([df_normal_undersampled, df_malicious])

In [9]:
# 6. 셔플 (행 순서를 섞기 위해해)
df_balanced = df_balanced.sample(frac=1, random_state=42).reset_index(drop=True)

In [10]:
# 7. 최종 확인
print(df_balanced['label'].value_counts())

label
0.0    290550
2.0    160782
1.0    129768
Name: count, dtype: int64


In [11]:
# 8. ✅ 파일로 저장
df_balanced.to_csv('balanced_data.csv', index=False)

In [None]:
# 제대로 들어갔나 확인 

In [12]:
import pandas as pd

df = pd.read_csv('balanced_data.csv')  # 경로는 상황에 맞게 수정

In [13]:
print("📊 balanced_data.csv 내 클래스별 분포:")
print(df['label'].value_counts())


📊 balanced_data.csv 내 클래스별 분포:
label
0.0    290550
2.0    160782
1.0    129768
Name: count, dtype: int64
