데이터 불러오기

In [6]:
import pandas as pd

# 학습 데이터 불러오기
train_df = pd.read_csv('../data/raw/train.csv')

# 테스트 데이터 불러오기
test_df = pd.read_csv('../data/raw/test.csv')

# 기본 정보 확인
print("train data info:")
train_df.info()

print("\ntest data info:")
test_df.info()


train data info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6995056 entries, 0 to 6995055
Data columns (total 3 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   ID      object
 1   URL     object
 2   label   int64 
dtypes: int64(1), object(2)
memory usage: 160.1+ MB

test data info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1747689 entries, 0 to 1747688
Data columns (total 2 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   ID      object
 1   URL     object
dtypes: object(2)
memory usage: 26.7+ MB


결측치 확인

In [7]:
# 각 컬럼별 결측치 개수 확인
train_df.isnull().sum()

# 각 컬럼별 결측치 개수 확인
test_df.isnull().sum()

ID     0
URL    0
dtype: int64

In [8]:
# 중복값 확인
train_df.duplicated().sum()

# 중복값 확인
test_df.duplicated().sum()

0

#### URL 문자열 분석

In [9]:
# 1. URL 길이 통계 분석

# train_df와 test_df의 URL 길이 컬럼 생성
train_df['url_length'] = train_df['URL'].str.len()
test_df['url_length'] = test_df['URL'].str.len()

# URL 길이 통계를 확인
print("Train URL 길이 통계:\n", train_df['url_length'].describe())
print("\nTest URL 길이 통계:\n", test_df['url_length'].describe())

Train URL 길이 통계:
 count    6.995056e+06
mean     2.741918e+01
std      3.563130e+01
min      2.000000e+00
25%      1.600000e+01
50%      2.000000e+01
75%      2.900000e+01
max      8.396000e+03
Name: url_length, dtype: float64

Test URL 길이 통계:
 count    1.747689e+06
mean     2.739885e+01
std      3.526333e+01
min      2.000000e+00
25%      1.600000e+01
50%      2.000000e+01
75%      2.900000e+01
max      5.797000e+03
Name: url_length, dtype: float64


In [10]:
# 2. 레이블별 URL 길이 분포 비교

# 악성(label=1)과 정상(label=0) URL의 길이 통계 비교
print("정상 URL 길이 통계:\n", train_df[train_df['label'] == 0]['url_length'].describe())
print("\n정상 URL 길이 통계:\n", train_df[train_df['label'] == 1]['url_length'].describe())

정상 URL 길이 통계:
 count    5.430159e+06
mean     2.096458e+01
std      1.123695e+01
min      2.000000e+00
25%      1.500000e+01
50%      1.900000e+01
75%      2.400000e+01
max      8.320000e+02
Name: url_length, dtype: float64

정상 URL 길이 통계:
 count    1.564897e+06
mean     4.981650e+01
std      6.775459e+01
min      2.000000e+00
25%      2.500000e+01
50%      3.400000e+01
75%      5.000000e+01
max      8.396000e+03
Name: url_length, dtype: float64


다음 단계: URL 구조 통계 분석

In [None]:
# urllib.parse 단독 파싱



# # 1. URL 파싱(Parsing)

# import urllib.parse as urlparse # URL을 분석하고 조작하는 도구

# # URL 파싱하는 함수 생성
# def parse_url(url):
#     try:
#         # http:// 프로토콜이 없는 경우, 강제로 추가
#         if not urlparse.urlparse(url).scheme:
#             url = 'http://' + url

#         parsed_url = urlparse.urlparse(url)  # URL을 구성 요소별로 분해하는 핵심 함수
#         return {
#             'scheme': parsed_url.scheme,     # http, https 같은 통신 규약 (프로토콜)
#             'netloc': parsed_url.netloc,     # 도메인 (www.example.com)
#             'path': parsed_url.path,         # 파일 또는 경로 (/path/to/file)
#             'params': parsed_url.params,     # 경로 뒤에 붙는 파라미터 (예: /path;params=value)
#             'query': parsed_url.query,       # ? 뒤에 붙는 파라미터 (예: ?id=123&key=value)
#             'fragment': parsed_url.fragment  # # 뒤에 붙는 앵커 (예: #section)
#         }
#     except Exception:
#         return {} # 파싱 실패 시 빈 딕셔너리 반환

# # train_df와 test_df에 파싱 결과를 적용
# train_parsed = train_df['URL'].apply(parse_url)
# test_parsed = test_df['URL'].apply(parse_url)


# # 호스트와 경로 길이를 새로운 컬럼으로 추가
# train_df['host_length'] = train_parsed.apply(lambda x: len(x.get('netloc', '')))
# train_df['path_length'] = train_parsed.apply(lambda x: len(x.get('path', '')))

# # 호스트 길이 통계를 레이블별로 비교
# print("정상 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 0]['host_length'].describe())
# print("\n악성 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 1]['host_length'].describe())

# # 경로 길이 통계를 레이블별로 비교
# print("정상 URL 경로 길이 통계:\n", train_df[train_df['label'] == 0]['path_length'].describe())
# print("\n악성 URL 경로 길이 통계:\n", train_df[train_df['label'] == 1]['path_length'].describe())

In [None]:
# urlextract + urllib.parse 파싱


# import swifter
# from urlextract import URLExtract
# import urllib.parse as urlparse
# import pandas as pd

# # urlextract 객체 생성
# extractor = URLExtract()

# # URL에서 호스트와 경로를 추출하는 함수
# def extract_url_parts(url):
#     try:
#         urls = extractor.find_urls(url)
#         if urls:
#             parsed = urlparse.urlparse("http://" + urls[0])
#             # 두 값을 튜플로 반환
#             return parsed.netloc, parsed.path
#         return '', ''
#     except TypeError:
#         return '', ''

# # URL 컬럼에 함수를 적용하고, 결과를 새로운 'host'와 'path' 컬럼에 할당합니다.
# # `swifter`의 `result_type` 문제를 해결하기 위해 이 방법을 사용합니다.
# train_df[['host', 'path']] = train_df['URL'].apply(lambda x: pd.Series(extract_url_parts(x)))

# # 이제 'host'와 'path' 컬럼을 기반으로 길이 계산
# train_df['host_length'] = train_df['host'].str.len()
# train_df['path_length'] = train_df['path'].str.len()

# # 호스트 길이 통계를 레이블별로 비교
# print("정상 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 0]['host_length'].describe())
# print("\n악성 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 1]['host_length'].describe())

# # 경로 길이 통계를 레이블별로 비교
# print("\n정상 URL 경로 길이 통계:\n", train_df[train_df['label'] == 0]['path_length'].describe())
# print("\n악성 URL 경로 길이 통계:\n", train_df[train_df['label'] == 1]['path_length'].describe())

In [None]:
# 정규 표현식을 사용하여 소량 테스트

import pandas as pd
import re # 정규 표현식 라이브러리

# 호스트와 경로를 추출하는 함수 (정규 표현식 사용)
def extract_host_path_regex(url):
    # 정규 표현식으로 호스트와 경로를 매칭하는 패턴 정의
    # (http[s]?://)? : http 또는 https 프로토콜 (선택적)
    # ([^/]+)       : / 문자가 아닌 모든 문자 (호스트 부분)
    # (.*)          : 모든 문자 (경로 부분)
    # 이 패턴은 URL에서 호스트와 경로를 유연하게 추출합니다.
    match = re.search(r'(?:http[s]?://)?([^/]+)(/.*)?', url)
    
    if match:
        host = match.group(1) if match.group(1) else ''
        path = match.group(2) if match.group(2) else ''
        return host, path
    
    # 매칭 실패 시 빈 문자열 반환
    return '', ''

# 1000개 행만 불러와서 테스트
train_df_sample = pd.read_csv('../data/raw/train.csv', nrows=1000)

# 새로운 파싱 함수 적용
train_df_sample[['host', 'path']] = train_df_sample['URL'].apply(lambda x: pd.Series(extract_host_path_regex(x)))

# 호스트와 경로 길이 계산
train_df_sample['host_length'] = train_df_sample['host'].str.len()
train_df_sample['path_length'] = train_df_sample['path'].str.len()

# 통계 출력
print("샘플 데이터 통계 (정규 표현식):")
print("호스트 길이 통계:\n", train_df_sample['host_length'].describe())
print("\n경로 길이 통계:\n", train_df_sample['path_length'].describe())

샘플 데이터 통계 (정규 표현식):
호스트 길이 통계:
 count    1000.000000
mean       21.765000
std         7.463208
min         5.000000
25%        16.000000
50%        21.500000
75%        28.000000
max        53.000000
Name: host_length, dtype: float64

경로 길이 통계:
 count    1000.000000
mean        2.540000
std         8.875087
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max       120.000000
Name: path_length, dtype: float64


In [None]:
# 정규 표현식을 사용해 URL을 파싱하는 로직과 청크 단위 처리 방식을 결합

import pandas as pd
import re

# 호스트와 경로를 추출하는 함수 (정규 표현식 사용)
def extract_host_path_regex(url):
    # 정규 표현식으로 호스트와 경로를 매칭하는 패턴 정의
    match = re.search(r'(?:http[s]?://)?([^/]+)(/.*)?', url)
    
    if match:
        host = match.group(1) if match.group(1) else ''
        path = match.group(2) if match.group(2) else ''
        return host, path
    
    # 매칭 실패 시 빈 문자열 반환
    return '', ''

# 데이터를 청크 단위로 읽어와 처리
chunksize = 500000  # 한 번에 50만 개씩 처리
processed_chunks = []

# 파일 경로를 'data/raw/train.csv'로 설정
for i, chunk in enumerate(pd.read_csv('../data/raw/train.csv', chunksize=chunksize)):
    print(f"Processing chunk {i+1}...")
    
    # URL 파싱 함수 적용
    chunk[['host', 'path']] = chunk['URL'].apply(lambda x: pd.Series(extract_host_path_regex(x)))
    
    # 호스트와 경로 길이 계산
    chunk['host_length'] = chunk['host'].str.len()
    chunk['path_length'] = chunk['path'].str.len()
    
    processed_chunks.append(chunk)

# 모든 청크를 하나로 합치기
train_df = pd.concat(processed_chunks, ignore_index=True)

# 최종 통계 출력
print("\nFinal Statistics:")
print("정상 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 0]['host_length'].describe())
print("\n악성 URL 호스트 길이 통계:\n", train_df[train_df['label'] == 1]['host_length'].describe())
print("\n정상 URL 경로 길이 통계:\n", train_df[train_df['label'] == 0]['path_length'].describe())
print("\n악성 URL 경로 길이 통계:\n", train_df[train_df['label'] == 1]['path_length'].describe())