In [1]:
import pandas as pd
from utils import preprocess_text
import random

In [10]:
data_dir = "data/aihub_news_data.csv"

df = pd.read_csv(data_dir)
df.sample(5)

Unnamed: 0,원문,번역문
749730,그 벤치에서 두 사람이 이야기를 나누고 특히 조용한 독대를 하면서 마음을 다 열고 ...,It was noted that the two of them talked on th...
728687,지역 거주환자가 자신의 지역 의료기관을 이용하는 정도를 의미하는 ‘의료서비스 이용률...,"The ""Medical Service Utilization Rate,"" which ..."
684982,전임 김영기 총재가 밀어붙인 신장 제한 규정은 해외 토픽으로 소개될 만큼 국내외적으...,The height restrictions imposed by the former ...
120168,지난해는 성남과 용인시의 자체사업으로 중학교 신입생에 대한 교복지원이 이루어지며 교...,"Last year, Seongnam-si and Yongin-si's own pro..."
511621,"양주시의회와 동두천양주교육지원청이 공동 주최하고, 감동교육을 실천하는 100인 연대...","The Yangju Hope Education Forum, co-hosted by ..."


In [11]:
print(len(df))

801387


In [18]:
idx = random.randint(0, len(df) - 1)

processed_ko_text = preprocess_text(df["원문"][idx], lang="ko")
processed_en_text = preprocess_text(df["번역문"][idx], lang="en")

print("Original Korean Text:", df["원문"][idx])
print("Processed Korean Text:", processed_ko_text)
print("Original English Text:", df["번역문"][idx])
print("Processed English Text:", processed_en_text)

Original Korean Text: 경총은 “석유화학이나 철강업의 대정비, 조선업의 시운전, 건설업의 기상악화로 인한 공기 지연, 방송·영화 제작업의 인력 대체 불가능 등이 인가연장근로가 필요한 대표적인 사례”라고 주장했다.
Processed Korean Text: 경총은 석유화학이나 철강업의 대정비 조선업의 시운전 건설업의 기상악화로 인한 공기 지연 방송 영화 제작업의 인력 대체 불가능 등이 인가연장근로가 필요한 대표적인 사례 라고 주장했다.
Original English Text: The Korea Enterprises Federation claimed that such cases as large maintenance of the petrochemical or steel industry, the trial voyage of the shipbuilding industry, schedule delay caused by bad weather in the construction industry, and the inability to replace manpower in broadcasting and film production industries are the representative examples that require an extended working hour.
Processed English Text: The Korea Enterprises Federation claimed that such cases as large maintenance of the petrochemical or steel industry the trial voyage of the shipbuilding industry schedule delay caused by bad weather in the construction industry and the inability to replace manpower in broadcasting and film production industrie

In [12]:
from transformers import AutoTokenizer

ko_tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
en_tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

In [19]:
# 텍스트를 토큰화
ko_tokens = ko_tokenizer.tokenize(processed_ko_text)
print("토큰화된 텍스트:", ko_tokens)

# 토큰을 정수 인덱스로 변환
ko_input_ids = ko_tokenizer.convert_tokens_to_ids(ko_tokens)
print("정수 인덱스로 변환된 토큰:", ko_input_ids)

토큰화된 텍스트: ['경총', '##은', '석유', '##화학', '##이나', '철강업', '##의', '대', '##정', '##비', '조선업', '##의', '시', '##운전', '건설업', '##의', '기상', '##악', '##화', '##로', '인한', '공기', '지연', '방송', '영화', '제작', '##업', '##의', '인력', '대체', '불가', '##능', '등', '##이', '인가', '##연', '##장', '##근', '##로', '##가', '필요', '##한', '대표', '##적인', '사례', '라고', '주장', '##했', '##다', '.']
정수 인덱스로 변환된 토큰: [26479, 2073, 5728, 22563, 15351, 23719, 2079, 823, 2287, 2151, 15018, 2079, 1325, 10926, 12795, 2079, 7179, 2376, 2267, 2200, 5198, 5495, 7035, 3861, 3771, 4271, 2078, 2079, 4862, 4761, 5391, 2183, 886, 2052, 3955, 2156, 2121, 2169, 2200, 2116, 3677, 2470, 3661, 31221, 4411, 3609, 3831, 2371, 2062, 18]


In [20]:
# 텍스트를 토큰화
en_tokens = en_tokenizer.tokenize(processed_en_text)
print("토큰화된 텍스트:", en_tokens)

# 토큰을 정수 인덱스로 변환
en_input_ids = en_tokenizer.convert_tokens_to_ids(en_tokens)
print("정수 인덱스로 변환된 토큰:", en_input_ids)

토큰화된 텍스트: ['the', 'korea', 'enterprises', 'federation', 'claimed', 'that', 'such', 'cases', 'as', 'large', 'maintenance', 'of', 'the', 'pet', '##ro', '##chemical', 'or', 'steel', 'industry', 'the', 'trial', 'voyage', 'of', 'the', 'shipbuilding', 'industry', 'schedule', 'delay', 'caused', 'by', 'bad', 'weather', 'in', 'the', 'construction', 'industry', 'and', 'the', 'inability', 'to', 'replace', 'manpower', 'in', 'broadcasting', 'and', 'film', 'production', 'industries', 'are', 'the', 'representative', 'examples', 'that', 'require', 'an', 'extended', 'working', 'hour', '.']
정수 인덱스로 변환된 토큰: [1996, 4420, 9926, 4657, 3555, 2008, 2107, 3572, 2004, 2312, 6032, 1997, 1996, 9004, 3217, 15869, 2030, 3886, 3068, 1996, 3979, 8774, 1997, 1996, 16802, 3068, 6134, 8536, 3303, 2011, 2919, 4633, 1999, 1996, 2810, 3068, 1998, 1996, 13720, 2000, 5672, 22039, 1999, 5062, 1998, 2143, 2537, 6088, 2024, 1996, 4387, 4973, 2008, 5478, 2019, 3668, 2551, 3178, 1012]


In [16]:
# 한국어 문장 길이 계산 (전처리 + 토크나이저 기준)
ko_lengths = df['원문'].apply(lambda x: len(ko_tokenizer.tokenize(preprocess_text(str(x), lang="ko"))))

# 영어 문장 길이 계산 (전처리 + 토크나이저 기준)
en_lengths = df['번역문'].apply(lambda x: len(en_tokenizer.tokenize(preprocess_text(str(x), lang="en"))))

# 전체 통계 출력
print("📊 한국어 문장 길이 통계 (토큰 수 기준)")
print("- 평균:", ko_lengths.mean())
print("- 중앙값:", ko_lengths.median())
print("- 표준편차:", ko_lengths.std())

print("📊 영어 문장 길이 통계 (토큰 수 기준)")
print("- 평균:", en_lengths.mean())
print("- 중앙값:", en_lengths.median())
print("- 표준편차:", en_lengths.std())

# 상위 5% 기준 임계값
ko_threshold = ko_lengths.quantile(0.95)
en_threshold = en_lengths.quantile(0.95)

# 상위 5%에 해당하는 샘플들의 길이
ko_top5 = ko_lengths[ko_lengths >= ko_threshold]
en_top5 = en_lengths[en_lengths >= en_threshold]

print(f"\n📌 한국어 문장 길이 상위 5% 임계값: {ko_threshold}")
print(f"\n📌 영어 문장 길이 상위 5% 임계값: {en_threshold}")

📊 한국어 문장 길이 통계 (토큰 수 기준)
- 평균: 34.17534474604654
- 중앙값: 35.0
- 표준편차: 11.193086731190547
📊 영어 문장 길이 통계 (토큰 수 기준)
- 평균: 32.65063945384689
- 중앙값: 33.0
- 표준편차: 12.090316986627746

📌 한국어 문장 길이 상위 5% 임계값: 52.0

📌 영어 문장 길이 상위 5% 임계값: 53.0


In [22]:
from collections import Counter

all_ko_tokens = []
all_en_tokens = []

# 모든 텍스트를 전처리하고 토큰화하여 리스트에 저장
for text in df['원문']:
    processed = preprocess_text(str(text), lang="ko")
    all_ko_tokens.extend(ko_tokenizer.tokenize(processed))

for text in df['번역문']:
    processed = preprocess_text(str(text), lang="en")
    all_en_tokens.extend(en_tokenizer.tokenize(processed))

# 전체 토큰 수
total_ko_tokens = len(all_ko_tokens)
total_en_tokens = len(all_en_tokens)

# 고유 토큰 수
unique_ko_tokens = len(set(all_ko_tokens))
unique_en_tokens = len(set(all_en_tokens))

# 결과 출력
print("📊 한국어 데이터셋")
print("- 전체 토큰 수:", total_ko_tokens)
print("- 고유 토큰 수:", unique_ko_tokens)

print("\n📊 영어 데이터셋")
print("- 전체 토큰 수:", total_en_tokens)
print("- 고유 토큰 수:", unique_en_tokens)


📊 한국어 데이터셋
- 전체 토큰 수: 27387677
- 고유 토큰 수: 29933

📊 영어 데이터셋
- 전체 토큰 수: 26165798
- 고유 토큰 수: 26585


In [23]:
from collections import Counter

def compute_vocab_cutoff(tokens, coverage=0.95, lang='ko'):
    counter = Counter(tokens)
    total_freq = sum(counter.values())
    sorted_tokens = counter.most_common()
    
    cumulative = 0
    cutoff = 0
    
    for i, (_, freq) in enumerate(sorted_tokens):
        cumulative += freq
        if cumulative / total_freq >= coverage:
            cutoff = i + 1  # index가 0부터 시작하므로 +1
            break
    
    print(f"📊 {lang.upper()} 토큰 통계")
    print(f"- 전체 토큰 수 (중복 포함): {total_freq}")
    print(f"- 고유 토큰 수: {len(counter)}")
    print(f"- 상위 {coverage*100:.0f}% 빈도를 커버하는 토큰 수: {cutoff}")
    
    return cutoff

# 전처리 및 토크나이즈
all_ko_tokens = []
all_en_tokens = []

for text in df['원문']:
    processed = preprocess_text(str(text), lang="ko")
    all_ko_tokens.extend(ko_tokenizer.tokenize(processed))

for text in df['번역문']:
    processed = preprocess_text(str(text), lang="en")
    all_en_tokens.extend(en_tokenizer.tokenize(processed))

# 상위 95% 커버리지 vocab size 계산
ko_vocab_cutoff = compute_vocab_cutoff(all_ko_tokens, coverage=0.95, lang="ko")
en_vocab_cutoff = compute_vocab_cutoff(all_en_tokens, coverage=0.95, lang="en")

📊 KO 토큰 통계
- 전체 토큰 수 (중복 포함): 27387677
- 고유 토큰 수: 29933
- 상위 95% 빈도를 커버하는 토큰 수: 9144
📊 EN 토큰 통계
- 전체 토큰 수 (중복 포함): 26165798
- 고유 토큰 수: 26585
- 상위 95% 빈도를 커버하는 토큰 수: 6522
