In [2]:
import pandas as pd
from utils import preprocess_text
import random

In [3]:
data_dir = "data/aihub_news_data.csv"

df = pd.read_csv(data_dir)
df.sample(5)

Unnamed: 0,원문,번역문
402135,괜히 내가 이 고생을 왜 하고 있는지 모르겠다.,I don't know why I'm suffering from this.
754266,작년 11월 9차 협의에서 일정 수준 접점을 찾았던 협상은 10차 회의에서 미국이 ...,"The negotiations, which reached a certain leve..."
240350,"와이프가 흥이 넘치는 분인데, 개인 레슨을 받았다.","His wife is full of energy, and she took priva..."
747014,애초에 산업제품의 원형을 디자인하려는 의도는 모호이-너지가 이끈 금속공방의 조명디자...,Originally the intention was to design prototy...
99291,내년 1월2일 퇴임을 앞둔 존 켈리 미 백악관 비서실장이 도널드 트럼프 대통령과 함...,"U.S. White House Chief of Staff John Kelly, wh..."


In [4]:
print(len(df))

801387


In [5]:
idx = random.randint(0, len(df) - 1)

processed_ko_text = preprocess_text(df["원문"][idx], lang="ko")
processed_en_text = preprocess_text(df["번역문"][idx], lang="en")

print("Original Korean Text:", df["원문"][idx])
print("Processed Korean Text:", processed_ko_text)
print("Original English Text:", df["번역문"][idx])
print("Processed English Text:", processed_en_text)

Original Korean Text: 갤럭시부품주 테마는 중장기측면에서 횡보하는 모습이 길어지고 있는데 반해, 태양광 관련주 테마는 하락세가 약해지는 모습이 관찰되고 있다.
Processed Korean Text: 갤럭시부품주 테마는 중장기측면에서 횡보하는 모습이 길어지고 있는데 반해 태양광 관련주 테마는 하락세가 약해지는 모습이 관찰되고 있다.
Original English Text: Galaxy parts stocks related theme tend to be sideways in terms of the mid and long term, while solar-related stocks tend to decline.
Processed English Text: Galaxy parts stocks related theme tend to be sideways in terms of the mid and long term while solar related stocks tend to decline.


In [6]:
from transformers import AutoTokenizer

ko_tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
en_tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

  from .autonotebook import tqdm as notebook_tqdm


In [7]:
# 텍스트를 토큰화
ko_tokens = ko_tokenizer.tokenize(processed_ko_text)
print("토큰화된 텍스트:", ko_tokens)

# 토큰을 정수 인덱스로 변환
ko_input_ids = ko_tokenizer.convert_tokens_to_ids(ko_tokens)
print("정수 인덱스로 변환된 토큰:", ko_input_ids)

토큰화된 텍스트: ['갤럭시', '##부', '##품', '##주', '테마', '##는', '중장', '##기', '##측', '##면', '##에서', '횡', '##보', '##하', '##는', '모습', '##이', '길', '##어지', '##고', '있', '##는데', '반해', '태양광', '관련', '##주', '테마', '##는', '하락세', '##가', '약해', '##지', '##는', '모습', '##이', '관찰', '##되', '##고', '있', '##다', '.']
정수 인덱스로 변환된 토큰: [7275, 2144, 2425, 2223, 6507, 2259, 15093, 2015, 3033, 2460, 27135, 1941, 2178, 2205, 2259, 3781, 2052, 647, 4379, 2088, 1513, 13964, 9564, 8057, 3700, 2223, 6507, 2259, 11652, 2116, 10352, 2118, 2259, 3781, 2052, 6172, 2496, 2088, 1513, 2062, 18]


In [8]:
# 텍스트를 토큰화
en_tokens = en_tokenizer.tokenize(processed_en_text)
print("토큰화된 텍스트:", en_tokens)

# 토큰을 정수 인덱스로 변환
en_input_ids = en_tokenizer.convert_tokens_to_ids(en_tokens)
print("정수 인덱스로 변환된 토큰:", en_input_ids)

토큰화된 텍스트: ['galaxy', 'parts', 'stocks', 'related', 'theme', 'tend', 'to', 'be', 'sideways', 'in', 'terms', 'of', 'the', 'mid', 'and', 'long', 'term', 'while', 'solar', 'related', 'stocks', 'tend', 'to', 'decline', '.']
정수 인덱스로 변환된 토큰: [9088, 3033, 15768, 3141, 4323, 7166, 2000, 2022, 12579, 1999, 3408, 1997, 1996, 3054, 1998, 2146, 2744, 2096, 5943, 3141, 15768, 7166, 2000, 6689, 1012]


In [9]:
print(len(en_input_ids))

25
