## 전통적인 데이터 전처리 방법

In [1]:
# 전통적인 데이터 전처리 방법
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

# 텍스트 파일 읽기
with open('./data/naver_news.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 정제 (Cleaning)
# 특수문자 제거
cleaned_text = re.sub(r'[^가-힣a-zA-Z\s]', '', text)

# 소문자 변환
cleaned_text = cleaned_text.lower()

# 토큰화 (Tokenization)
tokens = word_tokenize(cleaned_text)

# 불용어 제거 (Stopword Removal)
stop_words = set(stopwords.words('english'))
tokens = [token for token in tokens if token not in stop_words]

# 어간 추출 (Stemming)
stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]

# 표제어 추출 (Lemmatization)
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]

print("전통적인 방법으로 전처리된 텍스트:")
print(lemmatized_tokens[:100])  # 전처리된 결과의 일부 출력

전통적인 방법으로 전처리된 텍스트:
['단계적', '조치', '요구', '이행기간', '압축한', '큰', '거래', '원해', '폼페이오볼턴', '연일', '밑그림', '소개', '구체적', '답변안해트럼프', '미', '대통령과', '김정은', '북한', '국무위원장워싱턴dc', 'epa연합뉴스', '자료사진서울연합뉴스', '조준형', '기자', '다음', '달', '일', '싱가포르에서의', '도널드', '트럼프', '대통령과', '김정은', '국무위원장', '간', '세기의', '회담을', '앞둔', '가운데', '북미', '빅딜의', '윤곽이', '드러나고', '있다', '밑그림은', '트럼프', '미', '행정부의', '외교안보', '핵심인사들의', '입을', '통해', '소개되고', '있으나', '이에', '대해', '북한은', '구체적으로', '반응하지', '않고', '있다', '지금까지', '나온', '이들의', '발언을', '종합해보면', '북미', '빅딜의', '골자는', '트럼프', '대통령의', '첫', '임기', '사실상', '마지막', '해인', '년까지', '북한이', '비핵화를', '달성하면', '미국은', '국제사회의', '대북', '투자와', '경협을', '막는', '각종', '제재를', '해제하고', '북미', '수교와', '평화협정을', '체결하는', '등의', '내용인', '것으로', '보인다', '트럼프', '행정부에선', '존', '볼턴', '백악관']


- 한국어 형태소 분석기 사용

In [2]:
from konlpy.tag import Okt
import re

# 텍스트 파일 읽기
with open('./data/naver_news.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 정제 (Cleaning)
# 특수문자 제거
cleaned_text = re.sub(r'[^가-힣\s]', '', text)

# 형태소 분석기를 사용한 토큰화 및 불용어 제거
okt = Okt()
tokens = okt.morphs(cleaned_text)

# 불용어 리스트 (예시)
stop_words = {'이', '그', '저', '것', '수', '등', '들'}

# 불용어 제거
filtered_tokens = [token for token in tokens if token not in stop_words]

print("Okt를 사용한 전처리된 텍스트:")
print(filtered_tokens[:100])  # 전처리된 결과의 일부 출력


Okt를 사용한 전처리된 텍스트:
['단계', '적', '조치', '요구', '이행', '기간', '압축', '한', '큰', '거래', '원해', '폼페이', '오', '볼턴', '연일', '밑그림', '소개', '구체', '적', '답변', '안해', '트럼프', '미', '대통령', '과', '김정은', '북한', '국무위원', '장', '워싱턴', '연합뉴스', '자료', '사진', '서울', '연합뉴스', '조준형', '기자', '다음', '달', '일', '싱가포르', '에서의', '도널드', '트럼프', '대통령', '과', '김정은', '국무위원', '장', '간', '세기', '의', '회담', '을', '앞둔', '가운데', '북미', '빅딜', '의', '윤곽', '드러나고', '있다', '밑그림', '은', '트럼프', '미', '행정부', '의', '외교', '안보', '핵심', '인사', '의', '입', '을', '통해', '소개', '되고', '있으나', '에', '대해', '북한', '은', '구체', '적', '으로', '반응', '하지', '않고', '있다', '지금', '까지', '나온', '의', '발언', '을', '종합', '해보면', '북미', '빅딜']


## 딥러닝 기반 데이터 전처리 (BERT 사용)

In [4]:
!pip install transformers torch

Collecting transformers
  Downloading transformers-4.54.1-py3-none-any.whl.metadata (41 kB)
Collecting torch
  Using cached torch-2.7.1-cp310-cp310-win_amd64.whl.metadata (28 kB)
Collecting filelock (from transformers)
  Using cached filelock-3.18.0-py3-none-any.whl.metadata (2.9 kB)
Collecting huggingface-hub<1.0,>=0.34.0 (from transformers)
  Downloading huggingface_hub-0.34.3-py3-none-any.whl.metadata (14 kB)
Collecting tokenizers<0.22,>=0.21 (from transformers)
  Downloading tokenizers-0.21.4-cp39-abi3-win_amd64.whl.metadata (6.9 kB)
Collecting safetensors>=0.4.3 (from transformers)
  Using cached safetensors-0.5.3-cp38-abi3-win_amd64.whl.metadata (3.9 kB)
Collecting fsspec>=2023.5.0 (from huggingface-hub<1.0,>=0.34.0->transformers)
  Downloading fsspec-2025.7.0-py3-none-any.whl.metadata (12 kB)
Collecting sympy>=1.13.3 (from torch)
  Using cached sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Collecting jinja2 (from torch)
  Using cached jinja2-3.1.6-py3-none-any.whl.metadata (2.9

In [5]:
# 딥러닝 기반 데이터 전처리 (BERT 사용)
from transformers import BertTokenizer

# BERT 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

# 텍스트 파일 읽기
with open('./data/naver_news.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# BERT 토크나이저를 사용한 토큰화
tokens = tokenizer.tokenize(text)
token_ids = tokenizer.convert_tokens_to_ids(tokens)

print("BERT를 사용한 전처리된 토큰:")
print(tokens[:100])  # 전처리된 결과의 일부 출력


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


BERT를 사용한 전처리된 토큰:
['北', ',', '단', '##계', '##적', '조', '##치', '요', '##구', '[UNK]', '美', ',', '이', '##행', '##기', '##간', '압', '##축', '##한', "'", '큰', '거', '##래', "'", '원', '##해', '폼', '##페', '##이', '##오', '·', '볼', '##턴', ',', '연', '##일', '美', '밑', '##그', '##림', '소', '##개', '[UNK]', '北', ',', '구', '##체', '##적', '답', '##변', '##안', '##해', '##트', '##럼', '##프', '미', '대통령', '##과', '김', '##정', '##은', '북', '##한', '국', '##무', '##위', '##원', '##장', '[', '워', '##싱', '##턴', '##DC', 'EPA', '=', '연합뉴스', '자', '##료', '##사', '##진', ']', '(', '서울', '=', '연합뉴스', ')', '조', '##준', '##형', '기자', '=', '다음', '달', '12일', '싱', '##가', '##포', '##르', '##에서', '##의']
