In [2]:
import os
from konlpy.tag import Okt

# ==========================================
# 1. 설정
SOURCE_DIR = "BOK_Cleaned"
TARGET_DIR = "BOK_Tokenized"
# ==========================================

if not os.path.exists(TARGET_DIR):
    os.makedirs(TARGET_DIR)

print(f">>> 토큰화 진행 중.\n")

# 형태소 분석기 준비 (Okt)
okt = Okt()

def extract_keywords_mecab_style(text):
    # 1. 형태소 분석
    pos_result = okt.pos(text, stem=True)
    
    keywords = []
    for word, tag in pos_result:
        if len(word) <= 1: # 1글자 제외
            continue

        new_tag = ""
        
        # 부정어 로직 변환
        if word in ['않다', '못하다', '말다', '아니다']: 
            new_tag = 'VX'
            word = word[:-1] 
        
        # 일반 품사 매핑
        elif tag == 'Noun':
            new_tag = 'NNG'  # 명사
        elif tag == 'Verb':
            new_tag = 'VV'   # 동사
        elif tag == 'Adjective':
            new_tag = 'VA'   # 형용사
        elif tag == 'Adverb':
            new_tag = 'MAG'  # 부사
        
        # 매칭되는 태그가 있으면 추가
        if new_tag != "":
            keywords.append(f"{word}/{new_tag}")
    
    return keywords

# 파일 처리 시작
files = os.listdir(SOURCE_DIR)
files.sort()
count = 0

for filename in files:
    if not filename.lower().endswith(".txt"):
        continue
        
    source_path = os.path.join(SOURCE_DIR, filename)
    target_path = os.path.join(TARGET_DIR, filename)
    
    try:
        with open(source_path, "r", encoding="utf-8") as f:
            content = f.read()
        
        # 변환 함수 실행
        keywords = extract_keywords_mecab_style(content)
        
        # 저장
        with open(target_path, "w", encoding="utf-8") as f:
            f.write(",".join(keywords))
            
        count += 1
        if count % 10 == 0:
            print(f"{count}개 완료")
            
    except Exception as e:
        print(f"에러 ({filename}): {e}")

print(f"\n>>> 토큰화 완료.")

>>> 토큰화 진행 중.

10개 완료
20개 완료
30개 완료
40개 완료
50개 완료
60개 완료
70개 완료
80개 완료
90개 완료
100개 완료
110개 완료
120개 완료
130개 완료
140개 완료
150개 완료

>>> 토큰화 완료.
