In [17]:
import os
import json
import re
from soynlp.tokenizer import LTokenizer

# LTokenizer 초기화 (Soynlp는 미리 학습된 LTokenizer를 제공합니다)
tokenizer = LTokenizer()

def load_stopwords(file_path):
    """
    불용어 리스트를 파일에서 불러오기
    :param file_path: 불용어 파일 경로
    :return: 불용어 리스트
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            stopwords = f.read().splitlines()
    except FileNotFoundError:
        print(f"Error: {file_path} 파일을 찾을 수 없습니다.")
        stopwords = []
    return stopwords

def preprocess_text(text, stopwords):
    """
    텍스트 전처리 함수
    :param text: 입력 텍스트
    :param stopwords: 불용어 리스트
    :return: 전처리된 텍스트
    """
    # 특수문자 제거
    text = re.sub(r'[^가-힣\s]', '', text)
    
    # 형태소 분석 및 불용어 제거
    tokens = tokenizer.tokenize(text)
    tokens = [word for word in tokens if word not in stopwords]
    
    return ' '.join(tokens)

def process_json_file(file_path, stopwords):
    """
    JSON 파일을 전처리하는 함수
    :param file_path: JSON 파일 경로
    :param stopwords: 불용어 리스트
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        # data가 리스트임을 가정하고 처리
        if isinstance(data, list):
            for item in data:
                if 'content' in item:
                    item['content'] = preprocess_text(item['content'], stopwords)
                if 'title' in item:
                    item['title'] = preprocess_text(item['title'], stopwords)
        
        with open(file_path, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=4)
            print(f"{file_path} 파일이 성공적으로 처리되었습니다.")
    except json.JSONDecodeError:
        print(f"Error: {file_path} 파일을 JSON으로 디코딩할 수 없습니다.")
    except Exception as e:
        print(f"Error: {file_path} 파일을 처리하는 중 오류가 발생했습니다. {e}")

def process_json_files_in_folder(folder_path, stopwords):
    """
    폴더 내의 모든 JSON 파일을 전처리하는 함수
    :param folder_path: 폴더 경로
    :param stopwords: 불용어 리스트
    """
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".json"):
                file_path = os.path.join(root, file)
                process_json_file(file_path, stopwords)

In [19]:
# 불용어 파일 경로
stopwords_file_path = "stopwords.txt"
stopwords = load_stopwords(stopwords_file_path)

# 폴더 경로
folder_path = "../../data/news_tickers"

# JSON 파일 처리 함수 호출
process_json_files_in_folder(folder_path, stopwords)


../../data/news_tickers
../../data/news_tickers
../../data/news_tickers
../../data/news_tickers/2022/03/20220301.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220317.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220321.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220320.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220316.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220331.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220327.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220307.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220311.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220310.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220306.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220326.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220330.json 파일이 성공적으로 처리되었습니다.
../../data/news_tickers/2022/03/20220325.json 파일이 성공적으로 처리되었습니다.
../../data/news_ti