In [1]:
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# NLTK에서 불용어(stopwords)와 토큰화 기능 다운로드
nltk.download('punkt')
nltk.download('stopwords')

# 불용어 목록 로드
stop_words = set(stopwords.words('english'))

# 데이터 파일 경로 지정
input_file_path = 'C:/Users/wosle/OneDrive/Desktop/프로젝트 파일/뉴스 토큰화/파이낸셜/파이낸셜_진짜_최종.csv'  # 입력 데이터 파일 경로
output_file_path = 'C:/Users/wosle/OneDrive/Desktop/프로젝트 파일/뉴스 토큰화/파이낸셜/파이낸셜전처리.csv'  # 출력 데이터 파일 경로

# 파일을 읽어서 텍스트로 변환하는 함수
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = file.read()
    return data

# 문장을 구두점 기준으로 나누는 함수
def split_sentences(text):
    sentences = re.split(r'(?<!\w\.\w.)(?<=\.|\?|\!)\s', text)
    return sentences

# 불용어 처리 함수
def remove_stopwords(sentence):
    # 문장의 단어 수가 8개 이하이면 제외
    words = word_tokenize(sentence)
    if len(words) <= 8:
        return None

    # 불용어 제거
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

# 문장 데이터를 구두점 기준으로 나누고, 불용어 처리 후 CSV 형식으로 변환
def process_text(data):
    lines = data.splitlines()
    processed_data = []

    for line in lines:
        date, title, doc_id, content = line.split(",", 3)
        sentences = split_sentences(content)
        
        # 문장 나누기 및 불용어 처리
        for idx, sentence in enumerate(sentences):
            cleaned_sentence = remove_stopwords(sentence)
            if cleaned_sentence:  # "기자", "네고가능" 등 제외될 문장은 None이므로 제외
                processed_data.append([date, f"news_{date.replace('-', '')}_moneytoday_{doc_id}", idx+1, cleaned_sentence])
    
    return processed_data

# 파일에서 데이터를 읽어와 처리하고 CSV로 저장
data = read_file(input_file_path)  # 텍스트 데이터 읽기
processed_data = process_text(data)  # 텍스트 처리

# DataFrame으로 변환 후 CSV로 저장
df = pd.DataFrame(processed_data, columns=["date", "doc_id", "sntc_id", "orgn_sntc"])
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print(df.head())  # 처리된 데이터 확인


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\wosle\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wosle\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


         date                               doc_id  sntc_id  \
0  2008-01-01  news_20080101_moneytoday_0000374470        2   
1  2008-01-01  news_20080101_moneytoday_0000374470        3   
2  2008-01-01  news_20080101_moneytoday_0000374470        4   
3  2008-01-01  news_20080101_moneytoday_0000374470        5   
4  2008-01-01  news_20080101_moneytoday_0000374470       15   

                                           orgn_sntc  
0  특히 예금을 위한 은행으로의 자금 증가도 지속되고 있지만 펀드 가입에 따른 자산운용...  
1  한국은행에 따르면 지난해 월 말 현재 자산운용사 수신 규모는 조억원으로 은행 정기예...  
2  지난해 월만 해도 정기예금 수신 규모는 조억원으로 자산운용사 수신의 조원보다 조원 ...  
3  그러나 연말로 갈수록 격차를 줄이면서 결국 지난해 월 정기예금 조원 자산운용사 조억...  
4  더욱이 지난해 월부터 월까지 정기예금 수신은 고작 조조원 증가하는데 그쳤지만 자산운...  
