In [1]:
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# NLTK에서 불용어(stopwords)와 토큰화 기능 다운로드
nltk.download('punkt')
nltk.download('stopwords')

# 불용어 목록 로드
stop_words = set(stopwords.words('english'))

# 데이터 파일 경로 지정
input_file_path = 'C:/Users/wosle/OneDrive/Desktop/Bok_Projet_woslek/뉴스 클랜징/머니투데이/머니투데이클렌징7.csv'  # 입력 데이터 파일 경로
output_file_path = 'C:/Users/wosle/OneDrive/Desktop/Bok_Projet_woslek/뉴스 클랜징/머니투데이/머니투데이전처리3.csv'  # 출력 데이터 파일 경로

# 파일을 읽어서 텍스트로 변환하는 함수
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = file.read()
    return data

# 문장을 구두점 기준으로 나누는 함수
def split_sentences(text):
    sentences = re.split(r'(?<!\w\.\w.)(?<=\.|\?|\!)\s', text)
    return sentences

# 불용어 처리 함수
def remove_stopwords(sentence):
    # 문장의 단어 수가 8개 이하이면 제외
    words = word_tokenize(sentence)
    if len(words) <= 8:
        return None

    # 불용어 제거
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

# 문장 데이터를 구두점 기준으로 나누고, 불용어 처리 후 CSV 형식으로 변환
def process_text(data):
    lines = data.splitlines()
    processed_data = []

    for line in lines:
        date, title, doc_id, content = line.split(",", 3)
        sentences = split_sentences(content)
        
        # 문장 나누기 및 불용어 처리
        for idx, sentence in enumerate(sentences):
            cleaned_sentence = remove_stopwords(sentence)
            if cleaned_sentence:  # "기자", "네고가능" 등 제외될 문장은 None이므로 제외
                processed_data.append([date, f"news_{date.replace('-', '')}_moneytoday_{doc_id}", idx+1, cleaned_sentence])
    
    return processed_data

# 파일에서 데이터를 읽어와 처리하고 CSV로 저장
data = read_file(input_file_path)  # 텍스트 데이터 읽기
processed_data = process_text(data)  # 텍스트 처리

# DataFrame으로 변환 후 CSV로 저장
df = pd.DataFrame(processed_data, columns=["date", "doc_id", "sntc_id", "orgn_sntc"])
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print(df.head())  # 처리된 데이터 확인


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\wosle\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wosle\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


         date                                       doc_id  sntc_id  \
0  2008-01-01  news_20080101_moneytoday_ '남미병' 털고 조용한 혁명중"        1   
1  2008-01-01  news_20080101_moneytoday_ '남미병' 털고 조용한 혁명중"        2   
2  2008-01-01  news_20080101_moneytoday_ '남미병' 털고 조용한 혁명중"        3   
3  2008-01-01  news_20080101_moneytoday_ '남미병' 털고 조용한 혁명중"        4   
4  2008-01-01  news_20080101_moneytoday_ '남미병' 털고 조용한 혁명중"        6   

                                           orgn_sntc  
0  0000870251 , 브라질 경제12 최경하 한국수출입은행 상파울루 사무소 소장은...  
1  최근 헤알이 급격히 절상되면서 브라질이 수출 경쟁력을 잃어 자동차 수출이 줄고 있다...  
2     브라질 내수 경기가 호황이란 사실은 LG전자의 판매 추이에서도 확인할 수 있었다 .  
3  박성학 LG전자 브라질 법인 부장은 매출이 2006년에 46 늘어난데 이어 2007...  
4  하이머 상파울루 산업연맹 대외관계 이사는 인플레이션을 극복하면서 경제적 안정을 이룬...  
