In [None]:
import os
import re
import csv

def clean_content(text):
    """기사 본문에서 불필요한 출처 및 특수문자 제거"""
    text = re.sub(r"\[.*?\]", "", text)  # 대괄호 [] 안의 내용 제거
    text = re.sub(r"\(.*?\)", "", text)  # 소괄호 () 안의 내용 제거
    text = re.sub(r"(\w+ 기자|\w+ 특파원)", "", text)  # '기자', '특파원' 포함된 단어 제거
    text = re.sub(r"[^\w\s\.\?!]", "", text)  # 특수문자만 제거, 구두점은 살려두고
    text = re.sub(r"\d+", "", text)  # 숫자 제거
    text = re.sub(r"\s+", " ", text)  # 연속된 공백 제거
     # 저작권 문구 제거
    text = re.sub(r"저작권자 , 무단 , 전재재배포 ,  파이낸셜뉴스 , 금지", "", text)
    # text = re.sub(r"저작권자 무단 전재 재배포 금지", "", text)
    text = re.sub(r"저작권자 . 무단 전재재배포 금지", "", text)
    text = re.sub(r"본 자료는 해당 업체에서 제공한 보도 자료입니다.", "", text)
    text = re.sub(r"알기쉬운 채권투자김형철", "", text)
    text = re.sub(r"저작권자 파이낸셜뉴스. 무단 전재재배포 금지", "", text)
    text = re.sub(r"공식 SNS계정 파이낸셜뉴스 패밀리사이트", "", text)
    text = re.sub(r"파이낸셜뉴스 패밀리사이트 공식 SNS계정", "", text)
    text = re.sub(r"파이낸셜뉴스 실리콘밸리", "", text)
    text = re.sub(r"파이낸셜뉴스 도쿄", "", text)
    # text = re.sub(r"저작권자 . 무단 전재재배포 금지", "", text)
    # text = re.sub(r"저작권자 파이낸셜뉴스. 무단 전재재배포 금지", "", text)
    
    return text.strip()

def extract_date_and_text(text):
    # 날짜와 원문을 추출하는 정규 표현식
    pattern = r'(\d{4}-\d{2}-\d{2})(.*?)(?=/$|$)'
    matches = re.findall(pattern, text, re.DOTALL)
    
    extracted_data = []
    for match in matches:
        date, content = match
        # '/' 뒤의 내용 제거
        content = content.split('/')[0].strip()
        
        # 텍스트 클린징 (불필요한 부분 제거 후 클린징)
        content = clean_content(content)
        
        extracted_data.append((date, content))
    
    return extracted_data

def process_files_in_directory(directory_path, output_file):
    # CSV 파일 헤더
    header = ['date', 'content']
    
    with open(output_file, 'w', encoding='utf-8', newline='') as out_file:
        writer = csv.writer(out_file)
        writer.writerow(header)  # 헤더 작성
        
        # 폴더 내 모든 .txt 파일 확인
        for filename in os.listdir(directory_path):
            if filename.endswith('.txt'):  # .txt 파일만 처리
                file_path = os.path.join(directory_path, filename)
                with open(file_path, 'r', encoding='utf-8') as in_file:
                    text = in_file.read()
                    
                    # 날짜와 원문 추출
                    extracted_data = extract_date_and_text(text)
                    
                    # 추출한 내용을 CSV 파일에 기록
                    for date, content in extracted_data:
                        writer.writerow([date, content])

# 폴더 경로와 출력 CSV 파일 경로 지정
directory_path = 'C:/Users/wosle/OneDrive/Desktop/Bok_Projet_woslek/Financial_News_text/news_scraper/news_scraper/spiders/news_texts'  # 폴더 경로를 여기에 넣으세요
output_file = '결측치 확인1.csv'  # 결과를 저장할 CSV 파일 이름

# 파일 처리 함수 호출
process_files_in_directory(directory_path, output_file)
