In [1]:
import pandas as pd
import html
import re

In [2]:
# CSV 파일 불러오기
file_path = r"../data/raw/agricultural_price_news.csv"
news_df = pd.read_csv(file_path, encoding="utf-8-sig")

In [3]:
# HTML 태그 제거
def clean_html_tags(text):
    if pd.isna(text):
        return text  # 결측값 그대로 반환
    return re.sub(r'<[^>]*>', '', text)

In [4]:
# 특수 문자 정제
def clean_special_chars(text):
    if pd.isna(text):
        return text  # 결측값 그대로 반환
    text = html.unescape(text)  # HTML 인코딩 문자 변환
    text = text.replace("\n", " ").replace("\t", " ")
    return text

In [5]:
# 데이터 정제: HTML 태그 제거 및 특수 문자 정리
news_df["Title"] = news_df["Title"].apply(lambda x: clean_special_chars(clean_html_tags(x)))
news_df["Summary"] = news_df["Summary"].apply(lambda x: clean_special_chars(clean_html_tags(x)))

In [6]:
# 결측값 제거: Title 또는 Summary가 비어있는 경우 삭제
news_df = news_df.dropna(subset=["Title", "Summary"])

In [7]:
# 각 컬럼의 결측치 개수 확인
print(news_df.isnull().sum())

Title               0
Link                0
Summary             0
Publication Date    0
dtype: int64


In [8]:
# 중복된 행 제거
news_df = news_df.drop_duplicates(subset=["Title", "Link"])

In [11]:
# Summary 기준으로 중복 제거
news_df = news_df.drop_duplicates(subset=["Summary"], keep="first")

In [12]:
# 파일 저장
output_file = r"../data/raw/cleaned_agricultural_price_news.csv"
news_df.to_csv(output_file, index=False, encoding="utf-8-sig")
print(f"정제된 데이터가 {output_file}에 저장되었습니다.")

정제된 데이터가 ../data/raw/cleaned_agricultural_price_news.csv에 저장되었습니다.
