In [2]:
import pandas as pd
import numpy as np

import re
import os

from bs4 import BeautifulSoup

# 2.1 File Concatenation

In [3]:
## For Guardian
input_dir = "./guardian_data/vaccine/"
output_file = "./guardian_data/guardian_vaccine.csv"

# 📦 파일 목록 가져오기 (.csv 확장자만)
csv_files = [f for f in os.listdir(input_dir) if f.endswith(".csv")]

dfs = []

for file in csv_files:
    file_path = os.path.join(input_dir, file)
    df = pd.read_csv(file_path)
    dfs.append(df)

# 🔗 하나로 합치기
combined_df = pd.concat(dfs, ignore_index=True)
print(f"⚠️ 중복 기사 수: {combined_df.duplicated(subset='url').sum()}개")
combined_df.drop_duplicates(subset="url", inplace=True)

# 💾 저장
combined_df.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"✅ 통합 완료: {len(combined_df)}건 → {output_file}")

⚠️ 중복 기사 수: 0개
✅ 통합 완료: 14524건 → ./guardian_data/guardian_vaccine.csv


In [5]:
# For NYT
input_dir = "./nyt_data/vaccine/"
output_file = "./nyt_data/nyt_vaccine.csv"

# 📦 파일 목록 가져오기 (.csv 확장자만)
csv_files = [f for f in os.listdir(input_dir) if f.endswith(".csv")]

dfs = []

for file in csv_files:
    file_path = os.path.join(input_dir, file)
    df = pd.read_csv(file_path)
    dfs.append(df)

# 🔗 하나로 합치기
combined_df = pd.concat(dfs, ignore_index=True)
print(f"⚠️ 중복 기사 수: {combined_df.duplicated(subset='url').sum()}개")
combined_df.drop_duplicates(subset="url", inplace=True)

# 💾 저장
combined_df.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"✅ 통합 완료: {len(combined_df)}건 → {output_file}")

⚠️ 중복 기사 수: 0개
✅ 통합 완료: 4175건 → ./nyt_data/nyt_vaccine.csv


# 2.2 Preprocessing

In [6]:
## For Reddit
df = pd.read_csv('./reddit_data/reddit_vaccine.csv')

df['text'] = df['title'] + ' ' + df['selftext'].fillna('') + ' ' + df['top_comments'].fillna('')

def preprocess(text):
    text = text.lower()                            # 소문자화
    text = re.sub(r'http\S+', '', text)            # URL 제거
    text = re.sub(r'\n+', ' ', text)               # 개행 → 공백
    text = re.sub(r'\s+', ' ', text).strip()       # 여백 정리
    return text

df['text_clean'] = df['text'].apply(preprocess)

df.to_csv('./ready/reddit_vaccine_ready.csv', encoding = 'utf-8-sig')

In [7]:
## For Guardian
df = pd.read_csv('./guardian_data/guardian_vaccine.csv')

df['title'] = df['title'].fillna('')
df['body'] = df['body'].fillna('')
df['body'] = df['body'].apply(lambda x: re.sub(r'<.*?>', '', x))  # HTML 태그 제거

df['text'] = df['title'] + ' ' + df['body']

def preprocess(text):
    text = text.lower()
    text = re.sub(r'http\S+', '', text)
    text = re.sub(r'\n+', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df['text_clean'] = df['text'].apply(preprocess)

df.to_csv('./ready/guardian_vaccine_ready.csv', encoding='utf-8-sig', index=False)

In [8]:
## New York Times
df = pd.read_csv('./nyt_data/nyt_vaccine.csv')

df['headline'] = df['headline'].fillna('')
df['lead_paragraph'] = df['lead_paragraph'].fillna('')

df['text'] = df['headline'] + ' ' + df['lead_paragraph']

def preprocess(text):
    text = text.lower()
    text = re.sub(r'http\S+', '', text)
    text = re.sub(r'\n+', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df['text_clean'] = df['text'].apply(preprocess)

df.to_csv('./ready/nyt_vaccine_ready.csv', encoding='utf-8-sig', index=False)