In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# 구글 뉴스 RSS URL
google_news_url = "https://news.google.com/rss"

def get_news():
    # 뉴스 데이터를 저장할 리스트 초기화
    news_items = []

    # 구글 뉴스 RSS 피드에서 데이터 가져오기
    response = requests.get(google_news_url)
    soup = BeautifulSoup(response.content, 'xml')

    # 뉴스 아이템 파싱
    items = soup.find_all('item')

    # 뉴스 아이템 정보 추출
    for item in items:
        news = {
            'title': item.title.text,
            'link': item.link.text,
            'pubDate': item.pubDate.text,
            'description': item.description.text
        }
        news_items.append(news)
        # 최대 100개의 뉴스 아이템만 저장
        if len(news_items) >= 100:
            break

    return news_items

def save_to_csv(news_items, filename='google_news.csv'):
    try:
        existing_df = pd.read_csv(filename)
        df = pd.DataFrame(news_items)
        df = pd.concat([existing_df, df]).drop_duplicates().reset_index(drop=True)
    except FileNotFoundError:
        df = pd.DataFrame(news_items)

    df.to_csv(filename, index=False)
    print(f"Saved {len(news_items)} news items to {filename}")

# 실시간 데이터 수집 시뮬레이션
collect_interval = 600  # 10 minutes in seconds

try:
    while True:
        print("Collecting news...")
        news_items = get_news()
        save_to_csv(news_items)
        print(f"Sleeping for {collect_interval // 60} minutes...")
        time.sleep(collect_interval)
except KeyboardInterrupt:
    print("Stopped by user")


Collecting news...
Saved 38 news items to google_news.csv
Sleeping for 10 minutes...
Stopped by user
