In [82]:
import os
import requests
from datetime import datetime
from transformers import pipeline

# 1. Google Custom Search API 설정 #

In [83]:
API_KEY = "AIzaSyAMMtEUC8K6E6FlF8nokGOQ6OqlHUv0xX0"  # API 키 입력
SEARCH_ENGINE_ID = "e52a838f9553448dc"

# 2. Google Custom Search API로 뉴스 데이터 가져오기 #

In [84]:
def get_news(query, api_key):
    url = "https://www.googleapis.com/customsearch/v1"
    params = {
        "q": query,
        "cx": "e52a838f9553448dc",
        "key": "AIzaSyAMMtEUC8K6E6FlF8nokGOQ6OqlHUv0xX0",
        "num": 10,
    }
    
    response = requests.get(url, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        print("Error:", response.status_code)
        return None

# 3. 뉴스 데이터에서 기사 추출 #

In [85]:
def extract_articles(news_data):
    articles = []
    if news_data and "items" in news_data:
        for item in news_data["items"]:
            title = item.get("title", "")
            snippet = item.get("snippet", "")
            publish_date = item.get("pagemap", {}).get("metatags", [{}])[0].get("og:updated_time", "")
            articles.append({
                "title": title,
                "snippet": snippet,
                "publish_date": publish_date
            })
    return articles

# 4. 날짜 필터링 함수 # 

In [86]:
def filter_by_date(articles, start_date, end_date):
    filtered_articles = []
    for article in articles:
        # 기사 날짜가 없으면 건너뜀
        if not article["publish_date"]:
            continue

        # 날짜 형식을 ISO 8601로 변환할 때 문제가 생기면, 해당 기사는 필터링하지 않음
        try:
            article_date = datetime.fromisoformat(article["publish_date"].replace("Z", "+00:00"))
        except ValueError:
            print(f"날짜 형식 오류: {article['publish_date']}")
            continue
        
        # 날짜 범위 내의 기사만 필터링
        if start_date <= article_date <= end_date:
            filtered_articles.append(article)
    
    return filtered_articles

# 5. Hugging Face 한국어 감정 분석 모델 설정 #

In [87]:
sentiment_model = pipeline("sentiment-analysis", model="sangrimlee/bert-base-multilingual-cased-nsmc")

Device set to use cpu


# 6. 감정 분석 수행 #

In [88]:
def analyze_sentiment(articles, model):
    sentiments = []
    for article in articles:
        text = article["title"] + " " + article["snippet"]
        result = model(text)
        sentiments.append(result[0])  # 첫 번째 결과만 저장
    return sentiments

# 7. 감정 분석 결과 요약 #

In [89]:
def summarize_sentiments(sentiments):
    positive = sum(1 for s in sentiments if s["label"] == "POSITIVE")
    negative = sum(1 for s in sentiments if s["label"] == "NEGATIVE")
    total = len(sentiments)

    return {
        "positive_ratio": positive / total if total > 0 else 0,
        "negative_ratio": negative / total if total > 0 else 0,
    }

# 8. 실행 코드 #

In [90]:
if __name__ == "__main__":
    # 검색 키워드와 날짜 범위 설정
    query = "비트코인"
    start_date = datetime(2020, 12, 1)
    end_date = datetime(2022, 12, 5)

    # 뉴스 데이터 가져오기
    news_data = get_news(query, API_KEY)

    if news_data:
        # 기사 추출
        articles = extract_articles(news_data)

        # 날짜 필터링
        filtered_articles = filter_by_date(articles, start_date, end_date)

        if filtered_articles:
            print(f"{len(filtered_articles)}개의 기사를 찾았습니다. 감정 분석을 시작합니다.")
            
            # 감정 분석 수행
            news_sentiments = analyze_sentiment(filtered_articles, sentiment_model)

            # 결과 요약
            summary = summarize_sentiments(news_sentiments)
            print("요약된 감정 분석 결과:", summary)
            
            # 감정 분석된 기사 출력
            for article, sentiment in zip(filtered_articles, news_sentiments):
                print(f"제목: {article['title']}, 감정: {sentiment['label']}")
        else:
            print("지정된 날짜 범위 내에 해당하는 기사를 찾을 수 없습니다.")
    else:
        print("뉴스 데이터를 가져오는 데 실패했습니다.")

지정된 날짜 범위 내에 해당하는 기사를 찾을 수 없습니다.
