In [31]:
import requests
from transformers import pipeline
import matplotlib.pyplot as plt
import matplotlib
from matplotlib import font_manager
import datetime
from dateutil import parser  # 날짜 파싱을 위한 추가 라이브러리

# 한글 글꼴 설정
font_path = "C:/Windows/Fonts/malgun.ttf"  # 윈도우 기본 한글 글꼴 경로 (예: malgun.ttf)
font_prop = font_manager.FontProperties(fname=font_path)
matplotlib.rcParams['font.family'] = font_prop.get_name()

# 1. Google Custom Search API로 뉴스 데이터 가져오기
def get_news(query, api_key, cx, num_results=50):
    news_data = []
    for start_index in range(1, num_results + 1, 10):  # 10개씩 가져오기
        url = "https://www.googleapis.com/customsearch/v1"
        params = {
            "q": query,  # 비트코인 관련 뉴스
            "cx": cx,  # 사용자 맞춤 검색 엔진 ID
            "key": api_key,  # 구글 API 키
            "num": 10,  # 가져올 뉴스 수
            "start": start_index,  # 시작 인덱스 (페이징)
        }

        response = requests.get(url, params=params)
        if response.status_code == 200:
            data = response.json()
            news_data.extend(data.get("items", []))
        else:
            print(f"Error {response.status_code}: {response.text}")
    print(f"가져온 뉴스 데이터 개수: {len(news_data)}")  # 디버깅 출력
    return news_data

# 2. 뉴스 데이터에서 기사 추출 및 날짜 추출
def extract_articles_and_dates(news_data):
    articles = []
    article_dates = []
    current_year = datetime.datetime.now().year  # 현재 연도를 기본값으로 사용
    if news_data:
        for item in news_data:
            title = item.get("title", "")
            snippet = item.get("snippet", "")
            # 날짜 추출 시 'pagemap' 메타데이터를 확인
            date = item.get("pagemap", {}).get("metatags", [{}])[0].get("article:published_time", "날짜 없음")
            try:
                # 날짜 파싱을 위한 dateutil.parser 사용
                parsed_date = parser.parse(date)
                articles.append(title + " " + snippet)
                article_dates.append(parsed_date)
            except (ValueError, TypeError):
                # 날짜 파싱 실패 시 날짜 없음으로 처리하고, 기본값인 현재 연도를 설정
                print(f"날짜 오류: {date} (유효하지 않은 형식)")  # 디버깅 출력
                parsed_date = datetime.datetime(current_year, 1, 1)  # 기본값으로 2024년 1월 1일로 설정
                articles.append(title + " " + snippet)
                article_dates.append(parsed_date)  # 기본 날짜로 추가

    print(f"추출된 기사 개수: {len(articles)}")  # 디버깅 출력
    print(f"추출된 날짜 개수: {len(article_dates)}")  # 디버깅 출력
    return articles, article_dates

# 3. KoBERT 모델로 감정 분석
sentiment_model = pipeline("sentiment-analysis", model="sangrimlee/bert-base-multilingual-cased-nsmc")

def analyze_sentiment(articles, model):
    sentiments = {"POSITIVE": 0, "NEGATIVE": 0}
    for article in articles:
        result = model(article)
        sentiment = result[0]["label"]
        if sentiment == "positive":
            sentiments["POSITIVE"] += 1
        elif sentiment == "negative":
            sentiments["NEGATIVE"] += 1
    print(f"감정 분석 결과 - 긍정: {sentiments['POSITIVE']}, 부정: {sentiments['NEGATIVE']}")  # 디버깅 출력
    return sentiments

# 4. 각 연도별로 긍정/부정 비율을 계산
def calculate_yearly_sentiment(news_data):
    # 2022, 2023, 2024년 뉴스 기사만 필터링
    articles_2022 = []
    articles_2023 = []
    articles_2024 = []
    dates_2022 = []
    dates_2023 = []
    dates_2024 = []

    # 날짜 기준으로 뉴스 기사 분류
    for article, date in zip(news_data[0], news_data[1]):
        try:
            # '날짜 없음'을 제외하고 유효한 날짜만 필터링
            if date != "날짜 없음":
                year = date.year  # 이미 datetime 객체이므로 .year로 쉽게 연도 추출 가능
                if year == 2022:
                    articles_2022.append(article)
                    dates_2022.append(date)
                elif year == 2023:
                    articles_2023.append(article)
                    dates_2023.append(date)
                elif year == 2024:
                    articles_2024.append(article)
                    dates_2024.append(date)
        except AttributeError:
            print(f"날짜 오류: {date} (유효하지 않은 형식)")  # 디버깅 출력
            continue  # 날짜 형식이 맞지 않으면 해당 기사는 무시

    print(f"2022년 기사 개수: {len(articles_2022)}")  # 디버깅 출력
    print(f"2023년 기사 개수: {len(articles_2023)}")  # 디버깅 출력
    print(f"2024년 기사 개수: {len(articles_2024)}")  # 디버깅 출력

    # 각 연도별로 감정 분석 수행
    sentiments_2022 = analyze_sentiment(articles_2022, sentiment_model)
    sentiments_2023 = analyze_sentiment(articles_2023, sentiment_model)
    sentiments_2024 = analyze_sentiment(articles_2024, sentiment_model)

    # 각 연도의 긍정/부정 비율 계산
    def calculate_percentage(sentiments, total_articles):
        positive_percentage = (sentiments["POSITIVE"] / total_articles) * 100 if total_articles > 0 else 0
        negative_percentage = (sentiments["NEGATIVE"] / total_articles) * 100 if total_articles > 0 else 0
        return positive_percentage, negative_percentage

    # 각 연도별 비율 계산
    pos_2022, neg_2022 = calculate_percentage(sentiments_2022, len(articles_2022))
    pos_2023, neg_2023 = calculate_percentage(sentiments_2023, len(articles_2023))
    pos_2024, neg_2024 = calculate_percentage(sentiments_2024, len(articles_2024))

    # 결과 출력
    print(f"2022년: 긍정 기사 비율: {pos_2022:.2f}%, 부정 기사 비율: {neg_2022:.2f}%")
    print(f"2023년: 긍정 기사 비율: {pos_2023:.2f}%, 부정 기사 비율: {neg_2023:.2f}%")
    print(f"2024년: 긍정 기사 비율: {pos_2024:.2f}%, 부정 기사 비율: {neg_2024:.2f}%")

# 5. 실행 코드
if __name__ == "__main__":
    # 여기에 본인의 구글 API 키를 입력하세요!
    api_key = "AIzaSyAMMtEUC8K6E6FlF8nokGOQ6OqlHUv0xX0"  # 예시로 넣은 키, 본인의 키로 교체해야 합니다.
    
    # 비트코인 관련 뉴스 검색
    query = "비트코인"  # 원하는 키워드 입력 (예: "비트코인")

    # 여기에 본인의 맞춤 검색 엔진 ID를 입력하세요!
    cx = "e52a838f9553448dc"  # 예시로 넣은 ID, 본인의 ID로 교체해야 합니다.

    # 뉴스 데이터 가져오기
    news_data = get_news(query, api_key, cx, num_results=50)

    if news_data:
        # 기사와 날짜 추출
        articles, article_dates = extract_articles_and_dates(news_data)

        # 연도별로 감정 분석 결과 출력
        calculate_yearly_sentiment((articles, article_dates))

    else:
        print("뉴스 데이터를 가져오는 데 실패했습니다.")


Device set to use cpu


Error 429: {
  "error": {
    "code": 429,
    "message": "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:882707267802'.",
    "errors": [
      {
        "message": "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:882707267802'.",
        "domain": "global",
        "reason": "rateLimitExceeded"
      }
    ],
    "status": "RESOURCE_EXHAUSTED",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.ErrorInfo",
        "reason": "RATE_LIMIT_EXCEEDED",
        "domain": "googleapis.com",
        "metadata": {
          "quota_metric": "customsearch.googleapis.com/requests",
          "quota_limit": "DefaultPerDayPerProject",
          "quota_limit_value": "100",
          "quota_location": "global",
          "service": "customsearch.googleapis.com",
          "consumer": "projects/882