<a href="https://colab.research.google.com/github/seoyoung000/summanews/blob/main/summanews_server(Gemini%20API%2BHugging_Face).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install -q flask flask-cors requests beautifulsoup4 pyngrok lxml newspaper3k lxml_html_clean transformers torch sentencepiece scikit-learn trafilatura
!pip install -U newspaper3k

print("📦 패키지 설치 완료! (시간 조금 걸릴 수 있어요)")

# -----------------------------
# 서버 및 환경 설정
# -----------------------------
from flask import Flask, jsonify, request, render_template_string
from flask_cors import CORS
import os, requests, json, time, re, random, threading
from datetime import datetime
from bs4 import BeautifulSoup
from pyngrok import ngrok
import nest_asyncio
from newspaper import Article
from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
import concurrent.futures
# ⚡️ Trafilatura 임포트
import trafilatura

# --- Gemini API 설정 ---
# ⚠️ 사용자님이 제공한 API 키를 사용합니다.
GEMINI_API_KEY = "AIzaSyAszdb8T_H0BhrGd69ZLaD2uZjcU3KtkQE"
# ⚡️ GEMINI_THRESHOLD 변수 제거 (토큰 수로 대체)
GEMINI_MODEL_NAME = "gemini-2.5-flash"
# ---------------------

# --- 유사도 분석을 위한 라이브러리 추가 ---
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# ---

# Colab 비동기 관련
nest_asyncio.apply()

app = Flask(__name__)
CORS(app, resources={r"/api/*": {"origins": "*"}})

# 환경변수 설정 (실제 값은 숨김)
os.environ.setdefault('NAVER_CLIENT_ID', 'fe9DLGhYbEVLy4sdQnVk')
os.environ.setdefault('NAVER_CLIENT_SECRET', '2f0NEntTNN')
os.environ.setdefault('NEWSAPI_KEY', 'a80b5826f01349c5824f4298d8f61eef')
NGROK_AUTHTOKEN = "30KyKWx0zSS7ZJpm5TnJOKdI6fC_7y1Lta8QCMEyH6ZLjjrxj"

# ⚡️ 카테고리 유지: '세계', '날씨' 유지
CATEGORIES = {
    '정치': 'politics',
    '경제': 'business',
    '사회': 'society',
    '생활문화': 'life',
    '연예': 'entertainment',
    '스포츠': 'sports',
    'IT과학': 'technology',
    '세계': 'world',
    '날씨': 'weather',
    '오늘의추천': 'today'
}

# -----------------------------
# ✅ KoBERT/T5 요약 모델 초기화
# -----------------------------
def init_summarizer():
    """KoBERT/T5 모델을 로드하고 컴포넌트를 반환합니다."""
    print("KoBERT/T5 요약 모델을 로드합니다... (시간이 걸릴 수 있습니다!)")
    candidates = [
        "lcw99/t5-base-korean-text-summary",
        "gogamza/kobart-summarization",
    ]
    for model_name in candidates:
        try:
            tokenizer = AutoTokenizer.from_pretrained(model_name)
            model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
            pipeline_obj = pipeline("summarization", model=model, tokenizer=tokenizer, framework="pt")

            eos_token_id = tokenizer.eos_token_id
            if eos_token_id is None:
                eos_token_id = tokenizer.convert_tokens_to_ids("</s>") if "</s>" in tokenizer.get_vocab() else 1

            print(f"✅ KoBERT/T5 모델 로드 완료: {model_name}, EOS Token ID: {eos_token_id}")
            return {'pipeline': pipeline_obj, 'tokenizer': tokenizer, 'model': model, 'eos_token_id': eos_token_id}
        except Exception as e:
            print(f"⚠️ 모델 로드 실패 ({model_name}): {e}")
            continue
    print("⚠️ 모든 KoBERT/T5 모델 로드 실패. 룰 기반 요약(fallback)만 사용합니다.")
    return None

summarizer_components = init_summarizer()

# -----------------------------
# ⚡️ Gemini API 호출 함수 (긴 기사용)
# -----------------------------
def call_gemini_api(text):
    """지수 백오프를 사용하여 Gemini API를 호출합니다."""
    url = f"https://generativelanguage.googleapis.com/v1beta/models/{GEMINI_MODEL_NAME}:generateContent?key={GEMINI_API_KEY}"

    # ⚡️ 최종 프롬프트 적용 (문장 완성 및 유창성 강조)
    # 파이썬의 문자열 연결을 사용하여 프롬프트 가독성을 유지하면서 하나의 긴 문자열로 전달
    system_prompt = (
        "너는 뉴스의 핵심 내용을 추출해서 요약하는 전문 요약가야. "
        "다음 기사 내용을 오직 사실과 핵심 정보에 기반하여 완벽하게 파악해. "
        "파악한 정보를 바탕으로 300자 이내의 간결하고 유익한 문장으로 요약해. "
        "요약문은 문법적으로 완벽한 문장으로 구성되어야 하며, 단어 단위로 끝나지 않도록 유의해. "
        "요약문만 출력해야 하며, 제목, 서론적인 문구, 감상 등 어떠한 부가적인 텍스트도 절대 포함하지 마."
    )
    user_query = text # 기사 내용 자체만 보냄

    payload = {
        "contents": [{"parts": [{"text": user_query}]}],
        "systemInstruction": {"parts": [{"text": system_prompt}]},
        "config": {
            # 300글자 이하를 목표로 maxOutputTokens를 160 토큰으로 유지
            "maxOutputTokens": 160,
            "temperature": 0.1
        }
    }

    max_retries = 3
    for attempt in range(max_retries):
        try:
            # 20초 타임아웃으로 설정
            response = requests.post(url, headers={'Content-Type': 'application/json'}, json=payload, timeout=20)
            response.raise_for_status()
            result = response.json()

            # 응답에서 텍스트 추출
            candidate = result.get('candidates', [{}])[0]
            if candidate and candidate.get('content') and candidate['content'].get('parts'):
                summary = candidate['content']['parts'][0].get('text', '').strip()
                if summary:
                    return summary

            raise ValueError("Gemini API가 유효한 텍스트를 반환하지 못했습니다.")

        except requests.exceptions.RequestException as e:
            if attempt < max_retries - 1:
                wait_time = 2 ** attempt
                # print(f"Gemini API 요청 실패. {wait_time}초 후 재시도...") # 디버깅용
                time.sleep(wait_time)
            else:
                # print(f"Gemini API 최종 실패: {e}") # 디버깅용
                raise e
        except Exception as e:
             # 기타 파싱 오류나 ValueError 처리
             raise e

    return "" # 최종적으로 실패한 경우 빈 문자열 반환

# -----------------------------
# 기사 내용 처리 함수
# -----------------------------
def clean_text(html_text):
    """HTML 태그를 제거하고 공백을 정리합니다."""
    if not html_text:
        return ""
    text = re.sub(r'<[^>]+>', '', html_text)
    return re.sub(r'\s+', ' ', text).strip()

def get_article_text(url):
    """
    주어진 URL에서 기사 본문을 추출합니다. Trafilatura를 우선 사용하고 실패 시 newspaper3k를 폴백으로 사용하며,
    추출된 텍스트에서 불필요한 부분을 제거합니다.
    """
    text = None

    try:
        # 1. ⚡️ Trafilatura 시도 (더 깨끗한 텍스트를 기대)
        downloaded = trafilatura.fetch_url(url)
        if downloaded:
            text = trafilatura.extract(
                downloaded,
                favor_recall=True,          # 최대한 많은 내용을 추출 (한국어 기사에 유리)
                include_comments=False,     # 댓글 제외
                target_language='ko',
                output_format='json',       # JSON으로 받아 'text' 필드만 사용하는 것이 안정적
            )
            if text:
                try:
                    text_json = json.loads(text)
                    # title도 텍스트가 짧거나 없을 경우 보조용으로 가져옴
                    text = text_json.get('text', '') or text_json.get('title', '')
                except json.JSONDecodeError:
                    # JSON 디코딩 실패 시 원시 텍스트 사용
                    pass

        # 2. Trafilatura 실패 또는 텍스트 부족 시 newspaper3k 폴백
        if not text or len(text) < 100:
            article = Article(url, language='ko')
            article.download()
            article.parse()
            text = article.text

        if not text:
            return None

        # 3. 텍스트 클리닝 강화 (두 라이브러리 모두에게 적용)

        # 기자 정보 및 HTML 태그성 내용, 광고성 문구 제거 강화
        patterns_to_remove = [
            r'\[.*?\]', r'\s*\(.*?=.*?\)\s*', r'[가-힣]{2,4} 기자',
            r'기자 = [가-힣]{2,4}', r'ⓒ\s*.*?무단전재\s*및\s*재배포\s*금지',
            r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', r'다시보기',
            r'\([^)]*=\s*\w+@\w+\.\w+\)', # (이름=이메일) 형태 제거
            r'사진=.*?제공', r'[\s\n]*\(출처:.*?\)', # 사진 출처 제거
            r'▶\s*바로가기.*', r'※\s*.*\s*무단 전재 및 재배포 금지',
            r'저작권자\(c\).*', r'Copyright.*',
            r'[가-힣]{2,4}이/가 [가-힣]{2,4}에게 드리는 한마디',
            r'[가-힣]{2,4} [가-힣]{2,4} 기자[=.]\s*.*?\]',
            r'▲\s*.*',           # ▲로 시작하는 모든 줄 제거 (이미지 설명/정보)
            r'©',                # © 기호 제거
            r'\[사진\s*.*?\]',    # [사진=연합뉴스] 제거
            r'\[이미지출처.*?\]', # [이미지출처=OOO] 제거
            r'[■◆●]',           # ⚡️ Fix 2: 목록 기호 제거
            r'\s*[가-힣]{2,4}\s*(특파원|기자)\s*=\s*', # ⚡️ Fix 2: '최진우 특파원 =' 형태 제거
            r'^\s*\[(단독|종합|속보|앵커|영상)\]\s*', # ⚡️ 새 패턴: [단독] 등 머리말 제거
            r'\([a-zA-Z가-힣0-9]+\s*=\s*.*?\)|\([a-zA-Z가-힣0-9]+\)\s*', # ⚡️ 설리 기사 문제 해결: (최진리)나 (f(x) 설리) 같은 괄호 안의 메타데이터 제거
            r'^\s*[\(\[=]*\s*[가-힣\s/]*\s*[=]*\s*', # ⚡️ 기사 시작 시 붙는 특수 기호/출처 표기/기자 정보 등 제거 (가장 강력한 시작 클리닝)
        ]
        for pattern in patterns_to_remove:
            text = re.sub(pattern, '', text).strip()

        # ⚡️ Fix 5: 본문 시작에 붙는 출처 표기 (예: (제주/국제뉴스) = ) 제거
        text = re.sub(r'^\s*\(.*?\)\s*=\s*', '', text).strip()

        # 기사 꼬리말/정리 문구 제거 (문장 단위로 후처리)
        ending_patterns_to_remove = [
            r'\(끝\)\s*', r'\(자료사진=.*?연합뉴스\)',
            r'지금까지 [가-힣]{2,4}였습니다.',
            r'본 기사는 [가-힣]{2,4}의 허락 하에 [가-힣]{2,4}에서 재편집되었습니다.',
            r'자세한 내용은 [가-힣]{2,4} [가-힣]{2,4}에서 확인하세요.',
            r'\s*\(자료사진\)', r'▶.*', r'\[[가-힣]{2,4} 한마디\]',
            r'\([가-힣]{2,4}\s*뉴스\)', r'\([가-힣]{2,4}=\s*[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}\)'
        ]

        sentences = re.split(r'(?<=[.!?。！？])\s+', text)
        cleaned_sentences = sentences[:]

        if len(sentences) > 5:
            removed_count = 0
            for i in range(1, min(6, len(sentences))):
                last_sentence = cleaned_sentences[-1] if cleaned_sentences else ""

                is_ending_pattern = False
                for pattern in ending_patterns_to_remove:
                    if re.search(pattern, last_sentence):
                        is_ending_pattern = True
                        break

                # 짧고 흔한 문구(사진, 제공 등)만 포함하는 경우 제거
                is_junk_phrase = re.search(r'(사진|제공|배포|뉴스|기자|바로가기|후원)', last_sentence) and len(last_sentence) < 40

                if is_ending_pattern or is_junk_phrase or (len(last_sentence) < 30 and len(cleaned_sentences) > 5 and removed_count < 3):
                    cleaned_sentences.pop()
                    removed_count += 1
                else:
                    break

        text = " ".join(cleaned_sentences)

        # 4. 최종적으로 불필요한 공백 정리
        return re.sub(r'\s+', ' ', text).strip()

    except Exception as e:
        # print(f"크롤링 오류 발생: {e}") # 디버깅용
        return None

# -----------------------------
# ✅ 요약 함수 (KoBERT/T5 + Gemini 하이브리드)
# -----------------------------
def make_summary(text):
    """요약 모델을 사용하거나 실패 시 룰 기반으로 요약합니다."""
    text = (text or "").strip()
    if not text:
        return ""

    # 한자 및 특수 기호 제거 강화
    text = re.sub(r'[\u4E00-\u9FFF]+', '', text)
    text = re.sub(r'\([가-힣]{2,4}=\w+\)', '', text)
    text = re.sub(r'\([가-힣]{2,4} 기자\)', '', text).strip()
    text = re.sub(r'\[.*\]', '', text)

    summarizer_active = False

    if summarizer_components:
        tokenizer = summarizer_components['tokenizer']
        # ⚡️ KoBERT/T5 모델의 입력 토큰 길이 계산
        tokenized_input = tokenizer(text, truncation=False, return_tensors="pt")
        input_length = tokenized_input['input_ids'].size(1)

        # 1. ⚡️ Gemini API 호출 (긴 기사: 1024 토큰 초과 시)
        # KoBERT/T5의 최대 입력 토큰 수(1024)를 초과하는지 확인
        if input_length > 1024:
            try:
                print(f"🚀 긴 기사입니다 ({input_length} 토큰). Gemini API를 사용하여 요약합니다.")
                summary = call_gemini_api(text)
                if summary:
                    summarizer_active = True
                    # 마침표 처리
                    if not summary.endswith(('.', '!', '?', '…')):
                        summary += '.'
                    return summary
            except Exception as e:
                print(f"⚠️ Gemini API 추론 실패. KoBERT/T5 폴백을 시도합니다. 오류: {e}")
                pass # Gemini 실패 시 KoBERT로 폴백

        # 2. KoBERT/T5 모델 호출 (짧거나 중간 기사: 100자 이상, 1024 토큰 이하)
        # 100자 이상이고, 1024 토큰 이하일 경우 KoBERT/T5 사용
        if len(text) >= 100 and input_length <= 1024:
            try:
                print(f"🧠 짧거나 중간 길이 기사입니다 ({input_length} 토큰). KoBERT/T5를 사용하여 요약합니다.")
                model = summarizer_components['model']
                eos_token_id = summarizer_components['eos_token_id']

                # 긴 텍스트를 토큰화하고 최대 길이에 맞춰 자르기 (트렁케이션=True로 안전하게 호출)
                tokenized_input_trunc = tokenizer(text, truncation=True, max_length=1024, return_tensors="pt")

                # KoBERT/T5 설정 (300글자 이하, 유창한 요약 유도)
                summary_ids = model.generate(
                    tokenized_input_trunc['input_ids'],
                    max_length=180,        # 300 글자 이하를 목표로 180 토큰으로 제한
                    min_length=min(100, input_length // 2), # 입력 토큰의 절반 또는 100 중 작은 값
                    num_beams=5,
                    no_repeat_ngram_size=3,
                    repetition_penalty=1.5, # ⚡️ 안정성 재확보: 반복 페널티 재도입
                    length_penalty=1.0,     # ⚡️ 안정성 재확보: 중립적인 길이 페널티 재도입
                    do_sample=False,
                    forced_eos_token_id=eos_token_id,
                )

                summary = tokenizer.decode(summary_ids.squeeze(), skip_special_tokens=True).strip()

                if summary:
                    summarizer_active = True
                    # 마침표 처리
                    if not summary.endswith(('.', '!', '?', '…')):
                        summary += '.'
                    return summary

                raise ValueError("KoBERT/T5 모델이 요약을 생성하지 못했습니다.")
            except Exception as e:
                print(f"⚠️ KoBERT/T5 모델 추론 오류 발생. 룰 기반 폴백을 사용합니다. 오류: {e}")
                pass # KoBERT 실패 시 Fallback으로 이동

    # 3. 룰 기반 Fallback 요약 (100자 미만 또는 모든 모델 실패 시)
    print("🔻 모든 모델 요약 실패 또는 100자 미만 텍스트입니다. 룰 기반 Fallback을 사용합니다.")
    sentences = re.split(r'(?<=[.!?。！？])\s+', text)

    # 3개 문장만 가져와서 최대 500자로 제한 (짧은 전문 노출 방지)
    fallback_summary = " ".join(sentences[:3])

    # 여기서 최종적인 최악의 실패 메시지를 처리
    if fallback_summary == "기사 내용을 가져올 수 없어 상세 요약에 실패했습니다.":
        fallback_summary = "기사 내용을 가져올 수 없어 상세 요약에 실패했습니다."
    elif len(fallback_summary) > 500:
        fallback_summary = fallback_summary[:500] + "..."
    elif not fallback_summary.endswith(('.', '!', '?', '…')):
        fallback_summary += "."

    return fallback_summary


def extract_image_and_views(url, timeout=6):
    """기사 페이지에서 대표 이미지 URL과 조회수를 추출합니다."""
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
    try:
        resp = requests.get(url, headers=headers, timeout=timeout)
        if resp.status_code != 200:
            return None, None
        soup = BeautifulSoup(resp.content, 'html.parser')
        img_selectors = [
            ('meta[property="og:image"]', 'content'), ('meta[name="twitter:image"]', 'content'),
            ('meta[itemprop="image"]', 'content'), ('img[class*="thumb"]', 'src'),
            ('img[class*="photo"]', 'src'), ('article img', 'src'), ('img', 'src')
        ]
        image = None
        for sel, attr in img_selectors:
            tag = soup.select_one(sel)
            if tag:
                image = tag.get(attr) if getattr(tag, 'get', None) else None
                if image and image.startswith('//'):
                    image = 'https:' + image
                if image:
                    break

        text = soup.get_text(separator=' ')
        view_patterns = [r'조회수[^\d]*([\d,]+)', r'조회[^\d]*([\d,]+)', r'Views[^\d]*([\d,]+)', r'views[^\d]*([\d,]+)', r'view[^\d]*([\d,]+)', r'읽음[^\d]*([\d,]+)', r'PV[^\d]*([\d,]+)']
        views = None
        for p in view_patterns:
            m = re.search(p, text, re.IGNORECASE)
            if m:
                v = m.group(1)
                v = int(re.sub(r'[^0-9]', '', v))
                views = v
                break

        if not image:
            try:
                art = Article(url)
                art.download()
                art.parse()
                if art.top_image:
                    image = art.top_image
            except Exception:
                pass

        return image, views
    except Exception:
        return None, None

def extract_publisher_name(url):
    """URL에서 언론사 이름을 추출합니다. 네이버 API OID와 도메인 매핑을 활용합니다."""
    try:
        publisher_map = {
            'chosun.com': '조선일보', 'donga.com': '동아일보', 'joongang.co.kr': '중앙일보',
            'hankyung.com': '한국경제', 'maeil.com': '매일경제', 'yonhapnews.co.kr': '연합뉴스',
            'khan.co.kr': '경향신문', 'pressian.com': '프레시안', 'etoday.co.kr': '이투데이',
            'shinailbo.co.kr': '신아일보', 'news1.kr': '뉴스1', 'inews24.com': '아이뉴스24',
            'it.chosun.com': 'IT조선', 'ddaily.co.kr': '디지털데일리', 'zdnet.co.kr': '지디넷코리아',
            'bloter.net': '블로터', 'edaily.co.kr': '이데일리', 'fnnews.com': '파이낸셜뉴스',
            'kbs.co.kr': 'KBS', 'hani.co.kr': '한겨레', 'mk.co.kr': '매일경제',
        }

        match = re.search(r'https?://(?:www\.)?([^/]+)', url)
        extracted_domain = match.group(1) if match else None

        if extracted_domain and extracted_domain in publisher_map:
            return publisher_map[extracted_domain]

        if "naver.com" in url or "daum.net" in url:
            oid_map = {
                '001': '연합뉴스', '003': '중앙일보', '005': '국민일보', '008': '머니투데이',
                '009': '매일경제', '011': '서울경제', '014': '파이낸셜뉴스', '018': '이데일리',
                '020': '동아일보', '021': '문화일보', '023': '조선일보', '025': '중앙일보',
                '028': '한겨레', '032': '경향신문'
            }
            match = re.search(r'oid=([0-9]+)', url)
            if match:
                oid = match.group(1)
                return oid_map.get(oid, '네이버 뉴스')
            return '네이버 뉴스'

        return extracted_domain if extracted_domain else "알 수 없음"
    except Exception as e:
        return "알 수 없음"

# -----------------------------
# 뉴스 서비스 클래스
# -----------------------------
class NewsService:
    """네이버 및 NewsAPI로부터 뉴스를 가져오는 클래스."""
    def __init__(self):
        self.naver_client_id = os.environ.get('NAVER_CLIENT_ID')
        self.naver_client_secret = os.environ.get('NAVER_CLIENT_SECRET')
        self.newsapi_key = os.environ.get('NEWSAPI_KEY')
        # ⚡️ query_map 업데이트: '세계', '날씨' 유지
        self.query_map = {
            '정치': '정치', '경제': '경제', '사회': '사회', '생활문화': '생활 문화', '연예': '연예', '스포츠': '스포츠',
            'IT과학': 'IT과학', '세계': '세계 뉴스', '날씨': '날씨 예보', '오늘의추천': '뉴스'
        }

    def get_naver_news(self, query, count=5):
        """네이버 검색 API를 통해 뉴스를 가져옵니다."""
        url = "https://openapi.naver.com/v1/search/news.json"
        headers = {'X-Naver-Client-Id': self.naver_client_id, 'X-Naver-Client-Secret': self.naver_client_secret}
        params = {'query': query, 'display': count, 'start': 1, 'sort': 'date'}
        try:
            r = requests.get(url, headers=headers, params=params, timeout=6)
            r.raise_for_status()
            return r.json().get('items', [])
        except Exception as e:
            return []

    def get_newsapi_news(self, category, count=5):
        """NewsAPI를 통해 뉴스를 가져옵니다."""
        url = "https://newsapi.org/v2/top-headlines"
        params = {'apiKey': self.newsapi_key, 'pageSize': count, 'page': 1, 'category': map_category_newsapi(category), 'language': 'ko'}
        try:
            r = requests.get(url, params=params, timeout=6)
            r.raise_for_status()
            data = r.json()
            return data.get('articles', [])
        except Exception as e:
            return []

news_service = NewsService()

def map_category_newsapi(category):
    """한국어 카테고리를 NewsAPI 카테고리로 매핑합니다."""
    # ⚡️ NewsAPI 매핑 업데이트: '세계', '날씨' 유지
    mapping = {
        '정치': None, '경제': 'business', '사회': None, '생활문화': None, '연예': 'entertainment', '스포츠': 'sports',
        'IT과학': 'technology', '세계': 'general', '날씨': None
    }
    return mapping.get(category, None)

# --- 신규 유효성 검사 함수 ---
def validate_text_relevance(title, full_text):
    """
    기사 제목과 본문 내용의 관련성을 검사합니다.
    제목의 핵심 키워드가 본문에 충분히 포함되어 있지 않으면 잘못된 크롤링으로 간주합니다.
    """
    if not full_text or not title:
        return False

    # 1. 제목 클리닝: 괄호, 특수문자 제거
    clean_title = re.sub(r'\[.*?\]|\(.*?\)|[^\w\s]', ' ', title).strip()

    # 2. 핵심 키워드 추출: 2글자 이상 단어 중 상위 3개 사용
    keywords = [w for w in clean_title.split() if len(w) > 1][:3]

    if not keywords: return True # 제목이 너무 짧거나 없는 경우 통과 (안전모드)

    # 3. 키워드가 본문에 등장하는지 확인
    match_count = sum(1 for kw in keywords if kw in full_text)

    # 키워드의 절반 이상(최소 1개)이 본문에 포함되어야 유효하다고 판단
    required_matches = max(1, len(keywords) // 2)

    # 4. 키워드 매칭 비율이 낮으면 실패
    return match_count >= required_matches
# ---

# -----------------------------
# 데이터 정규화 및 보강
# -----------------------------
def normalize_and_enrich(items, source='naver', category='일반'):
    """뉴스 항목을 정규화하고 요약, 본문, 메타 정보를 추가합니다."""
    item = items[0]

    title = clean_text(item.get('title') or item.get('Title') or '')
    description = clean_text(item.get('description') or item.get('content') or '')
    link = item.get('link') or item.get('url')
    full_text = None

    # pub_date 추출 로직 (이전과 동일)
    pub_date_raw = item.get('pubDate') or item.get('publishedAt')
    pub_date = pub_date_raw
    if pub_date_raw:
        try:
            if source == 'naver':
                dt_obj = datetime.strptime(pub_date_raw, '%a, %d %b %Y %H:%M:%S %z')
            else: # NewsAPI
                dt_obj = datetime.fromisoformat(pub_date_raw.replace('Z', '+00:00'))
            pub_date = dt_obj.strftime('%Y-%m-%d %H:%M:%S')
        except (ValueError, TypeError):
            pass

    try:
        # ⚡️ Fix 1 (Part 1): api_similar_news에서 title/description이 비어 넘어왔을 때 채워 넣기
        # api_similar_news는 title/description이 비어있는 딕셔너리를 보냅니다. 이를 채워넣어 fallback 텍스트를 확보합니다.
        if link and (not title or not description):
            try:
                # Trafilatura나 Newspaper3k를 재시도하기 전에 Article을 이용해 제목/설명을 가져와 fallback 텍스트를 풍부하게 만듭니다.
                temp_article = Article(link, language='ko')
                temp_article.download()
                temp_article.parse()
                if temp_article.title and len(clean_text(temp_article.title)) > len(title):
                    title = clean_text(temp_article.title)
                if temp_article.meta_description and len(clean_text(temp_article.meta_description)) > len(description):
                    description = clean_text(temp_article.meta_description)
            except Exception:
                pass # 메타데이터 추출 실패는 무시하고 진행

        # 1. 본문 추출 시도 (Trafilatura 우선)
        full_text = get_article_text(link)
        text_to_summarize = full_text

        # 2. 🚨 유효성 검사 및 텍스트 결정 로직
        is_text_valid = validate_text_relevance(title, full_text)

        if not full_text or len(full_text) < 100 or not is_text_valid:
            # 본문 추출 실패 또는 가비지 텍스트로 판단된 경우: 안전한 폴백 텍스트 사용
            if full_text and not is_text_valid:
                 print(f"⚠️ 텍스트 유효성 검사 실패: 제목과 본문 내용이 불일치합니다. 안전모드 진입.")
            elif not full_text:
                 print(f"⚠️ 기사 본문 크롤링 실패: full_text가 없습니다. 안전모드 진입.")

            # ⚡️ Fix 1 (Part 2): 안전한 title과 description을 사용하여 요약 시도
            text_to_summarize = title + ". " + description
            if len(text_to_summarize) < 50:
                 # 정말 짧은 경우, 최소한의 텍스트를 제공
                 text_to_summarize = title or description or "기사 내용을 가져올 수 없어 상세 요약에 실패했습니다."

        # 3. 요약 생성 (모델 또는 Fallback)
        detailed_summary = make_summary(text_to_summarize)

        # 4. 미리보기 요약 생성 (첫 두 문장)
        sentences = re.split(r'(?<=[.!?。！？])\s+', detailed_summary)
        preview_summary = " ".join(sentences[:2])
        if len(preview_summary) > 50:
            preview_summary = preview_summary[:50].strip() + "..."
        elif not preview_summary.endswith(('.', '!', '?', '…')):
            preview_summary += "..."

        publisher_name = extract_publisher_name(link)
        image_url, views = extract_image_and_views(link)
        views_display = str(views) if views is not None else "None"

        news_item = {
            "title": title, "description": description, "link": link, "pub_date": pub_date,
            "image_url": image_url, "view_count": views_display,
            "preview_summary": preview_summary, "detailed_summary": detailed_summary,
            "source": source, "category": category,
            "publisher": publisher_name,
            "full_text": full_text # 유사도 계산을 위해 본문 포함
        }
        return news_item
    except Exception as e:
        return None

# --- 유사 뉴스 검색 로직 ---
def find_similar_news(main_article_content, main_link, category, count=3):
    """주요 기사 내용(main_article_content)을 기반으로 유사 뉴스를 찾아 반환합니다. (후보군 10개 내외)"""
    start_time = time.time()
    print(f"🔎 유사 뉴스 검색 시작 (원본 기사: {main_link[:50]}...)")

    # 유사도 계산을 위한 뉴스 후보군 가져오기:
    search_queries = [news_service.query_map.get(category, category)] # 메인 카테고리 쿼리만 사용
    raw_news_candidates = []

    # 1. 네이버에서 5개 가져오기 (카테고리 쿼리)
    for query in search_queries:
        naver_items = news_service.get_naver_news(query, count=5)
        raw_news_candidates.extend(naver_items)

    # 2. NewsAPI에서 5개 가져오기 (카테고리 쿼리)
    newsapi_items = news_service.get_newsapi_news(category, count=5)
    raw_news_candidates.extend(newsapi_items)

    # 중복 링크 제거 및 본인 기사 제외
    unique_candidates = {}
    for item in raw_news_candidates:
        link = item.get('link') or item.get('url')
        if link and link != main_link and link not in unique_candidates:
            unique_candidates[link] = item

    all_raw_items = list(unique_candidates.values())

    processed_candidates = []
    # 후보 기사 병렬 처리 (본문 추출 및 요약)
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor: # max_workers도 5개로 줄임
        futures = {executor.submit(normalize_and_enrich, [item], 'naver' if item.get('link') else 'newsapi', category) for item in all_raw_items}
        for future in concurrent.futures.as_completed(futures):
            processed_item = future.result()
            if processed_item and processed_item.get('full_text'):
                processed_candidates.append(processed_item)

    if not processed_candidates:
        print("⚠️ 유사 뉴스 후보군을 찾을 수 없습니다.")
        return []

    # TF-IDF 벡터화 및 코사인 유사도 계산
    corpus = [main_article_content] + [item['full_text'] for item in processed_candidates]
    # TfidfVectorizer는 한글 텍스트를 처리할 수 있습니다.
    vectorizer = TfidfVectorizer().fit_transform(corpus)

    cosine_similarities = cosine_similarity(vectorizer[0:1], vectorizer[1:]).flatten()

    similar_indices = np.argsort(cosine_similarities)[::-1]

    similar_news = []
    found_count = 0
    for i in similar_indices:
        if cosine_similarities[i] > 0.3: # 유사도 0.3 이상만 유효하다고 간주
            processed_candidates[i]['similarity_score'] = f"{cosine_similarities[i]:.2f}"
            similar_news.append(processed_candidates[i])
            found_count += 1
            if found_count >= count:
                break
        else:
            break

    end_time = time.time()
    print(f"⏱️ 유사 뉴스 검색 완료. 총 소요 시간: {end_time - start_time:.2f}초 (최종 후보 수: {len(processed_candidates)})")

    return similar_news
# ---

# -----------------------------
# Flask API 엔드포인트
# -----------------------------
@app.after_request
def after_request(response):
    """CORS 헤더를 추가합니다."""
    response.headers.add('Access-Control-Allow-Origin', '*')
    response.headers.add('Access-Control-Allow-Headers', 'Content-Type,Authorization')
    response.headers.add('Access-Control-Allow-Methods', 'GET,POST,OPTIONS')
    return response

@app.route('/')
def home():
    """서버 상태를 확인하는 기본 엔드포인트."""
    return jsonify({"message": "🗞️ 뉴스 추천 AI 서버 (클릭 시 로딩 버전, 안정화) 실행중!", "status": "running"})


@app.route('/api/news', defaults={'category': None})
@app.route('/api/news/<category>')
def api_news(category):
    """
    카테고리별 뉴스를 가져와 병렬로 처리하고 요약하여 반환합니다. (메인 목록용 - 빠름)
    """
    start_time = time.time()
    selected_cats = request.args.get('categories')
    selected_list = selected_cats.split(',') if selected_cats else []
    # 필터링 인자 처리 ('', 'None' 등이 넘어올 수 있음)
    include_publishers = request.args.get('include_publishers', '').split(',')
    exclude_publishers = request.args.get('exclude_publishers', '').split(',')

    all_raw_items = []
    categories_to_fetch = [category] if category and category != '오늘의추천' else (selected_list or list(CATEGORIES.keys()))

    for cat in categories_to_fetch:
        # ⚡️ NewsService.query_map 사용으로 변경
        query = news_service.query_map.get(cat, cat)
        naver_items = news_service.get_naver_news(query, count=5)
        all_raw_items.extend([(item, 'naver', cat) for item in naver_items])

    for cat in categories_to_fetch:
        newsapi_items = news_service.get_newsapi_news(cat, count=5)
        all_raw_items.extend([(item, 'newsapi', cat) for item in newsapi_items])

    result = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        futures = {executor.submit(normalize_and_enrich, [raw_item], source, cat) for raw_item, source, cat in all_raw_items}
        for future in concurrent.futures.as_completed(futures):
            processed_item = future.result()
            if processed_item:
                # 메인 목록에서는 'full_text'를 제거하여 데이터 크기를 줄입니다.
                if 'full_text' in processed_item:
                    del processed_item['full_text']
                result.append(processed_item)

    filtered_result = []
    # 필터링 로직 개선: 빈 문자열 필터 처리
    include_set = set(p.strip() for p in include_publishers if p.strip())
    exclude_set = set(p.strip() for p in exclude_publishers if p.strip())

    for item in result:
        publisher = item.get('publisher')
        # 포함 필터 적용
        if include_set and publisher and publisher not in include_set:
            continue
        # 제외 필터 적용
        if exclude_set and publisher and publisher in exclude_set:
            continue
        filtered_result.append(item)

    # 중복 제거 (link 기준으로)
    unique_links = set()
    final_result = []
    for item in filtered_result:
        link = item.get('link')
        if link not in unique_links:
            unique_links.add(link)
            final_result.append(item)

    final_result = sorted(final_result, key=lambda x: x.get('pub_date') or '', reverse=True)[:5]
    end_time = time.time()
    print(f"⏱️ 메인 뉴스 API 처리 시간: {end_time - start_time:.2f}초")

    return jsonify(final_result)


@app.route('/api/similar_news')
def api_similar_news():
    """
    특정 기사의 URL과 카테고리를 받아 유사한 뉴스 목록을 반환합니다. (클릭 시 호출)
    """
    main_link = request.args.get('link')
    category = request.args.get('category', 'all')
    if not main_link:
        return jsonify({"error": "기사 링크(link)가 필요합니다."}), 400

    # 1. 메인 기사의 본문 및 상세 정보 추출 (시간이 걸림)
    main_article = normalize_and_enrich([{'link': main_link, 'title': '', 'description': '', 'pubDate': ''}], source='naver', category=category)

    if not main_article:
        return jsonify({
            "detailed_summary": "기사 정보를 가져오는 데 실패했습니다.",
            "similar_news": []
        }), 500

    if not main_article.get('full_text') or len(main_article['full_text']) < 100 or not validate_text_relevance(main_article['title'], main_article['full_text']):
        # 본문 추출 실패나 유효성 검사 실패 시 유사 뉴스 검색 불가
        print("⚠️ 원본 기사 본문 추출 또는 유효성 검사 실패. 유사 뉴스 검색 불가.")
        # detailed_summary는 이미 안전한 title+description 기반의 요약일 것입니다.
        return jsonify({
            "detailed_summary": main_article.get('detailed_summary', "기사 본문을 가져올 수 없어 상세 요약에 실패했습니다."),
            "similar_news": []
        })

    # 2. 유사 뉴스 검색 (TF-IDF 기반)
    similar_news_list = find_similar_news(main_article['full_text'], main_link, category)

    # 3. 응답에 포함될 유사 뉴스에서 'full_text' 제거
    for item in similar_news_list:
        if 'full_text' in item:
            del item['full_text']

    # 4. 상세 요약과 유사 뉴스를 함께 반환
    return jsonify({
        "detailed_summary": main_article['detailed_summary'],
        "similar_news": similar_news_list
    })

# -----------------------------
# Flask TEST Page (버튼 클릭 오류 수정 완료)
# -----------------------------

@app.route('/test')
def test_page():
    """웹 테스트 페이지를 렌더링합니다."""
    # JavaScript 이벤트 리스너를 DOMContentLoaded 내부에 배치하여 안정성을 확보했습니다.
    TEST_PAGE_HTML = """
    <!DOCTYPE html>
<html lang="ko">
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width,initial-scale=1">
<title>뉴스 AI 서버 테스트</title>
<style>
body{font-family:Segoe UI,Roboto,Arial;background:linear-gradient(135deg,#667eea,#764ba2);margin:0;padding:20px}
.container{max-width:1100px;margin:0 auto;background:#fff;border-radius:10px;overflow:hidden;box-shadow:0 10px 30px rgba(0,0,0,.15)}
.header{background:#2c3e50;color:#fff;padding:18px;text-align:center}
.controls{padding:16px;background:#f8f9fa;border-bottom:1px solid #e9ecef}
.input-group{display:flex;gap:10px;align-items:center;flex-wrap:wrap}
select,input{padding:8px;border-radius:6px;border:1px solid #ddd}
.btn{padding:4px 8px;border-radius:6px;color:#fff;border:none;cursor:pointer;transition:background-color .2s ease; margin: 2px 2px;}
.btn-primary{background:#007bff}
.btn-success{background:#2ecc71}
.btn-danger{background:#e74c3c}
.results{padding:16px}
.news-grid{display:grid;grid-template-columns:repeat(auto-fill,minmax(320px,1fr));gap:16px}
.news-card{border:1px solid #eee;border-radius:8px;overflow:hidden;background:#fff;position:relative; cursor:pointer; transition: box-shadow 0.3s;}
.news-card:hover{box-shadow: 0 4px 15px rgba(0,0,0,.1);}
.news-card.active { box-shadow: 0 0 15px rgba(0, 123, 255, 0.5); border-color: #007bff; }
.news-card img{width:100%;height:180px;object-fit:cover}
.content{padding:12px}
.meta{font-size:12px;color:#666;margin-top:8px}
.filter-section h4{margin-top:0; margin-bottom: 5px;}
.similar-news-section{margin-top:15px;padding-top:10px;border-top:1px dashed #ccc;}
.similar-news-section h4{margin-top:0; color:#2c3e50;}
.loading-spinner {border: 4px solid #f3f3f3; border-top: 4px solid #3498db; border-radius: 50%; width: 16px; height: 16px; animation: spin 2s linear infinite; display: inline-block; margin-right: 5px;}
@keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } }
.similar-news-grid {display: grid; grid-template-columns: repeat(auto-fill, minmax(280px, 1fr)); gap: 10px; margin-top: 10px;}
.similar-news-card {border: 1px solid #2ecc71; border-radius: 6px; padding: 10px; background: #f0fff7; font-size: 14px;}
.similar-news-card h5 {margin-top: 0; margin-bottom: 5px; font-size: 15px; color: #2ecc71;}
.similar-news-card p {margin: 0; font-size: 13px;}

/* 추가된 CSS */
.filter-section .btn {
    margin: 2px; /* 버튼 간격 조정 */
}

</style>
</head>
<body>
<div class="container">
    <div class="header"><h2>뉴스 AI 서버 테스트 </h2><div>서버 실행중</div></div>
    <div class="controls">
        <div style="margin-bottom:4px;">
            <label>카테고리:</label>
            <select id="category">
                <option value="정치">정치</option>
                <option value="경제">경제</option>
                <option value="사회">사회</option>
                <option value="생활문화">생활문화</option>
                <option value="연예">연예</option>
                <option value="스포츠">스포츠</option>
                <option value="세계">세계</option> <!-- ⚡️ '건강' -> '세계' -->
                <option value="날씨">날씨</option> <!-- ⚡️ '날씨' 추가 -->
                <option value="IT과학">IT과학</option>
                <option value="오늘의추천">오늘의추천</option>
            </select>
            <button class="btn btn-primary" onclick="fetchNews()">뉴스 목록 가져오기 </button>
        </div>
        <div id="todayBtns" style="margin-bottom:2px;">
            <label>오늘의추천 선택:</label>
            <button class="btn btn-primary today-btn" data-cat="정치">정치</button>
            <button class="btn btn-primary today-btn" data-cat="경제">경제</button>
            <button class="btn btn-primary today-btn" data-cat="사회">사회</button>
            <button class="btn btn-primary today-btn" data-cat="생활문화">생활문화</button>
            <button class="btn btn-primary today-btn" data-cat="연예">연예</button>
            <button class="btn btn-primary today-btn" data-cat="스포츠">스포츠</button>
            <button class="btn btn-primary today-btn" data-cat="세계">세계</button> <!-- ⚡️ '건강' -> '세계' -->
            <button class="btn btn-primary today-btn" data-cat="날씨">날씨</button> <!-- ⚡️ '날씨' 추가 -->
            <button class="btn btn-primary today-btn" data-cat="IT과학">IT과학</button>
        </div>
        <div class="filter-section">
            <h4>언론사 포함 (클릭하면 선택)</h4>
            <div id="include-publishers-btns">
                <button class="btn btn-primary btn-include" data-publisher="연합뉴스">연합뉴스</button>
                <button class="btn btn-primary btn-include" data-publisher="조선일보">조선일보</button>
                <button class="btn btn-primary btn-include" data-publisher="중앙일보">중앙일보</button>
                <button class="btn btn-primary btn-include" data-publisher="동아일보">동아일보</button>
                <button class="btn btn-primary btn-include" data-publisher="한겨레">한겨레</button>
                <button class="btn btn-primary btn-include" data-publisher="매일경제">매일경제</button>
                <button class="btn btn-primary btn-include" data-publisher="파이낸셜뉴스">파이낸셜뉴스</button>
                <button class="btn btn-primary btn-include" data-publisher="뉴스1">뉴스1</button>
            </div>
            <div id="selected-includes" style="margin-top:5px; font-size:14px;">선택됨: 없음</div>
        </div>
        <div class="filter-section">
            <h4>언론사 제외 (클릭하면 선택)</h4>
            <div id="exclude-publishers-btns">
                <button class="btn btn-primary btn-exclude" data-publisher="연합뉴스">연합뉴스</button>
                <button class="btn btn-primary btn-exclude" data-publisher="조선일보">조선일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="중앙일보">중앙일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="동아일보">동아일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="한겨레">한겨레</button>
                <button class="btn btn-primary btn-exclude" data-publisher="매일경제">매일경제</button>
                <button class="btn btn-primary btn-exclude" data-publisher="파이낸셜뉴스">파이낸셜뉴스</button>
                <button class="btn btn-primary btn-exclude" data-publisher="뉴스1">뉴스1</button>
            </div>
            <div id="selected-excludes" style="margin-top:5px; font-size:14px;">선택됨: 없음</div>
        </div>
    </div>
    <div class="results">
        <div id="status"></div>
        <div id="newsContainer"></div>
    </div>
</div>

<script>
let newsData = null;
let selectedTodayCategories = [];
let includePublishers = new Set();
let excludePublishers = new Set();
let currentActiveCard = null;

function updateSelectedDisplay(containerId, dataSet) {
    const display = document.getElementById(containerId);
    display.innerText = "선택됨: " + (dataSet.size > 0 ? Array.from(dataSet).join(', ') : '없음');
}

// *** 핵심 수정: 이벤트 리스너를 DOMContentLoaded 내에 배치하여 안정성 확보 ***
window.addEventListener('DOMContentLoaded', () => {

    // 오늘의추천 버튼 이벤트 리스너
    document.querySelectorAll('.today-btn').forEach(btn => {
        btn.addEventListener('click', () => {
            const cat = btn.dataset.cat;
            if (selectedTodayCategories.includes(cat)) {
                selectedTodayCategories = selectedTodayCategories.filter(c => c !== cat);
                btn.classList.remove('btn-success');
                btn.classList.add('btn-primary');
            } else {
                // 이전에 '건강'이었던 버튼들은 '세계', '날씨'로 대체되었지만 data-cat 속성은 정확합니다.
                selectedTodayCategories.push(cat);
                btn.classList.add('btn-success');
                btn.classList.remove('btn-primary');
            }
        });
    });

    // 언론사 포함 버튼 이벤트 리스너
    document.querySelectorAll('.btn-include').forEach(btn => {
        btn.addEventListener('click', () => {
            const publisher = btn.dataset.publisher;
            if (includePublishers.has(publisher)) {
                includePublishers.delete(publisher);
                btn.classList.remove('btn-success');
                btn.classList.add('btn-primary');
            } else {
                if (excludePublishers.has(publisher)) {
                    console.warn('포함/제외 필터는 중복 선택할 수 없습니다.');
                    return;
                }
                includePublishers.add(publisher);
                btn.classList.add('btn-success');
                btn.classList.remove('btn-primary');
            }
            updateSelectedDisplay('selected-includes', includePublishers);
        });
    });

    // 언론사 제외 버튼 이벤트 리스너
    document.querySelectorAll('.btn-exclude').forEach(btn => {
        btn.addEventListener('click', () => {
            const publisher = btn.dataset.publisher;
            if (excludePublishers.has(publisher)) {
                excludePublishers.delete(publisher);
                btn.classList.remove('btn-danger');
                btn.classList.add('btn-primary');
            } else {
                if (includePublishers.has(publisher)) {
                    console.warn('포함/제외 필터는 중복 선택할 수 없습니다.');
                    return;
                }
                excludePublishers.add(publisher);
                btn.classList.add('btn-danger');
                btn.classList.remove('btn-primary');
            }
            updateSelectedDisplay('selected-excludes', excludePublishers);
        });
    });
});
// ------------------------------------

function setStatus(msg, type='') {
    const s = document.getElementById('status');
    s.innerHTML = msg;
    s.style.color = type==='error' ? '#c0392b' : '#2ecc71';
}

// --- 1. 메인 뉴스 목록 로드 (빠른 로딩) ---
async function fetchNews() {
    const startTime = new Date();
    const cat = document.getElementById('category').value;

    let endpoint = '/api/news';
    const params = new URLSearchParams();

    // 필터링 파라미터 구성
    if (cat) { endpoint += '/' + encodeURIComponent(cat); }
    if (selectedTodayCategories.length) { params.append('categories', selectedTodayCategories.join(',')); }
    if (includePublishers.size > 0) { params.append('include_publishers', Array.from(includePublishers).join(',')); }
    if (excludePublishers.size > 0) { params.append('exclude_publishers', Array.from(excludePublishers).join(',')); }
    if (params.toString()) { endpoint += '?' + params.toString(); }

    setStatus('뉴스 목록을 가져오는 중...');
    currentActiveCard = null; // 활성 카드 초기화

    try {
        const resp = await fetch(endpoint);
        const data = await resp.json();
        newsData = data;
        renderNews(newsData);

        const endTime = new Date();
        const elapsedTime = (endTime - startTime) / 1000;
        setStatus(`✅ 목록 로드 완료 (${elapsedTime.toFixed(2)}초 걸림). 기사를 클릭하면 유사 뉴스가 로딩됩니다.`);
    } catch (e) {
        setStatus('요청 실패: ' + e.message, 'error');
    }
}

// --- 2. 뉴스 카드 클릭 시 유사 뉴스 로드 ---
async function fetchSimilarNews(link, category, cardElement) {

    const similarSectionDiv = cardElement.querySelector('.similar-news-section');
    const similarStatusDiv = cardElement.querySelector('.similar-status');

    // 1. 토글 기능: 이미 로드되었고 현재 활성 상태라면 닫기
    if (currentActiveCard === cardElement) {
        similarSectionDiv.style.display = 'none';
        similarStatusDiv.innerText = '(클릭하여 유사 뉴스 로드)';
        cardElement.classList.remove('active');
        currentActiveCard = null;
        return;
    }

    // 2. 다른 카드가 활성 상태였다면 닫기
    if (currentActiveCard) {
        currentActiveCard.querySelector('.similar-news-section').style.display = 'none';
        currentActiveCard.querySelector('.similar-status').innerText = '(클릭하여 유사 뉴스 로드)';
        currentActiveCard.classList.remove('active');
    }

    // 3. 로딩 시작 및 상태 표시
    currentActiveCard = cardElement;
    similarSectionDiv.innerHTML = '';
    similarStatusDiv.innerHTML = '<span class="loading-spinner"></span> 유사 뉴스 찾는 중... (약 5~15초 소요)';
    similarStatusDiv.style.color = '#007bff';
    cardElement.classList.add('active');

    try {
        const resp = await fetch(`/api/similar_news?link=${encodeURIComponent(link)}&category=${encodeURIComponent(category)}`);
        const data = await resp.json();

        if (data.error) {
            similarStatusDiv.innerText = `유사 뉴스 로드 실패: ${data.error}`;
            similarStatusDiv.style.color = '#c0392b';
            return;
        }

        // 상세 요약을 기존 카드에 업데이트 (API에서 새로 받아온 상세 요약으로 교체)
        const detailedSummaryValueSpan = cardElement.querySelector('.detailed-summary-text-value');
        const newSummary = data.detailed_summary;
        // 서버에서 반환될 수 있는 실패 메시지 (Python 코드 참고)
        const failedMessage1 = "기사 정보를 가져오는 데 실패했습니다.";
        const failedMessage2 = "기사 내용을 가져올 수 없어 상세 요약에 실패했습니다.";

        // ⚡️ Fix 1: 새로 받아온 요약이 실패 메시지인 경우 기존 요약을 유지합니다.
        if (detailedSummaryValueSpan && !newSummary.includes(failedMessage1) && !newSummary.includes(failedMessage2)) {
            detailedSummaryValueSpan.textContent = newSummary;
        }
        // 실패 메시지인 경우: 아무것도 하지 않아 기존 요약을 유지

        // 유사 뉴스 표시
        renderSimilarNews(data.similar_news, cardElement);
        similarStatusDiv.innerText = '유사 뉴스 로드 완료';
        similarStatusDiv.style.color = '#2ecc71';

    } catch (e) {
        similarStatusDiv.innerText = '유사 뉴스 로드 실패 (서버 연결 오류)';
        similarStatusDiv.style.color = '#c0392b';
        console.error('유사 뉴스 로드 실패:', e);
    }
}

function renderNews(data) {
    const container = document.getElementById('newsContainer');
    container.innerHTML = '';
    if (!Array.isArray(data) || !data.length) {
        container.innerText = '뉴스가 없습니다.';
        return;
    }
    const grid = document.createElement('div');
    grid.className = 'news-grid';

    data.forEach(n => {
        const card = document.createElement('div');
        card.className = 'news-card';

        // 클릭 이벤트 설정
        card.onclick = () => fetchSimilarNews(n.link, n.category, card);

        const img = document.createElement('img');
        img.src = n.image_url || 'https://via.placeholder.com/400x200?text=No+Image';
        card.appendChild(img);

        const content = document.createElement('div');
        content.className = 'content';

        // ⚡️ Fix 1: 상세보기 텍스트를 <span>으로 감싸서 JavaScript에서 선택적으로 업데이트 가능하게 함
        content.innerHTML = `
            <h3>${n.title}</h3>
            <p><b>미리보기:</b> ${n.preview_summary}</p>
            <p class="detailed-summary-container"><b>상세보기:</b> <span class="detailed-summary-text-value">${n.detailed_summary}</span></p>
            <div class="meta">${n.pub_date || ''} | ${n.publisher || ''} | ${n.category || '기타'}</div>
            <a href="${n.link}" target="_blank" onclick="event.stopPropagation();">원문 보기</a>
            <div class="similar-status" style="font-size:12px;margin-top:5px; height: 16px;">(클릭하여 유사 뉴스 로드)</div>
            <div class="similar-news-section" style="display:none;"></div>
        `;
        // **********************************************
        card.appendChild(content);
        grid.appendChild(card);
    });
    container.appendChild(grid);
}

function renderSimilarNews(data, cardElement) {
    const similarSection = cardElement.querySelector('.similar-news-section');
    similarSection.style.display = 'block';

    if (data && data.length > 0) {
        let similarHtml = '<h4>유사 추천 뉴스:</h4><div class="similar-news-grid">';
        data.forEach(similar => {
            // 유사 추천 뉴스도 요약과 함께 표시
            // 유사도 점수 (similarity_score) 추가 표시
            const score = similar.similarity_score ? `[유사도: ${similar.similarity_score}]` : '';
            similarHtml += `
                <div class="similar-news-card">
                    <h5>${similar.title} ${score}</h5>
                    <p>${similar.preview_summary}</p>
                    <div class="meta">${similar.publisher} | <a href="${similar.link}" target="_blank" onclick="event.stopPropagation();">원문</a></div>
                </div>
            `;
        });
        similarHtml += '</div>';
        similarSection.innerHTML = similarHtml;
    } else {
        similarSection.innerHTML = '<p>유사 뉴스를 찾을 수 없습니다.</p>';
    }
}
</script>
</body>
</html>
    """
    return render_template_string(TEST_PAGE_HTML)

# -----------------------------
# 서버 실행
# -----------------------------
def run_app():
    app.run(host='0.0.0.0', port=8000, debug=False, use_reloader=False)

if NGROK_AUTHTOKEN:
    os.system(f"ngrok config add-authtoken {NGROK_AUTHTOKEN}")
    print("ngrok auth token 설정 완료!")

    server_thread = threading.Thread(target=run_app, daemon=True)
    server_thread.start()

    time.sleep(2)

    try:
        public_url_obj = ngrok.connect(8000)
        public_url = public_url_obj.public_url # NgrokTunnel 객체에서 public_url 속성만 추출

        # ⚡️ Fix 2: 깔끔한 URL 출력 형식으로 변경
        print(f"\n=======================================================")
        print(f"🎉 서버 실행 완료! 아래 URL로 접속하세요:")
        print(f"🌐 Ngrok URL: {public_url}")
        print(f"🌐 Ngrok URL: {public_url}/test")
        print(f"=======================================================\n")
    except Exception as e:
        print(f"⚠️ Ngrok 연결 오류: {e}")


📦 패키지 설치 완료! (시간 조금 걸릴 수 있어요)
KoBERT/T5 요약 모델을 로드합니다... (시간이 걸릴 수 있습니다!)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Device set to use cpu


✅ KoBERT/T5 모델 로드 완료: lcw99/t5-base-korean-text-summary, EOS Token ID: 1
ngrok auth token 설정 완료!
 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:8000
 * Running on http://172.28.0.12:8000
INFO:werkzeug:[33mPress CTRL+C to quit[0m



🎉 서버 실행 완료! 아래 URL로 접속하세요:
🌐 Ngrok URL: https://8f09be0ed76a.ngrok-free.app
🌐 Ngrok URL: https://8f09be0ed76a.ngrok-free.app/test

