<a href="https://colab.research.google.com/github/seoyoung000/summanews/blob/main/AI%EB%89%B4%EC%8A%A4%EC%B6%94%EC%B2%9C_%EC%84%9C%EB%B2%84.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ----------------------------------------------------------------------
# 📰 AI 뉴스 추천 서버 (Gemini & Hugging Face 통합 버전) - All in One Colab Cell
# ----------------------------------------------------------------------

# -----------------------------
# 1. 필수 라이브러리 설치 및 환경 설정
# -----------------------------
# Hugging Face 모델 사용을 위해 transformers 및 torch 추가
!pip install -q flask flask-cors requests beautifulsoup4 pyngrok lxml newspaper3k lxml_html_clean scikit-learn transformers torch
!pip install -U newspaper3k
!pip install google-genai
print("📦 패키지 설치 완료! (시간 조금 걸릴 수 있어요)")

# -----------------------------
# 2. 모듈 임포트 및 전역 설정
# -----------------------------
from flask import Flask, jsonify, request, render_template_string
from flask_cors import CORS
import os, requests, json, time, re, random, threading
from datetime import datetime
from bs4 import BeautifulSoup
from pyngrok import ngrok
import nest_asyncio
from newspaper import Article
import concurrent.futures

# --- 유사도 분석을 위한 라이브러리 ---
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# ---

# ✅ Gemini API 모듈 추가
from google import genai
# 🧠 Hugging Face 모델 임포트
from transformers import pipeline

# Colab 비동기 관련
nest_asyncio.apply()

app = Flask(__name__)
CORS(app, resources={r"/api/*": {"origins": "*"}})

# 환경변수 설정 (실제 값은 숨김)
os.environ.setdefault('NAVER_CLIENT_ID', 'fe9DLGhYbEVLy4sdQnVk')
os.environ.setdefault('NAVER_CLIENT_SECRET', '2f0NEntTNN')
os.environ.setdefault('NEWSAPI_KEY', 'a80b5826f01349c5824f4298d8f61eef')

# 환경 변수에서 값 로드 (실제 키는 Colab Secret 또는 환경 변수 사용 권장)
GEMINI_API_KEY = "AIzaSyAszdb8T_H0BhrGd69ZLaD2uZjcU3KtkQE"
NGROK_AUTHTOKEN = "30KyKWx0zSS7ZJpm5TnJOKdI6fC_7y1Lta8QCMEyH6ZLjjrxj"

CATEGORIES = {
    '정치': 'politics',
    '경제': 'business',
    '사회': 'society',
    '생활문화': 'life',
    '연예': 'entertainment',
    '스포츠': 'sports',
    'IT과학': 'technology',
    '오늘의추천': 'today'
}

# -----------------------------
# 3. 모델 초기화 및 함수 정의
# -----------------------------

# --- Gemini 클라이언트 초기화 ---
if not GEMINI_API_KEY:
    print("🚨 [에러] GEMINI_API_KEY가 설정되지 않았습니다. 요약은 룰 기반 폴백으로 작동합니다.")
try:
    if GEMINI_API_KEY:
        genai.configure(api_key=GEMINI_API_KEY) # Configure Gemini
        gemini_summarizer_status = True
        print("✅ Gemini 클라이언트 초기화 완료. 긴 기사 요약에 사용됩니다.")
    else:
        gemini_summarizer_status = False
except Exception as e:
    gemini_client = None
    gemini_summarizer_status = False
    print(f"⚠️ Gemini 클라이언트 초기화 실패: {e}. 긴 기사도 룰 기반 요약을 사용합니다.")


# --- Hugging Face Model Global Initialization (짧은 기사 전용) ---
HF_SUMMARIZER = None
HF_SUMMARIZER_STATUS = False

def initialize_hf_model():
    global HF_SUMMARIZER, HF_SUMMARIZER_STATUS
    try:
        # KoBART 모델 로드 (짧은 기사 전용)
        model_name = "gogamza/kobart-summarization"
        # device=-1로 설정하여 CPU 사용 (Colab Flask 환경에서 GPU 설정은 복잡함)
        HF_SUMMARIZER = pipeline(
            "summarization",
            model=model_name,
            tokenizer=model_name,
            device=-1
        )
        HF_SUMMARIZER_STATUS = True
        print("✅ Hugging Face KoBART 요약 모델 (짧은 기사 전용) 초기화 완료.")
    except Exception as e:
        HF_SUMMARIZER_STATUS = False
        print(f"⚠️ Hugging Face KoBART 모델 초기화 실패: {e}. 짧은 기사도 룰 기반 요약으로 폴백됩니다.")

# KoBART 모델 초기화 실행
initialize_hf_model()

# --- 모델별 요약 함수 ---

def hf_summary_generator(text):
    """
    Hugging Face KoBART 모델을 사용하여 짧은 기사 요약을 생성합니다. (300자 미만)
    """
    if not HF_SUMMARIZER_STATUS or HF_SUMMARIZER is None:
        raise ConnectionError("Hugging Face 클라이언트가 활성화되지 않았습니다.")

    text = (text or "").strip()
    if not text:
        raise ValueError("텍스트가 비어있습니다.")

    try:
        # 짧은 기사용으로 최대 출력 길이를 제한
        result = HF_SUMMARIZER(
            text,
            max_length=64, # 짧은 요약을 위한 최대 길이
            min_length=10,
            do_sample=False,
            truncation=True
        )

        summary = result[0]['summary_text'].strip()

        if summary and not summary.endswith(('.', '!', '?', '…')):
            summary += '.'

        return summary
    except Exception as e:
        raise RuntimeError(f"Hugging Face 모델 추론 오류: {e}")


def gemini_summary_generator(text, length_limit="5~6줄 정도"):
    """
    Gemini API를 사용하여 자연스러운 요약을 생성합니다. (요약 핵심 로직, 긴 기사 전용)
    """
    if not gemini_summarizer_status: # Check status flag
        raise ConnectionError("Gemini 클라이언트가 활성화되지 않았습니다.")

    text = (text or "").strip()

    if not text:
        raise ValueError("입력 텍스트가 비어 있어 Gemini 요약을 건너킵니다.")

    # 사용자 요청에 맞는 프롬프트 엔지니어링 적용
    prompt = f"다음 기사 내용을 {length_limit}의 길이로 요약해줘. 요약할 때 핵심 내용만 간결하고 자연스러운 문체로 작성해. 불필요한 서론이나 결론은 제외하고 핵심 정보만 요약해야 해.\n\n기사 내용: {text}"

    model_name = 'gemini-2.5-flash-preview-04-17'

    try:
        model = genai.GenerativeModel(model_name)
        response = model.generate_content(
            prompt,
            generation_config=genai.types.GenerationConfig(
                temperature=0.7
            )
        )
        summary = response.text.strip()

        if summary and not summary.endswith(('.', '!', '?', '…')):
            summary += '.'

        return summary
    except Exception as e:
        raise RuntimeError(f"Gemini API 호출 오류: {e}")

def make_summary(text):
    """
    ✅ 메인 요약 함수: 텍스트 길이에 따라 모델을 분기하여 사용합니다.
    """
    text = (text or "").strip()
    if not text:
        return ""

    # 룰 기반 Fallback 요약 함수 (API 실패 시 사용)
    def fallback_summarize(input_text):
        sentences = re.split(r'(?<=[.!?。！？])\s+', input_text)
        fallback_summary = " ".join(sentences[:3])[:2000].strip()
        if fallback_summary and not fallback_summary.endswith(('.', '!', '?', '…')):
            fallback_summary += '...'
        return fallback_summarize

    text_length = len(text)

    # 1. 텍스트 길이가 300자 미만인 경우 (짧은 기사)
    if text_length < 300:
        if HF_SUMMARIZER_STATUS:
            try:
                print(f"⚙️ 텍스트 길이 {text_length}자. Hugging Face KoBART 요약을 시도합니다.")
                return hf_summary_generator(text)
            except Exception as e:
                print(f"❌ HF KoBART 요약 실패: {e}. 룰 기반 요약으로 폴백합니다.")
                return fallback_summarize(text)
        else:
            # HF가 비활성화된 경우, 룰 기반 요약
            return fallback_summarize(text)

    # 2. 텍스트 길이가 300자 이상인 경우 (긴 기사)
    else:
        if gemini_summarizer_status:
            try:
                print(f"✨ 텍스트 길이 {text_length}자. Gemini API 요약을 시도합니다.")
                return gemini_summary_generator(text, length_limit="5~6줄 정도")
            except Exception as e:
                # Gemini 요약 실패 시 룰 기반으로 폴백
                print(f"❌ Gemini 요약 실패: {e}. 룰 기반 요약으로 폴백합니다.")
                return fallback_summarize(text)
        else:
            # Gemini가 비활성화된 경우, 룰 기반 요약
            return fallback_summarize(text)


# -----------------------------
# 4. 기사 내용 처리 함수 (기존 코드 유지)
# -----------------------------
def clean_text(html_text):
    """HTML 태그를 제거하고 공백을 정리합니다."""
    if not html_text:
        return ""
    text = re.sub(r'<[^>]+>', '', html_text)
    return re.sub(r'\s+', ' ', text).strip()

def get_article_text(url):
    """주어진 URL에서 기사 본문을 추출하고 불필요한 부분을 제거합니다."""
    try:
        article = Article(url, language='ko')
        article.download()
        article.parse()
        text = article.text

        patterns_to_remove = [
            r'\[.*?\]', r'\s*\(.*?=.*?\)\s*', r'[가-힣]{2,4} 기자',
            r'기자 = [가-힣]{2,4}', r'ⓒ\s*.*?무단전재\s*및\s*재배포\s*금지',
            r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', r'다시보기',
            r'\([^)]*=\s*\w+@\w+\.\w+\)', # (이름=이메일) 형태 제거
            r'사진=.*?제공', r'[\s\n]*\(출처:.*?\)', # 사진 출처 제거
        ]
        for pattern in patterns_to_remove:
            text = re.sub(pattern, '', text).strip()

        return text
    except Exception as e:
        return None

def extract_image_and_views(url, timeout=6):
    """기사 페이지에서 대표 이미지 URL과 조회수를 추출합니다."""
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
    try:
        resp = requests.get(url, headers=headers, timeout=timeout)
        if resp.status_code != 200:
            return None, None
        soup = BeautifulSoup(resp.content, 'html.parser')
        img_selectors = [
            ('meta[property="og:image"]', 'content'), ('meta[name="twitter:image"]', 'content'),
            ('meta[itemprop="image"]', 'content'), ('img[class*="thumb"]', 'src'),
            ('img[class*="photo"]', 'src'), ('article img', 'src'), ('img', 'src')
        ]
        image = None
        for sel, attr in img_selectors:
            tag = soup.select_one(sel)
            if tag:
                image = tag.get(attr) if getattr(tag, 'get', None) else None
                if image and image.startswith('//'):
                    image = 'https:' + image
                if image:
                    break

        text = soup.get_text(separator=' ')
        view_patterns = [r'조회수[^\d]*([\d,]+)', r'조회[^\d]*([\d,]+)', r'Views[^\d]*([\d,]+)', r'views[^\d]*([\d,]+)', r'view[^\d]*([\d,]+)', r'읽음[^\d]*([\d,]+)', r'PV[^\d]*([\d,]+)']
        views = None
        for p in view_patterns:
            m = re.search(p, text, re.IGNORECASE)
            if m:
                v = m.group(1)
                v = int(re.sub(r'[^0-9]', '', v))
                views = v
                break

        if not image:
            try:
                art = Article(url)
                art.download()
                art.parse()
                if art.top_image:
                    image = art.top_image
            except Exception:
                    pass

        return image, views
    except Exception:
        return None, None

def extract_publisher_name(url):
    """URL에서 언론사 이름을 추출합니다. 네이버 API OID와 도메인 매핑을 활용합니다."""
    try:
        publisher_map = {
            'chosun.com': '조선일보', 'donga.com': '동아일보', 'joongang.co.kr': '중앙일보',
            'hankyung.com': '한국경제', 'maeil.com': '매일경제', 'yonhapnews.co.kr': '연합뉴스',
            'khan.co.kr': '경향신문', 'pressian.com': '프레시안', 'etoday.co.kr': '이투데이',
            'shinailbo.co.kr': '신아일보', 'news1.kr': '뉴스1', 'inews24.com': '아이뉴스24',
            'it.chosun.com': 'IT조선', 'ddaily.co.kr': '디지털데일리', 'zdnet.co.kr': '지디넷코리아',
            'bloter.net': '블로터', 'edaily.co.kr': '이데일리', 'fnnews.com': '파이낸셜뉴스',
            'kbs.co.kr': 'KBS', 'hani.co.kr': '한겨레', 'mk.co.kr': '매일경제',
        }

        match = re.search(r'https?://(?:www\.)?([^/]+)', url)
        extracted_domain = match.group(1) if match else None

        if extracted_domain and extracted_domain in publisher_map:
            return publisher_map[extracted_domain]

        if "naver.com" in url or "daum.net" in url:
            oid_map = {
                '001': '연합뉴스', '003': '중앙일보', '005': '국민일보', '008': '머니투데이',
                '009': '매일경제', '011': '서울경제', '014': '파이낸셜뉴스', '018': '이데일리',
                '020': '동아일보', '021': '문화일보', '023': '조선일보', '025': '중앙일보',
                '028': '한겨레', '032': '경향신문'
            }
            match = re.search(r'oid=([0-9]+)', url)
            if match:
                oid = match.group(1)
                # 포털 OID가 있으나 매핑되지 않은 경우
                return oid_map.get(oid, '네이버 뉴스')
            # 포털 링크이지만 OID가 없는 경우
            return '네이버 뉴스'

        return extracted_domain if extracted_domain else "알 수 없음"
    except Exception as e:
        return "알 수 없음"


# -----------------------------
# 5. 뉴스 서비스 클래스 (기존 코드 유지)
# -----------------------------
class NewsService:
    """네이버 및 NewsAPI로부터 뉴스를 가져오는 클래스."""
    def __init__(self):
        self.naver_client_id = os.environ.get('NAVER_CLIENT_ID')
        self.naver_client_secret = os.environ.get('NAVER_CLIENT_SECRET')
        self.newsapi_key = os.environ.get('NEWSAPI_KEY')
        self.query_map = {
            '정치': '정치', '경제': '경제', '사회': '사회', '생활문화': '생활 문화', '연예': '연예', '스포츠': '스포츠', 'IT과학': 'IT과학', '오늘의추천': '뉴스'
        }

    def get_naver_news(self, query, count=5):
        """네이버 검색 API를 통해 뉴스를 가져옵니다."""
        url = "https://openapi.naver.com/v1/search/news.json"
        headers = {'X-Naver-Client-Id': self.naver_client_id, 'X-Naver-Client-Secret': self.naver_client_secret}
        params = {'query': query, 'display': count, 'start': 1, 'sort': 'date'}
        try:
            r = requests.get(url, headers=headers, params=params, timeout=6)
            r.raise_for_status()
            return r.json().get('items', [])
        except Exception as e:
            return []

    def get_newsapi_news(self, category, count=5):
        """NewsAPI를 통해 뉴스를 가져옵니다."""
        url = "https://newsapi.org/v2/top-headlines"
        params = {'apiKey': self.newsapi_key, 'pageSize': count, 'page': 1, 'category': map_category_newsapi(category), 'language': 'ko'}
        try:
            r = requests.get(url, params=params, timeout=6)
            r.raise_for_status()
            data = r.json()
            return data.get('articles', [])
        except Exception as e:
            return []

news_service = NewsService()

def map_category_newsapi(category):
    """한국어 카테고리를 NewsAPI 카테고리로 매핑합니다."""
    mapping = {
        '정치': None, '경제': 'business', '사회': None, '생활문화': None, '연예': 'entertainment', '스포츠': 'sports', '건강': 'health', 'IT과학': 'technology'
    }
    return mapping.get(category, None)

# -----------------------------
# 6. 데이터 정규화 및 보강 (기존 코드 유지)
# -----------------------------
def normalize_and_enrich(items, source='naver', category='일반'):
    """뉴스 항목을 정규화하고 요약, 본문, 메타 정보를 추가합니다."""
    item = items[0]
    try:
        # 데이터 추출 및 본문 가져오기 (시간이 걸리는 작업)
        if source == 'naver':
            title = clean_text(item.get('title'))
            description = clean_text(item.get('description'))
            link = item.get('link')
            pub_date_raw = item.get('pubDate')
            try:
                dt_obj = datetime.strptime(pub_date_raw, '%a, %d %b %Y %H:%M:%S %z')
                pub_date = dt_obj.strftime('%Y-%m-%d %H:%M:%S')
            except (ValueError, TypeError):
                pub_date = pub_date_raw
            full_text = get_article_text(link)
            text_to_summarize = full_text if full_text and len(full_text) > 100 else (title + ". " + description)
        else: # NewsAPI
            title = item.get('title') or ''
            description = item.get('description') or (item.get('content') or '')
            link = item.get('url')
            pub_date_raw = item.get('publishedAt')
            try:
                dt_obj = datetime.fromisoformat(pub_date_raw.replace('Z', '+00:00'))
                pub_date = dt_obj.strftime('%Y-%m-%d %H:%M:%S')
            except (ValueError, TypeError):
                pub_date = pub_date_raw
            full_text = get_article_text(link)
            text_to_summarize = full_text if full_text and len(full_text) > 100 else (title + ". " + description)

        # 요약 생성
        detailed_summary = make_summary(text_to_summarize)
        sentences = re.split(r'(?<=[.!?。！？])\s+', detailed_summary)
        preview_summary = " ".join(sentences[:2])
        if len(preview_summary) > 50:
            preview_summary = preview_summary[:50].strip() + "..."
        elif not preview_summary.endswith(('.', '!', '?', '…')):
            preview_summary += "..."

        publisher_name = extract_publisher_name(link)
        image_url, views = extract_image_and_views(link)
        views_display = str(views) if views is not None else "None"

        news_item = {
            "title": title, "description": description, "link": link, "pub_date": pub_date,
            "image_url": image_url, "view_count": views_display,
            "preview_summary": preview_summary, "detailed_summary": detailed_summary,
            "source": source, "category": category,
            "publisher": publisher_name,
            "full_text": full_text # 유사도 계산을 위해 본문 포함
        }
        return news_item
    except Exception as e:
        return None

# --- 유사 뉴스 검색 로직 (기존 코드 유지) ---
def find_similar_news(main_article_content, main_link, category, count=3):
    """주요 기사 내용(main_article_content)을 기반으로 유사 뉴스를 찾아 반환합니다. (후보군 10개 내외)"""
    start_time = time.time()
    print(f"🔎 유사 뉴스 검색 시작 (원본 기사: {main_link[:50]}...)")

    # 유사도 계산을 위한 뉴스 후보군 가져오기:
    search_queries = [news_service.query_map.get(category, category)] # 메인 카테고리 쿼리만 사용
    raw_news_candidates = []

    # 1. 네이버에서 5개 가져오기 (카테고리 쿼리)
    for query in search_queries:
        naver_items = news_service.get_naver_news(query, count=5)
        raw_news_candidates.extend(naver_items)

    # 2. NewsAPI에서 5개 가져오기 (카테고리 쿼리)
    newsapi_items = news_service.get_newsapi_news(category, count=5)
    raw_news_candidates.extend(newsapi_items)

    # 중복 링크 제거 및 본인 기사 제외
    unique_candidates = {}
    for item in raw_news_candidates:
        link = item.get('link') or item.get('url')
        if link and link != main_link and link not in unique_candidates:
            unique_candidates[link] = item

    all_raw_items = list(unique_candidates.values())

    processed_candidates = []
    # 후보 기사 병렬 처리 (본문 추출 및 요약)
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor: # max_workers도 5개로 줄임
        futures = {executor.submit(normalize_and_enrich, [item], 'naver' if item.get('link') else 'newsapi', category) for item in all_raw_items}
        for future in concurrent.futures.as_completed(futures):
            processed_item = future.result()
            if processed_item and processed_item.get('full_text'):
                processed_candidates.append(processed_item)

    if not processed_candidates:
        print("⚠️ 유사 뉴스 후보군을 찾을 수 없습니다.")
        return []

    # TF-IDF 벡터화 및 코사인 유사도 계산
    corpus = [main_article_content] + [item['full_text'] for item in processed_candidates]
    # TfidfVectorizer는 한글 텍스트를 처리할 수 있습니다.
    vectorizer = TfidfVectorizer().fit_transform(corpus)

    cosine_similarities = cosine_similarity(vectorizer[0:1], vectorizer[1:]).flatten()

    similar_indices = np.argsort(cosine_similarities)[::-1]

    similar_news = []
    found_count = 0
    for i in similar_indices:
        if cosine_similarities[i] > 0.3: # 유사도 0.3 이상만 유효하다고 간주
            processed_candidates[i]['similarity_score'] = f"{cosine_similarities[i]:.2f}"
            similar_news.append(processed_candidates[i])
            found_count += 1
            if found_count >= count:
                break
        else:
            break

    end_time = time.time()
    print(f"⏱️ 유사 뉴스 검색 완료. 총 소요 시간: {end_time - start_time:.2f}초 (최종 후보 수: {len(processed_candidates)})")

    return similar_news


# -----------------------------
# 7. Flask API 엔드포인트 (최신순 정렬 유지 및 로직 유지)
# -----------------------------
@app.after_request
def after_request(response):
    """CORS 헤더를 추가합니다."""
    response.headers.add('Access-Control-Allow-Origin', '*')
    response.headers.add('Access-Control-Allow-Headers', 'Content-Type,Authorization')
    response.headers.add('Access-Control-Allow-Methods', 'GET,POST,OPTIONS')
    return response

@app.route('/')
def home():
    """서버 상태를 확인하는 기본 엔드포인트."""
    return jsonify({"message": "🗞️ 뉴스 추천 AI 서버 (Gemini & HF 적용) 실행중!", "status": "running"})


@app.route('/api/news', defaults={'category': None})
@app.route('/api/news/<category>')
def api_news(category):
    """
    카테고리별 뉴스를 가져와 병렬로 처리하고 요약하여 반환합니다. (메인 목록용 - 빠름)
    """
    start_time = time.time()
    selected_cats = request.args.get('categories')
    selected_list = selected_cats.split(',') if selected_cats else []
    # 필터링 인자 처리 ('', 'None' 등이 넘어올 수 있음)
    include_publishers = request.args.get('include_publishers', '').split(',')
    exclude_publishers = request.args.get('exclude_publishers', '').split(',')

    all_raw_items = []
    categories_to_fetch = [category] if category and category != '오늘의추천' else (selected_list or list(CATEGORIES.keys()))

    for cat in categories_to_fetch:
        naver_items = news_service.get_naver_news(cat, count=5)
        all_raw_items.extend([(item, 'naver', cat) for item in naver_items])

    for cat in categories_to_fetch:
        newsapi_items = news_service.get_newsapi_news(cat, count=5)
        all_raw_items.extend([(item, 'newsapi', cat) for item in newsapi_items])

    result = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        futures = {executor.submit(normalize_and_enrich, [raw_item], source, cat) for raw_item, source, cat in all_raw_items}
        for future in concurrent.futures.as_completed(futures):
            processed_item = future.result()
            if processed_item:
                # 메인 목록에서는 'full_text'를 제거하여 데이터 크기를 줄입니다.
                if 'full_text' in processed_item:
                    del processed_item['full_text']
                result.append(processed_item)

    filtered_result = []
    # 필터링 로직 개선: 빈 문자열 필터 처리
    include_set = set(p.strip() for p in include_publishers if p.strip())
    exclude_set = set(p.strip() for p in exclude_publishers if p.strip())

    for item in result:
        publisher = item.get('publisher')
        # 포함 필터 적용
        if include_set and publisher and publisher not in include_set:
            continue
        # 제외 필터 적용
        if exclude_set and publisher and publisher in exclude_set:
            continue
        filtered_result.append(item)

    # 중복 제거 (link 기준으로)
    unique_links = set()
    final_result = []
    for item in filtered_result:
        link = item.get('link')
        if link not in unique_links:
            unique_links.add(link)
            final_result.append(item)

    # ✅ 최신순 정렬 (pub_date 내림차순, 누락 시 '0000-00-00'로 가장 뒤로 밀림)
    final_result = sorted(final_result, key=lambda x: x.get('pub_date') or '0000-00-00', reverse=True)[:5]
    end_time = time.time()
    print(f"⏱️ 메인 뉴스 API 처리 시간: {end_time - start_time:.2f}초")

    return jsonify(final_result)


@app.route('/api/similar_news')
def api_similar_news():
    """
    특정 기사의 URL과 카테고리를 받아 유사한 뉴스 목록을 반환합니다. (클릭 시 호출)
    """
    main_link = request.args.get('link')
    category = request.args.get('category', 'all')
    if not main_link:
        return jsonify({"error": "기사 링크(link)가 필요합니다."}), 400

    # 1. 메인 기사의 본문 및 상세 정보 추출 (시간이 걸림)
    main_article = normalize_and_enrich([{'link': main_link, 'title': '', 'description': '', 'pubDate': ''}], source='naver', category=category)

    if not main_article:
        return jsonify({
            "detailed_summary": "기사 정보를 가져오는 데 실패했습니다.",
            "similar_news": []
        }), 500

    if not main_article.get('full_text') or len(main_article['full_text']) < 100:
        # 본문 추출 실패 시 상세 요약만 반환
        print("⚠️ 원본 기사 본문 추출 실패. 유사 뉴스 검색 불가.")
        return jsonify({
            "detailed_summary": main_article.get('detailed_summary', "기사 본문을 가져올 수 없어 상세 요약에 실패했습니다."),
            "similar_news": []
        })

    # 2. 유사 뉴스 검색 (TF-IDF 기반)
    similar_news_list = find_similar_news(main_article['full_text'], main_link, category)

    # 3. 응답에 포함될 유사 뉴스에서 'full_text' 제거
    for item in similar_news_list:
        if 'full_text' in item:
            del item['full_text']

    # 4. 상세 요약과 유사 뉴스를 함께 반환
    return jsonify({
        "detailed_summary": main_article['detailed_summary'],
        "similar_news": similar_news_list
    })

# -----------------------------
# 8. Flask TEST Page (Gemini 표시 수정)
# -----------------------------

@app.route('/test')
def test_page():
    """웹 테스트 페이지를 렌더링합니다."""
    TEST_PAGE_HTML = """
    <!DOCTYPE html>
<html lang="ko">
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width,initial-scale=1">
<title>뉴스 AI 서버 테스트</title>
<style>
body{font-family:Segoe UI,Roboto,Arial;background:linear-gradient(135deg,#667eea,#764ba2);margin:0;padding:20px}
.container{max-width:1100px;margin:0 auto;background:#fff;border-radius:10px;overflow:hidden;box-shadow:0 10px 30px rgba(0,0,0,.15)}
.header{background:#2c3e50;color:#fff;padding:18px;text-align:center}
.controls{padding:16px;background:#f8f9fa;border-bottom:1px solid #e9ecef}
/* .input-group 스타일은 제거되었으나, 다른 요소에 영향을 주지 않도록 남겨둠 */
.input-group{display:flex;gap:10px;align-items:center;flex-wrap:wrap}
select,input{padding:8px;border-radius:6px;border:1px solid #ddd}
.btn{padding:6px 10px;border-radius:6px;color:#fff;border:none;cursor:pointer;transition:background-color .2s ease; margin: 2px 2px;} /* <--- 수정: padding과 margin을 줄여 버튼 크기와 간격 축소 */
.btn-primary{background:#007bff}
.btn-success{background:#2ecc71}
.btn-danger{background:#e74c3c}
.results{padding:16px}
.news-grid{display:grid;grid-template-columns:repeat(auto-fill,minmax(320px,1fr));gap:16px}
.news-card{border:1px solid #eee;border-radius:8px;overflow:hidden;background:#fff;position:relative; cursor:pointer; transition: box-shadow 0.3s;}
.news-card:hover{box-shadow: 0 4px 15px rgba(0,0,0,.1);}
.news-card.active { box-shadow: 0 0 15px rgba(0, 123, 255, 0.5); border-color: #007bff; }
.news-card img{width:100%;height:180px;object-fit:cover}
.content{padding:12px}
.meta{font-size:12px;color:#666;margin-top:8px}
.filter-section h4{margin-top:0; margin-bottom: 5px;}
.similar-news-section{margin-top:15px;padding-top:10px;border-top:1px dashed #ccc;}
.similar-news-section h4{margin-top:0; color:#2c3e50;}
.loading-spinner {border: 4px solid #f3f3f3; border-top: 4px solid #3498db; border-radius: 50%; width: 16px; height: 16px; animation: spin 2s linear infinite; display: inline-block; margin-right: 5px;}
@keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } }
.similar-news-grid {display: grid; grid-template-columns: repeat(auto-fill, minmax(280px, 1fr)); gap: 10px; margin-top: 10px;}
.similar-news-card {border: 1px solid #2ecc71; border-radius: 6px; padding: 10px; background: #f0fff7; font-size: 14px;}
.similar-news-card h5 {margin-top: 0; margin-bottom: 5px; font-size: 15px; color: #2ecc71;}
.similar-news-card p {margin: 0; font-size: 13px;}

/* 추가된 CSS */
.filter-section .btn {
    margin: 2px; /* 버튼 간격 조정 */
}

</style>
</head>
<body>
<div class="container">
    <div class="header"><h2>뉴스 AI 서버 테스트 (Gemini & HF 요약) </h2><div>서버 실행중</div></div>
    <div class="controls">
        <div style="margin-bottom:4px;">
            <label>카테고리:</label>
            <select id="category">
                <option value="정치">정치</option>
                <option value="경제">경제</option>
                <option value="사회">사회</option>
                <option value="생활문화">생활문화</option>
                <option value="연예">연예</option>
                <option value="스포츠">스포츠</option>
                <option value="건강">건강</option>
                <option value="IT과학">IT과학</option>
                <option value="오늘의추천">오늘의추천</option>
            </select>
            <button class="btn btn-primary" onclick="fetchNews()">뉴스 목록 가져오기 </button>
        </div>
        <div id="todayBtns" style="margin-bottom:2px;">
            <label>오늘의추천 선택:</label>
            <button class="btn btn-primary today-btn" data-cat="정치">정치</button>
            <button class="btn btn-primary today-btn" data-cat="경제">경제</button>
            <button class="btn btn-primary today-btn" data-cat="사회">사회</button>
            <button class="btn btn-primary today-btn" data-cat="생활문화">생활문화</button>
            <button class="btn btn-primary today-btn" data-cat="연예">연예</button>
            <button class="btn btn-primary today-btn" data-cat="스포츠">스포츠</button>
            <button class="btn btn-primary today-btn" data-cat="건강">건강</button>
            <button class="btn btn-primary today-btn" data-cat="IT과학">IT과학</button>
        </div>
        <div class="filter-section">
            <h4>언론사 포함 (클릭하면 선택)</h4>
            <div id="include-publishers-btns">
                <button class="btn btn-primary btn-include" data-publisher="연합뉴스">연합뉴스</button>
                <button class="btn btn-primary btn-include" data-publisher="조선일보">조선일보</button>
                <button class="btn btn-primary btn-include" data-publisher="중앙일보">중앙일보</button>
                <button class="btn btn-primary btn-include" data-publisher="동아일보">동아일보</button>
                <button class="btn btn-primary btn-include" data-publisher="한겨레">한겨레</button>
                <button class="btn btn-primary btn-include" data-publisher="매일경제">매일경제</button>
                <button class="btn btn-primary btn-include" data-publisher="파이낸셜뉴스">파이낸셜뉴스</button>
                <button class="btn btn-primary btn-include" data-publisher="뉴스1">뉴스1</button>
            </div>
            <div id="selected-includes" style="margin-top:5px; font-size:14px;">선택됨: 없음</div>
        </div>
        <div class="filter-section">
            <h4>언론사 제외 (클릭하면 선택)</h4>
            <div id="exclude-publishers-btns">
                <button class="btn btn-primary btn-exclude" data-publisher="연합뉴스">연합뉴스</button>
                <button class="btn btn-primary btn-exclude" data-publisher="조선일보">조선일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="중앙일보">중앙일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="동아일보">동아일보</button>
                <button class="btn btn-primary btn-exclude" data-publisher="한겨레">한겨레</button>
                <button class="btn btn-primary btn-exclude" data-publisher="매일경제">매일경제</button>
                <button class="btn btn-primary btn-exclude" data-publisher="파이낸셜뉴스">파이낸셜뉴스</button>
                <button class="btn btn-primary btn-exclude" data-publisher="뉴스1">뉴스1</button>
            </div>
            <div id="selected-excludes" style="margin-top:5px; font-size:14px;">선택됨: 없음</div>
        </div>
    </div>
    <div class="results">
        <div id="status"></div>
        <div id="newsContainer"></div>
    </div>
</div>

<script>
let newsData = null;
let selectedTodayCategories = [];
let includePublishers = new Set();
let excludePublishers = new Set();
let currentActiveCard = null;

// --- 필터링 로직 ---
function updateSelectedDisplay(containerId, dataSet) {
    const display = document.getElementById(containerId);
    display.innerText = "선택됨: " + (dataSet.size > 0 ? Array.from(dataSet).join(', ') : '없음');
}
function setStatus(msg, type='') {
    const s = document.getElementById('status');
    s.innerHTML = msg;
    s.style.color = type==='error' ? '#c0392b' : (type === 'success' ? '#2ecc71' : 'black');
}

document.addEventListener('DOMContentLoaded', (event) => {
    document.querySelectorAll('.today-btn').forEach(btn => {
        btn.addEventListener('click', () => {
            const cat = btn.dataset.cat;
            if (selectedTodayCategories.includes(cat)) {
                selectedTodayCategories = selectedTodayCategories.filter(c => c !== cat);
                btn.classList.remove('btn-success');
            } else {
                selectedTodayCategories.push(cat);
                btn.classList.add('btn-success');
                btn.classList.remove('btn-primary');
            }
        });
    });
    document.querySelectorAll('.btn-include').forEach(btn => {
        btn.addEventListener('click', () => {
            const publisher = btn.dataset.publisher;
            if (includePublishers.has(publisher)) {
                includePublishers.delete(publisher);
                btn.classList.remove('btn-success');
                btn.classList.add('btn-primary');
            } else {
                if (excludePublishers.has(publisher)) {
                    alert('포함/제외 필터는 중복 선택할 수 없습니다.');
                    return;
                }
                includePublishers.add(publisher);
                btn.classList.add('btn-success');
                btn.classList.remove('btn-primary');
            }
            updateSelectedDisplay('selected-includes', includePublishers);
        });
    });
    document.querySelectorAll('.btn-exclude').forEach(btn => {
        btn.addEventListener('click', () => {
            const publisher = btn.dataset.publisher;
            if (excludePublishers.has(publisher)) {
                excludePublishers.delete(publisher);
                btn.classList.remove('btn-danger');
                btn.classList.add('btn-primary');
            } else {
                if (includePublishers.has(publisher)) {
                    alert('포함/제외 필터는 중복 선택할 수 없습니다.');
                    return;
                }
                excludePublishers.add(publisher);
                btn.classList.add('btn-danger');
                btn.classList.remove('btn-primary');
            }
            updateSelectedDisplay('selected-excludes', excludePublishers);
        });
    });
});
// ------------------------------------


// --- 1. 메인 뉴스 목록 로드 (빠른 로딩) ---
async function fetchNews() {
    const startTime = new Date();
    const cat = document.getElementById('category').value;

    let endpoint = '/api/news';
    const params = new URLSearchParams();

    // 필터링 파라미터 구성
    if (cat) { endpoint += '/' + encodeURIComponent(cat); }
    if (selectedTodayCategories.length) { params.append('categories', selectedTodayCategories.join(',')); }
    if (includePublishers.size > 0) { params.append('include_publishers', Array.from(includePublishers).join(',')); }
    if (excludePublishers.size > 0) { params.append('exclude_publishers', Array.from(excludePublishers).join(',')); }
    if (params.toString()) { endpoint += '?' + params.toString(); }

    setStatus('뉴스 목록을 가져오는 중...');
    currentActiveCard = null; // 활성 카드 초기화

    try {
        const resp = await fetch(endpoint);
        const data = await resp.json();
        newsData = data;
        renderNews(newsData);

        const endTime = new Date();
        const elapsedTime = (endTime - startTime) / 1000;
        setStatus(`✅ 목록 로드 완료 (${elapsedTime.toFixed(2)}초 걸림). 기사를 클릭하면 유사 뉴스가 로딩됩니다.`);
    } catch (e) {
        setStatus('요청 실패: ' + e.message, 'error');
    }
}

// --- 2. 뉴스 카드 클릭 시 유사 뉴스 로드 ---
async function fetchSimilarNews(link, category, cardElement) {

    const similarSectionDiv = cardElement.querySelector('.similar-news-section');
    const similarStatusDiv = cardElement.querySelector('.similar-status');

    // 1. 토글 기능: 이미 로드되었고 현재 활성 상태라면 닫기
    if (currentActiveCard === cardElement) {
        similarSectionDiv.style.display = 'none';
        similarStatusDiv.innerText = '(클릭하여 유사 뉴스 로드)';
        cardElement.classList.remove('active');
        currentActiveCard = null;
        return;
    }

    // 2. 다른 카드가 활성 상태였다면 닫기
    if (currentActiveCard) {
        currentActiveCard.querySelector('.similar-news-section').style.display = 'none';
        currentActiveCard.querySelector('.similar-status').innerText = '(클릭하여 유사 뉴스 로드)';
        currentActiveCard.classList.remove('active');
    }

    // 3. 로딩 시작 및 상태 표시
    currentActiveCard = cardElement;
    similarSectionDiv.innerHTML = '';
    similarStatusDiv.innerHTML = '<span class="loading-spinner"></span> 유사 뉴스 찾는 중... (Gemini 요약 포함. 약 5~15초 소요)';
    similarStatusDiv.style.color = '#007bff';
    cardElement.classList.add('active');

    try {
        const resp = await fetch(`/api/similar_news?link=${encodeURIComponent(link)}&category=${encodeURIComponent(category)}`);
        const data = await resp.json();

        if (data.error) {
            similarStatusDiv.innerText = `유사 뉴스 로드 실패: ${data.error}`;
            similarStatusDiv.style.color = '#c0392b';
            return;
        }

        // 상세 요약을 기존 카드에 업데이트 (API에서 새로 받아온 상세 요약으로 교체)
        const detailedSummaryP = cardElement.querySelector('.detailed-summary-text');
        if (detailedSummaryP) {
            // 요약 모델 표시를 동적으로 변경할 수 있지만, 여기서는 간략히 표시
            detailedSummaryP.innerHTML = `<b>상세보기 (AI 요약):</b> ${data.detailed_summary}`;
        }

        // 유사 뉴스 표시
        renderSimilarNews(data.similar_news, cardElement);
        similarStatusDiv.innerText = '유사 뉴스 로드 완료';
        similarStatusDiv.style.color = '#2ecc71';

    } catch (e) {
        similarStatusDiv.innerText = '유사 뉴스 로드 실패 (서버 연결 오류)';
        similarStatusDiv.style.color = '#c0392b';
        console.error('유사 뉴스 로드 실패:', e);
    }
}

function renderNews(data) {
    const container = document.getElementById('newsContainer');
    container.innerHTML = '';
    if (!Array.isArray(data) || !data.length) {
        container.innerText = '뉴스가 없습니다.';
        return;
    }
    const grid = document.createElement('div');
    grid.className = 'news-grid';

    data.forEach(n => {
        const card = document.createElement('div');
        card.className = 'news-card';

        // 클릭 이벤트 설정
        card.onclick = () => fetchSimilarNews(n.link, n.category, card);

        const img = document.createElement('img');
        img.src = n.image_url || 'https://via.placeholder.com/400x200?text=No+Image';
        card.appendChild(img);

        const content = document.createElement('div');
        content.className = 'content';

        // ***** 요청하신 메타 정보 형식 수정 반영 *****
        content.innerHTML = `
            <h3>${n.title}</h3>
            <p><b>미리보기:</b> ${n.preview_summary}</p>
            <p class="detailed-summary-text"><b>상세보기 (AI 요약):</b> ${n.detailed_summary}</p>
            <div class="meta">${n.pub_date || ''} | ${n.publisher || ''} | ${n.category || '기타'}</div>
            <a href="${n.link}" target="_blank" onclick="event.stopPropagation();">원문 보기</a>
            <div class="similar-status" style="font-size:12px;margin-top:5px; height: 16px;">(클릭하여 유사 뉴스 로드)</div>
            <div class="similar-news-section" style="display:none;"></div>
        `;
        // **********************************************
        card.appendChild(content);
        grid.appendChild(card);
    });
    container.appendChild(grid);
}

function renderSimilarNews(data, cardElement) {
    const similarSection = cardElement.querySelector('.similar-news-section');
    similarSection.style.display = 'block';

    if (data && data.length > 0) {
        let similarHtml = '<h4>유사 추천 뉴스:</h4><div class="similar-news-grid">';
        data.forEach(similar => {
            // 유사 추천 뉴스도 요약과 함께 표시
            // 유사도 점수 (similarity_score) 추가 표시
            const score = similar.similarity_score ? `[유사도: ${similar.similarity_score}]` : '';
            similarHtml += `
                <div class="similar-news-card">
                    <h5>${similar.title} ${score}</h5>
                    <p>${similar.preview_summary}</p>
                    <div class="meta">${similar.publisher} | <a href="${similar.link}" target="_blank">원문</a></div>
                </div>
            `;
        });
        similarHtml += '</div>';
        similarSection.innerHTML = similarHtml;
    } else {
        similarSection.innerHTML = '<p>유사 뉴스를 찾을 수 없습니다.</p>';
    }
}
</script>
</body>
</html>
    """
    return render_template_string(TEST_PAGE_HTML)

# -----------------------------
# 9. 서버 실행
# -----------------------------
def run_app():
    # 이 줄의 들여쓰기 오류를 수정했습니다.
    app.run(host='0.0.0.0', port=8000, debug=False, use_reloader=False)

if NGROK_AUTHTOKEN:
    if 'ngrok' not in os.listdir('/usr/local/bin'): # ngrok 실행 파일이 없으면 설치
        print("ngrok 설치 중...")
        os.system("curl -s https://ngrok-sample-file.s3.us-west-2.amazonaws.com/ngrok.zip > ngrok.zip && unzip -o ngrok.zip -d /usr/local/bin/ > /dev/null")

    os.system(f"ngrok config add-authtoken {NGROK_AUTHTOKEN}")
    print("ngrok auth token 설정 완료!")

    server_thread = threading.Thread(target=run_app, daemon=True)
    server_thread.start()

    time.sleep(4) # Flask 서버가 완전히 시작될 때까지 충분히 기다림

    try:
        # 기존 연결이 남아있을 경우 닫기
        ngrok.kill()
        public_url = ngrok.connect(8000).public_url
        print(f"\n=======================================================")
        print(f"🎉 서버 실행 완료! 아래 URL로 접속하세요:")
        print(f"🌐 Ngrok URL: {public_url}")
        print(f"🌐 Ngrok URL: {public_url}/test")
        print(f"=======================================================\n")
    except Exception as e:
        print(f"⚠️ Ngrok 연결 오류: {e}")

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m27.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.1/211.1 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.5/81.5 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m107.4/107.4 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for tinysegmenter (setup.py) ... [?25l[?25hdone
  Building wheel for feedfinder2 (setup.py) ... [?25l[?25hdone
  Building wheel for jieba3k (setup.py) ... [?25l[?25hdone
  Building wheel for sgmllib3k (setup.py) ... [?25l[?25hdone
📦 패키지 설치 완료! (시간 조금 걸릴 수 있어요)
⚠️ Gemini 클라이

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json: 0.00B [00:00, ?B/s]

You passed `num_labels=3` which is incompatible to the `id2label` map of length `2`.
You passed `num_labels=3` which is incompatible to the `id2label` map of length `2`.


model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

You passed `num_labels=3` which is incompatible to the `id2label` map of length `2`.


vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/4.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

You passed `num_labels=3` which is incompatible to the `id2label` map of length `2`.
Device set to use cpu


✅ Hugging Face KoBART 요약 모델 (짧은 기사 전용) 초기화 완료.
ngrok auth token 설정 완료!
 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:8000
 * Running on http://172.28.0.12:8000
INFO:werkzeug:[33mPress CTRL+C to quit[0m
