<a href="https://colab.research.google.com/github/41371122h-lichi/lichi_thursday/blob/main/HW4_Naver_news%E7%88%AC%E8%9F%B2%E5%88%86%E6%9E%90.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Naver news分析 (作業四)

**主題發想**

因為最近在準備韓檢(已考完)，所以常常會需要閱讀新聞，就想說能不能把Naver的新聞拿來做分析，看看韓國人平常都接收到怎麼樣的資訊，也可以透過熱詞分析增加認識的詞彙量！

**功能介紹**

1.   爬蟲/熱詞分析/AI總結一步到位
2.   純 · 爬取資料
1.   純 · 熱詞分析
2.   純 · AI總結
1.   匯出CSV/JSON(可選擇單一/三張工作表匯出)
2.   工作表命名/刪除

**各項參考URL**

· [Naver news](https://news.naver.com/)

· [Sheet URL](https://docs.google.com/spreadsheets/d/1P4V-D8o7bXHHHVMRQxG6voDjeyVUcDRB_PAahWajUUM/edit?usp=sharing)

In [142]:
pip install requests beautifulsoup4



In [143]:
pip install konlpy



In [144]:
pip install gspread_dataframe



In [145]:
pip install google-genai



In [146]:
pip install gradio



In [147]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
import time
import tempfile
import os
import zipfile
import shutil

from google.colab import auth
from google.auth import default
import gspread
from gspread_dataframe import set_with_dataframe
import gspread.exceptions

from google import genai
from google.genai import types

import gradio as gr

okt = Okt()

In [148]:
try:
    auth.authenticate_user()
    creds, _ = default()
    gc = gspread.authorize(creds)
    sheets_enabled = True
    sheet_auth_log = "✅ Google Sheets 認證成功。"
except Exception as e:
    sheet_auth_log = f"❌ Google Sheets 認證失敗: {e}"
    sheets_enabled = False
    gc = None

# 2. Gemini API 認證 (使用您檔案中提供的金鑰和模型)
GEMINI_API_KEY = "AIzaSyBufFzIl5hJR-mPetOWfBxR7NnN8lPZHLM"
GEMINI_MODEL_NAME = "gemini-2.5-flash" # 建議使用 flash 模型以提高速度

try:
    # 設置 API 金鑰
    GEMINI_CLIENT = genai.Client(api_key=GEMINI_API_KEY)
    GEMINI_MODEL = GEMINI_MODEL_NAME

    gemini_auth_log = f"✅ Gemini API 客戶端初始化成功，模型設定為 {GEMINI_MODEL}。"
    gemini_enabled = True
except Exception as e:
    gemini_auth_log = f"❌ Gemini API 初始化失敗 (請確認金鑰是否正確): {e}"
    GEMINI_CLIENT = None
    gemini_enabled = False

In [149]:
HEADERS = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/114.0.0.0 Safari/537.36"
    )
}

SHEET_KEY = "1P4V-D8o7bXHHHVMRQxG6voDjeyVUcDRB_PAahWajUUM"

In [150]:
def 儲存_至_Google_Sheet(data_list, sheet_key, sheet_name="爬蟲結果"):
    global gc, sheets_enabled

    if not sheets_enabled:
        return "❌ Google Sheets 認證未成功或權限不足，無法寫入資料。"

    if not data_list:
        return "❌ 資料清單為空，未寫入 Google Sheet。"

    try:
        sheet = gc.open_by_key(sheet_key)
        df = pd.DataFrame(data_list)
        try:
            worksheet = sheet.worksheet(sheet_name)
        except gspread.WorksheetNotFound:
            worksheet = sheet.add_worksheet(title=sheet_name, rows=max(len(df) + 1, 100), cols=max(len(df.columns), 20))

        set_with_dataframe(worksheet, df)

        return f"✅ 成功寫入 **{len(data_list)}** 筆資料至 Google Sheet！\n工作表名稱: **{sheet_name}**"

    except Exception as e:
        return f"❌ 寫入 Google Sheet 發生錯誤 (請檢查權限): {e}"

def 儲存_熱詞_至_Google_Sheet(word_scores, sheet_key, sheet_name="熱詞分析結果"):
    global gc, sheets_enabled

    if not sheets_enabled or not word_scores:
        return "❌ 無法寫入熱詞資料。"

    try:
        sheet = gc.open_by_key(sheet_key)
        df = pd.DataFrame(word_scores, columns=['熱詞', '總關鍵性分數'])
        df['排名'] = df.index + 1
        df = df[['排名', '熱詞', '總關鍵性分數']]
        try:
            worksheet = sheet.worksheet(sheet_name)
        except gspread.WorksheetNotFound:
            worksheet = sheet.add_worksheet(title=sheet_name, rows=max(len(df) + 1, 100), cols=max(len(df.columns), 20))

        set_with_dataframe(worksheet, df)

        return f"✅ 成功寫入 **{len(word_scores)}** 筆熱詞資料至 Google Sheet！\n工作表名稱: **{sheet_name}**"

    except Exception as e:
        return f"❌ 寫入熱詞至 Google Sheet 發生錯誤 (請檢查權限): {e}"

def 儲存_分析結果_至_Google_Sheet(analysis_dict, sheet_key, sheet_name):
    global gc, sheets_enabled

    if not sheets_enabled or not analysis_dict:
        return "❌ 無法寫入分析結果。"

    try:
        sheet = gc.open_by_key(sheet_key)
        data = {
            '分析主題': ['熱詞總體趨勢'],
            'Gemini_洞察摘要': [analysis_dict.get('洞察摘要', '')],
            'Gemini_結論': [analysis_dict.get('結論', '')]
        }
        df = pd.DataFrame(data)

        try:
            worksheet = sheet.worksheet(sheet_name)
        except gspread.WorksheetNotFound:
            worksheet = sheet.add_worksheet(title=sheet_name, rows=max(len(df) + 1, 10), cols=max(len(df.columns), 10))

        set_with_dataframe(worksheet, df)

        return f"✅ 成功寫入 Gemini 分析結果至 Google Sheet！\n工作表名稱: **{sheet_name}**"

    except Exception as e:
        return f"❌ 寫入分析結果至 Google Sheet 發生錯誤 (請檢查權限)：{e}"


def 從_Google_Sheet_讀取資料(sheet_key, sheet_name):
    global gc, sheets_enabled
    if not sheets_enabled:
        return pd.DataFrame(), "❌ Google Sheets 認證未成功或權限不足，無法讀取資料。"
    try:
        sheet = gc.open_by_key(sheet_key)
        worksheet = sheet.worksheet(sheet_name)
        data = worksheet.get_all_records()
        df = pd.DataFrame(data)
        log = f"✅ 成功讀取 **{len(df)}** 筆資料。\n"
        return df, log
    except gspread.exceptions.WorksheetNotFound:
        return pd.DataFrame(), f"❌ 讀取 Google Sheet 發生錯誤：找不到工作表 **'{sheet_name}'**，請確認名稱是否正確。"
    except Exception as e:
        return pd.DataFrame(), f"❌ 讀取 Google Sheet 發生錯誤：{e}"

In [151]:
def delete_sheets_by_suffix(sheet_suffix):
    """根據後綴，刪除相關的三個工作表"""
    global gc, sheets_enabled
    full_log = "--- 認證狀態 ---\n" + sheet_auth_log + "\n" + "=" * 20 + "\n"

    if not sheets_enabled:
        return full_log + "\n❌ Google Sheets 認證未成功，無法刪除工作表。"

    if not sheet_suffix:
        return full_log + "\n❌ 錯誤：請輸入有效的**工作表後綴**來指定要刪除的集合。"

    RESULT_SHEET_NAME, TOP_WORDS_SHEET_NAME, AI_SUMMARY_SHEET_NAME = get_suffix_names(sheet_suffix)

    target_sheet_names = [RESULT_SHEET_NAME, TOP_WORDS_SHEET_NAME, AI_SUMMARY_SHEET_NAME]

    delete_count = 0

    try:
        sheet = gc.open_by_key(SHEET_KEY)
        full_log += f"💡 正在嘗試刪除與後綴 **'{sheet_suffix}'** 相關的工作表：\n"

        for sheet_name in target_sheet_names:
            try:
                worksheet = sheet.worksheet(sheet_name)
                sheet.del_worksheet(worksheet)
                full_log += f"✅ 成功刪除工作表: **{sheet_name}**\n"
                delete_count += 1
            except gspread.WorksheetNotFound:
                full_log += f"⚠ 警告：找不到工作表: **{sheet_name}** (跳過)\n"

        if delete_count == 0:
            full_log += "\n❌ 刪除完成，但未找到任何相關工作表可供刪除。"
        else:
            full_log += f"\n✅ **成功刪除 {delete_count} 個工作表！**"

    except Exception as e:
        full_log += f"\n❌ 刪除過程中發生錯誤: {e}"

    return full_log

In [152]:
def export_sheet_to_csv_json(sheet_name, format_choice):
    """讀取指定工作表並匯出為 CSV 或 JSON 檔案"""
    global gc, sheets_enabled

    if not sheets_enabled:
        return None, "❌ Google Sheets 認證未成功，無法讀取工作表。"

    if not sheet_name:
        return None, "❌ 錯誤：請輸入要匯出的工作表名稱。"

    df, read_log = 從_Google_Sheet_讀取資料(SHEET_KEY, sheet_name)

    if df.empty:
        return None, read_log + "\n❌ 資料為空或讀取失敗，無法匯出。"

    # 創建一個臨時文件來儲存匯出的內容
    with tempfile.NamedTemporaryFile(mode='w', delete=False, encoding='utf-8') as tmp_file:
        file_path = tmp_file.name

        if format_choice == 'CSV':
            # 將 DataFrame 寫入 CSV，不包含索引，確保編碼
            df.to_csv(file_path, index=False, encoding='utf-8')
            output_log = f"✅ 成功將 **{sheet_name}** ({len(df)} 筆資料) 匯出為 CSV 檔案。"
        elif format_choice == 'JSON':
            # 將 DataFrame 寫入 JSON (orient='records' 格式為 [{...}, {...}])
            df.to_json(file_path, orient='records', force_ascii=False, indent=4)
            output_log = f"✅ 成功將 **{sheet_name}** ({len(df)} 筆資料) 匯出為 JSON 檔案。"
        else:
             return None, "❌ 錯誤：無效的匯出格式選擇。"

    # Gradio 會將此文件路徑作為下載連結提供
    return file_path, output_log

In [153]:
def run_and_clear_single_export(sheet_name, format_choice):
    """
    包裝單一工作表匯出函數，並在完成後清空輸入框。
    """
    file_path, output_log = export_sheet_to_csv_json(sheet_name, format_choice)

    # 必須依序回傳給 outputs 列表：
    # (1) 下載檔案, (2) Log 訊息, (3) 清空輸入框的值
    return file_path, output_log, ""

In [154]:
def export_all_by_suffix(sheet_suffix, format_choice):
    """根據後綴，將三個相關工作表讀取並壓縮成單一 ZIP 檔案供下載。"""
    global gc, sheets_enabled

    if not sheets_enabled:
        return None, "❌ Google Sheets 認證未成功，無法讀取工作表。"

    if not sheet_suffix:
        return None, "❌ 錯誤：請輸入要匯出的**工作表後綴**。"

    # 取得三個工作表名稱
    RESULT_SHEET_NAME, TOP_WORDS_SHEET_NAME, AI_SUMMARY_SHEET_NAME = get_suffix_names(sheet_suffix)
    target_sheet_names = {
        '原始數據': RESULT_SHEET_NAME,
        '熱詞分析': TOP_WORDS_SHEET_NAME,
        'AI總結': AI_SUMMARY_SHEET_NAME
    }

    # 創建一個臨時目錄來存放 CSV/JSON 檔案
    temp_dir = tempfile.mkdtemp()

    exported_files_count = 0
    log_messages = []

    try:
        sheet = gc.open_by_key(SHEET_KEY)

        for file_type, sheet_name in target_sheet_names.items():
            try:
                # 1. 讀取資料
                worksheet = sheet.worksheet(sheet_name)
                data = worksheet.get_all_records()
                df = pd.DataFrame(data)

                if df.empty:
                    log_messages.append(f"⚠ 警告：工作表 **{sheet_name}** ({file_type}) 為空，跳過匯出。")
                    continue

                # 2. 寫入暫存檔案
                ext = 'csv' if format_choice == 'CSV' else 'json'
                base_file_name = f"{sheet_name}.{ext}"
                file_path = os.path.join(temp_dir, base_file_name)

                if format_choice == 'CSV':
                    df.to_csv(file_path, index=False, encoding='utf-8')
                elif format_choice == 'JSON':
                    df.to_json(file_path, orient='records', force_ascii=False, indent=4)

                exported_files_count += 1
                log_messages.append(f"✅ 成功處理工作表 **{sheet_name}** ({len(df)} 筆資料)。")

            except gspread.exceptions.WorksheetNotFound:
                log_messages.append(f"⚠ 警告：找不到工作表 **{sheet_name}**，跳過匯出。")
            except Exception as e:
                log_messages.append(f"❌ 匯出工作表 **{sheet_name}** 時發生錯誤: {e}")

        # 3. 創建 ZIP 壓縮檔案
        if exported_files_count == 0:
            return None, "\n".join(log_messages) + "\n❌ 沒有找到任何工作表可供匯出，操作失敗。"

        zip_filename = f"Naver_Analysis_Export_{sheet_suffix}.zip"
        # 使用 tempfile.gettempdir() 確保 ZIP 檔案在可存取的位置
        zip_path = os.path.join(tempfile.gettempdir(), zip_filename)

        with zipfile.ZipFile(zip_path, 'w', zipfile.ZIP_DEFLATED) as zipf:
            # 遍歷臨時目錄中的所有檔案並加入 ZIP
            for file_name in os.listdir(temp_dir):
                 file_path = os.path.join(temp_dir, file_name)
                 zipf.write(file_path, file_name) # 第二個參數是 ZIP 內部的檔案名稱

        final_log = "\n".join(log_messages)
        final_log += f"\n\n✅ **操作完成！** 成功將 {exported_files_count} 個檔案打包成 ZIP 供下載。"

        return zip_path, final_log

    except Exception as e:
        return None, f"❌ 匯出過程中發生嚴重錯誤: {e}"

    finally:
        # 無論成功或失敗，都要清理臨時目錄
        shutil.rmtree(temp_dir)

In [155]:
def 爬取_文章內文(article_url):
    # 函數內容同前
    if not article_url:
        return "無連結", "無連結", "無內文"
    try:
        response = requests.get(article_url, headers=HEADERS, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, "html.parser")
        content_tag = soup.select_one("#dic_area, .news_content, #articeBody, .article_body, .story_view .ct_area")
        if content_tag:
          for tag in content_tag.find_all(['script', 'a', 'img', 'br', 'em', 'strong', 'iframe', 'figcaption']):
              tag.decompose()
          content = content_tag.get_text(strip=True)
        else:
          content = "無內文"
        author_tag = soup.select_one("em.media_end_head_journalist_name, .media_end_head_journalist_name, .byline .journalist_name")
        author = author_tag.get_text(strip=True) if author_tag else "無作者"
        date_tag = soup.select_one("span.media_end_head_info_datestamp_time._ARTICLE_DATE_TIME, .info span.date")
        date = date_tag['data-date-time'] if date_tag and 'data-date-time' in date_tag.attrs else (
            date_tag.get_text(strip=True) if date_tag else "無日期"
        )
        date = date.replace('입력 ', '').strip()
        return date, author, content
    except Exception as e:
        return f"內文頁爬取失敗: {type(e).__name__}", "內文頁爬取失敗", "無內文"

def 爬取_naver_新聞(url):
    # 函數內容同前
    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
    except Exception as e:
        return [], f"❌ 主列表爬取失敗：請檢查網址或連線問題。\n錯誤：{e}"

    soup = BeautifulSoup(response.text, "html.parser")
    news_list = []

    # 列表主選擇器
    news_items = soup.select("li.press_edit_news_item, li.sa_item, div.cluster_item")
    MAX_ITEMS = 20
    news_items = news_items[:MAX_ITEMS]

    if not news_items:
        return [], "⚠ 警告：列表選擇器可能不匹配，無法抓取列表。請檢查網址是否為有效的 Naver 媒體或主題頁。"

    current_log = f"💡 總共找到 {len(news_items)} 篇新聞，開始進行二次爬取...\n"

    for n, item in enumerate(news_items, start=1):
        # 抓取標題
        title_tag = item.select_one("span.press_edit_news_title, a.sa_text_title")
        title = title_tag.get_text(strip=True) if title_tag else "無標題"

        # 抓取文章連結
        link_tag = item.select_one("a.press_edit_news_link, a.sa_text_title, a.n_tit")
        news_url = link_tag['href'] if link_tag and 'href' in link_tag.attrs else None

        if not news_url or not news_url.startswith('https://n.news.naver.com'):
             current_log += f"[{n}/{MAX_ITEMS}] 跳過：連結無效或非 Naver 內頁 ({news_url})\n"
             continue

        # 呼叫二次爬蟲
        date, author, content = 爬取_文章內文(news_url)

        current_log += f"[{n}/{MAX_ITEMS}] 處理：{title[:20]}... | 內文長度: {len(content)} 字符\n"

        news_list.append({
            "標題": title,
            "日期": date,
            "作者": author,
            "內文": content,
            "連結": news_url
        })

    return news_list, current_log

In [156]:
def 分析新聞文本(texts, top_n=10):
    tokenized_corpus = []
    clean_pattern = re.compile(r'[0-9a-zA-Z\t\n\r\f\v\(\)\-\+\=\[\]\{\}\<\>@\#\$\%\^\&\*\!\~\`\?\/\\]+')
    for text in texts:
        if pd.notna(text) and str(text).strip() not in ('無內文', ''):
            cleaned_text = clean_pattern.sub('', str(text).strip())
            if not cleaned_text: continue
            korean_nouns = okt.nouns(cleaned_text)
            stop_words_korean = ['기자', '뉴스', '연합', '제공', '따르', '위해', '통해', '이번', '그것', '이것', '저것', '에서', '에게', '오늘', '시간', '여러분']
            filtered_words = [
                word for word in korean_nouns
                if len(word) > 1 and word.strip() and word not in stop_words_korean
            ]
            if not filtered_words: continue
            tokenized_corpus.append(" ".join(filtered_words))

    if not tokenized_corpus:
        return None, 0, "\n❌ 處理後的有效文本為空，請檢查文章內容。"

    # TF-IDF 計算
    vectorizer = TfidfVectorizer(min_df=1, max_df=0.8)
    tfidf_matrix = vectorizer.fit_transform(tokenized_corpus)
    feature_names = vectorizer.get_feature_names_out()
    sums = tfidf_matrix.sum(axis=0)

    word_scores = []
    for col, term in enumerate(feature_names):
        word_scores.append((term, sums[0, col]))
    word_scores.sort(key=lambda x: x[1], reverse=True)
    top_words = word_scores[:top_n]

    # Log 輸出格式化
    log = "\n" + "=" * 50 + "\n"
    log += f"🔥 **【文章內文韓文熱詞分析結果】 (前 {len(top_words)} 名)** 🔥\n"
    log += f"💡 總共分析了 **{len(tokenized_corpus)}** 篇文章。\n"
    log += "-" * 50 + "\n"
    for rank, (word, score) in enumerate(top_words, start=1):
        log += f"No. {rank}: **{word}** (總關鍵性分數: {score:.4f})\n"
    log += "=" * 50 + "\n"

    # 返回熱詞列表、文章計數和 Log
    return top_words, len(tokenized_corpus), log

In [157]:
def 使用_Gemini_API_熱詞分析(top_words_list):
    # 函數內容同前
    global GEMINI_CLIENT, GEMINI_MODEL, gemini_enabled

    if not gemini_enabled:
        return {"洞察摘要": "Gemini 服務未啟用", "結論": "Gemini 服務未啟用"}

    if not top_words_list or len(top_words_list) == 0:
        return {"洞察摘要": "熱詞列表為空，無法分析", "結論": "熱詞列表為空，無法分析"}

    formatted_keywords = "\n".join([f"{rank+1}. {word} (分數: {score:.4f})" for rank, (word, score) in enumerate(top_words_list)])

    prompt = (
        "你是一位資深的數據分析師，請根據以下提供的 **20篇文章與熱詞分析結果 (韓文名詞與其關鍵性分數)**，提供專業的分析。\n\n"
        "請根據這些熱詞，總結這20篇文章集的主要討論主題、趨勢或影響，並用**繁體中文**提供兩項分析結果：\n\n"
        "1. **五句洞察摘要 (Insights)**：以條列式輸出 5 個客觀、精煉、且具洞察性的重點。請使用數字(如1、2、3...)作為開頭符號。\n\n"
        "2. **一段結論 (Conclusion)**：用一段話總結這些熱詞所代表的整體趨勢和潛在影響，內容長度請嚴格控制在 110 到 130 個中文字。\n\n"
        "請確保你的輸出格式如下：\n"
        "【洞察摘要】\n"
        "[第 1 句洞察]\n"
        "[第 2 句洞察]\n"
        "[第 3 句洞察]\n"
        "[第 4 句洞察]\n"
        "[第 5 句洞察]\n"
        "【結論】\n"
        "[一段 120 字左右的結論內容]\n\n"
        f"熱詞分析結果 (前 {len(top_words_list)} 名)：\n{formatted_keywords}"
    )

    try:
        response = GEMINI_CLIENT.models.generate_content(
            model=GEMINI_MODEL,
            contents=prompt
        )

        full_text = response.text.strip()

        insight_match = full_text.find("【洞察摘要】")
        conclusion_match = full_text.find("【結論】")

        if insight_match != -1 and conclusion_match != -1:
            insights_raw = full_text[insight_match + len("【洞察摘要】"):conclusion_match].strip()
            conclusion_raw = full_text[conclusion_match + len("【結論") + 1:].strip()

            insights_formatted = insights_raw.replace('\n', '\n- ').strip()
            if not insights_formatted.startswith('- '):
                insights_formatted = '- ' + insights_formatted

            return {
                "洞察摘要": insights_formatted,
                "結論": conclusion_raw
            }
        else:
             return {"洞察摘要": "格式解析失敗，請檢查原始輸出", "結論": full_text}

    except Exception as e:
        return {"洞察摘要": f"Gemini 呼叫失敗: {str(e)}", "結論": f"Gemini 呼叫失敗: {str(e)}"}

In [158]:
def get_suffix_names(sheet_suffix):
    # 根據後綴產生工作表名稱
    suffix = f" ({sheet_suffix})" if sheet_suffix else ""
    RESULT_SHEET_NAME = f"爬蟲結果{suffix}"
    TOP_WORDS_SHEET_NAME = f"熱詞分析結果{suffix}"
    AI_SUMMARY_SHEET_NAME = f"AI總結{suffix}"
    return RESULT_SHEET_NAME, TOP_WORDS_SHEET_NAME, AI_SUMMARY_SHEET_NAME

def run_only_scraper(url, sheet_suffix):
    full_log = "--- 認證狀態 ---\n" + sheet_auth_log + "\n" + gemini_auth_log + "\n" + "=" * 20 + "\n"

    if not url:
        return full_log + "\n❌ 錯誤：請輸入有效的 Naver 新聞網址。"

    RESULT_SHEET_NAME, _, _ = get_suffix_names(sheet_suffix)

    # 1. 爬蟲
    full_log += "--- 階段 1/2: 執行爬蟲 ---\n"
    news_data, crawl_log = 爬取_naver_新聞(url)
    full_log += crawl_log

    if not news_data:
        full_log += "\n❌ 爬蟲失敗：未抓取到任何有效新聞數據，流程中止。"
        return full_log

    # 2. 寫入原始資料
    full_log += "\n--- 階段 2/2: 寫入原始數據 ---\n"
    write_data_log = 儲存_至_Google_Sheet(news_data, SHEET_KEY, sheet_name=RESULT_SHEET_NAME)
    full_log += write_data_log
    full_log += "\n\n✅ **爬取與寫入 Sheet 流程完成！**"

    return full_log

def run_tfidf_analysis(sheet_to_read, sheet_suffix):
    full_log = "--- 認證狀態 ---\n" + sheet_auth_log + "\n" + "=" * 20 + "\n"

    if not sheet_to_read:
        return full_log + "\n❌ 錯誤：請輸入要讀取的工作表名稱。"

    _, TOP_WORDS_SHEET_NAME, _ = get_suffix_names(sheet_suffix)

    # 1. 讀取文章資料
    df, read_log = 從_Google_Sheet_讀取資料(SHEET_KEY, sheet_to_read)
    full_log += read_log

    if df.empty:
        return full_log

    # 2. 準備分析數據
    if '內文' in df.columns:
        data_for_analysis = df['內文'].tolist()
    elif 'Content' in df.columns:
        data_for_analysis = df['Content'].tolist()
    else:
        full_log += "\n❌ 錯誤：在工作表 **'{sheet_to_read}'** 中找不到欄位 **'內文'** 或 **'Content'**，無法進行分析。"
        return full_log

    # 3. TF-IDF 分析
    top_words_list, analyzed_count, tfidf_log = 分析新聞文本(data_for_analysis, top_n=10)
    full_log += tfidf_log

    # 4. 寫入熱詞結果
    if top_words_list and analyzed_count > 0:
        write_words_log = 儲存_熱詞_至_Google_Sheet(top_words_list, SHEET_KEY, sheet_name=TOP_WORDS_SHEET_NAME)
        full_log += "\n" + "=" * 20 + "\n" + write_words_log

    return full_log


def run_ai_hotword_analysis(sheet_to_read, sheet_suffix):
    full_log = "--- 認證狀態 ---\n" + sheet_auth_log + "\n" + gemini_auth_log + "\n" + "=" * 20 + "\n"

    if not gemini_enabled:
        return full_log + "\n❌ 錯誤：Gemini API 未啟用，無法進行 AI 總結分析。"

    if not sheet_to_read:
        return full_log + "\n❌ 錯誤：請輸入要讀取文章內容的工作表名稱。"

    _, _, AI_SUMMARY_SHEET_NAME = get_suffix_names(sheet_suffix)

    # 1. 讀取文章資料
    df, read_log = 從_Google_Sheet_讀取資料(SHEET_KEY, sheet_to_read)
    full_log += read_log

    if df.empty:
        return full_log

    # 2. 準備分析數據
    if '內文' in df.columns:
        data_for_analysis = df['內文'].tolist()
    elif 'Content' in df.columns:
        data_for_analysis = df['Content'].tolist()
    else:
        full_log += f"\n❌ 錯誤：在工作表 **'{sheet_to_read}'** 中找不到欄位 **'內文'** 或 **'Content'**，無法進行分析。"
        return full_log

    # 3. TF-IDF 分析，取得熱詞
    top_words_list, analyzed_count, tfidf_log = 分析新聞文本(data_for_analysis, top_n=10)
    full_log += tfidf_log

    if not top_words_list or analyzed_count == 0:
        return full_log

    # 4. 呼叫 Gemini API
    full_log += "\n🧠 **執行熱詞總結分析 (Gemini API)...**"
    time.sleep(0.5) # 模擬思考時間
    analysis_result = 使用_Gemini_API_熱詞分析(top_words_list)

    # 5. 寫入 AI 總結結果
    write_summary_log = 儲存_分析結果_至_Google_Sheet(analysis_result, SHEET_KEY, sheet_name=AI_SUMMARY_SHEET_NAME)
    full_log += "\n" + "=" * 20 + "\n" + write_summary_log

    # 6. 整理 AI 總結輸出
    ai_output = (
        "--- Gemini AI 總結分析結果 ---\n\n"
        f"**Gemini 洞察摘要：**\n{analysis_result['洞察摘要']}\n\n"
        f"**Gemini 結論：**\n{analysis_result['結論']}"
    )

    return full_log, ai_output

In [159]:
def run_all_in_one(url, sheet_suffix):
    """分頁 4：爬蟲、TF-IDF、AI 總結一次完成"""

    full_log = "--- 認證狀態 ---\n" + sheet_auth_log + "\n" + gemini_auth_log + "\n" + "=" * 20 + "\n"
    ai_output = "分析尚未執行。"

    if not url:
        return full_log + "\n❌ 錯誤：請輸入有效的 Naver 新聞網址。", ai_output

    if not gemini_enabled:
        return full_log + "\n❌ 錯誤：Gemini API 未啟用，無法進行 AI 總結分析。", ai_output

    RESULT_SHEET_NAME, TOP_WORDS_SHEET_NAME, AI_SUMMARY_SHEET_NAME = get_suffix_names(sheet_suffix)

    # 1. 爬蟲
    full_log += "--- 階段 1/4: 執行爬蟲 ---\n"
    news_data, crawl_log = 爬取_naver_新聞(url)
    full_log += crawl_log

    if not news_data:
        return full_log, ai_output

    # 2. 寫入原始資料
    full_log += "\n--- 階段 2/4: 寫入原始數據 ---\n"
    write_data_log = 儲存_至_Google_Sheet(news_data, SHEET_KEY, sheet_name=RESULT_SHEET_NAME)
    full_log += write_data_log

    # 3. TF-IDF 分析
    full_log += "\n--- 階段 3/4: TF-IDF 熱詞分析 ---\n"
    data_for_analysis = [item['內文'] for item in news_data]
    top_words_list, analyzed_count, tfidf_log = 分析新聞文本(data_for_analysis, top_n=10)
    full_log += tfidf_log

    if not top_words_list or analyzed_count == 0:
        return full_log + "\n❌ 由於無有效內文，AI 總結中止。", ai_output

    # 寫入熱詞結果
    write_words_log = 儲存_熱詞_至_Google_Sheet(top_words_list, SHEET_KEY, sheet_name=TOP_WORDS_SHEET_NAME)
    full_log += "\n" + write_words_log


    # 4. 呼叫 Gemini API
    full_log += "\n--- 階段 4/4: Gemini AI 總結 ---\n"
    full_log += "\n🧠 **執行熱詞總結分析 (Gemini API)...**"
    time.sleep(0.5) # 模擬思考時間
    analysis_result = 使用_Gemini_API_熱詞分析(top_words_list)

    # 寫入 AI 總結結果
    write_summary_log = 儲存_分析結果_至_Google_Sheet(analysis_result, SHEET_KEY, sheet_name=AI_SUMMARY_SHEET_NAME)
    full_log += "\n" + write_summary_log

    # 整理 AI 總結輸出
    ai_output = (
        "--- Gemini AI 總結分析結果 ---\n\n"
        f"**Gemini 洞察摘要：**\n{analysis_result['洞察摘要']}\n\n"
        f"**Gemini 結論：**\n{analysis_result['結論']}"
    )
    full_log += "\n\n✅ **所有步驟執行完成！** 結果已寫入 Sheet。"

    return full_log, ai_output

In [166]:
with gr.Blocks(title="Naver 新聞分析工具") as demo:
    gr.Markdown("# Naver 新聞分析工具")
    gr.Markdown("### 請前往 [Naver 新聞主頁](https://news.naver.com/) 尋找網址。也可點進[Google Sheet](https://docs.google.com/spreadsheets/d/1P4V-D8o7bXHHHVMRQxG6voDjeyVUcDRB_PAahWajUUM/edit?usp=sharing)查看資料")

    # 共同輸入區塊
    gr.Markdown("### 共同輸入區")
    with gr.Row():
        sheet_suffix_input = gr.Textbox(
            label="自訂工作表名稱後綴",
            placeholder="例如：MBC新聞。將用於區分所有輸出的工作表名稱。",
            scale=3
        )
        gr.Markdown("---")

    with gr.Accordion("工作表刪除", open=False):
        delete_btn = gr.Button("🚨 刪除所有相關工作表 (使用上方後綴)")
        delete_output = gr.Textbox(
            label="刪除三張工作表",
            lines=5,
            interactive=False
        )

        delete_btn.click(
            fn=delete_sheets_by_suffix,
            inputs=[sheet_suffix_input],
            outputs=delete_output
        )

    # 功能區塊
    gr.Markdown("### 功能區")

    with gr.Tabs():

        # 1. All in one (Option 1)
        with gr.TabItem("爬蟲/熱詞分析/AI總結"):
            gr.Markdown("### 一鍵執行爬蟲、熱詞分析、AI 總結 (快速獲取結果)")

            url_input_1 = gr.Textbox(
                label="Naver 新聞媒體/主題網址",
                placeholder="例如：https://media.naver.com/press/658?sid=102"
            )

            all_in_one_btn = gr.Button("🔥 開始【一鍵完整分析】並寫入 Sheet (請耐心等待)")


            with gr.Row():

                all_in_one_log = gr.Textbox(
                    label="執行爬蟲與熱詞分析",
                    lines=20,
                    interactive=False
                )

                all_in_one_summary = gr.Textbox(
                    label="Gemini AI 總結結果",
                    lines=20,
                    interactive=False
                )

            all_in_one_btn.click(
                fn=run_all_in_one,
                inputs=[url_input_1, sheet_suffix_input],
                outputs=[all_in_one_log, all_in_one_summary]
            )

        # 2. 爬取 Naver 新聞 (Option 2)
        with gr.TabItem("爬取 Naver 新聞"):
            gr.Markdown("### 爬取 Naver 新聞 (執行爬蟲)")

            url_input_2 = gr.Textbox(
                label="Naver 新聞媒體/主題網址",
                placeholder="例如：https://media.naver.com/press/658?sid=102"
            )

            scrape_btn = gr.Button("🚀 開始爬取並寫入 Sheet (爬蟲結果)")

            scrape_output = gr.Textbox(
                label="文章爬取",
                lines=20,
                interactive=False
            )

            scrape_btn.click(
                fn=run_only_scraper,
                inputs=[url_input_2, sheet_suffix_input],
                outputs=scrape_output
            )

        # 3. 讀取 Google Sheet 資料 (Option 3)
        with gr.TabItem("讀取 Sheet 資料"):
            gr.Markdown("### 讀取 Google Sheet 資料 (僅執行 TF-IDF 熱詞分析)")

            read_tfidf_sheet_input = gr.Textbox(
                label="要讀取的工作表名稱(限爬蟲結果)",
                placeholder="例如：爬蟲結果, 爬蟲結果 (MBC新聞)"
            )

            tfidf_btn = gr.Button("📊 開始讀取、分析並寫入 Sheet (熱詞分析結果)")

            tfidf_output = gr.Textbox(
                label="Sheet讀取並分析熱詞",
                lines=20,
                interactive=False
            )

            tfidf_btn.click(
                fn=run_tfidf_analysis,
                inputs=[read_tfidf_sheet_input, sheet_suffix_input],
                outputs=tfidf_output
            )

        # 4. AI 分析 (Option 4)
        with gr.TabItem("AI 分析 (熱詞總結)"):
            gr.Markdown("### AI 分析 (針對爬取文章的熱詞進行總結)")

            ai_sheet_input = gr.Textbox(
                label="要讀取的工作表名稱(限爬蟲結果)",
                placeholder="例如：爬蟲結果, 爬蟲結果 (MBC新聞)"
            )

            ai_btn = gr.Button("🧠 開始熱詞總結分析並寫入 Sheet (AI總結)")

            ai_output_log = gr.Textbox(
                label="分析爬取內容與熱詞",
                lines=10,
                interactive=False
            )

            ai_output_summary = gr.Textbox(
                label="Gemini AI 總結結果",
                lines=10,
                interactive=False
            )

            ai_btn.click(
                fn=run_ai_hotword_analysis,
                inputs=[ai_sheet_input, sheet_suffix_input],
                outputs=[ai_output_log, ai_output_summary]
            )


        # 5. 工作表匯出 (Option 5)
        with gr.TabItem("工作表匯出"):
            gr.Markdown("### 匯出指定工作表內容並提供下載")

            with gr.Accordion("📦 單一工作表匯出", open=False):
              export_sheet_input = gr.Textbox(
                label="要匯出資料的單一工作表名稱",
                placeholder="例如：爬蟲結果 (MBC新聞), 熱詞分析結果 (MBC新聞)。工作表名稱可在Google Sheet中查看"
              )

              format_radio_single = gr.Radio(
                ["CSV", "JSON"],
                label="選擇匯出格式",
                value="CSV"
              )

              export_btn_single = gr.Button("⬇️ 讀取並產生下載檔案 (單一工作表)")

              with gr.Row():
                export_file_output_single = gr.File(
                    label="下載檔案",
                    scale=1
                )
                export_log_output_single = gr.Textbox(
                    label="匯出檔案",
                    lines=8,
                    interactive=False,
                    scale=2
                )

              export_btn_single.click(
                fn=run_and_clear_single_export,
                inputs=[export_sheet_input, format_radio_single],
                outputs=[export_file_output_single, export_log_output_single, export_sheet_input]
                )

            gr.Markdown("---")

        # --- 區塊 5.2: 一鍵匯出所有工作表 ---
            with gr.Accordion("🗜️ ZIP 壓縮包匯出 (使用後綴)", open=False):
              gr.Markdown("此功能將使用上方**工作表命名**的 `工作表名稱後綴`，將 `爬蟲結果`、`熱詞分析結果`、`AI總結` 三個工作表壓縮成一個 ZIP 檔案。")

              format_radio_all = gr.Radio(
                ["CSV", "JSON"],
                label="選擇壓縮包內部的檔案格式",
                value="CSV"
              )

              export_btn_all = gr.Button("📦 開始【一鍵匯出】所有相關工作表 (ZIP)")

              with gr.Row():
                export_file_output_all = gr.File(
                    label="下載檔案 (ZIP檔)",
                    scale=1
                )
                export_log_output_all = gr.Textbox(
                    label="匯出檔案",
                    lines=8,
                    interactive=False,
                    scale=2
                )

              export_btn_all.click(
                fn=export_all_by_suffix,
                inputs=[sheet_suffix_input, format_radio_all],
                outputs=[export_file_output_all, export_log_output_all]
                )

In [167]:
demo.launch(debug=True)

It looks like you are running Gradio on a hosted Jupyter notebook, which requires `share=True`. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
* Running on public URL: https://8e0f4cbb67025983f0.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://8e0f4cbb67025983f0.gradio.live


