<a href="https://colab.research.google.com/github/alisonnnnn88/programming_language/blob/main/HW6_AI_%E5%AD%B8%E7%BF%92%E7%AD%86%E8%A8%98%E7%B3%BB%E7%B5%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# -------------------------------
# 安裝必要套件 (Colab 執行一次)
# -------------------------------
!apt install tesseract-ocr -y
!pip install pdfplumber pillow google-auth gspread google-auth-oauthlib google-auth-httplib2 google-generativeai gradio -q

# -------------------------------
# 匯入模組
# -------------------------------
import pdfplumber
import google.generativeai as genai
import gspread
from google.colab import auth
from google.auth import default
from datetime import datetime
import os
import gradio as gr

# -------------------------------
# Google Sheet 認證
# -------------------------------
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

SPREADSHEET_URL = "https://docs.google.com/spreadsheets/d/1h75idXVO6GMosL5bPUF-G76MqxOziHu1tJieRtpdkP4/edit?usp=sharing"
sh = gc.open_by_url(SPREADSHEET_URL)
worksheet_name = "學習筆記"
try:
    ws = sh.worksheet(worksheet_name)
except gspread.exceptions.WorksheetNotFound:
    ws = sh.add_worksheet(title=worksheet_name, rows=100, cols=20)

# -------------------------------
# PDF 文字抓取 (只抓單頁純文字)
# -------------------------------
def extract_text_single_page(pdf_path, page_num=1):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            pages = pdf.pages
            if page_num < 1 or page_num > len(pages):
                return f"⚠️ PDF 總共有 {len(pages)} 頁，輸入頁數超出範圍"
            text = pages[page_num-1].extract_text()
            if not text:
                return "⚠️ 該頁無可抓取文字 (可能是掃描 PDF)"
            return text.strip()
    except Exception as e:
        return f"❌ PDF 擷取失敗：{e}"

# -------------------------------
# AI 生成摘要 + 題目
# -------------------------------
def generate_summary_and_quiz(text, model_name="gemini-2.0-flash"):
    try:
        # 每次呼叫前重新初始化 API Key，避免 Gradio callback 去 localhost
        os.environ['GEMINI_API_KEY'] = "AIzaSyBI639hWVMyMSd4K2dZXVXHftT4sWggNBk"
        genai.configure(api_key=os.environ["GEMINI_API_KEY"])

        model = genai.GenerativeModel(model_name)
        summary_prompt = f"請整理以下內容的重點摘要（條列3-5點）:\n\n{text[:5000]}"
        quiz_prompt = f"根據以下內容出3題簡答題（附答案）:\n\n{text[:5000]}"

        summary_resp = model.generate_content(summary_prompt)
        quiz_resp = model.generate_content(quiz_prompt)

        summary = summary_resp.candidates[0].content.parts[0].text
        quiz = quiz_resp.candidates[0].content.parts[0].text
        return summary.strip(), quiz.strip()
    except Exception as e:
        return f"❌ 生成摘要失敗：{e}", f"❌ 生成題目失敗：{e}"

# -------------------------------
# Gradio 主程式
# -------------------------------
def process_pdf(pdf_file, page_num_str):
    if not pdf_file:
        return "⚠️ 請上傳 PDF", "", ""

    try:
        page_num = int(page_num_str)
    except:
        return "⚠️ 頁數輸入錯誤", "", ""

    pdf_path = pdf_file.name
    text = extract_text_single_page(pdf_path, page_num)
    if text.startswith("⚠️") or text.startswith("❌"):
        return text, "", ""

    # 生成摘要與題目
    summary, quiz = generate_summary_and_quiz(text)

    # 寫入 Google Sheet
    now_str = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    ws.append_row([now_str, pdf_path, summary, quiz])

    return text[:500], summary, quiz

# -------------------------------
# Gradio 介面
# -------------------------------
with gr.Blocks() as demo:
    gr.Markdown("## PDF 單頁摘要 & 題目生成器 (純文字 PDF)")

    with gr.Row():
        pdf_input = gr.File(label="上傳 PDF", file_types=[".pdf"])
        page_input = gr.Textbox(label="頁碼", placeholder="輸入要抓取的頁碼，如 1")

    with gr.Row():
        text_output = gr.Textbox(label="抓到的文字前500字")

    with gr.Row():
        summary_output = gr.Textbox(label="摘要")
        quiz_output = gr.Textbox(label="題目")

    run_btn = gr.Button("生成摘要與題目")
    run_btn.click(
        process_pdf,
        inputs=[pdf_input, page_input],
        outputs=[text_output, summary_output, quiz_output]
    )

demo.launch()

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 41 not upgraded.
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.9/67.9 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.0/60.0 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m54.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m79.9 MB/s[0m eta [36m0:00:00[0m
[?25h

Saving 113學年度第二學期大數據程式設計期中考題_V2_699682e2f964fba04b801c6476d7a473.pdf to 113學年度第二學期大數據程式設計期中考題_V2_699682e2f964fba04b801c6476d7a473.pdf
✅ 已上傳 PDF： 113學年度第二學期大數據程式設計期中考題_V2_699682e2f964fba04b801c6476d7a473.pdf
抓到的文字前500字:
 113 學年度第二學期大數據程式設計期中考題
1. (30%) 請設計一支程式，讀入一串以空白分隔的數字字串，其中可能會有
非數字（如字母、符號）混入，請完成以下步驟：
A. 濾除所有非 1~9 的數字字元（例如字母、0、符號等）。
B. 計算這些有效數字的 平均值、中位數、眾數（多個時皆列出，空白隔
開）、標準差。
1. 標準差度量資料的變異程度，它是各個數據與平均數的差的平方
和的平均數的平方根。計算公式:
C. 最後列出原本輸入中被濾除的無效字元。
限制：不得使用 statistics 或 numpy 函式庫。
範例輸入：
6 7 a 8 9 * 8 7 8 9 0 8 9 7 $ 8 9
範例輸出：
有效數字：6 7 8 9 8 7 8 9 8 9 7 8 9
平均值：7.923
中位數：8
眾數：8
標準差：0.917
無效字元：a * 0 $
2. (30%)請設計一支程式，讀入多筆學生成績資料，每筆資料包含「姓名 分
數」。
請完成：
A. 按成績由高到低排序，並印出「名次、姓名、分數」。
B. 找出：
o 全班成績的 總平均。
o 及格率（分數 ≥ 60）。
o 若全班

=== 摘要 ===


'以下是 113 學年度第二學期大數據程式設計期中考題的重點摘要：\n\n*   **題一：數據清洗與統計計算 (30%)** - 設計程式讀取包含雜訊的數字字串，過濾無效字元，計算有效數字的平均值、中位數、眾數、標準差，並列出被過濾的無效字元 (限制: 不得使用 statistics 或 numpy 函式庫)。\n\n*   **題二：學生成績處理與分析 (30%)** - 設計程式讀取學生姓名與分數，依分數排序後輸出名次，計算全班總平均與及格率，並判斷分數分布是否為「完美分布」。\n\n*   **題三：BMI 計算與分群 (40%)** - 設計程式讀取學生姓名、體重、身高，計算 BMI 值並將學生分組 (A-D)。 輸出每位學生的詳細資訊 (姓名, 身高, 體重, BMI, 群組)，以及各群組人數，若 Group D 無人則印出"Healthy Class!"，否則列出Group D 名單。'


=== 題目 ===


'好的，這是根據您提供的期中考題設計的3道簡答題，附有答案：\n\n**題目 1：資料清理與統計計算**\n\n**問題：**\n\n給定一個包含數字和非數字字元的字串，請簡述如何使用Python程式碼（不使用`statistics`或`numpy`函式庫）完成以下任務：\n\n1.  濾除字串中所有非1~9的數字字元。\n2.  計算濾除後的有效數字的平均值。\n\n**答案：**\n\n1.  **濾除非數字字元：** 首先，將輸入字串以空白分隔成一個字元列表。然後，使用列表推導式，迭代每個字元，只保留 `ch.isdigit() and \'1\' <= ch <= \'9\'`為 True 的數字字元。\n\n2.  **計算平均值：** 計算平均值：對過濾後的數字列表求和，然後除以列表的長度。 注意，要先把過濾後的數字字元轉換為整數。\n\n**程式碼範例：**\n\n```python\ndef calculate_average(input_string):\n    """\n    濾除非數字字元並計算平均值。\n    """\n    numbers = [int(ch) for ch in input_string.split() if ch.isdigit() and \'1\' <= ch <= \'9\'] # 濾除非數字字元，並轉換為整數\n    if not numbers:\n        return 0  # 避免除以零的錯誤\n\n    average = sum(numbers) / len(numbers)\n    return average\n\n# 範例使用\ninput_str = "6 7 a 8 9 * 8 7 8 9 0 8 9 7 $ 8 9"\naverage_value = calculate_average(input_str)\nprint(f"平均值: {average_value}")\n```\n\n**題目 2：學生資料排序與分析**\n\n**問題：**\n\n假設您有一個包含多筆學生姓名和分數的資料，請簡述如何使用Python程式碼完成以下任務：\n\n1.  按照分數由高到低排序。\n2.  計算全班的及格率（分數≥60）。\n\n**答案：**\n\n1.  **排序：**

✅ 已寫入 Google Sheet
