<a href="https://colab.research.google.com/github/alisonnnnn88/programming_language/blob/main/HW6_AI_%E5%AD%B8%E7%BF%92%E7%AD%86%E8%A8%98%E7%B3%BB%E7%B5%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -------------------------------
# 安裝必要套件 (Colab 執行一次)
# -------------------------------
!apt install tesseract-ocr -y
!pip install pdfplumber pdf2image pillow pytesseract gspread google-auth google-auth-oauthlib google-auth-httplib2 google-generativeai -q

# -------------------------------
# 匯入模組
# -------------------------------
import pdfplumber
import pytesseract
from pdf2image import convert_from_path
from PIL import Image
import google.generativeai as genai
import gspread
from google.colab import auth, files
from google.auth import default
import pandas as pd
from datetime import datetime
import os
from IPython.display import display

# -------------------------------
# 設定 Gemini API Key
# -------------------------------
os.environ['GEMINI_API_KEY'] = "AIzaSyCsqzq2lkgo4uDTSkFVsIJgalS4F2tQXo8"
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# -------------------------------
# Google Sheet 認證
# -------------------------------
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

# 替換成你的 Google Sheet URL
SPREADSHEET_URL = "https://docs.google.com/spreadsheets/d/1h75idXVO6GMosL5bPUF-G76MqxOziHu1tJieRtpdkP4/edit?usp=sharing"
sh = gc.open_by_url(SPREADSHEET_URL)
worksheet_name = "學習筆記"
try:
    ws = sh.worksheet(worksheet_name)
except gspread.exceptions.WorksheetNotFound:
    ws = sh.add_worksheet(title=worksheet_name, rows=100, cols=20)

# -------------------------------
# PDF 上傳
# -------------------------------
uploaded = files.upload()
pdf_path = list(uploaded.keys())[0]
print("✅ 已上傳 PDF：", pdf_path)

# -------------------------------
# PDF 文字抓取
# -------------------------------
def extract_text(pdf_path, page_num=None):
    text = ""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            pages = pdf.pages
            if page_num:
                pages = [pages[int(page_num)-1]]
            for p in pages:
                t = p.extract_text()
                if t:
                    text += t + "\n"

        # 如果抓不到文字，用 OCR
        if not text.strip():
            pages_images = convert_from_path(pdf_path)
            if page_num:
                pages_images = [pages_images[int(page_num)-1]]
            for img in pages_images:
                text += pytesseract.image_to_string(img, lang="chi_sim+eng") + "\n"

    except Exception as e:
        return f"❌ PDF 擷取失敗：{e}"
    return text.strip()

# -------------------------------
# AI 生成摘要 + 題目
# -------------------------------
def generate_summary_and_quiz(text, model_name="gemini-2.0-flash"):
    try:
        model = genai.GenerativeModel(model_name)

        summary_prompt = f"請整理以下內容的重點摘要（條列3-5點）:\n\n{text[:5000]}"
        quiz_prompt = f"根據以下內容出3題簡答題（附答案）:\n\n{text[:5000]}"

        summary_resp = model.generate_content(summary_prompt)
        quiz_resp = model.generate_content(quiz_prompt)

        summary = summary_resp.candidates[0].content.parts[0].text
        quiz = quiz_resp.candidates[0].content.parts[0].text

        return str(summary).strip(), str(quiz).strip()

    except Exception as e:
        return f"❌ 生成摘要失敗：{e}", f"❌ 生成題目失敗：{e}"

# -------------------------------
# 選頁抓文字
# -------------------------------
page_num = None  # None 表示抓全篇，也可以設成 1,2,3...
text = extract_text(pdf_path, page_num)

if not text:
    print("⚠️ 無法抓取文字")
else:
    print("抓到的文字前500字:\n", text[:500])

    summary, quiz = generate_summary_and_quiz(text)

    print("\n=== 摘要 ===")
    display(summary)
    print("\n=== 題目 ===")
    display(quiz)

    # -------------------------------
    # 寫入 Google Sheet
    # -------------------------------
    import pytz
    from datetime import datetime

    tz = pytz.timezone("Asia/Taipei")
    now = datetime.now(tz)
    now_str = now.strftime("%Y-%m-%d %H:%M:%S")

    ws.append_row([now_str, pdf_path, summary, quiz])
    print("✅ 已寫入 Google Sheet")

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 41 not upgraded.


Saving export.pdf to export (1).pdf
✅ 已上傳 PDF： export (1).pdf
抓到的文字前500字:
 學號:41371106H 列印時間:2025/11/06 10:17
姓名:葉恩瑀 系所:科技系（學） 2年級 甲班
星期一(MON) 星期二(TUE) 星期三(WED) 星期四(THU) 星期五(FRI) 星期六(SAT)
00
07:10 - 08:00
01
08:10 - 09:00
02
大數據程式設計 網際網路概論 程式語言
09:10 - 10:00 教401 科技系TB311教室 科技系TB311教室
03
大數據程式設計 網際網路概論 體育（桌球初級） 程式語言 線性代數
10:20 - 11:10 教401 科技系TB311教室 桌球室 科技系TB311教室 Ｅ102
04
大數據程式設計 網際網路概論 體育（桌球初級） 程式語言 線性代數
11:20 - 12:10 教401 科技系TB311教室 桌球室 科技系TB311教室 Ｅ102
05
12:20 - 13:10
06
英文（三）：專業英語
簡報
13:20 - 14:10 正201
07
英文（三）：專業英語
線性代數
簡報
14:20 - 15:10 Ｅ102 正201
08
日語（二）
15:30 -

=== 摘要 ===


'*   **學生資訊：** 葉恩瑀，學號 41371106H，科技系二年級甲班學生。\n*   **核心課程：** 主要課程包含大數據程式設計、網際網路概論、程式語言、線性代數。\n*   **多元選修：** 選修課程包含體育（桌球初級）、英文（三）：專業英語、簡報、日語（二）、網際網路程式設計、作業系統。\n*   **時間衝突注意：** 國立臺灣大學系統學校A至D節、其他學校校際選課課程上課時間與本校不同，節次時間僅供參考，實際上課時間以系統學校為準。'


=== 題目 ===


'以下提供三道簡答題，並附上答案：\n\n**第一題：**\n\n*   **問題：** 葉恩瑀星期四下午 14:20 - 15:10 上什麼課？教室在哪裡？\n*   **答案：** 線性代數，教室在 E102。\n\n**第二題：**\n\n*   **問題：** 葉恩瑀星期二有哪些課程在 TB311 教室上課？\n*   **答案：** 網際網路概論。\n\n**第三題：**\n\n*   **問題：** 葉恩瑀星期一有哪兩節課是在正202教室上課？分別在什麼時間？\n*   **答案：** 日語(二)，時間是 15:30 - 16:20 和 16:30 - 17:20。'

✅ 已寫入 Google Sheet
