# 建立環境


In [1]:
!pip install pandas



# 開始進行OCR，並且彙整進excel中

In [2]:
import pandas as pd

In [3]:
from google.colab import drive
import os
from PIL import Image

# 掛載 Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# 安裝 Tesseract OCR 引擎（系統層級）
!apt install tesseract-ocr -y

# 安裝 Python 的 pytesseract 套件（Python 介面）
!pip install pytesseract

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 35 not upgraded.
Collecting pytesseract
  Downloading pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Downloading pytesseract-0.3.13-py3-none-any.whl (14 kB)
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.13


In [5]:
import pytesseract

In [6]:
!apt update
!apt install -y tesseract-ocr-chi-tra

[33m0% [Working][0m            Get:1 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
Get:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Get:6 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Hit:7 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:8 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease [24.3 kB]
Get:9 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:11 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [1,801 kB]
Get:12 https://r2u.stat.illinois.edu/ubuntu jammy/main amd64 Packages [2,750 kB]
Ge

In [7]:
# 確保所有必要的庫都已導入
import pandas as pd
import os
from PIL import Image
from natsort import natsorted # Import natsorted for natural sorting

# !apt update
# !apt install tesseract-ocr -y
# !apt install -y tesseract-ocr-chi-tra
# Install natsort if not already installed
!pip install natsort


# --- 第一個任務：將資料夾從 Google Drive 複製到 Google Colab ---
# 定義 Google Drive 中的資料夾路徑
drive_folder_path = '/content/drive/MyDrive/大三/下/AI導論/詐騙正常對話資料集'
# 定義 Colab 中的目標路徑
colab_folder_path = '/content/詐騙正常對話資料集_colab'

# 創建 Colab 中的目標資料夾，如果它不存在的話
os.makedirs(colab_folder_path, exist_ok=True)

# 複製檔案
# 使用 rsync 可以更有效地複製，特別是當檔案數量多時
print(f"正在從 '{drive_folder_path}' 複製資料夾到 '{colab_folder_path}'...")
!rsync -av "{drive_folder_path}/" "{colab_folder_path}/"
print("資料夾複製完成。")

# --- 第二個任務：進行 OCR，辨識圖片中的中文字 ---
# 獲取資料夾中所有圖片檔案的路徑
image_files = [os.path.join(colab_folder_path, f) for f in os.listdir(colab_folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
image_files = natsorted(image_files) # 使用 natsorted 進行自然排序

print(f"\n在 '{colab_folder_path}' 中找到 {len(image_files)} 張圖片。")
if not image_files:
    print("錯誤：沒有找到任何圖片檔案。請檢查資料夾路徑和圖片副檔名。")
    print("請確認你的圖片檔案是 .png, .jpg, .jpeg, .gif, 或 .bmp 格式。")
    print("也請確認 '詐騙正常對話資料集' 資料夾確實存在於你的 Google Drive 根目錄。")

# 儲存 OCR 結果的列表
# 每個元素會是一個字典，包含圖片名稱和辨識出的文字
ocr_results_list = []

print("\n開始進行 OCR 辨識，這可能需要一些時間...")
for i, image_path in enumerate(image_files):
    filename = os.path.basename(image_path)
    try:
        img = Image.open(image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_results_list.append({'檔名': filename, '辨識內容': text.strip()})
        print(f"已處理圖片 {i+1}/{len(image_files)}: {filename}")
        if text.strip():
            print(f"  OCR 成功，部分文字: \"{text.strip()[:50]}...\"") # 顯示前50個字
        else:
            print(f"  OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰或 Tesseract 無法辨識。")
    except Exception as e:
        ocr_results_list.append({'檔名': filename, '辨識內容': f"處理圖片失敗: {e}"})
        print(f"處理圖片 {i+1}/{len(image_files)} 失敗: {filename} - 錯誤: {e}")

print("\nOCR 辨識完成。")

# 為了方便查看 OCR 結果，我們將其暫時顯示出來
if ocr_results_list:
    ocr_df = pd.DataFrame(ocr_results_list)
    print("\n--- OCR 辨識結果預覽 (前5筆) ---")
    print(ocr_df.head())
    print(f"總共辨識了 {len(ocr_df)} 筆圖片。")
else:
    print("\n沒有任何 OCR 辨識結果，請檢查是否有圖片被處理。")

正在從 '/content/drive/MyDrive/大三/下/AI導論/詐騙正常對話資料集' 複製資料夾到 '/content/詐騙正常對話資料集_colab'...
sending incremental file list
./
正常對話1.jpg
正常對話10.jpg
正常對話11.jpg
正常對話12.jpg
正常對話13.PNG
正常對話14.PNG
正常對話15.PNG
正常對話16.PNG
正常對話17.PNG
正常對話18.jpg
正常對話19.jpg
正常對話2.jpg
正常對話20.PNG
正常對話3.jpg
正常對話4.jpg
正常對話5.jpg
正常對話6.jpg
正常對話7.jpg
正常對話8.jpg
正常對話9.jpg
詐騙對話-1.jpg
詐騙對話-10.jpg
詐騙對話-11.jpg
詐騙對話-12.jpg
詐騙對話-13.jpg
詐騙對話-14.jpg
詐騙對話-15.jpg
詐騙對話-16.jpg
詐騙對話-17.jpg
詐騙對話-18.jpg
詐騙對話-19.jpg
詐騙對話-2.jpg
詐騙對話-20.jpg
詐騙對話-21.jpg
詐騙對話-22.jpg
詐騙對話-23.jpg
詐騙對話-24.jpg
詐騙對話-25.jpg
詐騙對話-26.jpg
詐騙對話-27.jpg
詐騙對話-28.jpg
詐騙對話-29.jpg
詐騙對話-3.jpg
詐騙對話-30.jpg
詐騙對話-31.jpg
詐騙對話-32.jpg
詐騙對話-33.jpg
詐騙對話-34.jpg
詐騙對話-35.jpg
詐騙對話-36.jpg
詐騙對話-37.jpg
詐騙對話-38.jpg
詐騙對話-39.jpg
詐騙對話-4.jpg
詐騙對話-40.jpg
詐騙對話-41.jpg
詐騙對話-42.jpg
詐騙對話-43.jpg
詐騙對話-44.JPG
詐騙對話-45.PNG
詐騙對話-46.PNG
詐騙對話-47.JPG
詐騙對話-48.JPG
詐騙對話-49.JPG
詐騙對話-5.jpg
詐騙對話-50.jpg
詐騙對話-51.jpg
詐騙對話-52.jpg
詐騙對話-53.jpg
詐騙對話-54.jpg
詐騙對話-55.jpg
詐騙對話-56.jpg
詐騙對話-57.jpg
詐騙對話-58.jpg
詐騙對話-59.jpg
詐騙對話-6.jpg
詐騙對話

In [8]:
import pandas as pd
import os

# 假設你已經執行了前面的 OCR 程式碼，並且 `ocr_results_list` 包含了辨識結果。
# 為了讓這段程式碼可以獨立運行（在斷開 Colab 後），我將重新載入 Colab 資料夾中的圖片
# 並再次進行 OCR，確保資料存在。
# 如果你在同一個 Colab Session 中連續執行，前面的 ocr_results_list 應該是可用的。

# --- 重新確認資料夾路徑和圖片檔案（如果是在新的 Colab Session 中運行） ---
colab_folder_path = '/content/詐騙正常對話資料集_colab'

# 如果你的 Colab Session 中斷了，你需要重新掛載 Drive 和複製檔案：
# from google.colab import drive
# drive.mount('/content/drive')
# drive_folder_path = '/content/drive/MyDrive/詐騙正常對話資料集'
# !rsync -av "{drive_folder_path}/" "{colab_folder_path}/"

# 獲取資料夾中所有圖片檔案的路徑
image_files = [os.path.join(colab_folder_path, f) for f in os.listdir(colab_folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
from natsort import natsorted
image_files = natsorted(image_files) # 使用自然排序確保順序一致

# 如果 ocr_results_list 不存在（例如，你重新開啟了 Colab），則需要重新執行 OCR
# 否則，我們可以假設它已經在記憶體中
if 'ocr_results_list' not in locals():
    import pytesseract
    from PIL import Image
    ocr_results_list = []
    print("由於 'ocr_results_list' 不在記憶體中，將重新進行 OCR 辨識...")
    for i, image_path in enumerate(image_files):
        filename = os.path.basename(image_path)
        try:
            img = Image.open(image_path)
            text = pytesseract.image_to_string(img, lang='chi_tra')
            ocr_results_list.append({'檔名': filename, '辨識內容': text.strip()})
        except Exception as e:
            ocr_results_list.append({'檔名': filename, '辨識內容': f"處理圖片失敗: {e}"})
    print("重新 OCR 辨識完成。")

# --- 創建 DataFrame ---
# 將 OCR 結果轉換為 Pandas DataFrame
df = pd.DataFrame(ocr_results_list)

# 重新命名欄位以符合 Excel 的要求
df = df.rename(columns={'辨識內容': '對話內容'})

# 添加「對話類型」欄位並預設為空值，等待手動標記
df['對話類型'] = ''

# 為了更方便地識別和追蹤，可以根據檔名加入初步的「對話類型」標記
# 這是一個根據檔案名稱（例如包含 "詐騙" 或 "正常"）進行初步判斷的邏輯
# 你可以根據你的檔案命名規則調整
for i, row in df.iterrows():
    filename = row['檔名']
    if "詐騙" in filename:
        df.loc[i, '對話類型'] = '詐騙'
    elif "正常" in filename:
        df.loc[i, '對話類型'] = '正常'
    else:
        df.loc[i, '對話類型'] = '待標記' # 如果檔名沒有明確指示，則標記為「待標記」


# 檢查 DataFrame 是否有資料
print("\n--- DataFrame 預覽 (前5行) ---")
print(df.head())
print(f"DataFrame 總共有 {len(df)} 筆資料。")

# --- 匯出到 Excel ---
excel_output_path = '/content/對話辨識結果.xlsx'

try:
    # 選擇需要的欄位並按照指定順序寫入 Excel
    # '對話內容' 會在 A 欄，'對話類型' 會在 B 欄
    df[['對話內容', '對話類型']].to_excel(excel_output_path, index=False, sheet_name='對話紀錄', startrow=0)
    print(f"\n成功將 OCR 結果匯出至 Excel 檔案：'{excel_output_path}'")
    print("請下載此 Excel 檔案，並在 '對話類型' 欄位中手動標記每條對話是 '詐騙' 還是 '正常'。")
except Exception as e:
    print(f"寫入 Excel 檔案失敗: {e}")


--- DataFrame 預覽 (前5行) ---
          檔名                                               對話內容 對話類型
0  正常對話1.jpg  22:57                        (0) sg人\n\n加\n放 全...   正常
1  正常對話2.jpg  12:00                              aa 4G 构\n\n...   正常
2  正常對話3.jpg  入            ,ml 5G 太\n《  G2 Sun Happy Lee    ...   正常
3  正常對話4.jpg  呵 你的電波我約好了 12 / 615:00 林口長庚...\n下 “了上百2吳/林~\n\...   正常
4  正常對話5.jpg  12:00                              aa 4G 构\n\n...   正常
DataFrame 總共有 104 筆資料。

成功將 OCR 結果匯出至 Excel 檔案：'/content/對話辨識結果.xlsx'
請下載此 Excel 檔案，並在 '對話類型' 欄位中手動標記每條對話是 '詐騙' 還是 '正常'。


# 讀取OCR過後的csv檔


In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json

In [10]:
import pandas as pd
from google.colab import files

# --- Upload the CSV file ---
print("請上傳您的 CSV 檔案。")
uploaded = files.upload() # This will open a file selection dialog

# Get the name of the uploaded file
csv_file_name = next(iter(uploaded))
print(f"檔案 '{csv_file_name}' 已成功上傳。")

# --- Read the CSV file into a Pandas DataFrame with specified encoding ---
try:
    # First, try 'Big5' for Traditional Chinese
    df = pd.read_csv(csv_file_name, encoding='Big5')
    print("\nCSV 檔案已成功讀取到 DataFrame 中 (使用 Big5 編碼)。")

    # --- Display the DataFrame as a table ---
    print("\n以下是您的資料表格：")
    from IPython.display import display
    display(df)

except UnicodeDecodeError:
    # If Big5 fails, try 'GBK' (another common encoding for Chinese)
    try:
        df = pd.read_csv(csv_file_name, encoding='GBK')
        print("\nCSV 檔案已成功讀取到 DataFrame 中 (使用 GBK 編碼)。")
        # --- Display the DataFrame as a table ---
        print("\n以下是您的資料表格：")
        from IPython.display import display
        display(df)
    except Exception as e_gbk:
        print(f"讀取 CSV 檔案時發生錯誤：{e_gbk}")
        print("嘗試 Big5 和 GBK 編碼都失敗了。請確認您的檔案是有效的 CSV 格式，或者嘗試在保存 CSV 時明確指定為 UTF-8 編碼。")
except Exception as e:
    print(f"讀取 CSV 檔案時發生錯誤：{e}")
    print("請確認您的檔案是有效的 CSV 格式。")

請上傳您的 CSV 檔案。


Saving 對話辨識結果.csv to 對話辨識結果.csv
檔案 '對話辨識結果.csv' 已成功上傳。

CSV 檔案已成功讀取到 DataFrame 中 (使用 Big5 編碼)。

以下是您的資料表格：


Unnamed: 0,對話內容,對話類型
0,22:57 (0) sg人\n\n加\n放 全...,正常
1,12:00 aa 4G 构\n\n...,正常
2,"入 ,ml 5G 太\n《 G2 Sun Happy Lee ...",正常
3,呵 你的電波我約好了 12 / 615:00 林口長庚...\n下 “了上百2吳/林~\n\...,正常
4,12:00 aa 4G 构\n\n...,正常
...,...,...
99,詐騙還有這麼大的權利來凍結我帳戶\n嗎\n\n姊 我們交易憑證都在 你什麼意思\n\n...,詐騙
100,他:宵 ai 5G !\n 表 Nicki Baker.rec...,詐騙
101,23:07 ai 5G\n...,詐騙
102,",l 5G !\n< 全 ms 《A。 全\n\n關於已收回訊息的提醒\n\...",詐騙


# 開始進行openai及finetuning


In [11]:
!pip install openai



In [12]:
from openai import OpenAI

In [13]:
from openai import OpenAI
client = OpenAI(api_key="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")

response = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role":"system", "content":"你是一個人工智慧詐騙與正常訊息辨識助手，你可以幫我辨識我上傳的照片是詐騙對話還是正常對話。請你不要加入其他訊息與資訊，只要給我最原始的資料即可，不用做過多解釋."},
                {"role": "user", "content":"我上傳的對話內容截圖在這里:"},
                {"role": "assistant", "content": "告訴我是詐騙對話還是正常對話"}]
    )


In [14]:
response.choices[0].message.content

'抱歉，我無法查看或辨識圖片。请用文字描述對話內容，我可以幫你分析是詐騙對話還是正常對話。'

In [15]:
result = []

for i in range(107):

  response = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role":"system", "content":"你是一個人工智慧詐騙與正常訊息辨識助手，你可以幫我辨識我上傳的照片是詐騙對話還是正常對話。請你不要加入其他訊息與資訊，只要給我最原始的資料即可，不用做過多解釋."},
                {"role": "user", "content":"我上傳的對話內容截圖在這里:"},
                {"role": "assistant", "content": "告訴我是詐騙對話還是正常對話"}]
    )

  print(response.choices[0].message.content)
  result.append(response.choices[0].message.content)

抱歉，我無法查看或分析圖片。请提供對話的文字內容，我將幫您判斷是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片內容，請用文字描述對話內容，我將幫您辨識是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片。如果你能夠輸入對話文字內容，我可以幫助你判斷是詐騙對話還是正常對話。
抱歉，我無法查看圖片或內容。请提供文字內容給我，我可以幫您辨識是詐騙對話還是正常對話。
抱歉，我無法查看圖片或對話內容。如果你可以提供文字格式的對話內容，我可以幫你分辨是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片。請提供文字格式的對話內容，我可以幫你辨識是詐騙對話還是正常對話。
對話是詐騙對話。
對話內容屬於詐騙對話
對不起，我無法查看截圖。請你將對話內容以文字形式輸入或摘要說明，我可以幫你辨識是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片內容。請提供文字版的對話內容，我可以幫你辨識是否為詐騙對話或正常對話。
這是一個詐騙對話
抱歉，我無法查看圖片。請直接複製並粘貼對話內容。
很抱歉，我無法查看或分析圖像。請複製並粘貼對話文本內容，我可以幫助您進行分析。
對話內容為詐騙對話
抱歉，我無法查看或分析圖片。請將文字內容直接複製並貼上在這裡，我將幫您辨識是詐騙對話還是正常對話。
這是一則詐騙對話
抱歉，我無法查看圖片或內容。你可以提供對話的文字內容，我可以幫你辨識是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片內容。請提供文字形式的對話內容，我可以幫您判斷是詐騙對話還是正常對話。
對不起，我無法查看圖片或任何上傳文件。請透過文字描述或摘要提供對話內容，我將協助您辨識是詐騙對話還是正常對話。
抱歉，我需要看到你上傳的對話截圖才能幫你辨識是詐騙對話還是正常對話。請再次上傳對話截圖供我辨識，謝謝。
抱歉，我無法查看圖片或對話內容。你可以簡單描述一下對話內容嗎？我來幫你判斷是詐騙對話還是正常對話。
抱歉，我無法查看或分析上傳的圖片。請提供文字內容，我可以幫您辨識是詐騙對話還是正常對話。
對話內容為詐騙對話。
抱歉，我無法查看或分析圖片。請將對話文字內容複製並粘貼在這裡，我可以幫你辨識是詐騙對話還是正常對話。
對話內容為詐騙對話。
抱歉，我無法查看圖片或進行任何形式的視覺辨識。請提供文字描述或摘要，我將協助你辨識是詐騙對話還是正常對話。
抱歉，我無法查看或分析圖片上的內容。如果你可以提供對話

# gpt-3.5-turbo的準確率(104初始資料)

In [15]:
import time # 用於延遲，改善使用者體驗
import os   # 用於文件路徑操作
from google.colab import drive # 用於掛載 Google Drive
from PIL import Image # 用於圖片處理
import pytesseract # 用於 OCR
from openai import OpenAI # 用於 OpenAI API
import re # 導入正則表達式模組
from natsort import natsorted # 確保已安裝: !pip install natsort
import pandas as pd # 導入 pandas 以便顯示 DataFrame

# --- 1. 配置 API 金鑰和微調模型 ID ---
# 請將這裡的 API 金鑰替換為您自己的有效金鑰
client = OpenAI(api_key="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") # 請確保這是您的正確API金鑰

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
# 使用 ! 前綴在 Colab 中執行 shell 命令
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
!pip install natsort > /dev/null # 確保 natsort 也安裝了
print("OCR 環境設定完成。")

# --- 3. 掛載 Google Drive 並定義資料夾路徑 ---
print("\n正在掛載 Google Drive...")
drive.mount('/content/drive')
print("Google Drive 掛載完成。")

# 指定您的 Google Drive 資料夾路徑
drive_folder_path = '/content/drive/MyDrive/大三/下/AI導論/詐騙正常對話資料集' # 請確保這是您要讀取的資料夾路徑

# 輔助函數：從文字中提取簡化標籤 (例如 '正常' 或 '詐騙')
def get_simplified_label(text):
    if isinstance(text, str): # 確保輸入是字串
        text_lower = text.lower()
        if "正常" in text_lower:
            return "正常"
        elif "詐騙" in text_lower:
            return "詐騙"
    return "未知"

# 檢查資料夾是否存在
if not os.path.exists(drive_folder_path):
    print(f"錯誤：指定的資料夾 '{drive_folder_path}' 不存在。請檢查路徑是否正確。")
else:
    print(f"\n將從資料夾 '{drive_folder_path}' 中讀取圖片進行辨識。")
    # 獲取資料夾中所有圖片檔案
    image_files = [os.path.join(drive_folder_path, f) for f in os.listdir(drive_folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
    image_files = natsorted(image_files) # 對圖片路徑進行自然排序

    if not image_files:
        print("在指定的資料夾中沒有找到任何圖片檔案。請確保資料夾中包含圖片。")
    else:
        print(f"找到 {len(image_files)} 張圖片，開始依序處理...")

        # 用於儲存每個圖片的真實標籤、OCR內容、模型預測和是否準確
        evaluation_results = []
        total_processed_images = 0 # 實際處理的圖片數量 (有有效標籤)
        successful_ocr_count = 0
        successful_api_calls = 0

        # 遍歷資料夾中的每張圖片
        for i, full_image_path in enumerate(image_files):
            image_file_name = os.path.basename(full_image_path)
            print(f"\n--- 正在處理圖片 {i+1}/{len(image_files)}: '{image_file_name}' ---")

            # 從檔名中提取真實標籤 (Ground Truth)
            true_label_full = "未知對話" # 原始真實標籤
            true_label_simplified = "未知" # 簡化後的真實標籤 (正常/詐騙)

            # 假設檔名中包含 "正常對話" 代表正常，包含 "詐騙對話" 代表詐騙。
            if re.search(r'正常對話', image_file_name, re.IGNORECASE):
                true_label_full = "正常對話"
                true_label_simplified = "正常"
            elif re.search(r'詐騙對話', image_file_name, re.IGNORECASE):
                true_label_full = "詐騙對話"
                true_label_simplified = "詐騙"
            else:
                print(f"警告: 檔名 '{image_file_name}' 未能明確判斷為 '正常對話' 或 '詐騙對話'。將跳過此圖片的準確率計算。")
                continue # 跳過無法判斷真實標籤的圖片

            total_processed_images += 1 # 只有當檔名可判斷時才計入處理數量

            # --- 4. 運行 OCR 辨識圖片中的文字 ---
            print("正在進行 OCR 辨識，請稍候...")
            ocr_text = "OCR 失敗或無文字" # 初始化為錯誤狀態
            try:
                img = Image.open(full_image_path)
                # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
                ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
                ocr_text = ocr_text.strip() # 移除多餘的空白字符

                # 檢查 OCR 辨識出的文字是否足夠有效
                if ocr_text and len(ocr_text) > 10: # 設定一個最小長度閾值，避免過短的辨識結果
                    print("OCR 辨識成功！")
                    successful_ocr_count += 1
                else:
                    print(f"OCR 成功，但辨識出的文字過少或為空: '{ocr_text}'。")
                    ocr_text = "未辨識出有效文字" # 提供一個更明確的標識

            except Exception as e:
                print(f"OCR 辨識失敗，圖片 '{image_file_name}'：{e}")
                ocr_text = f"OCR 錯誤: {e}" # 包含錯誤訊息

            print(f"OCR 辨識內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")


            # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
            model_prediction_raw = "模型未回應" # 儲存模型原始回覆
            model_prediction_simplified = "未知" # 儲存簡化後的模型預測 (正常/詐騙)
            is_correct = False

            # 只有當 OCR 辨識出有效文字時才呼叫模型
            if ocr_text and ocr_text != "未辨識出有效文字" and not ocr_text.startswith("OCR 錯誤"):
                print("正在將文字送入微調模型進行判斷，請稍候...")
                time.sleep(1) # 在這邊稍微延遲一下，讓使用者體驗更好

                try:
                    response_model = client.chat.completions.create(
                        model=fine_tuned_model_id,
                        messages=[
                            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一段聊天對話文字，並將其判斷為『詐騙對話』還是『正常對話』。請只輸出『詐騙對話』或『正常對話』，不要包含任何額外文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                            {"role": "user", "content": "請根據以下聊天對話內容判斷是詐騙對話還是正常對話：" + ocr_text} # 使用 OCR 辨識出的文字，並優化 User Prompt
                        ],
                        max_tokens=50, # 限制生成長度
                        temperature=0 # 設置 temperature 為 0，讓模型輸出更確定
                    )

                    model_prediction_raw = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白
                    model_prediction_simplified = get_simplified_label(model_prediction_raw) # 簡化模型預測
                    successful_api_calls += 1

                    # --- 6. 顯示最終判斷結果 ---
                    print("\n--- 最終判斷結果 ---")
                    # 判斷是否準確：比較簡化後的真實標籤和簡化後的模型預測
                    if true_label_simplified == model_prediction_simplified and true_label_simplified != "未知":
                        is_correct = True
                    else:
                        is_correct = False

                    if "詐騙" in model_prediction_simplified: # 檢查簡化回覆是否包含「詐騙」
                        print(f"高機率為詐騙，請提高警覺！ (模型預測: '{model_prediction_raw}')")
                    elif "正常" in model_prediction_simplified: # 檢查簡化回覆是否包含「正常」
                        print(f"低機率為詐騙，請放心談話 (模型預測: '{model_prediction_raw}')")
                    else:
                        print(f"模型回覆不明確：'{model_prediction_raw}'。請檢查模型輸出。")

                except Exception as e:
                    print(f"呼叫微調模型進行判斷時發生錯誤，圖片 '{image_file_name}'：{e}")
                    print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")
                    model_prediction_raw = f"API 錯誤: {e}" # 標記模型預測為錯誤
                    model_prediction_simplified = "API 錯誤" # 簡化標籤也設為錯誤

            else:
                model_prediction_raw = "OCR 無法提供有效文字，未呼叫模型"
                model_prediction_simplified = "無文字" # 簡化標籤
                print("OCR 無法提供有效文字，跳過模型呼叫。")

            # 將本次處理結果添加到列表中
            evaluation_results.append({
                '檔名': image_file_name,
                '真實標籤': true_label_full, # 儲存原始完整標籤
                'OCR內容': ocr_text[:200], # 顯示前200字
                '模型預測': model_prediction_raw, # 儲存模型的原始回覆
                '是否準確': '是' if is_correct else '否'
            })

            print("\n" + "="*50 + "\n") # 分隔線，便於區分不同圖片的處理結果

        print("\n所有圖片處理完成。")

        # --- 5. 顯示結果並計算總體準確率 ---
        if not evaluation_results:
            print("沒有任何可以計算準確率的結果。請檢查資料夾是否有圖片且檔名正確。")
        else:
            correct_count = sum(1 for res in evaluation_results if res['是否準確'] == '是')

            # 計算有效參與準確率計算的圖片數量 (成功呼叫模型且模型有明確預測)
            # 這裡我們基於簡化後的模型預測來判斷是否為有效結果
            effective_evaluations = sum(1 for res in evaluation_results if get_simplified_label(res['模型預測']) in ["詐騙", "正常"])

            accuracy = (correct_count / effective_evaluations) * 100 if effective_evaluations > 0 else 0

            print("\n--- 詳細評估結果 ---")
            # 將結果轉換為 DataFrame 以便顯示
            results_df = pd.DataFrame(evaluation_results)
            from IPython.display import display
            display(results_df)

            print("\n--- 總體準確率 ---")
            print(f"總共處理圖片數量 (有有效標籤): {total_processed_images}")
            print(f"成功進行 OCR 辨識的圖片數量: {successful_ocr_count}")
            print(f"成功呼叫模型 API 的次數: {successful_api_calls}")
            print(f"有效參與準確率計算的圖片數量 (成功呼叫模型並有明確預測): {effective_evaluations}")
            print(f"準確辨識的圖片數量: {correct_count}")
            print(f"最終辨識準確率: {accuracy:.2f}%")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

正在掛載 Google Drive...
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Google Drive 掛載完成。

將從資料夾 '/content/drive/MyDrive/大三/下/AI導論/詐騙正常對話資料集' 中讀取圖片進行辨識。
找到 104 張圖片，開始依序處理...

--- 正在處理圖片 1/104: '正常對話1.jpg' ---
正在進行 OCR 辨識，請稍候...
OCR 辨識成功！
OCR 辨識內容 (前200字):
---
22:57                        (0) sg人

加
放 全 全           和到 「

 

1
還1

 

https://myship.7-11.com.tw/cart/
Te

 

世還2丰
所國Mi

5月11日 18:09

 

(0
 主廬

 

了E作1條避廬上克且生加,

 

0
---
正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！ (模型預測: '詐騙')



--- 正在處理圖片 2/104: '正常對話2.jpg' ---
正在進行 OCR 辨識，請稍候...
OCR 辨識成功！
OCR 辨識內容 (前200字):
---
12:00                              aa 4G 构

寢           jpy879mdbc                      o

Unnamed: 0,檔名,真實標籤,OCR內容,模型預測,是否準確
0,正常對話1.jpg,正常對話,22:57 (0) sg人\n\n加\n放 全...,詐騙,否
1,正常對話2.jpg,正常對話,12:00 aa 4G 构\n\n...,正常,是
2,正常對話3.jpg,正常對話,"入 ,ml 5G 太\n《 G2 Sun Happy Lee ...",詐騙,否
3,正常對話4.jpg,正常對話,呵 你的電波我約好了 12 / 615:00 林口長庚...\n下 “了上百2吳/林~\n\...,詐騙,否
4,正常對話5.jpg,正常對話,12:00 aa 4G 构\n\n...,正常,是
...,...,...,...,...,...
99,詐騙對話-80.PNG,詐騙對話,詐騙還有這麼大的權利來凍結我帳戶\n嗎\n\n姊 我們交易憑證都在 你什麼意思\n\n...,詐騙,是
100,詐騙對話-葉家宜2.jpg,詐騙對話,他:宵 ai 5G !\n 表 Nicki Baker.rec...,詐騙,是
101,詐騙對話-葉家宜3.jpg,詐騙對話,23:07 ai 5G\n...,詐騙,是
102,詐騙對話-葉家宜4.jpg,詐騙對話,",l 5G !\n< 全 ms 《A。 全\n\n關於已收回訊息的提醒\n\...",詐騙,是



--- 總體準確率 ---
總共處理圖片數量 (有有效標籤): 104
成功進行 OCR 辨識的圖片數量: 103
成功呼叫模型 API 的次數: 103
有效參與準確率計算的圖片數量 (成功呼叫模型並有明確預測): 103
準確辨識的圖片數量: 97
最終辨識準確率: 94.17%


In [None]:
import pandas as pd
import json
import os

# 確保你已經成功將 CSV 檔案讀取到一個名為 'df' 的 DataFrame 中
# 如果你的 Colab Session 中斷了，請確保重新執行讀取 CSV 的部分：
# from google.colab import files
# print("請上傳您的 CSV 檔案。")
# uploaded = files.upload()
# csv_file_name = next(iter(uploaded)) # 獲取上傳的檔案名稱
# df = pd.read_csv(csv_file_name, encoding='Big5') # 確保使用正確的編碼

# --- 檢查 DataFrame 的欄位名稱 (除錯用，可選) ---
print("你的 DataFrame 欄位名稱如下：")
print(df.columns)
print("\n--- 開始格式化資料 ---")

# Create a list to hold each formatted dialogue
my_jsonl_data = []

for index, row in df.iterrows():
    dialogue_entry = {
        "messages": [
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content":"對話內容是：" + str(row['對話內容'])}, # <--- 這裡，將 'message_content' 替換為 '對話內容'
            {"role": "assistant", "content": str(row['對話類型'])} # <--- 這裡，將 'message_type' 替換為 '對話類型'
        ]
    }
    my_jsonl_data.append(dialogue_entry)

# 打印出第一筆資料確認格式是否正確
if my_jsonl_data:
    print("\n第一筆格式化後的資料：")
    print(my_jsonl_data[0])
else:
    print("\n沒有資料被格式化，請檢查 DataFrame 是否為空。")


# 如果你想保存成 JSONL 檔案，可以這樣做：
output_jsonl_path = '/content/fine_tuning_data.jsonl'
try:
    with open(output_jsonl_path, 'w', encoding='utf-8') as f:
        for entry in my_jsonl_data:
            json.dump(entry, f, ensure_ascii=False) # ensure_ascii=False 確保中文正常寫入
            f.write('\n') # 每個 JSON 物件佔一行

    print(f"\n資料已成功保存到 '{output_jsonl_path}'")
    print("你可以在 Colab 左側的檔案圖示中找到並下載這個檔案。")
except Exception as e:
    print(f"\n保存 JSONL 檔案時發生錯誤：{e}")

你的 DataFrame 欄位名稱如下：
Index(['對話內容', '對話類型'], dtype='object')

--- 開始格式化資料 ---

第一筆格式化後的資料：
{'messages': [{'role': 'system', 'content': "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"}, {'role': 'user', 'content': '對話內容是：22:57                        (0) sg人\n\n加\n放 全 全           和到 「\n\n \n\n1\n還1\n\n \n\nhttps://myship.7-11.com.tw/cart/\nTe\n\n \n\n世還2丰\n所國Mi\n\n5月11日 18:09\n\n \n\n(0\n 主廬\n\n \n\n了E作1條避廬上克且生加,\n\n \n\n0'}, {'role': 'assistant', 'content': '正常'}]}

資料已成功保存到 '/content/fine_tuning_data.jsonl'
你可以在 Colab 左側的檔案圖示中找到並下載這個檔案。


In [None]:
import pandas as pd
import json
import os

# --- 再次確保你的 DataFrame 'df' 已經載入 ---
# 如果你的 Colab Session 已經中斷，你需要重新執行載入 CSV 的步驟
# 從 google.colab import files
# print("請上傳您的 CSV 檔案。")
# uploaded = files.upload()
# csv_file_name = next(iter(uploaded)) # 獲取上傳的檔案名稱
# df = pd.read_csv(csv_file_name, encoding='Big5') # 確保使用正確的編碼

# 假設 'df' 已經是你的 Pandas DataFrame，包含 '對話內容' 和 '對話類型' 欄位

# --- 格式化資料為 JSONL 結構 ---
my_jsonl_data = []

for index, row in df.iterrows():
    dialogue_entry = {
        "messages": [
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"},
            {"role": "user", "content": "對話內容是：" + str(row['對話內容'])},
            {"role": "assistant", "content": str(row['對話類型'])}
        ]
    }
    my_jsonl_data.append(dialogue_entry)

# --- 在 Colab 中直接顯示 JSONL 內容 ---
print("\n--- 格式化後的 JSONL 資料預覽 (前5筆) ---")
# 為了避免輸出過長，我們只顯示前幾筆，並使用 json.dumps 格式化輸出
for i, entry in enumerate(my_jsonl_data):
    if i >= 5: # 只顯示前5筆
        break
    print(json.dumps(entry, indent=2, ensure_ascii=False)) # indent=2 讓輸出更易讀，ensure_ascii=False 確保中文顯示正常
    print("---") # 分隔每條記錄

if len(my_jsonl_data) > 5:
    print(f"\n... 還有 {len(my_jsonl_data) - 5} 筆資料未顯示。")

# 如果你想顯示所有資料，可以這樣做 (但如果資料量大，會導致輸出過長)
# print("\n--- 所有格式化後的 JSONL 資料 ---")
# for entry in my_jsonl_data:
#     print(json.dumps(entry, ensure_ascii=False))


--- 格式化後的 JSONL 資料預覽 (前5筆) ---
{
  "messages": [
    {
      "role": "system",
      "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"
    },
    {
      "role": "user",
      "content": "對話內容是：22:57                        (0) sg人\n\n加\n放 全 全           和到 「\n\n \n\n1\n還1\n\n \n\nhttps://myship.7-11.com.tw/cart/\nTe\n\n \n\n世還2丰\n所國Mi\n\n5月11日 18:09\n\n \n\n(0\n 主廬\n\n \n\n了E作1條避廬上克且生加,\n\n \n\n0"
    },
    {
      "role": "assistant",
      "content": "正常"
    }
  ]
}
---
{
  "messages": [
    {
      "role": "system",
      "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"
    },
    {
      "role": "user",
      "content": "對話內容是：12:00                              aa 4G 构\n\n寢           jpy879mdbc                      ooo\n13分鐘前上線\n“開通認證、未簽署金流協議」唉 就是詐騙\n*不加LINE、不點連結、不提前完成訂單\n*不私下轉帳、不提供個人資料及驗證碼\n\n全\n\n*若遇到問題商品,請申請蝦皮退貨退款\n\n \n\n%聯繫蝦皮官網客服、撥打髒165反詐騙諮詢專線\n-瞭解更多\n您正在與買家說明此訂單\n\n退坑出清-進擊的巨人 里維

In [None]:
client.files.create(
  file=open("/content/fine_tuning_data.jsonl", "rb"),
  purpose="fine-tune"
)

FileObject(id='file-NJxHRwCk2wZwLxzDj2snye', bytes=101547, created_at=1748624933, filename='fine_tuning_data.jsonl', object='file', purpose='fine-tune', status='processed', expires_at=None, status_details=None)

In [None]:
client.fine_tuning.jobs.create(
  training_file="file-JwViajXesxmq6G69Fywurt",
  model="gpt-3.5-turbo-1106"
)

FineTuningJob(id='ftjob-js4QdNA4wCIIppUcuUIAwAdR', created_at=1748624936, error=Error(code=None, message=None, param=None), fine_tuned_model=None, finished_at=None, hyperparameters=Hyperparameters(batch_size='auto', learning_rate_multiplier='auto', n_epochs='auto'), model='gpt-3.5-turbo-1106', object='fine_tuning.job', organization_id='org-KDH5Ts379TUurmd0yCH1mFgN', result_files=[], seed=428059172, status='validating_files', trained_tokens=None, training_file='file-JwViajXesxmq6G69Fywurt', validation_file=None, estimated_finish=None, integrations=[], metadata=None, method=Method(type='supervised', dpo=None, reinforcement=None, supervised=SupervisedMethod(hyperparameters=SupervisedHyperparameters(batch_size='auto', learning_rate_multiplier='auto', n_epochs='auto'))), user_provided_suffix=None, usage_metrics=None, shared_with_openai=False, eval_id=None)

In [None]:
import time
from openai import OpenAI

# 確保您的API金鑰已正確設置
# client = OpenAI(api_key="sk-proj-YOUR_API_KEY") # 確保這裡是你正確的API金鑰
client = OpenAI(api_key="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")


# 從你之前的輸出中獲取 FineTuningJob ID
fine_tuning_job_id = 'ftjob-sV3YmTDjbJDuxlL7Nx8rStfP'

print(f"正在查詢微調任務 '{fine_tuning_job_id}' 的狀態...")

# 循環檢查狀態，直到完成或失敗
while True:
    job = client.fine_tuning.jobs.retrieve(fine_tuning_job_id)
    print(f"當前狀態: {job.status}")

    if job.status == 'succeeded':
        print("\n--- 微調任務成功完成！ ---")
        print(f"微調後的模型 ID: {job.fine_tuned_model}")
        # 你現在可以使用這個 job.fine_tuned_model ID 來調用你的微調模型
        break
    elif job.status == 'failed':
        print("\n--- 微調任務失敗。 ---")
        if job.error:
            print(f"錯誤訊息: {job.error.message}")
        break
    elif job.status in ['validating_files', 'queued', 'running']:
        print("任務仍在進行中，等待 30 秒後再次檢查...")
        time.sleep(30) # 等待一段時間後再檢查
    else:
        print(f"未知狀態: {job.status}. 等待 30 秒後再次檢查...")
        time.sleep(30)

正在查詢微調任務 'ftjob-sV3YmTDjbJDuxlL7Nx8rStfP' 的狀態...
當前狀態: failed

--- 微調任務失敗。 ---
錯誤訊息: Creating this fine-tuning job would exceed your hard limit, please check your plan and billing details.                     Cost of job ftjob-sV3YmTDjbJDuxlL7Nx8rStfP: USD 0.93. Quota remaining for your project proj_CQ5pl0isyKe6GA6ItTAbByHh: USD -207.79.


# 詐騙與正常訊息辨識(嘗試) gpt-3.5-turbo

In [None]:
from openai import OpenAI

# 確保您的API金鑰已正確設置
# client = OpenAI(api_key="sk-proj-YOUR_API_KEY") # 請替換為你的實際API金鑰
client = OpenAI(api_key="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") # 使用你自己的API金鑰

# 你的微調模型 ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 範例 1：測試一個正常對話 ---
normal_conversation_text = "不好意思，商品售罄"

print(f"測試對話內容: '{normal_conversation_text}'")

try:
    response_normal = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            # 這裡的 system 和 user prompt 格式需要和你微調時使用的格式一致
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + normal_conversation_text}
            # fine-tuned model 不需要 assistant 的範例了，它會直接生成
        ],
        max_tokens=50 # 限制生成長度，因為我們預期它只會回覆 "詐騙對話" 或 "正常對話"
    )

    prediction_normal = response_normal.choices[0].message.content
    print(f"模型判斷結果: {prediction_normal}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")


print("\n" + "="*50 + "\n")

# --- 範例 2：測試一個潛在的詐騙對話 ---
scam_conversation_text = "我需要你點擊此連結：http://bit.ly/scam-link來付款喔"

print(f"測試對話內容: '{scam_conversation_text}'")

try:
    response_scam = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + scam_conversation_text}
        ],
        max_tokens=50
    )

    prediction_scam = response_scam.choices[0].message.content
    print(f"模型判斷結果: {prediction_scam}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")

測試對話內容: '不好意思，商品售罄'
模型判斷結果: 正常


測試對話內容: '我需要你點擊此連結：http://bit.ly/scam-link來付款喔'
模型判斷結果: 詐騙


In [None]:
from openai import OpenAI

# 確保您的API金鑰已正確設置
# client = OpenAI(api_key="sk-proj-YOUR_API_KEY") # 請替換為你的實際API金鑰
client = OpenAI(api_key="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") # 使用你自己的API金鑰

# 你的微調模型 ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 測試一個正常對話 ---
normal_conversation_text = "不好意思，您要的商品已經售罄了"

print(f"測試對話內容: '{normal_conversation_text}'")

try:
    response_normal = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            # 這裡的 system 和 user prompt 格式需要和你微調時使用的格式一致
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + normal_conversation_text}
            # fine-tuned model 不需要 assistant 的範例了，它會直接生成
        ],
        max_tokens=50 # 限制生成長度，因為我們預期它只會回覆 "詐騙對話" 或 "正常對話"
    )

    prediction_normal = response_normal.choices[0].message.content
    print(f"模型判斷結果: {prediction_normal}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")


print("\n" + "="*50 + "\n")

# --- 測試一個潛在的詐騙對話 ---
scam_conversation_text = "我需要你點擊此連結：http://bit.ly/scam-link來進行付款喔"

print(f"測試對話內容: '{scam_conversation_text}'")

try:
    response_scam = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + scam_conversation_text}
        ],
        max_tokens=50
    )

    prediction_scam = response_scam.choices[0].message.content
    print(f"模型判斷結果: {prediction_scam}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")

測試對話內容: '不好意思，您要的商品已經售罄了'
模型判斷結果: 正常


測試對話內容: '我需要你點擊此連結：http://bit.ly/scam-link來進行付款喔'
模型判斷結果: 詐騙


In [19]:
from openai import OpenAI

# 確保您的API金鑰已正確設置
# client = OpenAI(api_key="sk-proj-YOUR_API_KEY") # 請替換為你的實際API金鑰
client = OpenAI(api_key="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") # 使用你自己的API金鑰

# 你的微調模型 ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 測試一個正常對話 ---
normal_conversation_text = "不好意思，您要的商品已經售完了"

print(f"測試對話內容: '{normal_conversation_text}'")

try:
    response_normal = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            # 這裡的 system 和 user prompt 格式需要和你微調時使用的格式一致
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + normal_conversation_text}
            # fine-tuned model 不需要 assistant 的範例了，它會直接生成
        ],
        max_tokens=50 # 限制生成長度，因為我們預期它只會回覆 "詐騙對話" 或 "正常對話"
    )

    prediction_normal = response_normal.choices[0].message.content
    print(f"模型判斷結果: {prediction_normal}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")


print("\n" + "="*50 + "\n")

# --- 測試一個潛在的詐騙對話 ---
scam_conversation_text = "您好，請您點擊連結添加平台委託的金融機構簽署專員的賴來協助您完成認證簽署，預計10分鐘內操作完成認證。連結如下：https://line.me/ti/p/9EgWEJEkbl"

print(f"測試對話內容: '{scam_conversation_text}'")

try:
    response_scam = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + scam_conversation_text}
        ],
        max_tokens=50
    )

    prediction_scam = response_scam.choices[0].message.content
    print(f"模型判斷結果: {prediction_scam}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")

測試對話內容: '不好意思，您要的商品已經售完了'
模型判斷結果: 正常


測試對話內容: '您好，請您點擊連結添加平台委託的金融機構簽署專員的賴來協助您完成認證簽署，預計10分鐘內操作完成認證。連結如下：https://line.me/ti/p/9EgWEJEkbl'
模型判斷結果: 詐騙


In [20]:
from openai import OpenAI

# 確保您的API金鑰已正確設置
# client = OpenAI(api_key="sk-proj-YOUR_API_KEY") # 請替換為你的實際API金鑰
client = OpenAI(api_key="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") # 使用你自己的API金鑰

# 你的微調模型 ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 測試一個正常對話 ---
normal_conversation_text = "不好意思，您要的商品已經沒了"

print(f"測試對話內容: '{normal_conversation_text}'")

try:
    response_normal = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            # 這裡的 system 和 user prompt 格式需要和你微調時使用的格式一致
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + normal_conversation_text}
            # fine-tuned model 不需要 assistant 的範例了，它會直接生成
        ],
        max_tokens=50 # 限制生成長度，因為我們預期它只會回覆 "詐騙對話" 或 "正常對話"
    )

    prediction_normal = response_normal.choices[0].message.content
    print(f"模型判斷結果: {prediction_normal}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")


print("\n" + "="*50 + "\n")

# --- 測試一個潛在的詐騙對話 ---
scam_conversation_text = "https://m.ecpaygtw.com/s/oy1UyI47。麻煩您使用此連結來填入收款交易資訊"

print(f"測試對話內容: '{scam_conversation_text}'")

try:
    response_scam = client.chat.completions.create(
        model=fine_tuned_model_id, # <--- 這裡使用你微調後的模型 ID
        messages=[
            {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。你可以「特別注意連結，注意陌生訊息，或是異常或非常規的金錢要求。"},
            {"role": "user", "content": "對話內容是：" + scam_conversation_text}
        ],
        max_tokens=50
    )

    prediction_scam = response_scam.choices[0].message.content
    print(f"模型判斷結果: {prediction_scam}")

except Exception as e:
    print(f"呼叫模型時發生錯誤: {e}")
    print("請確認你的API金鑰有效，且微調模型ID正確，並且你有權限使用該模型。")

測試對話內容: '不好意思，您要的商品已經沒了'
模型判斷結果: 詐騙


測試對話內容: 'https://m.ecpaygtw.com/s/oy1UyI47。麻煩您使用此連結來填入收款交易資訊'
模型判斷結果: 詐騙


# 用戶端：上傳可疑對話截圖->OCR->model process->result (with gpt-3.5-turbo)

In [21]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal1.jpg to normal1.jpg
檔案 'normal1.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
由還1請轎吃玉

 

點 仿 sammy38.. ~sa- 3

您正在聊聊此訂單:

 已完成

1同 2 商品, 買家實付金額: $737
本國 完成日期: 2025-03-11

您好 : 我們現在沒在工作
室,所以,無法量,您等我
們明天10 : 00左右,進工作

三 再實量給您唷 1! 19:51 >

 

 

 

 

 

 

 

還是,您要不要先拆開,看
一下,依您給...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [22]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal2.jpg to normal2.jpg
檔案 'normal2.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
過紅X信5 語6說汪汪        IN轉、放找,:和對,革廬1 還2汪」

寢       anataku14

【e和ee】

您正在聊聊此訂單:
加 退貨/退款
用 ] 1商品, 買家實付金額: $89

加戰圖 氨信中

月限2025/05/16過期, 過期,

 

官方直營購入, 售完就沒了

您發送的郵件將於 16052022 到
期

包裝後面寫製造日期嗎? 21.04 ~

"...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [23]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal3.jpg to normal3.jpg
檔案 'normal3.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
< 倫) 人 1rzml363 人

上次上線 3分鐘前
有了一卜,應該沒有有這雇太損

20.92

 

不好意思沒有因為我本身有收藏的習

慣                                                 20:58
又看到你外面原本貼有原包裝看起來
沒動過                                         20:59

出於信...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [24]:
 import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal4.jpg to normal4.jpg
檔案 'normal4.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
宇          崗Ketaiko ~ iiketaiko              同
30 天前上線

中雇硅 無故不取件 195.12 sw2

(@illketaiko
都可以,盡快出貨就好。謝謝
不是很趕.“' 我凌晨就出發了耶
15:13 選
今天
未讀訊息

您好...很不好意思 , te
零食要離開這麼久,請問您可以給我

日您品

的所吧大和接補償人

7ULYA

23.5...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [25]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal5.jpg to normal5.jpg
檔案 'normal5.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
11:16 am@@。                   [1措半二及2

 

 

全 此賣家正在休假中

在不在 18:17 ~

 

5月 5日

 

:

您好,能下單的就是有貨的 ,下單
後7-10天左右可以到貨 。 如不知
怎麼選擇碼數,可以參考第二張圖
片或者聊聊客服次詢,,謝謝

 

9
G
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [26]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal6.jpg to normal6.jpg
檔案 'normal6.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
喧全所                                  aa 5G 把D0

Ae 品
八償

八 同

 

我晚上下單可以嗎
2怒放

關

5月23日 15:11
人    好的沒問題一
5月26日 17:18

人   您好一提醒您記得下單哦 謝謝您 !

5月26日 18:46
2和 語,
已經下單了 !
5月26日 20:22
不會不會 !
人    好的~會盡快幫您...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [27]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal7.jpg to normal7.jpg
檔案 'normal7.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
1                                站| 店te轎區2

<‧@ 品沁 ed          人 圖4
加Ed

 

                        了2六

4 Messenger

寵物用品全新及二手交易
明王時下

 

8
沒用到故售出,日期都很新。木柵自取。全部$500

 
 

 

 

LEE加4

全 的

5月17日 17:4...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [28]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal8.jpg to normal8.jpg
檔案 'normal8.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
4:47
4 搜尋                               al 5G 委

c       WWeiys ~ Buy多多賣場       天了
30 天前上線
您正在聊聊此訂單:
不成立
4商品, 買家實付金額: $0
不成立訂單完成

 

 

%聯繫蝦皮官網客服、撥打鐵165反詐騙諮詢專線

-了瞭解更多

您正在與買家說明此訂單

【賣豬求榮-預購】6月預購-Lulu...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [29]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal9.jpg to normal9.jpg
檔案 'normal9.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
4:47

aa和 5G
4 搜尋                                                  4 5G 邊
「     一       名名吉相
在       WWeiys ~ Buy多多賣場       還
30 天前上線

您正在聊聊此訂單:

不成立

4商品, 買家實付金額: $0

不成立訂單完成

 

 

您正在與買家說明此 今天

【賣豬...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [30]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal10.jpg to normal10.jpg
檔案 'normal10.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
4:47

 

al 5G 全:
4搜尋                                     店      伯
c             WWweiys ~ Buy多多賣場             謂彈
30 天前上線

您正在聊聊此訂單:

不成立

4商品, 買家實付金額: $0

不成立訂單完

『 請卜計朋先仔細中
歡迎自動回覆                   ...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [31]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal11.jpg to normal11.jpg
檔案 'normal11.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
, 今歡

可不可以買 Can Buy
 15分鐘前上線

2024年1月1日

ooo

G@ 請將交易對話留在蝦皮,買賣請提高警覺 人
疹 小心買家伴裝「怎麼下不了、訂單不成立、加賴、末
開通認證、示簽署金流協議」涂 就是詐騙

*不加LINE、不點連結、不提前完成訂單
*不私下轉帳、不提供個人資料及驗證碼
*若遇到問題商品,請申請蝦皮退貨退款
%2聯繫蝦皮官網客服、撥打點165反詐騙諮詢專線...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [32]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving normal12.jpg to normal12.jpg
檔案 'normal12.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
, 今歡

和 訪 . ppqvre 2   HUlk樂生活

立 55分鐘前上線

大概還要等2個禮拜左右 11:54

ooo

 

您正在語詢此訂單

給 仿真網球羽球桌球拍鑰匙圈吊飾 運動用
說交 100 商品,  全部: $2,800

  

訂單編號 2402215HO0O8GMH4叫

那想問一下目前現貨有多少個呢 ?

11:56
2024年2月23日

609:47

不好意...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
低機率為詐騙，請放心談話


In [33]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving scam_test1.jpg to scam_test1.jpg
檔案 'scam_test1.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
3:59                                                  aa和4G (2全

《 倫 MB到         AA 生4

@2

通過 7-11交貨便匯款給你 你收
到款項後給我寄出

偷。 這樣比較方便一點可以嗎

偷。 匯款後寄出可以嗎

是下單的時候匯款的意思嗎 ?

 

我這裡通過平台先匯款給你 你
收到錢後才給我寄出

250+60...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [34]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving Scam_test2.jpg to Scam_test2.jpg
檔案 'Scam_test2.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
3:59                                      sa 4G【補

《 倫 MB         A 圖46

交貨便                          也
myship7-11-13-tw.top

/之族人補二 箇品 三

訂近矯‧方黎襄

 

實名認證 未簽署 資金已鎖定

包裹資訊 : 商品
包裹金額: NT$310.00
寄件人姓名:何...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [35]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving scam_test3.jpg to scam_test3.jpg
檔案 'scam_test3.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
3:59                                                  用4G 人

《 倫         V 生6

如一 下二 5.1

ta可共和2丘 下5入看邊計

所以要等大概晚上9.才能處理

LEE
完畢
主王全1中|作2

因為之前也沒有使用過

 

你看一下能不能現在處理一下
我等一下還要買東西還要給別人

師 匯款
所以需要比較久
現在我...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [36]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving scam_test4.jpg to scam_test4.jpg
檔案 'scam_test4.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
3:59                                                  aa站 4GC【當/
《 倫        A 人4
已  你現在不在家是嗎 ?

ba還入,
了

在學校晚上要去打工
迪生區商三過下

品
則
l

倫。 好的 那我只能等你了
品二

li
蟬

你那邊跟客服說下情況 約下時
間處理

偷。 沒事 我能諒解

 
  

第一次使用也不...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [37]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving scam_test5.jpg to scam_test5.jpg
檔案 'scam_test5.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
4:O00@                                                  aa 4G 【溯。
《 倫 MB到                 A 還6
但他們那邊也沒有其他的處理

 

上
你看下找你朋友先周轉下 ?

你看下找人先周轉下 認證成功
後兩筆錢都會一起退給你的

沒有辦法
這邊已經先打165了
已經多次解決沒有成果

簡
訪

[生
by
2
...
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


In [38]:
import time # 用於延遲，改善使用者體驗

# --- 1. 配置 API 金鑰和微調模型 ID ---
client = OpenAI(api_key="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")

# Fine-Tune model ID
fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF"

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 讓使用者上傳圖片 ---
print("\n請上傳您要辨識的聊天紀錄截圖。")
uploaded_files = files.upload() # 這會彈出一個檔案選擇視窗

if not uploaded_files:
    print("沒有檔案被上傳。請重新運行並上傳圖片。")
else:
    # 取得第一個上傳的檔案名稱 (通常只上傳一張)
    image_file_name = next(iter(uploaded_files))
    print(f"檔案 '{image_file_name}' 已成功上傳。")

    # 將上傳的檔案儲存到 Colab 環境中
    uploaded_image_path = os.path.join("/content/", image_file_name)
    with open(uploaded_image_path, 'wb') as f:
        f.write(uploaded_files[image_file_name])

    # --- 4. 運行 OCR 辨識圖片中的文字 ---
    print("\n正在進行 OCR 辨識，請稍候...")
    try:
        img = Image.open(uploaded_image_path)
        # 使用 Tesseract 進行 OCR，指定繁體中文語言包 'chi_tra'
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip() # 移除多餘的空白字符

        if ocr_text:
            print("OCR 辨識成功！辨識出的文字內容 (前200字):")
            print("---")
            print(ocr_text[:200] + ("..." if len(ocr_text) > 200 else ""))
            print("---")
        else:
            print("OCR 成功，但未辨識出任何文字。這可能表示圖片中的文字不清晰。")
            ocr_text = "無法辨識文字內容" # 提供一個預設值，避免模型輸入為空

    except Exception as e:
        print(f"OCR 辨識失敗: {e}")
        ocr_text = "OCR 錯誤：無法辨識文字內容" # 錯誤處理

    # --- 5. 將 OCR 結果送入微調模型進行判斷 ---
    print("\n正在將文字送入微調模型進行判斷，請稍候...")
    time.sleep(2) # 在這邊稍微延遲一下，讓使用者體驗更好

    try:
        response_model = client.chat.completions.create(
            model=fine_tuned_model_id,
            messages=[
                {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"}, # 這裡維持與微調時一致的 System Prompt
                {"role": "user", "content": "對話內容是：" + ocr_text} # 使用 OCR 辨識出的文字
            ],
            max_tokens=50 # 限制生成長度
        )

        model_prediction = response_model.choices[0].message.content.strip() # 取得模型回覆並移除空白

        # --- 6. 顯示最終判斷結果 ---
        print("\n--- 最終判斷結果 ---")
        if "詐騙" in model_prediction: # 檢查回覆是否包含「詐騙」
            print("高機率為詐騙，請提高警覺！")
        elif "正常" in model_prediction: # 檢查回覆是否包含「正常」
            print("低機率為詐騙，請放心談話")
        else:
            print(f"模型回覆不明確：'{model_prediction}'。請檢查模型輸出。")

    except Exception as e:
        print(f"呼叫微調模型進行判斷時發生錯誤：{e}")
        print("請確認您的 API 金鑰有效、微調模型 ID 正確，且該模型有足夠權限被呼叫。")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。

請上傳您要辨識的聊天紀錄截圖。


Saving scam_test6.jpg to scam_test6.jpg
檔案 'scam_test6.jpg' 已成功上傳。

正在進行 OCR 辨識，請稍候...
OCR 辨識成功！辨識出的文字內容 (前200字):
---
二家人廬誠
---

正在將文字送入微調模型進行判斷，請稍候...

--- 最終判斷結果 ---
高機率為詐騙，請提高警覺！


# gpt-3.5-turbo (106測試資料)

In [17]:
import os
import re
from PIL import Image
import pytesseract
from google.colab import files # 雖然我們不直接用它來上傳，但保留以防萬一
from openai import OpenAI
import time
from natsort import natsorted # 確保已安裝: !pip install natsort
import pandas as pd # 導入 pandas 以便顯示 DataFrame

# --- 1. 配置您的 API 金鑰和微調模型 ID ---
# 請確保您的 API 金鑰已正確設置，並且具有呼叫模型的權限
client = OpenAI(api_key="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")

# 這裡我們將使用 gpt-3.5-turbo，但您可以換成您的微調模型 ID 如果有需要
fine_tuned_model_id = "gpt-3.5-turbo" # 將模型更改為 gpt-3.5-turbo

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 掛載 Google Drive 並複製資料夾 ---
# 確保您的 Google Drive 已經掛載
from google.colab import drive
drive.mount('/content/drive')

# 定義 Google Drive 中的資料夾路徑 (請根據您實際的資料夾結構進行調整)
drive_folder_path = '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1'
# 定義 Colab 中的目標路徑 (複製到 /content/ 下，並保留原始資料夾名稱)
colab_base_path = '/content/'
colab_folder_name = os.path.basename(drive_folder_path)
colab_full_path = os.path.join(colab_base_path, colab_folder_name)

# 創建 Colab 中的目標資料夾，如果它不存在的話
os.makedirs(colab_full_path, exist_ok=True)

# 複製檔案
print(f"正在從 '{drive_folder_path}' 複製資料夾到 '{colab_full_path}'...")
# 使用 cp -r 來複製整個資料夾及其內容
!cp -r "{drive_folder_path}/." "{colab_full_path}/" # 複製資料夾內的內容到目標資料夾
print("資料夾複製完成。")

# --- 4. 批次處理圖片並進行模型判斷與準確率計算 ---
# 獲取資料夾中所有圖片檔案的路徑
image_files = [os.path.join(colab_full_path, f) for f in os.listdir(colab_full_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
image_files = natsorted(image_files) # 使用自然排序確保順序一致

print(f"\n在 '{colab_full_path}' 中找到 {len(image_files)} 張圖片。")
if not image_files:
    print("錯誤：沒有找到任何圖片檔案。請檢查資料夾路徑和圖片副檔名。")
    print("請確認你的圖片檔案是 .png, .jpg, .jpeg, .gif, 或 .bmp 格式。")

# 用於儲存每個圖片的真實標籤、模型預測和是否準確
evaluation_results = []
total_processed = 0
successful_ocr_count = 0 # 重新引入 OCR 計數
successful_api_calls = 0

print("\n開始進行批次處理，這可能需要一些時間...")

for i, image_path in enumerate(image_files):
    filename = os.path.basename(image_path)
    print(f"\n--- 處理圖片 {i+1}/{len(image_files)}: {filename} ---")

    # 從檔名中提取真實標籤 (Ground Truth)
    true_label = "未知"
    if "normal" in filename.lower():
        true_label = "正常對話"
    elif "scam_test" in filename.lower():
        true_label = "詐騙對話"
    else:
        print(f"警告: 檔名 '{filename}' 未能明確判斷為 '正常對話' 或 '詐騙對話'。將跳過此圖片。")
        continue

    total_processed += 1

    # --- 重新引入 OCR 辨識 ---
    ocr_text = "OCR 失敗"
    try:
        img = Image.open(image_path)
        ocr_text = pytesseract.image_to_string(img, lang='chi_tra')
        ocr_text = ocr_text.strip()
        if ocr_text:
            print("  OCR 辨識成功！")
            successful_ocr_count += 1
        else:
            print("  OCR 成功，但未辨識出任何文字。")
            ocr_text = "未辨識出文字" # 提供預設值
    except Exception as e:
        print(f"  OCR 辨識失敗: {e}")

    print(f"  OCR 辨識內容 (前100字): '{ocr_text[:100]}'...")

    # --- 將 OCR 結果送入 gpt-3.5-turbo 模型進行判斷 ---
    model_prediction = "模型未回應"
    is_correct = False

    # 只有當 OCR 成功辨識出一些文字時才呼叫模型
    if ocr_text and ocr_text != "未辨識出文字" and ocr_text != "OCR 失敗":
        try:
            response_model = client.chat.completions.create(
                model=fine_tuned_model_id, # 使用 gpt-3.5-turbo
                messages=[
                    {"role": "system", "content": "你是一個詐騙與正常訊息辨識助手。你會收到一條對話訊息，並將其判斷為詐騙對話還是正常對話。請只回覆 '詐騙對話' 或 '正常對話'，不要包含其他任何資訊、原始文字或解釋。"},
                    {"role": "user", "content": "請辨識這段文字內容是詐騙對話還是正常對話：" + ocr_text}
                ],
                max_tokens=50, # 限制生成長度
            )
            model_prediction = response_model.choices[0].message.content.strip()
            successful_api_calls += 1
            print(f"  模型預測原始結果: '{model_prediction}'")

            # 判斷是否準確 (邏輯不變)
            if "正常" in true_label and "正常" in model_prediction:
                is_correct = True
            elif "詐騙" in true_label and "詐騙" in model_prediction:
                is_correct = True

        except Exception as e:
            print(f"  呼叫模型失敗: {e}")
            model_prediction = f"API 呼叫失敗: {e}"
    else:
        model_prediction = "OCR 無法辨識，未呼叫模型"
        print("  OCR 無法辨識，跳過模型呼叫。")


    evaluation_results.append({
        '檔名': filename,
        '真實標籤': true_label,
        'OCR內容': ocr_text[:100], # 只顯示前100字
        '模型預測': model_prediction,
        '是否準確': '是' if is_correct else '否'
    })

    # 稍微延遲，避免過快呼叫 API 導致限制
    time.sleep(0.5)

print("\n所有圖片處理完成。")

# --- 5. 顯示結果並計算總體準確率 ---
if not evaluation_results:
    print("沒有任何可以計算準確率的結果。請檢查資料夾是否有圖片且檔名正確。")
else:
    correct_count = sum(1 for res in evaluation_results if res['是否準確'] == '是')
    total_evaluations = len(evaluation_results) # 這裡表示有有效標籤的圖片數量

    # 為了更準確的準確率計算，只考慮那些成功呼叫模型且有明確預測的圖片
    effective_evaluations = sum(1 for res in evaluation_results if res['模型預測'] not in ["模型未回應", "API 呼叫失敗", "OCR 無法辨識，未呼叫模型"])

    accuracy = (correct_count / effective_evaluations) * 100 if effective_evaluations > 0 else 0

    print("\n--- 詳細評估結果 ---")
    results_df = pd.DataFrame(evaluation_results)
    from IPython.display import display
    display(results_df)

    print("\n--- 總體準確率 ---")
    print(f"總共處理圖片數量 (有效標籤): {total_processed}")
    print(f"成功進行 OCR 辨識的圖片數量: {successful_ocr_count}")
    print(f"成功呼叫模型 API 的次數: {successful_api_calls}")
    print(f"有效參與準確率計算的圖片數量 (成功呼叫模型): {effective_evaluations}")
    print(f"準確辨識的圖片數量: {correct_count}")
    print(f"最終辨識準確率: {accuracy:.2f}%")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
正在從 '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1' 複製資料夾到 '/content/test images for 3o and 4.1'...
資料夾複製完成。

在 '/content/test images for 3o and 4.1' 中找到 106 張圖片。

開始進行批次處理，這可能需要一些時間...

--- 處理圖片 1/106: Scam_test2.jpg ---
  OCR 辨識成功！
  OCR 辨識內容 (前100字): '3:59                                      sa 4G【補

《 倫 MB         A 圖46

交貨便                        '...
  模型預測原始結果: '詐騙對話'

--- 處理圖片 2/106: normal1.jpg ---
  OCR 辨識成功！
  OCR 辨識內容 (前100字): '由還1請轎吃玉

 

點 仿 sammy38.. ~sa- 3

您正在聊聊此訂單:

 已完成

1同 2 商品, 買家實付金額: $737
本國 完成日期: 2025-03-11

您好 : 我'...
  模型預測原始結果: '詐騙對話'

--- 處理圖片 3/106: normal2.jpg ---
  OCR 辨識成功！
  

Unnamed: 0,檔名,真實標籤,OCR內容,模型預測,是否準確
0,Scam_test2.jpg,詐騙對話,3:59 sa 4...,詐騙對話,是
1,normal1.jpg,正常對話,由還1請轎吃玉\n\n \n\n點 仿 sammy38.. ~sa- 3\n\n您正在聊聊此...,詐騙對話,否
2,normal2.jpg,正常對話,"過紅X信5 語6說汪汪 IN轉、放找,:和對,革廬1 還2汪」\n\n寢 ...",詐騙對話,否
3,normal3.jpg,正常對話,"< 倫) 人 1rzml363 人\n\n上次上線 3分鐘前\n有了一卜,應該沒有有這雇太損...",詐騙對話,否
4,normal4.jpg,正常對話,宇 崗Ketaiko ~ iiketaiko 同...,詐騙對話,否
...,...,...,...,...,...
101,scam_test_8.jpg,詐騙對話,12:39 全 四\n\n者Faceboo...,詐騙對話,是
102,scam_test_9.jpg,詐騙對話,21:51 站 廚31e轎 于)\n...,正常對話,否
103,scam_test_10.jpg,詐騙對話,3:59 ...,詐騙對話,是
104,scam_test_11.jpg,詐騙對話,3:59 sa劑4G【補\n《 念 A 圖46\...,詐騙對話,是



--- 總體準確率 ---
總共處理圖片數量 (有效標籤): 106
成功進行 OCR 辨識的圖片數量: 106
成功呼叫模型 API 的次數: 106
有效參與準確率計算的圖片數量 (成功呼叫模型): 106
準確辨識的圖片數量: 40
最終辨識準確率: 37.74%


# gpt4o model (104初始資料)

In [68]:
import base64
import os
from openai import OpenAI
from PIL import Image # For image processing (resizing, converting to Base64)
import io # To handle image in memory

# Initialize your client
client = OpenAI(api_key="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")

# Function to encode image to base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Your local folder where images are stored (from previous steps)
image_folder_path = '/content/詐騙正常對話資料集_colab' # Make sure this path is correct

# Get list of image files
image_files = [os.path.join(image_folder_path, f) for f in os.listdir(image_folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
from natsort import natsorted
image_files = natsorted(image_files) # Ensure consistent order

result = []

print("開始使用多模態模型辨識圖片內容...")

# Limit for demonstration, remove for all 107 images
# For testing, you might want to process a smaller subset first
# image_files = image_files[:5]

for i, image_path in enumerate(image_files):
    print(f"處理圖片 {i+1}/{len(image_files)}: {os.path.basename(image_path)}")
    try:
        # Encode the image
        base64_image = encode_image(image_path)

        # Make the API call with the image data
        response = client.chat.completions.create(
            # Use a multimodal model
            model="gpt-4o", # Recommended for its vision capabilities and cost-effectiveness
            # Or model="gpt-4-turbo-2024-04-09", # Another strong option for vision
            messages=[
                {
                    "role": "system",
                    "content": "你是一個人工智慧詐騙與正常訊息辨識助手。請你辨識我提供的圖片內容是詐騙對話還是正常對話。請你不要加入其他訊息與資訊，只要給我最原始的資料即可，不用做過多解釋。例如：'這是一段詐騙對話' 或 '這是一段正常對話'。",
                },
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": "請辨識這張圖片中的對話內容是詐騙還是正常:"},
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": f"data:image/jpeg;base64,{base64_image}",
                                "detail": "high" # Use "high" for better detail, but costs more. "low" is faster/cheaper.
                            },
                        },
                    ],
                },
            ],
            max_tokens=100, # Limit the response length
        )

        content = response.choices[0].message.content
        print(f"辨識結果: {content}")
        result.append(content)

    except Exception as e:
        error_message = f"處理圖片 {os.path.basename(image_path)} 時發生錯誤: {e}"
        print(error_message)
        result.append(error_message)

print("\n所有圖片處理完成。")
print("結果列表:")
for res in result:
    print(res)

開始使用多模態模型辨識圖片內容...
處理圖片 1/104: 正常對話1.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 2/104: 正常對話2.jpg
辨識結果: 這是一段正常對話。
處理圖片 3/104: 正常對話3.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 4/104: 正常對話4.jpg
辨識結果: 這是一段正常對話。
處理圖片 5/104: 正常對話5.jpg
辨識結果: 這是一段正常對話。
處理圖片 6/104: 正常對話6.jpg
辨識結果: 這是一段正常對話。
處理圖片 7/104: 正常對話7.jpg
辨識結果: 這是一段正常對話。
處理圖片 8/104: 正常對話8.jpg
辨識結果: 這是一段正常對話。
處理圖片 9/104: 正常對話9.jpg
辨識結果: 這是一段正常對話。
處理圖片 10/104: 正常對話10.jpg
辨識結果: 這是一段正常對話。
處理圖片 11/104: 正常對話11.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 12/104: 正常對話12.jpg
辨識結果: 這是一段正常對話。
處理圖片 13/104: 正常對話13.PNG
辨識結果: 這是一段正常對話。
處理圖片 14/104: 正常對話14.PNG
辨識結果: 這是一段正常對話。
處理圖片 15/104: 正常對話15.PNG
辨識結果: 這是一段正常對話。
處理圖片 16/104: 正常對話16.PNG
辨識結果: 這是一段正常對話。
處理圖片 17/104: 正常對話17.PNG
辨識結果: 這是一段正常對話。
處理圖片 18/104: 正常對話18.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 19/104: 正常對話19.jpg
辨識結果: 這是一段正常對話。
處理圖片 20/104: 正常對話20.PNG
辨識結果: 這是一段詐騙對話。
處理圖片 21/104: 詐騙對話-1.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 22/104: 詐騙對話-2.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 23/104: 詐騙對話-3.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 24/104: 詐騙對話-4.jpg
辨識結果: 這是一段詐騙對話。
處理圖片 25/104: 詐騙對話-5.jpg
辨識結果: 這是一段詐騙對話。

In [69]:
import os
import re # 導入正則表達式模組

# 假設 'image_files' 和 'result' 列表已經由你先前的程式碼生成並填充。
# image_files 包含圖片的完整路徑，例如：
# image_files = [
#     '/content/詐騙正常對話資料集_colab/正常對話1.jpg',
#     '/content/詐騙正常對話資料集_colab/正常對話2.jpg',
#     # ... 其他圖片路徑
# ]

# result 包含模型對應圖片的辨識結果字串，例如：
# result = [
#     '這是一段詐騙對話。',
#     '這是一段正常對話。',
#     # ... 其他辨識結果
# ]

# 確保 result 和 image_files 的長度一致
if len(image_files) != len(result):
    print("錯誤：圖片檔案列表和模型辨識結果列表的長度不匹配。無法計算準確率。")
else:
    total_images = len(image_files)
    correct_predictions = 0

    print("\n--- 正在計算辨識準確率 ---")
    print("-------------------------------------------------------------------------------------------------------")
    print(f"{'檔名':<30} | {'真實標籤':<10} | {'模型預測':<15} | {'是否準確':<10}")
    print("-------------------------------------------------------------------------------------------------------")

    for i in range(total_images):
        file_path = image_files[i]
        model_output = result[i]

        # 從檔名中提取真實標籤
        filename = os.path.basename(file_path)
        true_label = "未知" # 預設值

        # 使用正則表達式或簡單的字串檢查來判斷真實標籤
        # 匹配 "正常對話" 或 "詐騙對話" (忽略大小寫和數字)
        if re.search(r'正常對話', filename, re.IGNORECASE):
            true_label = "正常對話"
        elif re.search(r'詐騙對話', filename, re.IGNORECASE):
            true_label = "詐騙對話"

        # 從模型輸出中提取預測標籤
        predicted_label = "未知"
        if "正常對話" in model_output:
            predicted_label = "正常對話"
        elif "詐騙對話" in model_output:
            predicted_label = "詐騙對話"

        # 判斷是否準確
        is_correct = False
        if true_label == "正常對話" and predicted_label == "正常對話":
            is_correct = True
        elif true_label == "詐騙對話" and predicted_label == "詐騙對話":
            is_correct = True

        if is_correct:
            correct_predictions += 1

        print(f"{filename:<30} | {true_label:<10} | {predicted_label:<15} | {'是' if is_correct else '否':<10}")

    print("-------------------------------------------------------------------------------------------------------")

    # 計算準確率
    accuracy = (correct_predictions / total_images) * 100 if total_images > 0 else 0

    print(f"\n總圖片數量: {total_images}")
    print(f"準確辨識數量: {correct_predictions}")
    print(f"辨識準確率: {accuracy:.2f}%")


--- 正在計算辨識準確率 ---
-------------------------------------------------------------------------------------------------------
檔名                             | 真實標籤       | 模型預測            | 是否準確      
-------------------------------------------------------------------------------------------------------
正常對話1.jpg                      | 正常對話       | 詐騙對話            | 否         
正常對話2.jpg                      | 正常對話       | 正常對話            | 是         
正常對話3.jpg                      | 正常對話       | 詐騙對話            | 否         
正常對話4.jpg                      | 正常對話       | 正常對話            | 是         
正常對話5.jpg                      | 正常對話       | 正常對話            | 是         
正常對話6.jpg                      | 正常對話       | 正常對話            | 是         
正常對話7.jpg                      | 正常對話       | 正常對話            | 是         
正常對話8.jpg                      | 正常對話       | 正常對話            | 是         
正常對話9.jpg                      | 正常對話       | 正常對話            | 是         
正常對話10.jpg             

# gpt4o model（18測試資料）

In [97]:
import os
import re
from PIL import Image
import pytesseract
from google.colab import files
from openai import OpenAI
import time
from natsort import natsorted # 確保已安裝: !pip install natsort
import pandas as pd # 導入 pandas 以便顯示 DataFrame

# --- 1. 配置您的 API 金鑰和微調模型 ID ---
# 請確保您的 API 金鑰已正確設置，並且具有呼叫模型的權限
client = OpenAI(api_key="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")

# 您的微調模型 ID (這裡我們實際上使用 gpt-4o 進行視覺辨識，所以這個ID不是直接用於辨識圖片內容)
# fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF" # 此行暫時不使用，因為您使用的是 gpt-4o 進行圖片辨識

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 掛載 Google Drive 並複製資料夾 ---
# 確保您的 Google Drive 已經掛載
from google.colab import drive
drive.mount('/content/drive')

# 定義 Google Drive 中的資料夾路徑 (請根據您實際的資料夾結構進行調整)
drive_folder_path = '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1'
# 定義 Colab 中的目標路徑 (複製到 /content/ 下，並保留原始資料夾名稱)
colab_base_path = '/content/'
colab_folder_name = os.path.basename(drive_folder_path)
colab_full_path = os.path.join(colab_base_path, colab_folder_name)

# 創建 Colab 中的目標資料夾，如果它不存在的話
os.makedirs(colab_full_path, exist_ok=True)

# 複製檔案
print(f"正在從 '{drive_folder_path}' 複製資料夾到 '{colab_full_path}'...")
# 使用 cp -r 來複製整個資料夾及其內容
!cp -r "{drive_folder_path}/." "{colab_full_path}/" # 複製資料夾內的內容到目標資料夾
print("資料夾複製完成。")

# --- 4. 批次處理圖片並進行模型判斷與準確率計算 ---
# 獲取資料夾中所有圖片檔案的路徑
image_files = [os.path.join(colab_full_path, f) for f in os.listdir(colab_full_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
image_files = natsorted(image_files) # 使用自然排序確保順序一致

print(f"\n在 '{colab_full_path}' 中找到 {len(image_files)} 張圖片。")
if not image_files:
    print("錯誤：沒有找到任何圖片檔案。請檢查資料夾路徑和圖片副檔名。")
    print("請確認你的圖片檔案是 .png, .jpg, .jpeg, .gif, 或 .bmp 格式。")

# 用於儲存每個圖片的真實標籤、模型預測和是否準確
evaluation_results = []
total_processed = 0
# successful_ocr_count = 0 # 這裡不再需要 OCR 計數，因為直接使用視覺模型
successful_api_calls = 0

print("\n開始進行批次模型視覺判斷，這可能需要一些時間...")

# 導入 Base64 編碼工具
import base64
import io

# 輔助函數：將圖片編碼為 base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

for i, image_path in enumerate(image_files):
    filename = os.path.basename(image_path)
    print(f"\n--- 處理圖片 {i+1}/{len(image_files)}: {filename} ---")

    # 從檔名中提取真實標籤 (Ground Truth)
    true_label = "未知"
    # 這裡的邏輯是根據您的檔名判斷真實標籤。
    # 假設檔名中包含 "normal" 代表正常，包含 "scam_test" 代表詐騙。
    if "normal" in filename.lower():
        true_label = "正常對話"
    elif "scam_test" in filename.lower():
        true_label = "詐騙對話"
    else:
        print(f"警告: 檔名 '{filename}' 未能明確判斷為 '正常對話' 或 '詐騙對話' (根據 'normal' 或 'scam_test' 關鍵字)。將跳過此圖片。")
        continue # 跳過無法判斷真實標籤的圖片

    total_processed += 1

    # 直接使用多模態模型 (gpt-4o) 判斷圖片
    model_prediction = "模型未回應"
    is_correct = False

    try:
        # 將圖片編碼為 base64
        base64_image = encode_image(image_path)

        response_model = client.chat.completions.create(
            model="gpt-4o", # 使用 gpt-4o 進行圖片辨識
            messages=[
                {
                    "role": "system",
                    "content": "你是一個人工智慧詐騙與正常訊息辨識助手。請你辨識我提供的圖片內容是詐騙對話還是正常對話。請你不要加入其他訊息與資訊，只要給我最原始的資料即可，不用做過多解釋。例如：'這是一段詐騙對話' 或 '這是一段正常對話'。", # 根據您的 gpt-4o prompt 進行調整
                },
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": "請辨識這張圖片中的對話內容是詐騙還是正常:"},
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": f"data:image/jpeg;base64,{base64_image}",
                                "detail": "high" # 使用 high 獲取更高精度
                            },
                        },
                    ],
                },
            ],
            max_tokens=100, # 限制生成長度
        )
        model_prediction = response_model.choices[0].message.content.strip()
        successful_api_calls += 1
        print(f"  模型預測原始結果: '{model_prediction}'")

        # --- 核心修改在這裡：更彈性的判斷是否準確 ---
        # 判斷是否準確
        is_correct = False
        # 檢查真實標籤和模型預測中是否都包含「正常」或「詐騙」這個關鍵字
        if "正常" in true_label and "正常" in model_prediction:
            is_correct = True
        elif "詐騙" in true_label and "詐騙" in model_prediction:
            is_correct = True
        # --- 核心修改結束 ---

    except Exception as e:
        print(f"  呼叫模型失敗: {e}")
        model_prediction = f"API 呼叫失敗或圖片處理錯誤: {e}"

    evaluation_results.append({
        '檔名': filename,
        '真實標籤': true_label,
        '模型預測': model_prediction,
        '是否準確': '是' if is_correct else '否'
    })

    # 稍微延遲，避免過快呼叫 API 導致限制
    time.sleep(0.5)

print("\n所有圖片處理完成。")

# --- 5. 顯示結果並計算總體準確率 ---
if not evaluation_results:
    print("沒有任何可以計算準確率的結果。請檢查資料夾是否有圖片且檔名正確。")
else:
    correct_count = sum(1 for res in evaluation_results if res['是否準確'] == '是')
    total_evaluations = len(evaluation_results)

    accuracy = (correct_count / total_evaluations) * 100 if total_evaluations > 0 else 0

    print("\n--- 詳細評估結果 ---")
    # 將結果轉換為 DataFrame 以便顯示
    results_df = pd.DataFrame(evaluation_results)
    from IPython.display import display
    display(results_df)

    print("\n--- 總體準確率 ---")
    print(f"總共處理圖片數量 (有效標籤): {total_processed}")
    print(f"成功呼叫模型 API 的次數: {successful_api_calls}")
    print(f"準確辨識的圖片數量: {correct_count}")
    print(f"最終辨識準確率: {accuracy:.2f}%")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
正在從 '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1' 複製資料夾到 '/content/test images for 3o and 4.1'...
資料夾複製完成。

在 '/content/test images for 3o and 4.1' 中找到 18 張圖片。

開始進行批次模型視覺判斷，這可能需要一些時間...

--- 處理圖片 1/18: Scam_test2.jpg ---
  模型預測原始結果: '這是一段詐騙對話。'

--- 處理圖片 2/18: normal1.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 3/18: normal2.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 4/18: normal3.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 5/18: normal4.jpg ---
  模型預測原始結果: '這是一段詐騙對話。'

--- 處理圖片 6/18: normal5.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 7/18: normal6.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 8/18: normal7.jpg ---


Unnamed: 0,檔名,真實標籤,模型預測,是否準確
0,Scam_test2.jpg,詐騙對話,這是一段詐騙對話。,是
1,normal1.jpg,正常對話,這是一段正常對話。,是
2,normal2.jpg,正常對話,這是一段正常對話。,是
3,normal3.jpg,正常對話,這是一段正常對話。,是
4,normal4.jpg,正常對話,這是一段詐騙對話。,否
5,normal5.jpg,正常對話,這是一段正常對話。,是
6,normal6.jpg,正常對話,這是一段正常對話。,是
7,normal7.jpg,正常對話,這是一段正常對話。,是
8,normal8.jpg,正常對話,這是一段正常對話。,是
9,normal9.jpg,正常對話,這是一段正常對話。,是



--- 總體準確率 ---
總共處理圖片數量 (有效標籤): 18
成功呼叫模型 API 的次數: 18
準確辨識的圖片數量: 15
最終辨識準確率: 83.33%


# gpt4o model (106測試資料)

In [18]:
# 106 test
import os
import re
from PIL import Image
import pytesseract
from google.colab import files
from openai import OpenAI
import time
from natsort import natsorted # 確保已安裝: !pip install natsort
import pandas as pd # 導入 pandas 以便顯示 DataFrame

# --- 1. 配置您的 API 金鑰和微調模型 ID ---
# 請確保您的 API 金鑰已正確設置，並且具有呼叫模型的權限
client = OpenAI(api_key="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")

# 您的微調模型 ID (這裡我們實際上使用 gpt-4o 進行視覺辨識，所以這個ID不是直接用於辨識圖片內容)
# fine_tuned_model_id = "ft:gpt-3.5-turbo-1106:ici::BdSO0syF" # 此行暫時不使用，因為您使用的是 gpt-4o 進行圖片辨識

# --- 2. 確保 Tesseract OCR 和繁體中文語言包已安裝 ---
# 這些是運行 OCR 所必需的
print("正在檢查並安裝 Tesseract OCR 和繁體中文語言包...")
!apt update > /dev/null
!apt install tesseract-ocr -y > /dev/null
!apt install -y tesseract-ocr-chi-tra > /dev/null
!pip install pytesseract > /dev/null
print("OCR 環境設定完成。")

# --- 3. 掛載 Google Drive 並複製資料夾 ---
# 確保您的 Google Drive 已經掛載
from google.colab import drive
drive.mount('/content/drive')

# 定義 Google Drive 中的資料夾路徑 (請根據您實際的資料夾結構進行調整)
drive_folder_path = '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1'
# 定義 Colab 中的目標路徑 (複製到 /content/ 下，並保留原始資料夾名稱)
colab_base_path = '/content/'
colab_folder_name = os.path.basename(drive_folder_path)
colab_full_path = os.path.join(colab_base_path, colab_folder_name)

# 創建 Colab 中的目標資料夾，如果它不存在的話
os.makedirs(colab_full_path, exist_ok=True)

# 複製檔案
print(f"正在從 '{drive_folder_path}' 複製資料夾到 '{colab_full_path}'...")
# 使用 cp -r 來複製整個資料夾及其內容
!cp -r "{drive_folder_path}/." "{colab_full_path}/" # 複製資料夾內的內容到目標資料夾
print("資料夾複製完成。")

# --- 4. 批次處理圖片並進行模型判斷與準確率計算 ---
# 獲取資料夾中所有圖片檔案的路徑
image_files = [os.path.join(colab_full_path, f) for f in os.listdir(colab_full_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]
image_files = natsorted(image_files) # 使用自然排序確保順序一致

print(f"\n在 '{colab_full_path}' 中找到 {len(image_files)} 張圖片。")
if not image_files:
    print("錯誤：沒有找到任何圖片檔案。請檢查資料夾路徑和圖片副檔名。")
    print("請確認你的圖片檔案是 .png, .jpg, .jpeg, .gif, 或 .bmp 格式。")

# 用於儲存每個圖片的真實標籤、模型預測和是否準確
evaluation_results = []
total_processed = 0
# successful_ocr_count = 0 # 這裡不再需要 OCR 計數，因為直接使用視覺模型
successful_api_calls = 0

print("\n開始進行批次模型視覺判斷，這可能需要一些時間...")

# 導入 Base64 編碼工具
import base64
import io

# 輔助函數：將圖片編碼為 base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

for i, image_path in enumerate(image_files):
    filename = os.path.basename(image_path)
    print(f"\n--- 處理圖片 {i+1}/{len(image_files)}: {filename} ---")

    # 從檔名中提取真實標籤 (Ground Truth)
    true_label = "未知"
    # 這裡的邏輯是根據您的檔名判斷真實標籤。
    # 假設檔名中包含 "normal" 代表正常，包含 "scam_test" 代表詐騙。
    if "normal" in filename.lower():
        true_label = "正常對話"
    elif "scam_test" in filename.lower():
        true_label = "詐騙對話"
    else:
        print(f"警告: 檔名 '{filename}' 未能明確判斷為 '正常對話' 或 '詐騙對話' (根據 'normal' 或 'scam_test' 關鍵字)。將跳過此圖片。")
        continue # 跳過無法判斷真實標籤的圖片

    total_processed += 1

    # 直接使用多模態模型 (gpt-4o) 判斷圖片
    model_prediction = "模型未回應"
    is_correct = False

    try:
        # 將圖片編碼為 base64
        base64_image = encode_image(image_path)

        response_model = client.chat.completions.create(
            model="gpt-4o", # 使用 gpt-4o 進行圖片辨識
            messages=[
                {
                    "role": "system",
                    "content": "你是一個人工智慧詐騙與正常訊息辨識助手。請你辨識我提供的圖片內容是詐騙對話還是正常對話。請你不要加入其他訊息與資訊，只要給我最原始的資料即可，不用做過多解釋。例如：'這是一段詐騙對話' 或 '這是一段正常對話'。", # 根據您的 gpt-4o prompt 進行調整
                },
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": "請辨識這張圖片中的對話內容是詐騙還是正常:"},
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": f"data:image/jpeg;base64,{base64_image}",
                                "detail": "high" # 使用 high 獲取更高精度
                            },
                        },
                    ],
                },
            ],
            max_tokens=100, # 限制生成長度
        )
        model_prediction = response_model.choices[0].message.content.strip()
        successful_api_calls += 1
        print(f"  模型預測原始結果: '{model_prediction}'")

        # --- 核心修改在這裡：更彈性的判斷是否準確 ---
        # 判斷是否準確
        is_correct = False
        # 檢查真實標籤和模型預測中是否都包含「正常」或「詐騙」這個關鍵字
        if "正常" in true_label and "正常" in model_prediction:
            is_correct = True
        elif "詐騙" in true_label and "詐騙" in model_prediction:
            is_correct = True
        # --- 核心修改結束 ---

    except Exception as e:
        print(f"  呼叫模型失敗: {e}")
        model_prediction = f"API 呼叫失敗或圖片處理錯誤: {e}"

    evaluation_results.append({
        '檔名': filename,
        '真實標籤': true_label,
        '模型預測': model_prediction,
        '是否準確': '是' if is_correct else '否'
    })

    # 稍微延遲，避免過快呼叫 API 導致限制
    time.sleep(0.5)

print("\n所有圖片處理完成。")

# --- 5. 顯示結果並計算總體準確率 ---
if not evaluation_results:
    print("沒有任何可以計算準確率的結果。請檢查資料夾是否有圖片且檔名正確。")
else:
    correct_count = sum(1 for res in evaluation_results if res['是否準確'] == '是')
    total_evaluations = len(evaluation_results)

    accuracy = (correct_count / total_evaluations) * 100 if total_evaluations > 0 else 0

    print("\n--- 詳細評估結果 ---")
    # 將結果轉換為 DataFrame 以便顯示
    results_df = pd.DataFrame(evaluation_results)
    from IPython.display import display
    display(results_df)

    print("\n--- 總體準確率 ---")
    print(f"總共處理圖片數量 (有效標籤): {total_processed}")
    print(f"成功呼叫模型 API 的次數: {successful_api_calls}")
    print(f"準確辨識的圖片數量: {correct_count}")
    print(f"最終辨識準確率: {accuracy:.2f}%")

正在檢查並安裝 Tesseract OCR 和繁體中文語言包...


W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)




OCR 環境設定完成。
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
正在從 '/content/drive/MyDrive/大三/下/AI導論/test images for 3o and 4.1' 複製資料夾到 '/content/test images for 3o and 4.1'...
資料夾複製完成。

在 '/content/test images for 3o and 4.1' 中找到 106 張圖片。

開始進行批次模型視覺判斷，這可能需要一些時間...

--- 處理圖片 1/106: Scam_test2.jpg ---
  模型預測原始結果: '這是一段詐騙對話。'

--- 處理圖片 2/106: normal1.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 3/106: normal2.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 4/106: normal3.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 5/106: normal4.jpg ---
  模型預測原始結果: '這是一段詐騙對話。'

--- 處理圖片 6/106: normal5.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 7/106: normal6.jpg ---
  模型預測原始結果: '這是一段正常對話。'

--- 處理圖片 8/106: normal7

Unnamed: 0,檔名,真實標籤,模型預測,是否準確
0,Scam_test2.jpg,詐騙對話,這是一段詐騙對話。,是
1,normal1.jpg,正常對話,這是一段正常對話。,是
2,normal2.jpg,正常對話,這是一段正常對話。,是
3,normal3.jpg,正常對話,這是一段正常對話。,是
4,normal4.jpg,正常對話,這是一段詐騙對話。,否
...,...,...,...,...
101,scam_test_8.jpg,詐騙對話,這是一段詐騙對話。,是
102,scam_test_9.jpg,詐騙對話,這是一段詐騙對話。,是
103,scam_test_10.jpg,詐騙對話,這是一段詐騙對話。,是
104,scam_test_11.jpg,詐騙對話,這是一段詐騙對話。,是



--- 總體準確率 ---
總共處理圖片數量 (有效標籤): 106
成功呼叫模型 API 的次數: 106
準確辨識的圖片數量: 82
最終辨識準確率: 77.36%
