In [1]:
import torch
from pptx import Presentation
from pptx.util import Inches
from PIL import Image
from io import BytesIO
import os

In [13]:
# Hugging Face 模型
from transformers import pipeline, AutoModel, AutoTokenizer, AutoImageProcessor

# --- 載入預訓練模型 ---
# 1. 視覺模型：用於理解圖片內容，這裡使用 ViT 模型。
# ViT (Vision Transformer) 能夠將圖片轉換為有意義的向量表示。
vision_model_name = "google/vit-base-patch16-224"
image_processor = AutoImageProcessor.from_pretrained(vision_model_name)
vision_model = AutoModel.from_pretrained(vision_model_name)

# 2. 語言模型：用於理解文字內容，這裡使用 BERT 模型。
# BERT (Bidirectional Encoder Representations from Transformers) 能將文字轉換為有意義的向量表示。
text_model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(text_model_name)
text_model = AutoModel.from_pretrained(text_model_name)

# 3. 圖片辨識模型：用於給圖片打標籤，幫助理解圖片內容。
# 這個模型會直接給出圖片的文字描述。
image_to_text_pipeline = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")

# ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

def get_text_embeddings(text):
    """使用 BERT 模型將文字轉換為向量。"""
    if not text:
        return None
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)
    with torch.no_grad():
        outputs = text_model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze()

def get_image_embeddings(image_path):
    """
    使用 ViT 模型和 AutoImageProcessor 將圖片轉換為向量。
    """
    try:
        # 1. 使用 PIL 讀取圖片
        image = Image.open(image_path).convert("RGB")
        
        # 2. 使用 Hugging Face 處理器進行預處理
        # 處理器會自動將圖片轉換成模型所需的格式 (這裡會得到一個字典)
        inputs = image_processor(images=image, return_tensors="pt")
        
        # 3. 將處理後的張量傳給模型
        with torch.no_grad():
            outputs = vision_model(**inputs)
            
        # 4. 獲取並返回特徵向量
        # 這裡我們取平均，得到一個固定維度的向量
        return outputs.last_hidden_state.mean(dim=1).squeeze()
    
    except Exception as e:
        print(f"處理圖片 {image_path} 時發生錯誤: {e}")
        return None

preprocessor_config.json:   0%|          | 0.00/160 [00:00<?, ?B/s]

Fast image processor class <class 'transformers.models.vit.image_processing_vit_fast.ViTImageProcessorFast'> is available for this model. Using slow image processor class. To use the fast image processor class set `use_fast=True`.
Some weights of ViTModel were not initialized from the model checkpoint at google/vit-base-patch16-224 and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


In [10]:
from pptx import Presentation
import os
from io import BytesIO

def read_presentation_content(file_path):
    """
    從簡報檔案中讀取文字和圖片，並返回一個結構化的列表。
    
    Args:
        file_path (str): 簡報檔案的路徑。

    Returns:
        list: 包含每張投影片文字和圖片路徑的列表。
    """
    # 檢查檔案是否存在
    if not os.path.exists(file_path):
        print(f"錯誤：找不到簡報檔案 '{file_path}'。")
        return None

    # 讀取簡報檔案
    prs = Presentation(file_path)
    
    # 建立一個暫存目錄來儲存圖片
    temp_image_dir = "temp_images"
    os.makedirs(temp_image_dir, exist_ok=True)
    
    extracted_content = []

    # 逐頁遍歷簡報中的每一張投影片
    for slide_index, slide in enumerate(prs.slides):
        slide_text = []
        slide_images = []
        
        # 遍歷投影片中的每一個形狀 (shape)，以尋找文字和圖片
        for shape in slide.shapes:
            # 檢查是否為文字框
            if shape.has_text_frame:
                text = shape.text_frame.text
                if text:
                    slide_text.append(text)
            
            # 檢查是否為圖片
            if hasattr(shape, 'image'):
                image_blob = shape.image.blob
                image_filename = f"slide_{slide_index}_shape_{len(slide_images)}.png"
                image_path = os.path.join(temp_image_dir, image_filename)
                
                # 將圖片二進制數據寫入檔案
                with open(image_path, "wb") as f:
                    f.write(image_blob)
                
                slide_images.append(image_path)
        
        # 將該投影片的內容整理成一個字典
        content_for_slide = {
            "text": " ".join(slide_text),
            "images": slide_images
        }
        extracted_content.append(content_for_slide)
        
    print(f"成功從簡報中提取了 {len(extracted_content)} 張投影片的內容。")
    return extracted_content

In [21]:
extracted_content = read_presentation_content("pytorch.pptx")

成功從簡報中提取了 38 張投影片的內容。


In [7]:
def analyze_and_sort_content(extracted_content):
    """
    核心邏輯：分析文字和圖片內容，並進行排序。
    這個函數的邏輯決定了簡報的整理品質。
    """
    content_with_scores = []
    
    # 遍歷每一張投影片的內容
    for page_idx, page_content in enumerate(extracted_content):
        text_content = page_content["text"]
        image_paths = page_content["images"]
        
        # 使用文字模型計算文字向量
        text_embedding = get_text_embeddings(text_content) if text_content else None
        
        # 使用圖片模型計算圖片向量
        image_embeddings = [get_image_embeddings(path) for path in image_paths if path]
        
        # 使用 image-to-text 模型為圖片生成描述
        image_descriptions = [image_to_text_pipeline(path) for path in image_paths if path]
        
        # (這裡只是簡化範例，你可以根據需要設計更複雜的排序邏輯)
        # 例如：
        # - 計算圖片描述與文字內容的相似度，將相關圖片與文字放在一起
        # - 對所有文字內容進行聚類，將主題相近的文字放在一起
        # - 根據內容的關鍵字 (例如 "結論", "介紹") 進行排序
        
        # 簡單的排序邏輯：將文字內容和圖片描述合併，並作為排序的依據
        combined_text = text_content + " " + " ".join([desc[0]['generated_text'] for desc in image_descriptions])
        combined_embedding = get_text_embeddings(combined_text)
        
        # 在這裡，我們假設簡報的順序是根據內容的「主題」或「概念」排序
        # 為了簡化，我們只將每一頁的內容及其向量存儲起來
        if combined_embedding is not None:
            content_with_scores.append({
                "page_index": page_idx,
                "content": page_content,
                "embedding": combined_embedding
            })

    # (這裡應該是你的排序邏輯，例如基於 embedding 的相似度聚類)
    # 為了簡化，我們假設我們想將內容相似的投影片排在一起
    # 在實際應用中，你需要設計一個更複雜的排序演算法
    sorted_content = sorted(content_with_scores, key=lambda x: torch.norm(x['embedding']))
    
    return [item['content'] for item in sorted_content]


In [14]:
sorted_content = analyze_and_sort_content(extracted_content)

  return forward_call(*args, **kwargs)


In [15]:
def generate_new_presentation(sorted_content, output_path="cleaned_presentation.pptx"):
    """根據排序好的內容生成一份新的簡報。"""
    prs = Presentation()
    for page_content in sorted_content:
        # 新增一張投影片
        slide_layout = prs.slide_layouts[5]  # 使用空白投影片版型
        slide = prs.slides.add_slide(slide_layout)
        
        # 在投影片上加入文字
        if page_content["text"]:
            txBox = slide.shapes.add_textbox(Inches(1), Inches(1), Inches(8), Inches(2))
            tf = txBox.text_frame
            tf.text = page_content["text"]
        
        # 在投影片上加入圖片
        for i, image_path in enumerate(page_content["images"]):
            left = Inches(1) + i * Inches(2)
            top = Inches(4)
            slide.shapes.add_picture(image_path, left, top, height=Inches(2))
            
    prs.save(output_path)
    print(f"新的簡報已儲存至 {output_path}")

In [20]:
generate_new_presentation(sorted_content, output_path="cleaned_presentation.pptx")

FileNotFoundError: [Errno 2] No such file or directory: 'product_a_image.png'

In [18]:
import os

def generate_structured_txt_report(sorted_content, output_path="report.txt"):
    """
    將整理好的簡報內容輸出成易於檢視的結構化 .txt 檔案。

    Args:
        sorted_content (list): 包含每張投影片文字和圖片描述的列表。
        output_path (str): 輸出的 .txt 檔案路徑。
    """
    if not sorted_content:
        print("警告：沒有內容可以輸出。")
        return

    # 假設我們有一個簡單的函式來生成圖片描述，以便範例運行
    def get_image_description(image_path):
        # 在實際應用中，這裡會調用 AI 模型來生成描述
        # 例如：image_to_text_pipeline(image_path)
        return f"圖片描述 (來源: {os.path.basename(image_path)})"

    with open(output_path, 'w', encoding='utf-8') as f:
        f.write("# 簡報整理報告\n\n")
        f.write("此報告由 AI 模型自動整理而成。\n")
        f.write("------------------------------\n\n")

        # 逐頁寫入整理後的內容
        for i, page_content in enumerate(sorted_content):
            # 使用標題標示投影片序號
            f.write(f"## 第 {i+1} 張投影片\n")
            f.write("------------------------------\n")

            # 寫入文字內容
            f.write(f"### 文字內容：\n")
            f.write(f"{page_content['text']}\n\n")

            # 寫入圖片描述清單
            if page_content['images']:
                f.write("### 圖片重點：\n")
                for image_path in page_content['images']:
                    # 假設我們已經有圖片描述
                    description = get_image_description(image_path)
                    f.write(f"- {description}\n")
            
            f.write("\n\n")  # 在每張投影片之間留空行，增加可讀性
    
    print(f"整理後的報告已成功輸出至 {output_path}")

In [22]:
generate_structured_txt_report(sorted_content, output_path="report.txt")

整理後的報告已成功輸出至 report.txt
