# Microsoft PowerPoint

[Microsoft PowerPoint](https://en.wikipedia.org/wiki/Microsoft_PowerPoint) là một chương trình thuyết trình được phát triển bởi Microsoft.

Hướng dẫn này trình bày hai phương pháp khác nhau để xử lý tài liệu PowerPoint cho việc sử dụng sau này:
1. Sử dụng `Unstructured` để tải và phân tích cú pháp các tệp PowerPoint thành các phần tử tài liệu
2. Sử dụng `MarkItDown` để chuyển đổi các tệp PowerPoint thành định dạng markdown và các đối tượng Document của LangChain.

Cả hai phương pháp đều cho phép trích xuất và xử lý văn bản hiệu quả, với những điểm mạnh khác nhau cho các trường hợp sử dụng khác nhau.


## Converting PPTX to Langchain Documents Using Unstructured

`Unstructured` là một thư viện xử lý tài liệu mạnh mẽ, vượt trội trong việc chuyển đổi các định dạng tài liệu khác nhau thành văn bản sạch, có cấu trúc. <br/>Nó được tích hợp tốt với hệ sinh thái LangChain và cung cấp khả năng phân tích cú pháp tài liệu đáng tin cậy.

Thư viện bao gồm:

- Xử lý cục bộ với gói mã nguồn mở
- Xử lý từ xa thông qua Unstructured API
- Hỗ trợ định dạng tài liệu toàn diện
- Khả năng OCR tích hợp sẵn


In [1]:
from langchain_community.document_loaders import UnstructuredPowerPointLoader

# Initialize UnstructuredPowerPointLoader
loader = UnstructuredPowerPointLoader("data/07-ppt-loader-sample.pptx")

# Load PowerPoint document
docs = loader.load()

# Print number of loaded documents
print(len(docs))

1


In [2]:
print(docs[0].page_content[:100])

Natural Language Processing with Deep Learning

CS224N/Ling284

Christopher Manning

Lecture 2: Word


`Unstructured` tạo ra nhiều "elements" khác nhau cho các **chunks** văn bản khác nhau.

Theo mặc định, chúng được kết hợp và trả về dưới dạng một tài liệu duy nhất, nhưng các elements có thể dễ dàng được tách biệt bằng cách chỉ định `mode="elements"`.


In [4]:
# Create UnstructuredPowerPointLoader with elements mode
loader = UnstructuredPowerPointLoader("data/07-ppt-loader-sample.pptx", mode="elements")

# Load PowerPoint elements
docs = loader.load()

# Print number of elements extracted
print(len(docs))

498


In [5]:
docs[0]

Document(metadata={'source': 'data/07-ppt-loader-sample.pptx', 'category_depth': 0, 'file_directory': 'data', 'filename': '07-ppt-loader-sample.pptx', 'last_modified': '2025-03-11T07:48:12', 'page_number': 1, 'languages': ['eng'], 'filetype': 'application/vnd.openxmlformats-officedocument.presentationml.presentation', 'category': 'Title', 'element_id': 'bb6cdc142e5062b564541bfbc10f7f8c'}, page_content='Natural Language Processing with Deep Learning')

In [6]:
# Get and display the first element
first_element = docs[0]
print(first_element)

# To see its metadata and content separately, you could do:
print("Content:", first_element.page_content)
print("Metadata:", first_element.metadata)

page_content='Natural Language Processing with Deep Learning' metadata={'source': 'data/07-ppt-loader-sample.pptx', 'category_depth': 0, 'file_directory': 'data', 'filename': '07-ppt-loader-sample.pptx', 'last_modified': '2025-03-11T07:48:12', 'page_number': 1, 'languages': ['eng'], 'filetype': 'application/vnd.openxmlformats-officedocument.presentationml.presentation', 'category': 'Title', 'element_id': 'bb6cdc142e5062b564541bfbc10f7f8c'}
Content: Natural Language Processing with Deep Learning
Metadata: {'source': 'data/07-ppt-loader-sample.pptx', 'category_depth': 0, 'file_directory': 'data', 'filename': '07-ppt-loader-sample.pptx', 'last_modified': '2025-03-11T07:48:12', 'page_number': 1, 'languages': ['eng'], 'filetype': 'application/vnd.openxmlformats-officedocument.presentationml.presentation', 'category': 'Title', 'element_id': 'bb6cdc142e5062b564541bfbc10f7f8c'}


In [7]:
# Print elements with formatted output and enumerate for easy reference
for idx, doc in enumerate(docs[:3], 1):
    print(f"\nElement {idx}/{len(docs)}")
    print(f"Category: {doc.metadata['category']}")
    print("="*50)
    print(f"Content:\n{doc.page_content.strip()}")
    print("="*50)


Element 1/498
Category: Title
Content:
Natural Language Processing with Deep Learning

Element 2/498
Category: Title
Content:
CS224N/Ling284

Element 3/498
Category: Title
Content:
Christopher Manning


## Converting PPTX to Langchain Documents Using MarkItDown

[`MarkItDown`]([https://github.com/microsoft/markitdown](https://github.com/microsoft/markitdown) "Visit the GitHub page") là một thư viện mã nguồn mở của Microsoft, chuyển đổi các tài liệu phi cấu trúc thành Markdown có cấu trúc, một định dạng mà LLMs có thể dễ dàng xử lý và hiểu. Điều này làm cho nó đặc biệt có giá trị đối với các hệ thống RAG (Retrieval Augmented Generation) bằng cách cho phép biểu diễn văn bản ngữ nghĩa rõ ràng.

Hỗ trợ các định dạng như PDF, PowerPoint, Word, Excel, hình ảnh (với EXIF/OCR), âm thanh (với phiên âm), HTML và nhiều hơn nữa, `MarkItDown` giữ nguyên cấu trúc ngữ nghĩa và xử lý dữ liệu phức tạp, chẳng hạn như bảng, một cách chính xác. Điều này đảm bảo chất lượng truy xuất cao và tăng cường khả năng của LLMs trong việc trích xuất thông tin chi tiết từ các loại nội dung đa dạng.

> ⚠️**Lưu ý**: MarkItDown không diễn giải nội dung của hình ảnh được nhúng trong tệp PowerPoint. Thay vào đó, nó trích xuất hình ảnh nguyên trạng, khiến ý nghĩa ngữ nghĩa của chúng không thể truy cập được đối với LLMs.

Ví dụ: một đối tượng trong slide sẽ được xử lý như sau:

`![object #](object#.jpg)`



### Extracting Text from PPTX Using MarkItDown

Trong phần này, chúng ta sẽ sử dụng `MarkItDown` để:
* Chuyển đổi các slide PowerPoint sang định dạng markdown
* Giữ nguyên cấu trúc ngữ nghĩa và định dạng hình ảnh
* Duy trì số slide và tiêu đề
* Tạo đầu ra văn bản sạch, dễ đọc

Đầu tiên, chúng ta cần khởi tạo `MarkItDown` và chạy hàm `convert` để tải tệp `.pptx` từ cục bộ.


In [8]:
from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("data/07-ppt-loader-sample.pptx")
result_text = result.text_content
print(result_text[:500])

<!-- Slide number: 1 -->

![object 2](object2.jpg)
# Natural Language Processing with Deep Learning
CS224N/Ling284
Christopher Manning
Lecture 2: Word Vectors, Word Senses, and Neural Classifiers

<!-- Slide number: 2 -->
# Lecture Plan
10
Lecture 2: Word Vectors, Word Senses, and Neural Network Classifiers
Course organization (3 mins)
Optimization basics (5 mins)
Review of word2vec and looking at word vectors (12 mins)
More on word2vec (8 mins)
Can we capture the essence of word meaning more ef


### Convert markdown format to Langchain Document format

The code below processes PowerPoint slides by splitting them into individual Document objects. <br/>Each slide is converted into a Langchain Document object with metadata including the `slide number` and `title`. 

In [9]:
from langchain_core.documents import Document
import re

# Initialize document processing for PowerPoint slides
# Format: <!-- Slide number: X --> where X is the slide number

# Split the input text into individual slides using HTML comment markers
slides = re.split(r'<!--\s*Slide number:\s*(\d+)\s*-->', result_text)

# Initialize list to store Document objects
documents = []

# Process each slide:
# - Start from index 1 since slides[0] is empty from the initial split
# - Step by 2 because the split result alternates between:
#   1. slide number (odd indices)
#   2. slide content (even indices)
# Example: ['', '1', 'content1', '2', 'content2', '3', 'content3']
for i in range(1, len(slides), 2):
    # Extract slide number and content
    slide_number = slides[i]
    content = slides[i + 1].strip() if i + 1 < len(slides) else ""
    
    # Extract slide title from first markdown header if present
    title_match = re.search(r'#\s*(.+?)(?=\n|$)', content)
    title = title_match.group(1).strip() if title_match else ""
    
    # Create Document object with slide metadata
    doc = Document(
        page_content=content,
        metadata={
            "source": "data/07-ppt-loader-sample.pptx",
            "slide_number": int(slide_number),
            "slide_title": title
        }
    )
    documents.append(doc)

documents[:2]

[Document(metadata={'source': 'data/07-ppt-loader-sample.pptx', 'slide_number': 1, 'slide_title': 'Natural Language Processing with Deep Learning'}, page_content='![object 2](object2.jpg)\n# Natural Language Processing with Deep Learning\nCS224N/Ling284\nChristopher Manning\nLecture 2: Word Vectors, Word Senses, and Neural Classifiers'),
 Document(metadata={'source': 'data/07-ppt-loader-sample.pptx', 'slide_number': 2, 'slide_title': 'Lecture Plan'}, page_content='# Lecture Plan\n10\nLecture 2: Word Vectors, Word Senses, and Neural Network Classifiers\nCourse organization (3 mins)\nOptimization basics (5 mins)\nReview of word2vec and looking at word vectors (12 mins)\nMore on word2vec (8 mins)\nCan we capture the essence of word meaning more effectively by counting? (12m)\nEvaluating word vectors (10 mins)\nWord senses (10 mins)\nReview of classification and how neural nets differ (10 mins)\nIntroducing neural networks (10 mins)\n\nKey Goal: To be able to read and understand word embed

`MarkItDown` xử lý hiệu quả các bảng trong slide PowerPoint bằng cách chuyển đổi chúng thành cú pháp bảng Markdown rõ ràng.

Điều này giúp dữ liệu dạng bảng dễ dàng truy cập cho LLMs trong khi vẫn giữ nguyên cấu trúc và định dạng ban đầu.


In [10]:
print(documents[15].page_content)


# Example: Window based co-occurrence matrix
10
Window length 1 (more common: 5–10)
Symmetric (irrelevant whether left or right context)

Example corpus:
I like deep learning
I like NLP
I enjoy flying

| counts | I | like | enjoy | deep | learning | NLP | flying | . |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| I | 0 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
| like | 2 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
| enjoy | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
| deep | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
| learning | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
| NLP | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
| flying | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
| . | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 0 |
