# Excel File Loading in LangChain

Bản hướng dẫn này bao gồm quy trình tải và xử lý các tệp `Microsoft Excel` trong `LangChain`.

Nó tập trung vào hai phương pháp chính: `UnstructuredExcelLoader` để trích xuất văn bản thô và `DataFrameLoader` để xử lý dữ liệu có cấu trúc.

Hướng dẫn này nhằm mục đích giúp các nhà phát triển tích hợp hiệu quả dữ liệu Excel vào các dự án `LangChain` của họ, bao gồm cả các tình huống sử dụng cơ bản và nâng cao.

```bash
pip install openpyxl
```

## `UnstructuredExcelLoader`

`UnstructuredExcelLoader` được sử dụng để tải các tệp `Microsoft Excel`.

Trình tải này hoạt động với cả tệp `.xlsx` và `.xls`.

Khi trình tải được sử dụng ở `mode="elements"`, một biểu diễn HTML của tệp Excel được cung cấp dưới khóa `text_as_html` trong metadata của tài liệu.


In [1]:
import sys
from langchain_community.document_loaders import UnstructuredExcelLoader

# Set recursion limit
sys.setrecursionlimit(10**6)    

# Create UnstructuredExcelLoader 
loader = UnstructuredExcelLoader("data/titanic.xlsx", mode="elements")

# Load a document
docs = loader.load()

# Print the number of documents
print(len(docs))

1


This confirms that one document has been loaded.

The `page_content` contains the data from each row, while the `text_as_html` in the `metadata` stores the data in HTML format.

In [2]:
# Print the document
print(docs[0].page_content[:200])

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 S 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) fem


In [3]:
# Print the text_as_html of metadata
print(docs[0].metadata["text_as_html"][:1000])

<table><tr><td>PassengerId</td><td>Survived</td><td>Pclass</td><td>Name</td><td>Sex</td><td>Age</td><td>SibSp</td><td>Parch</td><td>Ticket</td><td>Fare</td><td>Cabin</td><td>Embarked</td></tr><tr><td>1</td><td>0</td><td>3</td><td>Braund, Mr. Owen Harris</td><td>male</td><td>22</td><td>1</td><td>0</td><td>A/5 21171</td><td>7.25</td><td/><td>S</td></tr><tr><td>2</td><td>1</td><td>1</td><td>Cumings, Mrs. John Bradley (Florence Briggs Thayer)</td><td>female</td><td>38</td><td>1</td><td>0</td><td>PC 17599</td><td>71.2833</td><td>C85</td><td>C</td></tr><tr><td>3</td><td>1</td><td>3</td><td>Heikkinen, Miss. Laina</td><td>female</td><td>26</td><td>0</td><td>0</td><td>STON/O2. 3101282</td><td>7.925</td><td/><td>S</td></tr><tr><td>4</td><td>1</td><td>1</td><td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td><td>female</td><td>35</td><td>1</td><td>0</td><td>113803</td><td>53.1</td><td>C123</td><td>S</td></tr><tr><td>5</td><td>0</td><td>3</td><td>Allen, Mr. William Henry</td><td>male</td><td>35</

## `DataFrameLoader`

- Similar to CSV files, we can load Excel files by using the `read_excel()` function to create a `pandas.DataFrame`, and then load it.

In [4]:
import pandas as pd

# read the Excel file
df = pd.read_excel("./data/titanic.xlsx")

In [5]:
from langchain_community.document_loaders import DataFrameLoader

# Set up DataFrame loader, specifying the page content column
loader = DataFrameLoader(df, page_content_column="Name")

# Load the document
docs = loader.load()

# Print the data
print(docs[0].page_content)

# Print the metadata
print(docs[0].metadata)

Braund, Mr. Owen Harris
{'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}
