# Excel

`UnstructuredExcelLoader`는 `Microsoft Excel` 파일을 로드하는 데 사용됩니다. 

이 로더는 `.xlsx` 및 `.xls` 파일 모두에서 작동합니다. 페이지 내용은 Excel 파일의 원시 텍스트가 됩니다. 

`"elements"` 모드에서 로더를 사용하는 경우, 문서 메타데이터의 `text_as_html` 키 아래에서 Excel 파일의 HTML 표현이 제공됩니다.

In [1]:
# 설치
# !pip install -qU langchain-community unstructured openpyxl

In [9]:
from langchain_community.document_loaders import UnstructuredExcelLoader

# UnstructuredExcelLoader 생성
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")

# 문서 로드
docs = loader.load()

# 문서 길이 출력
print(len(docs))

1


1개의 문서로 로드되었음을 확인합니다. 

`page_content` 에는 각 행의 데이터가 저장되고, `metadata` 의 `text_as_html` 에는 각 행의 데이터를 HTML 형식으로 저장합니다.

In [10]:
# 문서 출력
print(docs[0].page_content[:200])




PassengerId
Survived
Pclass
Name
Sex
Age
SibSp
Parch
Ticket
Fare
Cabin
Embarked


1
0
3
Braund, Mr. Owen Harris
male
22
1
0
A/5 21171
7.25

S


2
1
1
Cumings, Mrs. John Bradley (Florence Briggs Tha


In [13]:
# metadata 의 text_as_html 출력
print(docs[0].metadata["text_as_html"][:1000])

<table border="1" class="dataframe">
  <tbody>
    <tr>
      <td>PassengerId</td>
      <td>Survived</td>
      <td>Pclass</td>
      <td>Name</td>
      <td>Sex</td>
      <td>Age</td>
      <td>SibSp</td>
      <td>Parch</td>
      <td>Ticket</td>
      <td>Fare</td>
      <td>Cabin</td>
      <td>Embarked</td>
    </tr>
    <tr>
      <td>1</td>
      <td>0</td>
      <td>3</td>
      <td>Braund, Mr. Owen Harris</td>
      <td>male</td>
      <td>22</td>
      <td>1</td>
      <td>0</td>
      <td>A/5 21171</td>
      <td>7.25</td>
      <td></td>
      <td>S</td>
    </tr>
    <tr>
      <td>2</td>
      <td>1</td>
      <td>1</td>
      <td>Cumings, Mrs. John Bradley (Florence Briggs Thayer)</td>
      <td>female</td>
      <td>38</td>
      <td>1</td>
      <td>0</td>
      <td>PC 17599</td>
      <td>71.2833</td>
      <td>C85</td>
      <td>C</td>
    </tr>
    <tr>
      <td>3</td>
      <td>1</td>
      <td>3</td>
      <td>Heikkinen, Miss. Laina</td>
      <td>female</td>
 

## DataFrameLoader

- CSV 파일과 마찬가지로 Excel 파일을 로드하는 `read_excel()` 기능을 사용하여 DataFrame 으로 만든 뒤, 로드합니다.

In [16]:
import pandas as pd

# Excel 파일 읽기
df = pd.read_excel("./data/titanic.xlsx")

In [17]:
from langchain_community.document_loaders import DataFrameLoader

# 데이터 프레임 로더 설정, 페이지 내용 컬럼 지정
loader = DataFrameLoader(df, page_content_column="Name")

# 문서 로드
docs = loader.load()

# 데이터 출력
print(docs[0].page_content)

# 메타데이터 출력
print(docs[0].metadata)

Braund, Mr. Owen Harris
{'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}
