### 1. 관련 라이브러리 설치

In [2]:
pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

Collecting llama-index-core
  Downloading llama_index_core-0.11.21-py3-none-any.whl.metadata (2.4 kB)
Collecting llama-parse
  Downloading llama_parse-0.5.13-py3-none-any.whl.metadata (6.9 kB)
Collecting llama-index-readers-file
  Using cached llama_index_readers_file-0.2.2-py3-none-any.whl.metadata (5.4 kB)
Collecting python-dotenv
  Using cached python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Collecting PyYAML>=6.0.1 (from llama-index-core)
  Using cached PyYAML-6.0.2-cp311-cp311-macosx_10_9_x86_64.whl.metadata (2.1 kB)
Collecting SQLAlchemy>=1.4.49 (from SQLAlchemy[asyncio]>=1.4.49->llama-index-core)
  Downloading SQLAlchemy-2.0.36-cp311-cp311-macosx_10_9_x86_64.whl.metadata (9.7 kB)
Collecting aiohttp<4.0.0,>=3.8.6 (from llama-index-core)
  Downloading aiohttp-3.10.10-cp311-cp311-macosx_10_9_x86_64.whl.metadata (7.6 kB)
Collecting dataclasses-json (from llama-index-core)
  Using cached dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting deprecated>=1.2.9.3 (fr

### 2. 필요한 클래스 가져오기 & 환경 변수( API 키 ) 설정

In [17]:
# 필요한 클래스 가져오기
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader
from dotenv import load_dotenv  # 환경 변수 설정

load_dotenv()  # 환경 변수 설정

### 3. 비동기 처리 문제 관련 셋팅

In [20]:
# 비동기 처리 문제 해결
import nest_asyncio

nest_asyncio.apply()

### 4. LlamaParse 사용

In [21]:
# LlamaParse 파서 설정 ("markdown"과 "text" 형식 중 선택 가능)
parser = LlamaParse(result_type="markdown")

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}  # PDF 파일을 LlamaParse로 처리하도록 설정
documents = SimpleDirectoryReader(
    input_files=["../data/pdf_example.pdf"], file_extractor=file_extractor
).load_data()

print(documents)

### HTML 노드 파서

In [None]:
# 웹 페이지 로드
from llama_index.readers.web import SimpleWebPageReader

# 웹 페이지 로드
documents = SimpleWebPageReader().load_data(urls=["https://www.google.com"])

In [None]:
# HTML 노드 파서 불러오기
from llama_index.core.node_parser import HTMLNodeParser

# HTML 노드 파서 생성
parser = HTMLNodeParser(tags=["p", "span"])

# HTML 노드 파서 사용
nodes = parser.get_nodes_from_documents(documents)

In [None]:
print("<span> elements:")
for node in nodes:
    if node.metadata["tag"] == "span":
        print(node.text)

print("<p> elements:")
for node in nodes:
    if node.metadata["tag"] == "p":
        print(node.text)

<span> elements:
(function(){var id='tsuid_2';document.getElementById(id).onclick = function(){if (this.form.q.value){this.checked = 1;if (this.form.iflsig)this.form.iflsig.disabled = false;}
else top.location='/doodles/';};})();
광고비즈니스 솔루션Google 정보Google.co.kr
<p> elements:
© 2024 -
개인정보처리방침
-
약관
