## LlamaParser
LlamaParse는 Llamaindex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다. 주요 특징은 다음과 같습니다:
- PDF, Word, PowerPoint, Excel 등 다양한 문서 형식

In [1]:
# 설치
!pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

Collecting llama-index-core
  Downloading llama_index_core-0.12.10.post1-py3-none-any.whl.metadata (2.5 kB)
Collecting llama-parse
  Downloading llama_parse-0.5.19-py3-none-any.whl.metadata (7.0 kB)
Collecting llama-index-readers-file
  Downloading llama_index_readers_file-0.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Collecting dataclasses-json (from llama-index-core)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting dirtyjson<2.0.0,>=1.0.8 (from llama-index-core)
  Downloading dirtyjson-1.0.8-py3-none-any.whl.metadata (11 kB)
Collecting filetype<2.0.0,>=1.2.0 (from llama-index-core)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting tiktoken>=0.3.3 (from llama-index-core)
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting typing-inspect>=0.8.0 (from llama-index-core)
  Down

In [2]:
import os
import nest_asyncio

LLAMA_CLOUD_API_KEY = ''
nest_asyncio.apply()

In [3]:
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,
    language="ko",
    api_key=LLAMA_CLOUD_API_KEY,
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=["/content/data/연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf"],
    file_extractor=file_extractor,
).load_data()

Started parsing the file under job_id d0e116b1-98bf-4a39-bb0e-4ec0ef88b873
...

In [4]:
# 페이지 수 확인
len(documents)

9

In [6]:
# metadata 출력
documents[0]

Document(id_='f578c5b2-52ca-415f-a60b-d533a14f924b', embedding=None, metadata={'file_path': '/content/data/연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf', 'file_name': '연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf', 'file_type': 'application/pdf', 'file_size': 633875, 'creation_date': '2025-01-07', 'last_modified_date': '2025-01-07'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='# 연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발\n\n# Development of the Drop-outs Prediction Model Using Association Rule and Decision Tree\n\n# Chung So Young* · Kwon Soo Tae**\n\n# 요약\n\n교육현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제로, 해마다 많은 수의 학생들이 중도탈락을 하게 되며, 이는 청소년비행 및 범죄와 연계되어 심각한 사회문제로 지적되고 있다. 이에 

## LlamaIndex -> LangChain Document 로 변환

In [8]:
!pip install langchain_community

Collecting langchain_community
  Downloading langchain_community-0.3.14-py3-none-any.whl.metadata (2.9 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain_community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain<0.4.0,>=0.3.14 (from langchain_community)
  Downloading langchain-0.3.14-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-core<0.4.0,>=0.3.29 (from langchain_community)
  Downloading langchain_core-0.3.29-py3-none-any.whl.metadata (6.3 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain_community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Downloading langchain_community-0.3.14-py3-none-any.whl (2.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m28.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpx_sse-0.4.0-py3-none-any.whl (7.8 kB)
Downloading langchain-0.3.14-py3-none-any.whl (1.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m 

In [9]:
# 랭체인 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in documents]

In [12]:
print(docs[1].page_content)

# 연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발

# Ⅰ. 서 론

21세기 지식정보화 사회에서는 급속하게 발달된 정보기술을 기반으로 한 지식과 정보가 산업뿐만 아니라 정치, 문화, 사회, 교육 등 제반분야에 가치를 창출하는데 가장 중요한 원동력이 되고 있다. 이러한 지식정보화 사회의 물결은 가정, 학교, 사회의 상호연계체제를 갖게 하였고, 교육을 하는 자, 교육받는 자, 교육환경 등에 영향을 미치면서 교육의 패러다임을 변화시키고 있다. 이에 따라, 세계 각국에서는 교육시스템을 새로운 지식정보화사회에 적합하게 재구성하기 위한 ‘교육정보화’에 많은 노력을 기울이고 있다.

우리나라의 초․중등 교육정보화 정책 및 현황을 살펴보면, 행정위주의 물리적 기반구축과 정보통신 기술을 이용한 교육프로그램의 개발과 적용 등 ‘교육정보화’를 주된 목적으로 삼아 추진되고 있다. 그러나 진정한 교육정보화를 실현하기 위해서는 ‘교육’의 본질에 대한 진지한 고찰을 기반으로 하여 현장중심, 수요자 중심의 실질적이며 체계적인 정책과 연구가 필요하다.

교육목적을 위해 정보기술을 활용하고자 교육현장의 문제를 살펴보면, 그 중 가장 우려되는 부분은 ‘중도탈락’이다. 중도탈락(중퇴)이란 학생이 중도에 의도적으로 학업을 중단하는 것으로 학생 자신, 가정, 학교, 전체사회에 존재하는 다변적인 요인들이 복합적으로 작용하여 학교 공부를 중단하게 되는 일종의 사회 이탈 현상이다. 우리나라의 중․고등학교 학생들의 중도탈락 현황은 <표 1>과 같다.

# 표 1. 중도탈락자 현황

|년도|전체고등학교 학생수|중퇴 일반|중퇴 실업|전체 중도탈락 학생수|
|---|---|---|---|---|
|2000|2,071,468|16,520|32,188|48,708|
|2001|1,911,173|18,921|33,215|52,136|
|2002|1,795,509|20,166|27,966|48,132|
|2003|1,766,529|17,095|21,529|38,624|
|2004|1,746,560|10,4

In [13]:
# metadata 출력
docs[0].metadata

{'file_path': '/content/data/연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf',
 'file_name': '연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf',
 'file_type': 'application/pdf',
 'file_size': 633875,
 'creation_date': '2025-01-07',
 'last_modified_date': '2025-01-07'}

# MultiModal Model 로 파싱
주요 파라미터

- use_vendor_multimodal_model: 멀티모달 모델 사용 여부를 지정합니다. True로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.

- vendor_multimodal_model_name: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

- vendor_multimodal_api_key: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

- result_type: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

- language: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

- skip_diagonal_text: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

- page_separator: 페이지 구분자를 지정할 수 있습니다.

In [21]:
OPENAI_API_KEY = ''
documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=OPENAI_API_KEY,
    api_key=LLAMA_CLOUD_API_KEY,
    result_type="markdown",
    language="ko",
    # skip_diagonal_text=True,
    page_separator="\n=================\n",
)

In [22]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path="/content/data/연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf")

Started parsing the file under job_id c249a3b6-91a9-4489-b32a-cd942a685afe
..........

In [23]:
# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [25]:
print(docs[0].page_content)

# 연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발

정소영* · 권수태**

## Development of the Drop-outs Prediction Model Using Association Rule and Decision Tree

Chung So Young* · Kwon Soo Tae**

### 요약

교육현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제로, 해마다 많은 수의 학생들이 중도탈락을 하게 되며, 이는 청소년범죄 및 범죄와 연계되어 심각한 사회문제로 지적되고 있다. 이에 본 논문에서는 연관규칙과 의사결정트리를 이용하여 중도탈락을 예측하는 모형을 구현하였으며, 고등학교 중도탈락의 문제에 대하여 교육현장에서의 예방차원의 적극적인 지도를 할 수 있는 기반을 마련하고 교육현장 중심의 실질적인 교육정보화 실현을 위한 하나의 구체적인 응용사례를 제시하였다.

### ABSTRACT

School drop-outs are considered as one of big problems at schools. Every year a large number of students does dropout, and these teenagers tend to commit crimes and become even a social problem. In this paper, we implement the dropout prediction model by using the associated rule and decision tree. Also, a foundation is laid being able to counsel students about quitting school, and a concrete case is provided on how the data mining can be used for the information in the field of education.

### Keywords

Dropout, Data Mining, Associat

### Parsing Instruction

In [26]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of AI Report. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=OPENAI_API_KEY,
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
    api_key=LLAMA_CLOUD_API_KEY,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path="/content/data/연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

Started parsing the file under job_id e9b32fae-90a2-4450-b41b-7cf6064c5d24
.

In [27]:
print(docs[0].page_content)

The document is titled "Development of the Drop-outs Prediction Model Using Association Rule and Decision Tree" by Chung So Young and Kwon Soo Tae. It discusses the issue of school dropouts and presents a model using association rules and decision trees to predict dropouts. The paper aims to provide a foundation for counseling students and applying data mining in education.

**Keywords:**
- Dropout
- Data Mining
- Association Rule
- Decision Tree
- Neural Network
