In [7]:
# !pip install pydantic==2.7.1
# !pip install pydantic_core==2.18.2

In [8]:
# !pip install -U llama-index

In [9]:
# !pip install docx2txt

In [10]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

In [11]:
query_engine = index.as_query_engine()
response = query_engine.query("소년과 소녀는 어디에서 처음 만났나? 한국어로 대답해줘.")
print(response)

개울가에서 처음 만났다.


In [12]:
from llama_index.llms.openai import OpenAI

response = OpenAI().complete("근육이 커지려면")
print(response)

근육이 커지려면 꾸준한 운동과 올바른 식이요법이 필요합니다. 근육을 키우기 위해서는 저항 운동을 통해 근육을 자극하고 성장시키는 것이 중요합니다. 또한 단백질 섭취를 증가시키고 충분한 수면을 취하는 것도 근육을 키우는데 도움이 됩니다. 또한 적절한 휴식과 회복을 취하는 것도 중요합니다. 꾸준한 노력과 신경쓰기를 통해 근육을 키울 수 있습니다.


In [13]:
from llama_index.llms.openai import OpenAI
from llama_index.core import Settings
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

Settings.llm = OpenAI(temperature=0.2, model="gpt-4o-mini")

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(
    documents,
)

In [14]:
query_engine = index.as_query_engine()
response = query_engine.query("소녀와 윤초시는 어떤 관계인가? 한국어로 대답해줘.")
print(response)

소녀는 윤 초시의 증손녀입니다.


In [15]:
query_engine = index.as_query_engine()
response = query_engine.query("소년은 소녀에게 무엇을 주려고 했나? 한국어로 대답해줘.")
print(response)

소년은 소녀에게 덕쇠 할아버지네 호두를 맛보여 주려고 했습니다.


In [16]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.DEBUG) # logging.INFO
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

In [17]:
query_engine = index.as_query_engine()
response = query_engine.query("아카키의 월급은 얼마인가?")
print(response)

DEBUG:openai._base_client:Request options: {'method': 'post', 'url': '/embeddings', 'files': None, 'idempotency_key': 'stainless-python-retry-ca6e8fb9-fa19-41e7-a4c0-2343f5a239ea', 'post_parser': <function Embeddings.create.<locals>.parser at 0x7fbb07a649d0>, 'json_data': {'input': ['아카키의 월급은 얼마인가?'], 'model': 'text-embedding-ada-002', 'encoding_format': 'base64'}}
Request options: {'method': 'post', 'url': '/embeddings', 'files': None, 'idempotency_key': 'stainless-python-retry-ca6e8fb9-fa19-41e7-a4c0-2343f5a239ea', 'post_parser': <function Embeddings.create.<locals>.parser at 0x7fbb07a649d0>, 'json_data': {'input': ['아카키의 월급은 얼마인가?'], 'model': 'text-embedding-ada-002', 'encoding_format': 'base64'}}
DEBUG:openai._base_client:Sending HTTP Request: POST https://api.openai.com/v1/embeddings
Sending HTTP Request: POST https://api.openai.com/v1/embeddings
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
send_request_headers.started request=<Request [b'POST']>


In [18]:
logging.disable(logging.CRITICAL)

In [19]:
query_engine = index.as_query_engine()
response = query_engine.query("아카키가 죽은 이유는 무엇인가? 상세하게 한국어로 답하세요.")
print(response)

아카키 아카끼예비치의 죽음에 대한 구체적인 이유는 명시되어 있지 않지만, 그의 삶의 고달픔과 외투를 잃은 후 겪은 불행이 그에게 큰 영향을 미쳤음을 알 수 있습니다. 그는 생전에 동료 관리들로부터 조롱을 당하고, 자신의 존재가 아무런 주목도 받지 못하는 외로운 삶을 살았습니다. 외투를 통해 잠시 인생의 소중한 순간을 경험했지만, 그 외투를 잃은 후에는 더욱 심각한 불행이 닥쳤습니다. 결국, 그의 죽음은 이러한 고통과 외로움의 연장선상에서 발생한 것으로 해석될 수 있습니다. 그의 죽음 이후에도 여전히 그의 존재에 대한 이야기가 이어지며, 이는 그가 생전에 받지 못했던 주목을 죽음 이후에야 비로소 받게 되는 아이러니한 상황을 보여줍니다.


In [20]:
import os.path
from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    StorageContext,
    load_index_from_storage,
)

PERSIST_DIR = "./storage"
if not os.path.exists(PERSIST_DIR):
    documents = SimpleDirectoryReader("data").load_data()
    index = VectorStoreIndex.from_documents(documents)
    index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
    storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
    index = load_index_from_storage(storage_context)

query_engine = index.as_query_engine()
response = query_engine.query("아카키의 직업은 무엇인가요? 한국어로 대답하세요.")
print(response)

아카키의 직업은 정서하는 일, 즉 문서를 작성하는 업무입니다.


In [21]:
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core.node_parser import SentenceSplitter
from llama_index.llms.openai import OpenAI
from llama_index.core import Settings

Settings.llm = OpenAI(model="gpt-4o-mini")
Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small")
Settings.node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20)
Settings.num_output = 512
Settings.context_window = 3900

In [22]:
import os.path
from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    StorageContext,
    load_index_from_storage,
)

PERSIST_DIR = "./storage"
if not os.path.exists(PERSIST_DIR):
    documents = SimpleDirectoryReader("data").load_data()
    index = VectorStoreIndex.from_documents(documents, Settings=Settings)
    index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
    storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
    index = load_index_from_storage(storage_context)

query_engine = index.as_query_engine()
response = query_engine.query("아카키의 직업은 무엇인가요? 한국어로 대답하세요.")
print(response)

Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/docstore.json.
Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/index_store.json.
아카키의 직업은 관료입니다.


In [23]:
# Global settings
from llama_index.core import Settings

Settings.chunk_size = 512

# Local settings
from llama_index.core.node_parser import SentenceSplitter

PERSIST_DIR = "./storage"
if not os.path.exists(PERSIST_DIR):
    documents = SimpleDirectoryReader("data").load_data()
    index = VectorStoreIndex.from_documents(
        documents, transformations=[SentenceSplitter(chunk_size=512)]
    )
    index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
    storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
    index = load_index_from_storage(storage_context)

query_engine = index.as_query_engine()
response = query_engine.query("소년과 소녀는 어디에서 처음 만났나? 한국어로 대답하세요.")
print(response)

Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/docstore.json.
Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/index_store.json.
소년과 소녀가 처음 만난 장소에 대한 정보는 제공된 내용에 포함되어 있지 않습니다.


In [24]:
!pip install -U chromadb attrs

Defaulting to user installation because normal site-packages is not writeable
Collecting chromadb
  Downloading chromadb-1.0.15-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (19.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.5/19.5 MB[0m [31m78.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting attrs
  Using cached attrs-25.3.0-py3-none-any.whl (63 kB)
Collecting overrides>=7.3.1
  Downloading overrides-7.7.0-py3-none-any.whl (17 kB)
Collecting pybase64>=1.4.1
  Downloading pybase64-1.4.1-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (68 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.7/68.7 KB[0m [31m19.2 MB/s[0m eta [36m0:00:00[0m
Collecting bcrypt>=4.0.1
  Downloading bcrypt-4.3.0-cp39-abi3-manylinux_2_34_x86_64.whl (284 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m284.2/284.2 KB[0m [31m53.8 MB/s[0m eta [36m0:00:00[0m
Collecting o

In [25]:
!pip install llama-index-vector-stores-chroma

Defaulting to user installation because normal site-packages is not writeable
Collecting llama-index-vector-stores-chroma
  Downloading llama_index_vector_stores_chroma-0.4.2-py3-none-any.whl (6.0 kB)
Installing collected packages: llama-index-vector-stores-chroma
Successfully installed llama-index-vector-stores-chroma-0.4.2


In [26]:
!pip install -U chromadb

Defaulting to user installation because normal site-packages is not writeable


In [27]:
import chromadb
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext

chroma_client = chromadb.PersistentClient()
chroma_collection = chroma_client.create_collection("novels")
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

ImportError: cannot import name 'AttrsInstance' from 'attr' (/usr/lib/python3/dist-packages/attr/__init__.py)

In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context
)
query_engine = index.as_query_engine()
response = query_engine.query("아카키가 사무실에서 하는 일은 무엇이었나? 한국어로 답하세요.")
print(response)

아카키는 사무실에서 서기로서 같은 업무를 반복하며 종이를 받아 글씨를 써내려가는 일을 했습니다. 그는 자신의 직위와 관계없이 주어진 서류를 바라보며 일을 맡았고, 상관들에게는 냉정하게 대우받았습니다.


In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(similarity_top_k=5)
response = query_engine.query("소년과 소녀는 어디에서 처음 만났나? 한국어로 답하세요.")
print(response)

소년과 소녀는 개울가에서 처음 만났습니다.


In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(response_mode="tree_summarize")
response = query_engine.query("'외투'의 줄거리를 전체적으로, 한국어로 설명해줘.")
print(response)

'외투'는 주인공 아까끼 아까끼예비치가 자신의 낡은 외투를 수선하려고 하는 이야기로 시작됩니다. 그는 자신의 외투가 낡고 구멍이 나서 수선이 필요하다고 생각하지만, 수선비용이 부담스러워 새로운 외투를 맞추는 것이 더 나을지 고민합니다. 그의 동료인 뻬뜨로비치는 외투를 새로 맞추라고 권유하며, 그 과정에서 아까끼의 경제적 어려움과 사회적 지위를 드러냅니다. 아까끼는 외투를 새로 맞추는 것이 불가능하다고 느끼고, 자신의 처지를 한탄하게 됩니다. 결국, 외투는 단순한 의복을 넘어 아까끼의 삶과 정체성을 상징하게 되며, 그의 고난과 사회적 고립을 반영하는 중요한 요소로 작용합니다. 이야기는 아까끼가 외투를 통해 겪는 갈등과 그로 인해 발생하는 비극적인 상황을 중심으로 전개됩니다.


In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(streaming=True)
response = query_engine.query("소녀는 소년에게 무엇을 주었나?")
response.print_response_stream()

소녀는 소년에게 비단조개를 보여주며 그 이름이 참 곱다고 말했습니다.

In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_chat_engine()
response = query_engine.chat("소년과 소녀는 어디에서 처음 만났지? 한국어로 대답해줘.")
print(response)

response = query_engine.chat("소녀는 그때 뭐라고 말했어? 한국어로 대답해줘.")
print(response)


`FunctionAgent` is the recommended replacement.

See the docs for more information on updated agent usage: https://docs.llamaindex.ai/en/stable/understanding/agent/)
  return cls(

This implementation will be removed in a v0.13.0.

See the docs for more information on updated agent usage: https://docs.llamaindex.ai/en/stable/understanding/agent/)
  return old_new1(cls, *args, **kwargs)

`FunctionAgent` is the recommended replacement.

See the docs for more information on updated agent usage: https://docs.llamaindex.ai/en/stable/understanding/agent/)
  return cls(


소년과 소녀는 처음 만난 장소에 대한 구체적인 이야기나 전설은 없지만, 그들의 만남은 자연 속에서 이루어졌습니다. 소년이 소녀를 발견하고 달리기를 시작하는 장면이 그들의 첫 만남을 묘사하고 있습니다.
소녀는 소년에게 "얘, 이게 무슨 조개지?"라고 말했습니다.
