# 라마인덱스 사전 준비

In [None]:
# 패키지 설치
!pip install llama-index==0.6.12

In [None]:
# 환경변수 준비
import os
os.environ["OPENAI_API_KEY"] = "<OpenAI_API의_API_키>"

In [None]:
import logging
import sys

# 로그 레벨 설정
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

# 문서 로드

In [None]:
from llama_index import SimpleDirectoryReader

# 문서 로드
documents = SimpleDirectoryReader("data").load_data()
print("documents :", documents)

In [None]:
from llama_index import Document

# 수동으로 문서 생성
texts = ["text1", "text2", "text3"]
documents = [Document(t) for t in texts]
print("documents :", documents)

In [None]:
from llama_index import GPTVectorStoreIndex

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(documents)

In [None]:
from llama_index import GPTVectorStoreIndex

# 빈 인덱스 생성
index = GPTVectorStoreIndex.from_documents([])

# 문서를 인덱스에 삽입
for doc in documents:
    index.insert(doc)

In [None]:
from llama_index import SimpleDirectoryReader

# 문서 로드
documents = SimpleDirectoryReader("data").load_data()
print("documents :", documents)

In [None]:
from llama_index import LLMPredictor, ServiceContext
from langchain.chat_models import ChatOpenAI

# LLMPredictor 준비
llm_predictor = LLMPredictor(llm=ChatOpenAI(
    temperature=0,  # 온도
    model_name="gpt-3.5-turbo" # 모델명
))

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    llm_predictor=llm_predictor, 
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, 
    service_context=service_context, 
)

In [None]:
from llama_index import GPTVectorStoreIndex, PromptHelper, ServiceContext

# PromptHelper 준비
prompt_helper=PromptHelper(
    max_input_size=4096, # LLM 입력의 최대 토큰 수
    num_output=256, # LLM 출력의 토큰 수
    max_chunk_overlap=20, # 청크 오버랩의 최대 토큰 개수
)

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    prompt_helper=prompt_helper
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, # 문서
    service_context=service_context, # ServiceContext
)

In [None]:
# sentence_transformers 패키지 설치
!pip install sentence_transformers

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings
from llama_index import GPTVectorStoreIndex, ServiceContext, LangchainEmbedding

# 임베딩 모델 준비
embed_model = LangchainEmbedding(HuggingFaceEmbeddings(
    model_name="oshizo/sbert-jsnli-luke-japanese-base-lite"
))

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    embed_model=embed_model
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, # 문서
    service_context=service_context, # ServiceContext
)

In [None]:
# 쿼리 엔진 생성
query_engine = index.as_query_engine()

In [None]:
# 질의응답
response = query_engine.query("미코의 소꿉친구 이름은?")
print(response)

In [None]:
# 응답
print("response :", response.response, "\n")

# 소스
print("source_nodes :", response.source_nodes, "\n")