# 📍 텍스트 분할 (RecursiveJsonSplitter)

In [1]:
import json
from pathlib import Path
from pprint import pprint

# 데이터 폴더 경로 설정
base_path = Path("/Users/pycode/2_project/ragtest/rag-data")
# train_data_path = Path("/content/food-data/train/data")
# train_label_path = Path("/content/food-data/train/label")
# validation_data_path = Path("/content/food-data/validation/data")
# validation_label_path = Path("/content/food-data/validation/label")

# JSON 파일 로드
def loadJson(base_path):
  json_files = base_path.rglob("*.json")
  data_list = {}
  for file in json_files:
      try:
          data = json.loads(file.read_text(encoding="utf-8"))
          data_list[data['fileName']] = data
          # data_list.append(data)
      except json.JSONDecodeError as e:
          print(f"Error decoding JSON in {file}: {e}")
  return data_list

json_data = loadJson(base_path)
pprint(json_data)

# train_data = loadJson(train_data_path)
# train_label = loadJson(train_label_path)
# validation_data = loadJson(validation_data_path)
# validation_label = loadJson(validation_label_path)

{'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV '
                                      '항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 '
                                      '번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 '
                                      '항원이 존재하는지를 파악하는 검사입니다.',
                              'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 '
                                            '치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 '
                                            '평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.',
                              'intro': 'HIV 감염 검사는 매우 중요한 절차입니다. HIV 감염 검사는 '
                                       '조기에 HIV 바이러스 감염 여부를 확인하고 적절한 치료를 받을 수 '
                                       '있게 도와줍니다.'},
                   'department': ['피부과'],
                   'disease_category': '감염성질환',
                   'disease_name': {'eng': 'HIV infection', 'kor': 'HIV 감염'},
                   'fileName': 'HC-A-03614230',
                   'intention':

In [2]:
from langchain_text_splitters import RecursiveJsonSplitter

# JSON 데이터를 최대 300 크기의 청크로 분할하는 RecursiveJsonSplitter 객체를 생성합니다.
splitter = RecursiveJsonSplitter(max_chunk_size=300)
# print(splitter.__dict__)

In [3]:
# JSON 데이터를 재귀적으로 분할합니다. 작은 JSON 조각에 접근하거나 조작해야 하는 경우에 사용합니다.
json_chunks = splitter.split_json(json_data=json_data)
pprint(json_chunks)

[{'HC-A-03614230': {'department': ['피부과'],
                    'disease_category': '감염성질환',
                    'disease_name': {'eng': 'HIV infection', 'kor': 'HIV 감염'},
                    'fileName': 'HC-A-03614230',
                    'intention': '검진'}},
 {'HC-A-03614230': {'answer': {'intro': 'HIV 감염 검사는 매우 중요한 절차입니다. HIV 감염 검사는 '
                                        '조기에 HIV 바이러스 감염 여부를 확인하고 적절한 치료를 받을 수 '
                                        '있게 도와줍니다.'}}},
 {'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV '
                                       '항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 '
                                       '번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 '
                                       '항원이 존재하는지를 파악하는 검사입니다.'}}},
 {'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 '
                                             '조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 '
                                             '상태를 평가하고 

In [4]:
# JSON 데이터를 기반으로 문서를 생성합니다.
docs = splitter.create_documents(texts=[json_data])

# 첫 번째 문자열을 출력합니다.
pprint(docs)
print("===" * 20)
pprint(docs[0].page_content)

[Document(metadata={}, page_content='{"HC-A-03614230": {"fileName": "HC-A-03614230", "disease_category": "\\uac10\\uc5fc\\uc131\\uc9c8\\ud658", "disease_name": {"kor": "HIV \\uac10\\uc5fc", "eng": "HIV infection"}, "department": ["\\ud53c\\ubd80\\uacfc"], "intention": "\\uac80\\uc9c4"}}'),
 Document(metadata={}, page_content='{"HC-A-03614230": {"answer": {"intro": "HIV \\uac10\\uc5fc \\uac80\\uc0ac\\ub294 \\ub9e4\\uc6b0 \\uc911\\uc694\\ud55c \\uc808\\ucc28\\uc785\\ub2c8\\ub2e4. HIV \\uac10\\uc5fc \\uac80\\uc0ac\\ub294 \\uc870\\uae30\\uc5d0 HIV \\ubc14\\uc774\\ub7ec\\uc2a4 \\uac10\\uc5fc \\uc5ec\\ubd80\\ub97c \\ud655\\uc778\\ud558\\uace0 \\uc801\\uc808\\ud55c \\uce58\\ub8cc\\ub97c \\ubc1b\\uc744 \\uc218 \\uc788\\uac8c \\ub3c4\\uc640\\uc90d\\ub2c8\\ub2e4."}}}'),
 Document(metadata={}, page_content='{"HC-A-03614230": {"answer": {"body": "HIV \\uac10\\uc5fc \\uac80\\uc0ac\\uc5d0\\ub294 2\\uac00\\uc9c0 \\uc8fc\\uc694\\ud55c \\uc694\\uc18c\\uac00 \\ud3ec\\ud568\\ub429\\ub2c8\\ub2e4. \\uccab\

In [5]:
# JSON 데이터를 기반으로 문자열 청크를 생성합니다.
texts = splitter.split_text(json_data=json_data)

pprint(texts)
print("===" * 20)
# 분할된 문자열 청크를 출력합니다.
pprint(texts[0])

['{"HC-A-03614230": {"fileName": "HC-A-03614230", "disease_category": '
 '"\\uac10\\uc5fc\\uc131\\uc9c8\\ud658", "disease_name": {"kor": "HIV '
 '\\uac10\\uc5fc", "eng": "HIV infection"}, "department": '
 '["\\ud53c\\ubd80\\uacfc"], "intention": "\\uac80\\uc9c4"}}',
 '{"HC-A-03614230": {"answer": {"intro": "HIV \\uac10\\uc5fc '
 '\\uac80\\uc0ac\\ub294 \\ub9e4\\uc6b0 \\uc911\\uc694\\ud55c '
 '\\uc808\\ucc28\\uc785\\ub2c8\\ub2e4. HIV \\uac10\\uc5fc '
 '\\uac80\\uc0ac\\ub294 \\uc870\\uae30\\uc5d0 HIV \\ubc14\\uc774\\ub7ec\\uc2a4 '
 '\\uac10\\uc5fc \\uc5ec\\ubd80\\ub97c \\ud655\\uc778\\ud558\\uace0 '
 '\\uc801\\uc808\\ud55c \\uce58\\ub8cc\\ub97c \\ubc1b\\uc744 \\uc218 '
 '\\uc788\\uac8c \\ub3c4\\uc640\\uc90d\\ub2c8\\ub2e4."}}}',
 '{"HC-A-03614230": {"answer": {"body": "HIV \\uac10\\uc5fc '
 '\\uac80\\uc0ac\\uc5d0\\ub294 2\\uac00\\uc9c0 \\uc8fc\\uc694\\ud55c '
 '\\uc694\\uc18c\\uac00 \\ud3ec\\ud568\\ub429\\ub2c8\\ub2e4. \\uccab\\uc9f8, '
 'HIV \\ud56d\\uccb4 \\uac80\\uc0ac\\ub294 HIV\\uc5d0

In [6]:
# 청크의 크기를 확인해 봅시다.
print([len(text) for text in texts][:10])

# 더 큰 청크 중 하나를 검토해 보면 리스트 객체가 있는 것을 볼 수 있습니다.
print(texts[1])

[238, 387, 600, 477, 291, 170, 291, 37]
{"HC-A-03614230": {"answer": {"intro": "HIV \uac10\uc5fc \uac80\uc0ac\ub294 \ub9e4\uc6b0 \uc911\uc694\ud55c \uc808\ucc28\uc785\ub2c8\ub2e4. HIV \uac10\uc5fc \uac80\uc0ac\ub294 \uc870\uae30\uc5d0 HIV \ubc14\uc774\ub7ec\uc2a4 \uac10\uc5fc \uc5ec\ubd80\ub97c \ud655\uc778\ud558\uace0 \uc801\uc808\ud55c \uce58\ub8cc\ub97c \ubc1b\uc744 \uc218 \uc788\uac8c \ub3c4\uc640\uc90d\ub2c8\ub2e4."}}}


In [7]:
import json

json_data = json.loads(texts[2])
pprint(json_data)
# pprint(json_data["HC-A-03614230"])


{'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV '
                                      '항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 '
                                      '번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 '
                                      '항원이 존재하는지를 파악하는 검사입니다.'}}}


In [8]:
# 다음은 JSON을 전처리하고 리스트를 인덱스:항목을 키:값 쌍으로 하는 딕셔너리로 변환합니다.
texts = splitter.split_text(json_data=json_data, convert_lists=True)
pprint(texts)

['{"HC-A-03614230": {"answer": {"body": "HIV \\uac10\\uc5fc '
 '\\uac80\\uc0ac\\uc5d0\\ub294 2\\uac00\\uc9c0 \\uc8fc\\uc694\\ud55c '
 '\\uc694\\uc18c\\uac00 \\ud3ec\\ud568\\ub429\\ub2c8\\ub2e4. \\uccab\\uc9f8, '
 'HIV \\ud56d\\uccb4 \\uac80\\uc0ac\\ub294 HIV\\uc5d0 \\uac10\\uc5fc\\ub41c '
 '\\uc9c0 \\uc5ec\\ubd80\\ub97c \\ud655\\uc778\\ud558\\ub294 \\ub370 '
 '\\uc0ac\\uc6a9\\ub429\\ub2c8\\ub2e4. \\ub450 \\ubc88\\uc9f8, HIV '
 '\\ud56d\\uccb4/\\ud56d\\uc6d0 \\uacb0\\ud569 \\uac80\\uc0ac\\ub294 '
 'HIV\\uc5d0 \\uac10\\uc5fc\\ub418\\uc5c8\\uc744 \\ub54c \\ud56d\\uccb4\\uc640 '
 '\\ud56d\\uc6d0\\uc774 \\uc874\\uc7ac\\ud558\\ub294\\uc9c0\\ub97c '
 '\\ud30c\\uc545\\ud558\\ub294 \\uac80\\uc0ac\\uc785\\ub2c8\\ub2e4."}}}']


----

# 📍 임베딩 (OpenAIEmbeddings)

In [None]:
# import os
# openai_api_key = os.environ.get('OPENAI_API_KEY')
# os.environ["OPENAI_API_KEY"] = 


In [10]:
from langchain_openai import OpenAIEmbeddings

# OpenAI의 "text-embedding-3-large" 모델을 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

text = "임베딩 테스트를 하기 위한 샘플 문장입니다."

In [11]:
# 텍스트를 임베딩하여 쿼리 결과를 생성합니다.
query_result = embeddings.embed_query(text)
print(len(query_result))


1536


In [12]:
doc_result = embeddings.embed_documents(
    [text]
)  # 텍스트를 임베딩하여 문서 벡터를 생성합니다.
print(len(doc_result[0]))

1536


In [13]:
# OpenAI의 "text-embedding-3-small" 모델을 사용하여 1024차원의 임베딩을 생성하는 객체를 초기화합니다.
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1024)
# 주어진 텍스트를 임베딩하고 첫 번째 임베딩 벡터의 길이를 반환합니다.
len(embeddings_1024.embed_documents([text])[0])

1024

In [14]:
sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."


In [15]:
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences = embeddings_1024.embed_documents(sentences)
print(embedded_sentences)


[[-0.02789202518761158, -0.04927368089556694, -0.04757919907569885, 0.022964656352996826, 0.05565027520060539, -0.03206133469939232, -0.0552043579518795, 0.022875472903251648, -0.04717787727713585, -0.051191117614507675, -0.025773925706744194, -0.011482328176498413, -0.010668531991541386, -0.0370778851211071, -0.01377879362553358, 0.03805890306830406, -0.048560213297605515, 0.023432867601513863, -0.0009635958704166114, 0.013399765826761723, 0.03696640953421593, 0.0014826696133241057, -0.0313255749642849, -0.027869729325175285, 0.03672115504741669, 0.02653198130428791, 0.02541719190776348, -0.01607525907456875, -0.008455676026642323, -0.08561580628156662, 0.01190594770014286, -0.022240042686462402, -0.03270791471004486, -0.011939391493797302, 0.005902808625251055, -0.020411789417266846, 0.0278028417378664, -0.05404497683048248, -0.02014423906803131, -0.036810338497161865, -0.02628672868013382, -0.0622052326798439, 0.000688382307998836, 0.009587186388671398, 0.03304234892129898, 0.028226

In [16]:
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]


In [17]:
for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9648] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8409] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.5056] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1379] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.8182] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.4796] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1334] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.5126] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1424] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.2250] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.


----

# 📍 Vector Store (Chroma)

In [18]:
# import os

# os.environ["LANGCHAIN_TRACING_V2"] = "true"
# os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
# os.environ["LANGCHAIN_PROJECT"] = "LangChain 프로젝트명"
# os.environ["LANGCHAIN_API_KEY"] = "LangChain API KEY 입력"

In [19]:
from langchain_chroma import Chroma

# DB 생성
persist_db = Chroma.from_documents(
    documents=docs, embedding=embeddings_1024, collection_name="my_foodie_test", persist_directory="./foodieTestDB"
)

In [20]:
# 디스크에서 문서를 로드합니다.
persist_db = Chroma(
    persist_directory="./foodieTestDB",
    embedding_function=embeddings_1024,
    collection_name="my_foodie_test",
)
persist_db.get()

{'ids': ['32219a03-a34b-4daa-9d87-4befef354d0a',
  'fe2b7c39-9a2b-4158-a6d3-06858547791d',
  '17e54560-34a3-499d-b224-77d0accb2709',
  '17a3a8c0-6551-4e06-92ea-df222af4cf28',
  '61fa7539-6268-4af1-a28a-4f76c1a77ae2',
  'fe04cb13-5cc9-48a5-91e4-cb104293c7c4',
  '6db74a35-d3d6-416f-99af-7567542cb8d9',
  'f71d6167-b504-43d5-8f57-d0143067100f',
  '167a8eb4-7d31-44c8-894f-4f558db5f3b0',
  '8a82f0fa-9296-42e1-8b43-de3aa6191aca',
  '6fe80f1a-784d-4b65-86e7-2a5c02820371',
  '5be208e1-6090-4167-b33b-41a3b19f25c5',
  '1f617f58-0829-4d0f-8619-1196968e9c76',
  '2998f506-9192-4f76-8979-cf859d776245',
  '2278a8f0-9367-467e-8897-b27dafd41350',
  'e28a170d-af60-4491-afbf-bcd95377057a',
  'ea168f73-6700-4def-83b7-56dd6fcfb3a0',
  'e9eda70a-0b6a-4cb4-b2e9-9d7d84dd4031',
  '6d699ff9-d769-4c91-ba01-ff017c5b126d',
  'a8ee1adf-7b1e-4a9d-9e91-61bd3914b2a0',
  'c37d26ab-937b-4366-abb8-5b51454312e4',
  'c4386833-3da1-4a28-b20b-f47bb11f6b1c',
  'f406b047-b71a-4e80-aed7-a96c689e095f',
  '074e9b8a-0638-4b71-9a2e-

In [21]:
similarity_doc = persist_db.similarity_search("HIV 감염 검사를 받아야돼?")
print(len(similarity_doc))
similarity_data = json.loads(similarity_doc[3].page_content)
print(similarity_data)

4
{'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV 항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 항원이 존재하는지를 파악하는 검사입니다.'}}}


In [22]:
retriever = persist_db.as_retriever(
    search_type="mmr", search_kwargs={"k": 6, "lambda_mult": 0.25, "fetch_k": 10}
)
# retriever = persist_db.as_retriever(
#     search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.5}
# )
retriever_docs = retriever.invoke("HIV에 대해 알려줘")

for doc in retriever_docs:
    print(json.loads(doc.page_content))
    print("=========================================================")

{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV 항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 항원이 존재하는지를 파악하는 검사입니다.'}}}
{'HC-A-03614230': {'answer': {'intro': 'HIV 감염 검사는 매우 중요한 절차입니다. HIV 감염 검사는 조기에 HIV 바이러스 감염 여부를 확인하고 적절한 치료를 받을 수 있게 도와줍니다.'}}}
{'HC-Q-1160428': {'question': 'HIV 감염을 의심하고 있는데, 어떤 곳에서 검진을 받아야 할까요?', 'entities': [{'id': 0, 'text': 'HIV 감염', 'entity': '질환명', 'position': 0}]}}


In [23]:
search_result = retriever.get_relevant_documents("HIV에 대해 알려줘")
for doc in search_result:
    print(json.loads(doc.page_content))
    print("=========================================================")

  search_result = retriever.get_relevant_documents("HIV에 대해 알려줘")


{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'conclusion': 'HIV 감염 검사는 HIV 바이러스에 대한 조기 진단과 조기 치료를 가능하게 해줍니다. 이 검사들은 환자의 건강 상태를 평가하고 적절한 치료 계획을 세울 수 있도록 도와줍니다.'}}}
{'HC-A-03614230': {'answer': {'body': 'HIV 감염 검사에는 2가지 주요한 요소가 포함됩니다. 첫째, HIV 항체 검사는 HIV에 감염된 지 여부를 확인하는 데 사용됩니다. 두 번째, HIV 항체/항원 결합 검사는 HIV에 감염되었을 때 항체와 항원이 존재하는지를 파악하는 검사입니다.'}}}
{'HC-A-03614230': {'answer': {'intro': 'HIV 감염 검사는 매우 중요한 절차입니다. HIV 감염 검사는 조기에 HIV 바이러스 감염 여부를 확인하고 적절한 치료를 받을 수 있게 도와줍니다.'}}}
{'HC-Q-1160428': {'question': 'HIV 감염을 의심하고 있는데, 어떤 곳에서 검진을 받아야 할까요?', 'entities': [{'id': 0, 'text': 'HIV 감염', 'entity': '질환명', 'position': 0}]}}


In [24]:
# from langchain.retrievers import BM25Retriever, EnsembleRetriever
# from langchain_community.vectorstores import FAISS
# from langchain_openai import OpenAIEmbeddings

# bm25_retriever = BM25Retriever.from_texts(docs)
# bm25_retriever.k = 2

# ensemble_retriever = EnsembleRetriever(
#     retrievers=[bm25_retriever, retriever], weights=[0.5, 0.5]
# )

---
### 기본 langchain (prompt ~ model ~ langchain)

In [25]:
from langchain import hub
prompt = hub.pull("rlm/rag-prompt")
prompt



ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, metadata={'lc_hub_owner': 'rlm', 'lc_hub_repo': 'rag-prompt', 'lc_hub_commit_hash': '50442af133e61576e74536c6556cefe1fac147cad032f4377b60c436e6cdcb6e'}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:"), additional_kwargs={})])

In [26]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo")

In [27]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
    # 검색한 문서 결과를 하나의 문단으로 합쳐줍니다.
    return "\n\n".join(doc.page_content for doc in docs)


# 단계 8: 체인 생성(Create Chain)
rag_chain = (
    # {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)


In [28]:
question = "HIV가 뭐야?"
response = rag_chain.invoke(question)
print(response)

HIV는 인체면역결핍바이러스로, 감염된 사람의 혈액이나 체액을 통해 전파됩니다. HIV 검사는 HIV 바이러스에 감염된 부분을 확인하고 검출하는 것을 목적으로 합니다. HIV 검사는 HIV에 감염된 부분을 확인하고 검출하는 것을 목적으로 합니다.


In [29]:
question = "HIV 감염 검사의 요소에 뭐가 있어?"
response = rag_chain.invoke(question)
print(response)

HIV 감염 검사의 요소는 HIV 항체와 HIV 유전자를 확인하는 것입니다. HIV 항체 검사는 HIV에 감염된 여부를 확인하고, HIV 유전자/유전자 검사는 HIV에 감염되었을 때 유전자와 유전자가 어떻게 상호작용하는지 확인합니다.


---
### 내용 기억 langchain 

In [41]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_core.output_parsers import StrOutputParser
from operator import itemgetter

In [34]:
# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성합니다.
prompt = PromptTemplate.from_template(
    """You are an assistant for question-answering tasks. 
Use the following pieces of retrieved context to answer the question. 
If you don't know the answer, just say that you don't know. 
Answer in Korean.

#Previous Chat History:
{chat_history}

#Question: 
{question} 

#Context: 
{context} 

#Answer:"""
)

# 단계 7: 언어모델(LLM) 생성
# 모델(LLM) 을 생성합니다.
# llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

# 단계 8: 체인(Chain) 생성
chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question"),
        "chat_history": itemgetter("chat_history"),
    }
    | prompt
    | llm
    | StrOutputParser()
)

# rag_chain = (
#     # {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
#     {"context": retriever | format_docs, "question": RunnablePassthrough()}
#     | prompt
#     | llm
#     | StrOutputParser()
# )

In [35]:
# 세션 기록을 저장할 딕셔너리
store = {}


# 세션 ID를 기반으로 세션 기록을 가져오는 함수
def get_session_history(session_ids):
    print(f"[대화 세션ID]: {session_ids}")
    if session_ids not in store:  # 세션 ID가 store에 없는 경우
        # 새로운 ChatMessageHistory 객체를 생성하여 store에 저장
        store[session_ids] = ChatMessageHistory()
    return store[session_ids]  # 해당 세션 ID에 대한 세션 기록 반환


# 대화를 기록하는 RAG 체인 생성
rag_with_history = RunnableWithMessageHistory(
    chain,
    get_session_history,  # 세션 기록을 가져오는 함수
    input_messages_key="question",  # 사용자의 질문이 템플릿 변수에 들어갈 key
    history_messages_key="chat_history",  # 기록 메시지의 키
)


In [36]:
rag_with_history.invoke(
    # 질문 입력
    {"question": "HIV 감염 검사의 요소에 뭐가 있어?"},
    # 세션 ID 기준으로 대화를 기록합니다.
    config={"configurable": {"session_id": "rag123"}},
)


[대화 세션ID]: rag123


'HIV 감염 검사의 요소에는 HIV 바이러스에 대한 항체 검출과 항원 검출이 있습니다.'

In [37]:
rag_with_history.invoke(
    # 질문 입력
    {"question": "이전 답변을 영어로 말해줘"},
    # 세션 ID 기준으로 대화를 기록합니다.
    config={"configurable": {"session_id": "rag123"}},
)

[대화 세션ID]: rag123


'이전 답변은 "HIV 감염 검사의 요소에는 HIV 바이러스에 대한 항체 검출과 항원 검출이 있습니다."입니다.'

In [38]:
rag_with_history.invoke(
    # 질문 입력
    {"question": "내 이전 질문을 잘 이해하지 못한 것 같아"},
    # 세션 ID 기준으로 대화를 기록합니다.
    config={"configurable": {"session_id": "rag123"}},
)

[대화 세션ID]: rag123


'죄송합니다. 이전 답변을 다시 설명해 드릴까요?'

In [40]:
rag_with_history.invoke(
    # 질문 입력
    {"question": "이전 답변을 다시 말하라는 게 아니라 영어로 번역해줘"},
    # 세션 ID 기준으로 대화를 기록합니다.
    config={"configurable": {"session_id": "rag123"}},
)

[대화 세션ID]: rag123


'이전 답변은 "HIV 감염 검사의 요소에는 HIV 바이러스에 대한 항체 검출과 항원 검출이 있습니다."입니다.'