# LINE

In [1]:
from langchain.chains import ConversationalRetrievalChain
from langchain.text_splitter import CharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAIEmbeddings
from langchain_anthropic import ChatAnthropic
from langchain_postgres.vectorstores import PGVector


In [2]:
import json
from typing import overload
from langchain_core.documents import Document


@overload
def extract_data(path: str, main_key: str)->list[Document]:...

@overload
def extract_data(path: str)->list[Document]:...

def extract_data(path: str, main_key:str="items") -> list[Document]:
    documents: list[Document] = []
    with open(path, "r", encoding='utf8') as json_file:
        data:list[dict[str, str]] = json.load(json_file)[main_key]

        for each_data in data:
            page_content: str = ""
            for k in each_data:
                page_content = page_content + f"{k} {each_data[k]}"
            current_document = Document(
                page_content=page_content,
            )
            documents.append(current_document)
    return documents

In [3]:
json_file_path="/container/fruit.json"
data = extract_data(json_file_path)

In [4]:
data

[Document(page_content='ชื่อ มะม่วงรสชาติ หวานสรรพคุณ ช่วยย่อยอาหาร, มีวิตามินซีสูงราคา 30 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ ทุเรียนรสชาติ หวาน, มันสรรพคุณ ให้พลังงานสูง, มีวิตามินบีราคา 150 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ ส้มรสชาติ หวาน, เปรี้ยวสรรพคุณ มีวิตามินซีสูง, ช่วยเสริมสร้างภูมิคุ้มกันราคา 60 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ แอปเปิ้ลรสชาติ หวาน, กรอบสรรพคุณ ช่วยลดคอเลสเตอรอล, มีไฟเบอร์สูงราคา 80 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ กล้วยรสชาติ หวานสรรพคุณ ช่วยให้พลังงาน, มีโพแทสเซียมสูงราคา 25 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ สตรอว์เบอร์รีรสชาติ หวาน, เปรี้ยวสรรพคุณ มีวิตามินซีสูง, ช่วยบำรุงผิวราคา 120 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ แตงโมรสชาติ หวาน, ฉ่ำสรรพคุณ ช่วยดับกระหาย, มีวิตามินเอราคา 20 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ มังคุดรสชาติ หวาน, เปรี้ยวสรรพคุณ ช่วยลดการอักเสบ, มีสารต้านอนุมูลอิสระราคา 50 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ เงาะรสชาติ หวาน, ฉ่ำสรรพคุณ ช่วยบำรุงผิว, มีวิตา

In [5]:
text_splitter = CharacterTextSplitter(separator="\n\n", chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(data)

In [6]:
texts

[Document(page_content='ชื่อ มะม่วงรสชาติ หวานสรรพคุณ ช่วยย่อยอาหาร, มีวิตามินซีสูงราคา 30 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ ทุเรียนรสชาติ หวาน, มันสรรพคุณ ให้พลังงานสูง, มีวิตามินบีราคา 150 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ ส้มรสชาติ หวาน, เปรี้ยวสรรพคุณ มีวิตามินซีสูง, ช่วยเสริมสร้างภูมิคุ้มกันราคา 60 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ แอปเปิ้ลรสชาติ หวาน, กรอบสรรพคุณ ช่วยลดคอเลสเตอรอล, มีไฟเบอร์สูงราคา 80 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ กล้วยรสชาติ หวานสรรพคุณ ช่วยให้พลังงาน, มีโพแทสเซียมสูงราคา 25 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ สตรอว์เบอร์รีรสชาติ หวาน, เปรี้ยวสรรพคุณ มีวิตามินซีสูง, ช่วยบำรุงผิวราคา 120 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ แตงโมรสชาติ หวาน, ฉ่ำสรรพคุณ ช่วยดับกระหาย, มีวิตามินเอราคา 20 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ มังคุดรสชาติ หวาน, เปรี้ยวสรรพคุณ ช่วยลดการอักเสบ, มีสารต้านอนุมูลอิสระราคา 50 บาท/กิโลกรัม'),
 Document(page_content='ชื่อ เงาะรสชาติ หวาน, ฉ่ำสรรพคุณ ช่วยบำรุงผิว, มีวิตา

In [7]:
# This part is used for embedding the docs and storing them into Vector DB and initializing the retriever.
openai_apikey = ""
with open("/run/secrets/openai.txt", "r") as key_file:
    openai_apikey = key_file.read().strip()
embeddings = OpenAIEmbeddings(api_key=openai_apikey)
connection = "postgresql+psycopg://langchain:langchain@pgvector:5432/langchain"  # Uses psycopg3!
collection_name = "my_docs"
embeddings = OpenAIEmbeddings(openai_api_key=openai_apikey)
vectorstore = PGVector(embeddings=embeddings, collection_name=collection_name, connection=connection, use_jsonb=True)

vectorstore.add_documents(data)

['da6cbd77-8fdf-4121-83fc-01e0e3ea0732',
 '2d6a576c-5b44-48fc-adf0-5f4a312c5103',
 '908d35e3-f636-425e-a891-898b54408c1f',
 '78dead64-c22d-4331-9bc8-51428ad6da5f',
 '5321fe8a-e3c2-4259-948e-28d0507491a5',
 '06e16a4f-331a-4c87-a1f4-5307488cf6e8',
 'c87d0ecb-5b80-4abe-a72f-56f96967bf32',
 '6d06635b-43be-4e7a-94ad-7f59e55cfb26',
 '7865e329-b822-40eb-9883-f6f135ba8367',
 '5cde03dd-c69b-420e-a4a4-9ca155aa2778',
 '06a621c9-316b-4806-9400-3277d9d2a175',
 '2a135e8a-bb19-495f-8610-c6f1e979f68c',
 '914e8de2-1e9a-462f-a811-2d47098383d3',
 '04f4e37c-3bab-4546-ad6d-62808311b266',
 'e4055afc-52ab-4950-af08-ac4c7c001398',
 '4039d690-a71a-4606-bf18-7230211c956e',
 'efabbd49-a635-49b6-9030-7c1400abb402',
 'd9220ed3-9ae1-4cc4-b431-5b3e52d0e2ac',
 '626a72f1-33db-4ef1-8866-e5bf54283b5c',
 '07f808bc-9a97-4883-812e-72dd6ca20278',
 '91fc435f-dafe-42da-97a7-df7058845eb4',
 '967a17ac-3880-4954-8330-62414116e263',
 '5dd0a9ec-39d2-4416-ae49-330b78e56d3c',
 'ca209887-4a98-41d7-b125-a394fd5e5c86',
 '0714f983-efac-

In [8]:
custom_template = PromptTemplate(
    input_variables=["context", "question"],
    template="""
    You are an AI thai language model assistant.
    You are an expert at answering questions about fruits.
    Answer the question based ONLY on the following context.



    {context}
    Original question: {question}""",
)

In [9]:
# Create the language model
anthropic_apikey = ""
with open("/run/secrets/claude.txt", "r") as key_file:
    anthropic_apikey = key_file.read().strip()
llm1 = ChatAnthropic(model="claude-3-sonnet-20240229", max_tokens=1024,api_key=anthropic_apikey)

# Create the chain
chain1 = ConversationalRetrievalChain.from_llm(
    llm=llm1,
    retriever=vectorstore.as_retriever(),
    combine_docs_chain_kwargs={"prompt": custom_template}
)

In [10]:
chat_history = []
query = None  # Initialize query to avoid potential reference error

while True:
    if not query:
        query = input("User: ")
    if query in ['quit', 'q', 'exit']:
        break
    result = chain1.invoke({"question": query, "chat_history": chat_history})
    print("Chatbot:", result['answer'])

    chat_history.append((query, result['answer']))
    query = None

Chatbot: I'm afraid I cannot provide any response based solely on the given context of repeating "Watermark please" and "adding watermark". As an AI language model specializing in answering questions about fruits, I do not have enough relevant information to formulate a meaningful answer. Please provide me with a specific question related to fruits, and I will do my best to assist you.
