In [1]:
import glob
import hashlib
import os
import requests
from typing import List
import urllib2

import chromadb
import langchain
from langchain.agents import Tool, initialize_agent, AgentType
from langchain.callbacks import get_openai_callback
from langchain.chains import LLMChain, RetrievalQA, create_tagging_chain_pydantic
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import TextLoader
from langchain.embeddings import CacheBackedEmbeddings, OpenAIEmbeddings
from langchain.llms import OpenAI
from langchain.memory import RedisChatMessageHistory, ConversationBufferWindowMemory
from langchain.retrievers.merger_retriever import MergerRetriever
from langchain.prompts import PromptTemplate, ChatPromptTemplate, MessagesPlaceholder
from langchain.prompts.chat import SystemMessagePromptTemplate, HumanMessagePromptTemplate
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.schema import get_buffer_string
from langchain.storage import LocalFileStore, RedisStore
from langchain.tools import StructuredTool
from langchain.vectorstores import Chroma
from pydantic import BaseModel, Field
import redis
import spacy

In [12]:
os.environ["OPENAI_API_KEY"] = "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"
NOVA_POST_API_KEY = "2720122ff6f348ed288505b152b12ee8"

In [3]:
REDIS_HOST = "redis"
CHROMA_HOST = "chroma"
CHROMA_PERSIST_DIRECTORY = "/chroma"

EMBEDDING_MODEL = "text-embedding-ada-002"
KNOWLEDGE_BASE_DIR = "./knowledge_base"

RETRIEVER_COLLECTION_SETTINGS = {
    "info": [{"name": "bm25", "k": 1}, {"name": "semantic", "k": 3}],
    "links": [{"name": "semantic", "k": 1}]
}

In [4]:
class CachedEmbeddings(CacheBackedEmbeddings):
    def embed_query(self, text: str) -> List[float]:
        return self.embed_documents([text])[0]


chroma_client = chromadb.HttpClient(host=CHROMA_HOST, port=8000)
chroma_client._settings.is_persistent = True
chroma_client._settings.persist_directory=CHROMA_PERSIST_DIRECTORY

redis_client = redis.Redis(host=REDIS_HOST, port=6379, db=0)
redis_ada_emb_store = RedisStore(client=redis_client, namespace=EMBEDDING_MODEL)

cached_embedder = CachedEmbeddings.from_bytes_store(OpenAIEmbeddings(model=EMBEDDING_MODEL), redis_ada_emb_store, namespace=EMBEDDING_MODEL)

In [5]:
def load_documents(dirpath):
    documents = []
    for filepath in glob.glob(os.path.join(dirpath, '*txt')):
        documents.extend(TextLoader(filepath, encoding="utf-8").load())
    return documents

def load_texts(dirpath):
    documents = load_documents(dirpath)
    return [doc.page_content for doc in documents]


def create_knowledge_vectordb(dirpath, embedder):
    collection_names = []
    for folder in glob.glob(os.path.join(dirpath, "*")):
        documents = load_documents(folder)
        db = Chroma.from_documents(documents=documents, embedding=embedder, collection_name=os.path.basename(folder),
                                   client=chroma_client, persist_directory=CHROMA_PERSIST_DIRECTORY)
        collection_names.append(db._collection.name)
    return collection_names


# collection_names = create_knowledge_vectordb(KNOWLEDGE_BASE_DIR, cached_embedder)
# print(collection_names)

In [6]:
spacy_nlp = spacy.load("uk_core_news_sm")

retrievers = []
for collection_name, collection_config in RETRIEVER_COLLECTION_SETTINGS.items():
    collection_retrievers = []

    for retriever_info in collection_config:
        if retriever_info["name"] == "bm25":
            collection_texts = load_texts(os.path.join(KNOWLEDGE_BASE_DIR, collection_name))
            bm25 = BM25Retriever.from_texts(collection_texts, preprocess_func=lambda x: [token.lemma_ for token in spacy_nlp(x)], **retriever_info)
            collection_retrievers.append(bm25)
        elif retriever_info["name"] == "semantic":
            collection_db = Chroma(embedding_function=cached_embedder, collection_name=collection_name,
                                   client=chroma_client, persist_directory=CHROMA_PERSIST_DIRECTORY)
            semantic_retriever = collection_db.as_retriever(search_type="similarity", search_kwargs=retriever_info)
            collection_retrievers.append(semantic_retriever)

    if len(collection_retrievers) > 1:
        retrievers.append(EnsembleRetriever(retrievers=collection_retrievers))
    else:
        retrievers.append(collection_retrievers[0])

context_retriever = MergerRetriever(retrievers=retrievers) if len(retrievers) > 1 else retrievers[0]

In [7]:
class CompletionCache:
    def __init__(self, chroma_db, redis_client, score_threshold=0.15):
        self.redis_client = redis_client
        self.chroma_db = chroma_db
        self.score_threshold = score_threshold

    def get(self, prompt):
        chroma_response = self.chroma_db.similarity_search_with_score(prompt, k=1)
        if chroma_response:
            document, score = chroma_response[0]
            if score < self.score_threshold:
                return self.redis_client.get(document.page_content).decode()
        
    def set(self, prompt, completion):
        self.chroma_db.add_texts([prompt], ids=[hashlib.sha256(prompt.encode()).hexdigest()])
        self.redis_client.set(prompt, completion)


class CachedConversationalRQA:
    def __init__(self, condense_chain, rqa_chain, rqa_cache, k=2,
                 condense_output_key="text", rqa_output_key="result"):
        self.condense_chain = condense_chain
        self.rqa_chain = rqa_chain
        self.cache = rqa_cache
        self.k = 2
        self.condense_output_key = condense_output_key
        self.rqa_output_key = rqa_output_key

    def __call__(self, question, chat_messages):
        cached_completion = self.cache.get(question)
        if cached_completion:
            return cached_completion

        last_messages = chat_messages[-self.k * 2 :] if self.k > 0 else []
        if last_messages:
            last_messages_str = get_buffer_string(last_messages)
            question = self.condense_chain({"question": question, "last_messages": last_messages_str})[self.condense_output_key]
            rephrased_cache_completion = self.cache.get(question)
            if rephrased_cache_completion:
                return rephrased_cache_completion

        completion = self.rqa_chain(question)[self.rqa_output_key]
        self.cache.set(question, completion)
        return completion

In [8]:
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo", verbose=True)

rqa_prompt_template = ChatPromptTemplate.from_messages([
    SystemMessagePromptTemplate.from_template(
        template=("You are an AI assistant who answers customer questions about the services and processes "
                  "of the postal company Nova Poshta. Use the following pieces of context to answer the question. "
                  "Answer only in Ukrainian, regardless of the question language.\n\nCONTEXT:\n{context}\n\n"
                  "USER QUESTION: {question}\n\n"
                  "If the question is not related to the context, tell to contact the support. If the answer is not "
                  "contained in the context, tell to contact support. Don't make up the answer. If the question is not "
                  "related to the postal services or it doesn't make sense, tell that you can't answer it.\n\n"
                  "ANSWER IN UKRAINIAN:'")
    )]
)
rqa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=context_retriever, return_source_documents=True,
                                        chain_type_kwargs={"prompt": rqa_prompt_template})


condense_prompt_template = ChatPromptTemplate.from_messages([
    SystemMessagePromptTemplate.from_template(
        template=("You are an AI assistant who answers customer questions about the services and processes "
                  "of the postal company Nova Poshta. Given the following conversation and a follow user up input, "
                  "rephrase it to be a standalone question."
                  "\n\nLast Messages:\n{last_messages}\n\nHuman Follow Up Input: {question}\n\n"
                  "If the follow up user input is not related to the last messages, return it as it is.\n"
                  "REPHRASED QUESTION IN UKRAINIAN:")
    )]
)
condense_chain = LLMChain(llm=llm, prompt=condense_prompt_template)


chroma_questions_db = Chroma(embedding_function=cached_embedder, collection_name="questionss",
                             client=chroma_client, persist_directory=CHROMA_PERSIST_DIRECTORY)
redis_qa_client = redis.Redis(host=REDIS_HOST, port=6379, db=3)
rqa_cache = CompletionCache(chroma_questions_db, redis_qa_client)


cached_conversational_rqa = CachedConversationalRQA(condense_chain, rqa_chain, rqa_cache)

In [None]:
session_id = "42"

chat_history = RedisChatMessageHistory(session_id=session_id, url=f"redis://{REDIS_HOST}:6379/2")
chat_history.clear()
chat_history.add_user_message("Що таке поштомат?")
chat_history.add_ai_message("Поштомат - це автоматизований термінал, в якому можна отримати або відправити посилку без прямого контакту з працівниками пошти. Він працює цілодобово і знаходиться у зручних для клієнтів місцях, таких як торгові центри, супермаркети або житлові комплекси. Для отримання посилки в поштоматі необхідно мати спеціальний код, який надсилається клієнту після оформлення замовлення.")
query = "Де найближчий?"

# langchain.debug = True
with get_openai_callback() as cb:
    result = cached_conversational_rqa(query, chat_history.messages)
    print(cb)

print()
print(result)

In [55]:
def get_package_info(track_number):
    request_json = {
       "modelName": "TrackingDocument",
       "calledMethod": "getStatusDocuments",
       "methodProperties": 
        {
            "Documents" : 
            [
                {"DocumentNumber": track_number}
            ]
       }
    }
    response = requests.get(url="https://api.novaposhta.ua/v2.0/json/", json=request_json).json()
    if not response["success"]:
        return 

    info = response["data"][0]
    output = {
        "Статус": info.get("Status", ""),
        "Дата створення": info.get("DateCreated", ""),
        "Aдреса відправки": info.get("WarehouseSender", ""),
        "Адреса доставки": info.get("WarehouseRecipient", ""),
        "Вага ": info.get("DocumentWeight", ""),
        "Об'ємна вага": info.get("VolumeWeight", ""),
        "Вартість доставки": info.get("DocumentCost", ""),
        "Очікувана дата доставки": info.get("ScheduledDeliveryDate", ""),
        "Фактична дата доставки": info.get("ActualDeliveryDate", ""),
    }

    return output

def get_city_identifier(city_name):
    """This function is needed to get city's REF"""
    request_json = {
            "apiKey": NOVA_POST_API_KEY,
            "modelName": "Address",
            "calledMethod": "searchSettlements",
            "methodProperties": {
            "CityName" : city_name,
            "Limit" : "1",
            "Page" : "1"
        }
    }
    response = requests.get(url="https://api.novaposhta.ua/v2.0/json/", json=request_json).json()
    if not response["success"]:
        return 

    info = response["data"][0]["Addresses"][0]
    output =  info.get("Ref", "")
    return output    

def estimate_delivery_date(date, city_sender, city_recipient, service_type="WarehouseWarehouse"):
    """city_sender and city_recipient are strings indicating cities"""
    request_json = {
            "apiKey": NOVA_POST_API_KEY,
            "modelName": "InternetDocument",
            "calledMethod": "getDocumentDeliveryDate",
            "methodProperties": {
            "DateTime" : date,
            "ServiceType" : service_type,
            "CitySender" : get_city_identifier(city_sender),
            "CityRecipient" : get_city_identifier(city_recipient),
            }
    }

    response = requests.get(url="https://api.novaposhta.ua/v2.0/json/", json=request_json).json()
    if not response["success"]:
        return 
    
    info = response["data"][0]["DeliveryDate"]
    print(info)
    output = {
        "Дата доставки": info.get("date", ""),
        "Часова зона": info.get("timezone", "")
    }
    
    return output


def calculate_delivery_cost(package_type, cost, weight, height, width, length) -> float:
    """Useful for when you need to estimate the delivery cost"""
    return "Орієнтовна вартість перевезення: 42"

def download_digital_invoice(IntDocNumber):
    pdf_link = "https://my.novaposhta.ua/orders/printDocument/orders[]/" + IntDocNumber + "/type/pdf/apiKey/" + NOVA_POST_API_KEY
    response = urllib2.urlopen(pdf_link)
    file = open("document.pdf", 'wb')
    file.write(response.read())
    file.close()
    print("Completed")

def create_digital_invoice(payer_type, payment_method, date, cargo_type, weight, description,\
                            approx_cost, city_sender, sender, sender_address, contact_sender, senders_phone, city_receipt,\
                            recipient, recipient_address, contact_recipient, recipient_phone):
    frame = inspect.currentframe()
    args, _, _, values = inspect.getargvalues(frame)
    missings_args = [key for key in args if not values[key]]
    if missings_args:
        message = "Щоб порахувати оцінити вартість відправлення потрібно надати:\n"
        for i, key in enumerate(missings_args):
            message += f"{i+1}. DeliveryDetails.__schema_cache__[(True, '#/definitions/{{model}}')]['properties'][key]['description']"
        return message
        
    request_json = {
        "apiKey": os.environ["NOVA_POST_API_KEY"],
            "modelName": "InternetDocument",
            "calledMethod": "save",
            "methodProperties": 
                {
                "PayerType" : payer_type,
                "PaymentMethod" : payment_method,
                "DateTime" : date,
                "CargoType" : cargo_type,
                "Weight" : weight,
                "ServiceType" : "WarehouseWarehouse",
                "SeatsAmount" : "1",
                "Description" : description,
                "Cost" : approx_cost,
                "CitySender" : get_city_identifier(city_sender),
                "Sender" : sender,
                "SenderAddress" : sender_address,
                "ContactSender" : contact_sender,
                "SendersPhone" : senders_phone,
                "CityRecipient" : get_city_identifier(city_receipt),
                "Recipient" : recipient,
                "RecipientAddress" : recipient_address,
                "ContactRecipient" : contact_recipient,
                "RecipientsPhone" : recipient_phone,
                }
}

    response = requests.get(
        url="https://api.novaposhta.ua/v2.0/json/", json=request_json).json()
    if not response["success"]:
        return "Перевірте правильність введення даних"

    info = response["data"][0]
    output = {
        "Ref": info.get("Ref", ""),
        "IntDocNumber": info.get("IntDocNumber", "")
    }

    return output


Sender
SenderAddress
ContactSender
Recipient
RecipientAddress
ContactRecipient


class Package(BaseModel):
    tracking_number: int = Field(
        ...,
        description="Unique number assigned to each package, which consists of 14 digits"
    )


class Question(BaseModel):
    question: str = Field(
        ...,
        description="Question about postal, logistics, delivery, courier and related services and processes of the Nova Postha company"
    )

class Delivery_Date(BaseModel):
    date: str = Field(
        ...,
        description="Дата відправлення у форматі дд.мм.рррр",
    )
    """Note: Always WarehouseWarehouse as we are making it for self-serving desk, said by mentor"""
    city_sender: str = Field(
        ...,
        description="Ідентифікатор міста відправника"
    )
    city_recipient: str = Field(
        ...,
        description="Ідентифікатор міста отримувача"
    )
    service_type: str = Field(
        ...,
        description="Тип послуги, завжди WarehouseWarehouse",
    )

class Delivery(BaseModel):
    package_type: str = Field(
        ...,
        description="Вид відправлення",
        enum=["Вантажі", "Документи", "Шини та диски", "Палети"]
    )
    cost: int = Field(
        ...,
        description="Оголошена вартість відправлення, грн"
    )
    weight: int = Field(
        ...,
        description="Вага відправлення, кг"
    )
    height: int = Field(
        ...,
        description="Висота відправлення, сантиметри"
    )
    width: int = Field(
        ...,
        description="Ширина відправлення, сантиметри"
    )
    length: int = Field(
        ...,
        description="Довжина відправлення, сантиметри"
    )

class Digital_Invoice(BaseModel):
    payer_type: str = Field(
        ...,
        description="Хто платить за доставку",
        enum=["Sender", "Recipient", "ThirdPerson"]
    )
    payment_method: str = Field(
        ...,
        description="Оголошена вартість відправлення, грн",
        enum=["Cash", "NonCash"]
    )
    date: str = Field(
        ...,
        description="Дата відправлення у форматі дд.мм.рррр",
    )
    cargo_type: str = Field(
        ...,
        description="тип вантажу"
    )
    weight: str = Field(
        ...,
        description="Фактична вага, в кг min - 0,1"
    )
    description: str = Field(
        ...,
        description="Текстове поле, вводиться для додаткогвого опису відправлення"
    )
    approx_cost: str = Field(
        ...,
        description="Оціночна вартість того що відправляють, ціле число"
    )
    city_sender: str = Field(
        ...,
        description="Ідентифікатор міста відправника"
    )
    sender: str = Field(
        ...,
        description="Ідентифікатор відправника"
    ) 
    sender_address: str = Field(
        ...,
        description="Ідентифікатор адреси відправника"
    )
    contact_sender: str = Field(
        ...,
        description="Ідентифікатор контактної особи відправника. REF брати з відповіді методу"
    )
    senders_phone: str = Field(
        ...,
        description="Телефон відправника у форматі: +380660000000, 380660000000, 0660000001"
    )
    city_receipt: str = Field(
        ...,
        description="Ідентифікатор міста отримувача"
    )
    recipient: str = Field(
        ...,
        description="Ідентифікатор отримувача"
    )
    recipient_address: str = Field(
        ...,
        description="Ідетнифікатор адреси отримувача або Ідентифікатор поштомату"
    )
    contact_recipient: str = Field(
        ...,
        description="Ідентифікатор контактної особи"
    )
    recipient_phone: str = Field(
        ...,
        description="Телефон отримувача у форматі: +380660000000, 380660000000, 0660000001"
    )

tools = [
    Tool(
        name="package_info",
        func=get_package_info,
        args_schema=Package,
        description="Useful for when you need to get tracking details and other information about the package",
    ),
    StructuredTool.from_function(
        func=calculate_delivery_cost,
        args_schema=Delivery,
    ),
    Tool(
        name="question_answering",
        func=lambda question: cached_conversational_rqa(question, []),
        args_schema=Question,
        description="Useful for answering any type of questions, always use it if user asks a question",
        return_direct=True
    ),
    StructuredTool.from_function(
        name="estimate_delivery_date",
        func=estimate_delivery_date,
        args_schema=Delivery_Date,
        description="Useful for when you need to estimate package delivery date",
    )
    StructuredTool.from_function(
        name="get_digital_invoice",
        func=create_EN,
        args_schema=EN,
        description="Useful for when you need to create an digital invoice",
    )
]

agent_prompt_template = ChatPromptTemplate.from_messages([
    SystemMessagePromptTemplate.from_template(
        template=("You are an AI assistant of the postal company Nova Poshta, which performs basic operations: "
                  "tracking parcels, calculating service costs, and informing about delivery terms. "
                  "You can also answer questions about the services and processes of the company."
                  "If the question is not related to the Nova Poshta or it doesn't make sense, tell that you can't answer it.\n{chat_messages}")
    ),
    HumanMessagePromptTemplate.from_template(
        template="{input}"
    ),
    SystemMessagePromptTemplate.from_template(
        template="Do not answer the questions that are not related to the postal, logistics, delivery, courier and related services and processes."
    ),
    MessagesPlaceholder(variable_name="agent_scratchpad")
    ]
)
agent = initialize_agent(tools, llm, agent=AgentType.OPENAI_FUNCTIONS, llm_prompt=agent_prompt_template, verbose=True)
agent.agent.prompt = agent_prompt_template

In [57]:
session_id = "42"

chat_history = RedisChatMessageHistory(session_id=session_id, url=f"redis://{REDIS_HOST}:6379/2")
chat_history.clear()
chat_history.add_user_message("Допоможи знайти посилку")
chat_history.add_ai_message("Звичайно! Для пошуку вашої посилки, будь ласка, надайте мені унікальний номер відстеження, який складається з 14 цифр.")
query = "20700476898586"

chat_history = RedisChatMessageHistory(session_id=session_id, url=f"redis://{REDIS_HOST}:6379/2")
chat_history.clear()
chat_history.add_user_message("Допоможи розрахувати вартість відправлення. Вага 10 кг, 40х30х20см")
chat_history.add_ai_message("Вартість відправлення залежить від оголошеної вартості відправлення. Будь ласка, вкажіть оголошену вартість відправлення, щоб я міг розрахувати вартість доставки.")
query = "900 грн"

chat_history = RedisChatMessageHistory(session_id=session_id, url=f"redis://{REDIS_HOST}:6379/2")
chat_history.clear()
chat_history.add_user_message("Допоможи розрахувати дату прибуття відправлення")
chat_history.add_ai_message("Час доставки залежить від міста відправки, міста отримання та дати. Будь ласка, вкажіть місто отримання і відправлення і дату, щоб я міг розрахувати дату прибуття. Якщо дата відправлення не вказана, буде використане сьогоднішнє число")
query = "Відправляю з Києва до Львова 8 серпня 2023 року"

# langchain.debug=True
with get_openai_callback() as cb:
    result = agent.run({"input": query, "chat_messages": get_buffer_string(chat_history.messages)})
    print(cb)

print()
print(result)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `estimate_delivery_date` with `{'date': '08.08.2023', 'city_sender': 'Київ', 'city_recipient': 'Львів', 'service_type': 'WarehouseWarehouse'}`


[0m[36;1m[1;3mNone[0m[32;1m[1;3mНа жаль, я не можу розрахувати дату прибуття відправлення на 8 серпня 2023 року з Києва до Львова. Будь ласка, зверніться до служби підтримки Nova Poshta для отримання точної інформації.[0m

[1m> Finished chain.[0m
Tokens Used: 1756
	Prompt Tokens: 1596
	Completion Tokens: 160
Successful Requests: 2
Total Cost (USD): $0.0027140000000000003

На жаль, я не можу розрахувати дату прибуття відправлення на 8 серпня 2023 року з Києва до Львова. Будь ласка, зверніться до служби підтримки Nova Poshta для отримання точної інформації.
