In [1]:
from os import chdir

chdir("..")

from app.core.config import settings

# LLM

In [3]:
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_ollama.chat_models import ChatOllama

chat_model_1b = ChatOllama(
    base_url=settings.OLLAMA_BASE_URL,
    model="llama3.2:1b",
    temperature=0,
)

chat_model_3b = ChatOllama(
    base_url=settings.OLLAMA_BASE_URL,
    model="llama3.2:3b",
    temperature=0,
)

embeddings = OllamaEmbeddings(base_url=settings.OLLAMA_BASE_URL, model=settings.OLLAMA_EMBEDDINGS_MODEL)

## Structured Output

In [7]:
from pydantic import BaseModel, field_validator

class Navigation(BaseModel):
    id: int
    reasoning: str

In [8]:
chat_model_1b_structured = chat_model_1b.with_structured_output(Navigation, method="json_schema")
chat_model_3b_structured = chat_model_3b.with_structured_output(Navigation, method="json_schema")

In [9]:
chat_model_1b_structured.invoke("Your ID is 1, reasoning is 'test case'"), chat_model_3b_structured.invoke("Your ID is 1, reasoning is 'test case'")

(Navigation(id=1, reasoning='test case'),
 Navigation(id=1, reasoning='test case'))

# Vector DB

In [12]:
from langchain_chroma import Chroma

PERSIST_DIRECTORY = "./data/vector_db/chroma/"
vectordb = Chroma(persist_directory=PERSIST_DIRECTORY, embedding_function=embeddings)

In [13]:
retriever = vectordb.as_retriever()

## Dataset

In [14]:
from json import load, dump

In [15]:
with open("./data/navigation/navigation_intents.json") as f:
    intents = load(f)

In [16]:
dataset = {}

for index, item in enumerate(intents, start=1):
    dataset[index] = item

In [18]:
len(dataset.keys()) == len(intents)

True

# RAG

In [23]:
from langchain_core.prompts import PromptTemplate


RAG_PROMPT = """
You are an navigation assistant. You are given a list of navigation options with their ID.
Your task is to identify the option that is most similar to the user {query}
Query: {query}
Context: {context}
Schema:
{{

    "id": ID,
    "reasoning": <Reasoning for selecting this ID
}}
Output:
"""

template = PromptTemplate.from_template(RAG_PROMPT)

rag_chain_1b = template | chat_model_1b_structured
rag_chain_3b = template | chat_model_3b_structured

## Graph

In [24]:
from typing_extensions import List, TypedDict
from langchain_core.documents import Document

class State(TypedDict):
    question: str
    context: List[Document]
    answer: dict

In [25]:
def retrieve(state: State):
    retrieved_docs = vectordb.similarity_search(state["question"])
    return {"context": retrieved_docs}

In [35]:
def generate(state: State):
    context = ""
    for doc in state["context"]:
        context += f"{doc.metadata['id']} - {doc.page_content} | "

    # print(f"Context: {context}")
    
    response1 = rag_chain_1b.invoke({"query": state["question"], "context": context})
    response2 = rag_chain_3b.invoke({"query": state["question"], "context": context})
    return {"answer": {
            "1b": response1,
            "3b": response2
        }
    }

In [36]:
from langgraph.graph import START, StateGraph

graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

In [37]:
QUERY = "user wants to manage assignments of products"

In [38]:
response = graph.invoke({"question": QUERY})
print(response["answer"])

{'1b': Navigation(id=36, reasoning='Takes the user to the assignment screen to manage assignments of products'), '3b': Navigation(id=36, reasoning='Takes the user to the assignment screen to manage assignments of products or workers.')}


## Testing

In [31]:
with open("./data/navigation/navigation_test_queries.json") as f:
    tests = load(f)

In [34]:
tests[0]

{'id': 1,
 'description': 'Directs the user to the login page to authenticate and access the application.',
 'test_queries': ['Open login page',
  'Go to login screen',
  'Navigate to sign-in page',
  'Take me to login',
  'Show login view',
  'Direct me to authentication page',
  'Access login section',
  'Open sign-in screen',
  'Navigate to login area',
  'Go to user login']}

In [39]:
!pip install tqdm



In [49]:
from tqdm import tqdm

results = {}

for test in tqdm(tests):
    id = test["id"]
    description = test["description"]

    print(f"ID: {id}")
    
    accuracy_1b, accuracy_3b = 0, 0
    
    for query in tqdm(test["test_queries"]):
        response = graph.invoke({"question": query})
        answer = response["answer"]
        try:
            id_1b, id_3b = answer["1b"].id, answer["3b"].id
            accuracy_1b += id_1b == id
            accuracy_3b += id_3b == id

            results[id] = {
                "id": id,
                "description": description,
                "accuracy_1b": accuracy_1b/10 * 100,
                "accuracy_3b": accuracy_3b/10 * 100
            }
        except Exception as e:
            print(e)


  0%|                                                              | 0/41 [00:00<?, ?it/s]

ID: 1



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:04,  7.18s/it][A
 20%|██████████▊                                           | 2/10 [00:14<00:57,  7.22s/it][A
 30%|████████████████▏                                     | 3/10 [00:23<00:56,  8.02s/it][A
 40%|█████████████████████▌                                | 4/10 [00:31<00:47,  7.87s/it][A
 50%|███████████████████████████                           | 5/10 [00:39<00:39,  7.93s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:46<00:31,  7.88s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:56<00:25,  8.60s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:05<00:16,  8.46s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:12<00:08,  8.18s/it][A
100%|█████████████████████████████████████████████████████|

ID: 2



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:28,  9.87s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:13,  9.22s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:00,  8.68s/it][A
 40%|█████████████████████▌                                | 4/10 [00:36<00:54,  9.07s/it][A
 50%|███████████████████████████                           | 5/10 [00:44<00:44,  8.92s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:52<00:34,  8.59s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:01<00:25,  8.52s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:11<00:17,  8.99s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:19<00:08,  8.80s/it][A
100%|█████████████████████████████████████████████████████|

ID: 3



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:27,  9.76s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:14,  9.26s/it][A
 30%|████████████████▏                                     | 3/10 [00:27<01:02,  8.91s/it][A
 40%|█████████████████████▌                                | 4/10 [00:35<00:52,  8.79s/it][A
 50%|███████████████████████████                           | 5/10 [00:46<00:47,  9.46s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:54<00:36,  9.16s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:03<00:26,  9.00s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:13<00:18,  9.36s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:21<00:08,  8.78s/it][A
100%|█████████████████████████████████████████████████████|

ID: 4



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:13,  8.22s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:15,  9.43s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:02,  8.89s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:50,  8.39s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.75s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.50s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:00<00:25,  8.55s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:09<00:17,  8.67s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:19<00:09,  9.14s/it][A
100%|█████████████████████████████████████████████████████|

ID: 5



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:21,  9.02s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:15,  9.49s/it][A
 30%|████████████████▏                                     | 3/10 [00:27<01:02,  8.93s/it][A
 40%|█████████████████████▌                                | 4/10 [00:35<00:52,  8.70s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:42,  8.54s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:52<00:35,  8.77s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:01<00:25,  8.57s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:10<00:17,  8.97s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:19<00:08,  8.83s/it][A
100%|█████████████████████████████████████████████████████|

ID: 6



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:19,  8.82s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:08,  8.51s/it][A
 30%|████████████████▏                                     | 3/10 [00:27<01:04,  9.19s/it][A
 40%|█████████████████████▌                                | 4/10 [00:35<00:53,  8.87s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.73s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:52<00:34,  8.72s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:02<00:27,  9.05s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:10<00:17,  8.78s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:18<00:08,  8.62s/it][A
100%|█████████████████████████████████████████████████████|

ID: 7



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.86s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:03,  8.00s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:56,  8.03s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:51,  8.53s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:41,  8.24s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:32,  8.20s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:56<00:23,  7.99s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:06<00:16,  8.44s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.32s/it][A
100%|█████████████████████████████████████████████████████|

ID: 8



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:28,  9.78s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:11,  8.95s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:00,  8.67s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:49,  8.29s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.71s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.56s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:00<00:25,  8.49s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:16,  8.40s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:18<00:08,  8.76s/it][A
100%|█████████████████████████████████████████████████████|

ID: 9



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:07,  7.45s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:10,  8.81s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:59,  8.47s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:49,  8.20s/it][A
 50%|███████████████████████████                           | 5/10 [00:40<00:39,  7.96s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:33,  8.32s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:57<00:24,  8.33s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:06<00:16,  8.35s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.25s/it][A
100%|█████████████████████████████████████████████████████|

ID: 10



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.83s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:04,  8.10s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:56,  8.11s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:52,  8.69s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:41,  8.40s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.71s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:01<00:27,  9.26s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:09<00:17,  8.96s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:17<00:08,  8.56s/it][A
100%|█████████████████████████████████████████████████████|

ID: 11



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:11<01:39, 11.06s/it][A
 20%|██████████▊                                           | 2/10 [00:19<01:15,  9.40s/it][A
 30%|████████████████▏                                     | 3/10 [00:28<01:03,  9.13s/it][A
 40%|█████████████████████▌                                | 4/10 [00:38<00:57,  9.57s/it][A
 50%|███████████████████████████                           | 5/10 [00:47<00:46,  9.40s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:55<00:35,  8.78s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:03<00:25,  8.53s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:12<00:17,  8.84s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:20<00:08,  8.59s/it][A
100%|█████████████████████████████████████████████████████|

ID: 12



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:10<01:36, 10.67s/it][A
 20%|██████████▊                                           | 2/10 [00:19<01:18,  9.79s/it][A
 30%|████████████████▏                                     | 3/10 [00:29<01:06,  9.50s/it][A
 40%|█████████████████████▌                                | 4/10 [00:38<00:56,  9.50s/it][A
 50%|███████████████████████████                           | 5/10 [00:50<00:51, 10.26s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:58<00:38,  9.70s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:07<00:28,  9.50s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:17<00:19,  9.58s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:25<00:09,  9.09s/it][A
100%|█████████████████████████████████████████████████████|

ID: 13



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:25,  9.46s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:13,  9.23s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:01,  8.74s/it][A
 40%|█████████████████████▌                                | 4/10 [00:35<00:51,  8.61s/it][A
 50%|███████████████████████████                           | 5/10 [00:44<00:44,  8.97s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:54<00:36,  9.10s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:02<00:27,  9.01s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:12<00:18,  9.11s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:21<00:09,  9.16s/it][A
100%|█████████████████████████████████████████████████████|

ID: 14



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:18,  8.74s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:12,  9.09s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:59,  8.45s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:49,  8.30s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:39,  7.98s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:50<00:33,  8.48s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:25,  8.43s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:07<00:16,  8.31s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.16s/it][A
100%|█████████████████████████████████████████████████████|

ID: 15



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.83s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:02,  7.85s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:58,  8.39s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:48,  8.15s/it][A
 50%|███████████████████████████                           | 5/10 [00:40<00:40,  8.09s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:48<00:32,  8.11s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:25,  8.59s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:05<00:16,  8.24s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:13<00:08,  8.14s/it][A
100%|█████████████████████████████████████████████████████|

ID: 16



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:14,  8.32s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:10,  8.87s/it][A
 30%|████████████████▏                                     | 3/10 [00:27<01:03,  9.13s/it][A
 40%|█████████████████████▌                                | 4/10 [00:35<00:52,  8.69s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.67s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:33,  8.44s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:24,  8.17s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:16,  8.48s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:15<00:08,  8.20s/it][A
100%|█████████████████████████████████████████████████████|

ID: 17



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:11,  7.91s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:11,  8.88s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:59,  8.43s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:52,  8.75s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:42,  8.53s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.74s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:00<00:25,  8.61s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:16,  8.38s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:15<00:08,  8.21s/it][A
100%|█████████████████████████████████████████████████████|

ID: 18



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:13,  8.12s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:03,  7.95s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:59,  8.44s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:49,  8.24s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:41,  8.33s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:32,  8.21s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:25,  8.64s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:06<00:16,  8.25s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.10s/it][A
100%|█████████████████████████████████████████████████████|

ID: 19



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:19,  8.86s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:07,  8.40s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:57,  8.15s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:47,  7.86s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:41,  8.21s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:48<00:32,  8.09s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:56<00:23,  7.98s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:04<00:15,  7.98s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:13<00:08,  8.39s/it][A
100%|█████████████████████████████████████████████████████|

ID: 20



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:12,  8.01s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:10,  8.78s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:58,  8.41s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:49,  8.19s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:40,  8.20s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:50<00:33,  8.47s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:24,  8.29s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:06<00:16,  8.27s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.15s/it][A
100%|█████████████████████████████████████████████████████|

ID: 21



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.85s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:02,  7.82s/it][A
 30%|████████████████▏                                     | 3/10 [00:23<00:54,  7.76s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:50,  8.50s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:42,  8.50s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:33,  8.36s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:26,  8.71s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:06<00:16,  8.47s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.33s/it][A
100%|█████████████████████████████████████████████████████|

ID: 22



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:27,  9.70s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:07,  8.42s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:58,  8.36s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:48,  8.10s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:42,  8.45s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:32,  8.11s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:57<00:24,  8.07s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:05<00:16,  8.04s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:14<00:08,  8.41s/it][A
100%|█████████████████████████████████████████████████████|

ID: 23



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:22,  9.18s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:08,  8.57s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:02,  8.99s/it][A
 40%|█████████████████████▌                                | 4/10 [00:36<00:54,  9.10s/it][A
 50%|███████████████████████████                           | 5/10 [00:44<00:44,  8.83s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:53<00:36,  9.06s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:01<00:26,  8.71s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:11<00:17,  8.90s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:18<00:08,  8.53s/it][A
100%|█████████████████████████████████████████████████████|

ID: 24



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:12,  8.05s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:06,  8.31s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<01:01,  8.83s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:53,  8.87s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.71s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.58s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:01<00:27,  9.10s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:11<00:18,  9.12s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:19<00:08,  8.87s/it][A
100%|█████████████████████████████████████████████████████|

ID: 25



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:12,  8.01s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:07,  8.38s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:57,  8.19s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:53,  8.99s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:43,  8.65s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:50<00:33,  8.45s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:25,  8.65s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:10<00:18,  9.14s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:17<00:08,  8.65s/it][A
100%|█████████████████████████████████████████████████████|

ID: 26



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:28,  9.80s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:11,  8.95s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:58,  8.39s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:50,  8.39s/it][A
 50%|███████████████████████████                           | 5/10 [00:43<00:43,  8.79s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:52<00:34,  8.66s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:00<00:25,  8.59s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:10<00:18,  9.12s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:19<00:08,  8.95s/it][A
100%|█████████████████████████████████████████████████████|

ID: 27



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:09,  7.77s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:08,  8.54s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:57,  8.21s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:47,  7.91s/it][A
 50%|███████████████████████████                           | 5/10 [00:39<00:38,  7.66s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:47<00:31,  7.97s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:55<00:23,  7.76s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:02<00:15,  7.71s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:10<00:07,  7.71s/it][A
100%|█████████████████████████████████████████████████████|

ID: 28



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:06,  7.41s/it][A
 20%|██████████▊                                           | 2/10 [00:14<00:59,  7.49s/it][A
 30%|████████████████▏                                     | 3/10 [00:22<00:52,  7.46s/it][A
 40%|█████████████████████▌                                | 4/10 [00:30<00:46,  7.80s/it][A
 50%|███████████████████████████                           | 5/10 [00:38<00:38,  7.67s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:45<00:30,  7.64s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:53<00:23,  7.81s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:03<00:16,  8.23s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:10<00:08,  8.03s/it][A
100%|█████████████████████████████████████████████████████|

ID: 29



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:14,  8.24s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:10,  8.86s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:02,  8.95s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:51,  8.57s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:40,  8.18s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.60s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:25,  8.44s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:16,  8.46s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:17<00:08,  8.65s/it][A
100%|█████████████████████████████████████████████████████|

ID: 30



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:09,  7.76s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:08,  8.53s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:01,  8.83s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:51,  8.51s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:41,  8.33s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:50<00:33,  8.28s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:25,  8.53s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:07<00:16,  8.37s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:16<00:08,  8.56s/it][A
100%|█████████████████████████████████████████████████████|

ID: 31



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:29,  9.91s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:14,  9.27s/it][A
 30%|████████████████▏                                     | 3/10 [00:27<01:02,  8.93s/it][A
 40%|█████████████████████▌                                | 4/10 [00:38<01:00, 10.01s/it][A
 50%|███████████████████████████                           | 5/10 [00:48<00:49,  9.87s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:56<00:36,  9.08s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:06<00:28,  9.64s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:16<00:19,  9.52s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:25<00:09,  9.40s/it][A
100%|█████████████████████████████████████████████████████|

ID: 32



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:25,  9.50s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:15,  9.48s/it][A
 30%|████████████████▏                                     | 3/10 [00:29<01:10, 10.03s/it][A
 40%|█████████████████████▌                                | 4/10 [00:39<00:59,  9.96s/it][A
 50%|███████████████████████████                           | 5/10 [00:48<00:48,  9.78s/it][A
 60%|████████████████████████████████▍                     | 6/10 [01:01<00:42, 10.75s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:13<00:32, 10.97s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:22<00:20, 10.39s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:33<00:10, 10.66s/it][A
100%|█████████████████████████████████████████████████████|

ID: 33



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:12,  8.01s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:05,  8.20s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:59,  8.44s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:50,  8.34s/it][A
 50%|███████████████████████████                           | 5/10 [00:40<00:39,  7.98s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:47<00:30,  7.71s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:57<00:24,  8.28s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:04<00:16,  8.11s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:12<00:07,  7.83s/it][A
100%|█████████████████████████████████████████████████████|

ID: 34



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:09<01:21,  9.04s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:05,  8.14s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:55,  7.88s/it][A
 40%|█████████████████████▌                                | 4/10 [00:31<00:46,  7.75s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:43,  8.64s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:49<00:33,  8.43s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:25,  8.39s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:07<00:17,  8.71s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:15<00:08,  8.39s/it][A
100%|█████████████████████████████████████████████████████|

ID: 35



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.84s/it][A
 20%|██████████▊                                           | 2/10 [00:16<01:08,  8.51s/it][A
 30%|████████████████▏                                     | 3/10 [00:24<00:57,  8.16s/it][A
 40%|█████████████████████▌                                | 4/10 [00:31<00:47,  7.87s/it][A
 50%|███████████████████████████                           | 5/10 [00:39<00:38,  7.71s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:48<00:32,  8.06s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:55<00:23,  7.82s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:02<00:15,  7.58s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:10<00:07,  7.61s/it][A
100%|█████████████████████████████████████████████████████|

ID: 36



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:13,  8.16s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:02,  7.80s/it][A
 30%|████████████████▏                                     | 3/10 [00:23<00:53,  7.61s/it][A
 40%|█████████████████████▌                                | 4/10 [00:32<00:50,  8.35s/it][A
 50%|███████████████████████████                           | 5/10 [00:39<00:40,  8.01s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:47<00:31,  7.84s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:55<00:23,  7.74s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:04<00:16,  8.34s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:12<00:08,  8.19s/it][A
100%|█████████████████████████████████████████████████████|

ID: 37



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:15,  8.37s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:14,  9.30s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:02,  8.94s/it][A
 40%|█████████████████████▌                                | 4/10 [00:36<00:56,  9.42s/it][A
 50%|███████████████████████████                           | 5/10 [00:46<00:47,  9.44s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:54<00:35,  8.87s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:02<00:26,  8.75s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:11<00:17,  8.79s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:20<00:08,  8.89s/it][A
100%|█████████████████████████████████████████████████████|

ID: 38



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:16,  8.46s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:12,  9.09s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:01,  8.77s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:51,  8.64s/it][A
 50%|███████████████████████████                           | 5/10 [00:42<00:41,  8.40s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.54s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:59<00:24,  8.25s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:17,  8.51s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:16<00:08,  8.36s/it][A
100%|█████████████████████████████████████████████████████|

ID: 39



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:07<01:10,  7.81s/it][A
 20%|██████████▊                                           | 2/10 [00:15<01:01,  7.67s/it][A
 30%|████████████████▏                                     | 3/10 [00:22<00:52,  7.50s/it][A
 40%|█████████████████████▌                                | 4/10 [00:31<00:48,  8.05s/it][A
 50%|███████████████████████████                           | 5/10 [00:39<00:39,  7.88s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:46<00:31,  7.80s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:54<00:23,  7.84s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:04<00:16,  8.39s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:12<00:08,  8.20s/it][A
100%|█████████████████████████████████████████████████████|

ID: 40



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:10<01:31, 10.15s/it][A
 20%|██████████▊                                           | 2/10 [00:18<01:12,  9.07s/it][A
 30%|████████████████▏                                     | 3/10 [00:26<01:00,  8.60s/it][A
 40%|█████████████████████▌                                | 4/10 [00:34<00:50,  8.44s/it][A
 50%|███████████████████████████                           | 5/10 [00:44<00:44,  8.88s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:52<00:34,  8.63s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [01:00<00:25,  8.44s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:08<00:16,  8.27s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:18<00:08,  8.70s/it][A
100%|█████████████████████████████████████████████████████|

ID: 41



  0%|                                                              | 0/10 [00:00<?, ?it/s][A
 10%|█████▍                                                | 1/10 [00:08<01:15,  8.35s/it][A
 20%|██████████▊                                           | 2/10 [00:17<01:12,  9.01s/it][A
 30%|████████████████▏                                     | 3/10 [00:25<00:59,  8.55s/it][A
 40%|█████████████████████▌                                | 4/10 [00:33<00:50,  8.40s/it][A
 50%|███████████████████████████                           | 5/10 [00:41<00:40,  8.07s/it][A
 60%|████████████████████████████████▍                     | 6/10 [00:51<00:34,  8.62s/it][A
 70%|█████████████████████████████████████▊                | 7/10 [00:58<00:24,  8.27s/it][A
 80%|███████████████████████████████████████████▏          | 8/10 [01:07<00:16,  8.36s/it][A
 90%|████████████████████████████████████████████████▌     | 9/10 [01:15<00:08,  8.24s/it][A
100%|█████████████████████████████████████████████████████|

In [50]:
results

{1: {'id': 1,
  'description': 'Directs the user to the login page to authenticate and access the application.',
  'accuracy_1b': 0.0,
  'accuracy_3b': 90.0},
 2: {'id': 2,
  'description': 'Navigates to the main dashboard, providing an overview of key application metrics and access points.',
  'accuracy_1b': 70.0,
  'accuracy_3b': 80.0},
 3: {'id': 3,
  'description': 'Takes the user to the application dashboard to view detailed application-specific data and controls.',
  'accuracy_1b': 40.0,
  'accuracy_3b': 50.0},
 4: {'id': 4,
  'description': 'Directs to the tab list page displaying worker or event information in a tabular format.',
  'accuracy_1b': 40.0,
  'accuracy_3b': 60.0},
 5: {'id': 5,
  'description': 'Navigates to a detailed view of a specific worker or event, including relevant metadata.',
  'accuracy_1b': 50.0,
  'accuracy_3b': 60.0},
 6: {'id': 6,
  'description': 'Takes the user to the event resolution page to take actions on specific events.',
  'accuracy_1b': 30.0,


### Compare results

In [53]:
score_1b, score_3b = 0,0

for i in results.values():
    if i["accuracy_1b"] > i["accuracy_3b"]:
        score_1b += 1
    else:
        score_3b += 1

In [60]:
print(f"Accuracy Score:\nLlama 3.1 1B {score_1b}/{len(intents)}\nLlama 3.2 3B {score_3b}/{len(intents)}")

Accuracy Score:
Llama 3.1 1B 9/41
Llama 3.2 3B 32/41


### Validation

1. On average 3B is better than 1B
2. A secondary validation to check 