
# prompt 테스트

# 여러모델에, 다양한 질의로 응답의 정확성을 테스트 해보기

>1) 단순 질의하기
>2) 이전 질의.응답정보를 추가하기
>3) 단순 정보를 추가해서, 질의하기
>4) 복합 정보를 추가해서, 질의하기
>5) 영어 바꾸어서 질의해보기


In [1]:
from dotenv import load_dotenv
load_dotenv("/home/mhkwon/.env")

import os

#HF_TOKEN = "get your token in http://hf.co/settings/tokens"
HF_TOKEN = os.getenv('HF_TOKEN')
print(HF_TOKEN)

#from huggingface_hub import login
#hf_token = login(token=HF_TOKEN, add_to_git_credential=True)

# 에러가 나면, linux에서 다음 명령어를 실행
# git config --global credential.helper store

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



# 1) 다양한 LLM MODEL을 local, api 방식으로 설정해서 사용할수 있는 코드


In [2]:
# 다음과 같이 해도 된다.
## "my_common/my_llm.py"
#from my_common.my_llm import *

###############################
# "test_rag_all_llm_general.ipynb" 에서 복사

# LLM template 


import anthropic
from openai import OpenAI
#from langchain_community.llms.ollama import Ollama
from langchain_ollama import OllamaLLM
#from langchain_community.chat_models import ChatOllama
#from langchain_anthropic import ChatAnthropic
#from langchain_openai import ChatOpenAI
#
from abc import ABC, abstractmethod
from langchain.prompts import ChatPromptTemplate
# 실행시간을 측정하는 모듈
import time

# RAG형식을 처리위한, 프롬프트 템플릿

PROMPT_TEMPLATE = """
Basing only on the following context:

{context}

---

Answer the following question: {question}
Avoid to start the answer saying that you are basing on the provided context and go straight with the response.
"""

PROMPT_TEMPLATE_NAIVE = """
Answer the following question: {question}
"""

PROMPT_TEMPLATE_EMPTY = """
{question}
"""

class LLM(ABC):
    def __init__(self, model_name: str):
        self.model_name = model_name

    @abstractmethod
    def invoke(self, prompt: str) -> str:
        pass

    def generate_response(self, context: str, question: str, is_template=True) -> str:
        if context is not None:
            prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
            prompt = prompt_template.format(context=context, question=question)
        elif is_template:
            prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE_NAIVE)
            prompt = prompt_template.format(question=question)
        else:
            #prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE_EMPTY)
            #prompt = prompt_template.format(question=question)
            prompt = question
        #
        #print(prompt)
        
        response_text, elapsed_time = self.invoke(prompt)
        return response_text, elapsed_time

class OllamaModel(LLM):
    def __init__(self, model_name: str):
        super().__init__(model_name)
        self.model = OllamaLLM(model=model_name)
        self.model_name = model_name

    def invoke(self, prompt: str) -> str:
        start_time = time.time()
        response = self.model.invoke(prompt)
        elapsed_time = time.time() - start_time
        
        return response, elapsed_time

    def __del__(self):
        self.model = OllamaLLM(model=self.model_name, keep_alive=0)
        #print("deleted..")
        
#To unload the model and free up memory use:
#curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "keep_alive": 0}'
        
class GPTModel(LLM):
    def __init__(self, model_name: str, api_key: str):
        super().__init__(model_name)
        self.client = OpenAI(api_key=api_key)

    def invoke(self, prompt: str) -> str:
        messages = [
            #{"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt}
        ]
        start_time = time.time()
        response = self.client.chat.completions.create(
            model=self.model_name,
            messages=messages,
            max_tokens=150,
            n=1,
            stop=None,
            temperature=0.7,
        )
        elapsed_time = time.time() - start_time

        return response.choices[0].message.content.strip(), elapsed_time
    
class AnthropicModel(LLM):
    def __init__(self, model_name: str, api_key: str):
        super().__init__(model_name)
        self.client = anthropic.Anthropic(api_key=api_key)

    def invoke(self, prompt: str) -> str:
        messages = [
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": prompt
                    }
                ]
            }
        ]

        start_time = time.time()
        response = self.client.messages.create(
            model=self.model_name,
            max_tokens=1000,
            temperature=0.7,
            messages=messages
        )
        # Extract the plain text from the response content
        text_blocks = response.content
        plain_text = "\n".join(block.text for block in text_blocks if block.type == 'text')
        elapsed_time = time.time() - start_time
        
        return plain_text, elapsed_time


# 1) 표준 템플릿
# "test_llm_general.ipynb"과 "test_llm_rag_general.ipynb"에서 복사 및 수정한 코드

#############################################################
# 0) 선언 부분

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

class LocalModel(LLM):
    def __init__(self, model_name: str):
        super().__init__(model_name)
        self.model_name = model_name
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        # 결과값을 보여주는 template
        if self.tokenizer.chat_template is None:
            self.tokenizer.chat_template = "{% for message in messages %}{% if message['role'] == 'user' %}{{ ' ' }}{% endif %}{{ message['content'] }}{% if not loop.last %}{{ '  ' }}{% endif %}{% endfor %}{{ eos_token }}"
        #if tokenizer.pad_token is None:
        #    tokenizer.pad_token = tokenizer.eos_token
        #if tokenizer.pad_token_id is None:
        self.tokenizer.pad_token_id = self.tokenizer.eos_token_id
        # 에러해결
        # The attention mask is not set and cannot be inferred from input because pad token is same as eos token. 
        # As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
        
        self.client = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.bfloat16,
            device_map="auto",
            #trust_remote_code=True,  # exaone only
        )
        # 'unsloth/Llama-3.2-1B-Instruct 사용시에는 다음을 막아야 함.
        if model_name == 'meta-llama/Llama-3.2-1B':
            self.client.generation_config.pad_token_id = self.client.generation_config.eos_token_id
            self.client.generation_config.pad_token_id = self.tokenizer.pad_token_id   # 설정하지 않으면, 무한 CPU 실행
        
    def invoke(self, prompt: str) -> str:
        #############################################################
        # 1) prompt과정
        messages = [
            #{"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt}
        ]
        
        #############################################################
        # 2) tokenizer과정
        input_ids = self.tokenizer.apply_chat_template(
            messages,
            add_generation_prompt=True,
            return_tensors="pt",
        ).to(self.client.device)
               
        #############################################################
        # 3) LLM과정
        start_time = time.time()
        outputs = self.client.generate(
            input_ids,
            max_new_tokens=200,
            do_sample=True,
            temperature=0.9,
            top_p=0.9,
            pad_token_id = self.tokenizer.eos_token_id,  # llama 3.2, bllossom
        )
        elapsed_time = time.time() - start_time
        
        #############################################################
        # 4) decoder과정
        answer = self.tokenizer.decode(outputs[0])
    
        # 특수 토근을 제거하고, 출력
        response = self.tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
    
        return response, elapsed_time

# LLM facotry

class LLMFactory:
    @staticmethod
    def create_llm(model_type: str, model_name: str, api_key: str = None) -> LLM:
        if model_type == 'local':
            return LocalModel(model_name)
        elif model_type == 'ollama':
            return OllamaModel(model_name)
        elif model_type == 'gpt':
            return GPTModel(model_name, api_key)
        elif model_type == 'claude':
            return AnthropicModel(model_name, api_key)
        else:
            raise ValueError(f"Unsupported model type: {model_type}")

In [4]:
# 위의 모듈 테스트하기

LLM_MODEL_TYPE = "ollama"  # 'local', 'ollama', 'gpt' or 'claude'
LLM_MODEL_NAME = 'llama3.2' # "llama3.2"
                     # 'local' = meta-llama/Llama-3.2-1B', 'yanolja/EEVE-Korean-10.8B-v1.0'
                     # 'ollama' = 'llama3.2', 'gemma2', 'llama3:8b', 'mistral:7b', 
                     # 'gpt' = 'gpt-3.5-turbo', 'GPT-4o' 
                     # 'claude' = 'claude'
api_key = HF_TOKEN
#

model = LLMFactory.create_llm(model_type=LLM_MODEL_TYPE, model_name=LLM_MODEL_NAME, api_key=api_key)

  self.model = Ollama(model=model_name)



# 2.1) 화면에서, 질의 응답을 반복 방법


In [5]:
# 2.1) 질의 응답 반복 방법

while True:
    query = input("Query: ")
    if len(query) == 0:
        print("Please enter a question. Ctrl+C to Quit.\n")
        continue
    if query == 'quit':
        break

    print(f"\nThinking using {LLM_MODEL_NAME}...\n")
    
    enhanced_context_text = ['make one answer']
    response, elapsed_time = model.generate_response(context=enhanced_context_text,  question=query)

    # Output, with sources
    print("----"*20)
    print(f"elapse time = {elapsed_time}\n, response = [{response}]")

Query:  quit



# 2.2) 1개 질의에 응답하는 방법


In [23]:
# 2.2) 1개씩 질의 응답하는 방법

query = "아이스 커피 한잔에 얼마하나요?"

print(f"\nThinking using {LLM_MODEL_NAME}...\n")

#enhanced_context_text = ['make one answer']
enhanced_context_text = None
response, elapsed_time = model.generate_response(context=enhanced_context_text,  question=query, is_template=False)

print(f"elapse time = {elapsed_time:.2f}\n, response = [{response}]")
#print("----"*20)


Thinking using llama3.2...

아이스 커피 한잔에 얼마하나요?
elapse time = 0.39
, response = [커피의 가격은 여러 요인에 따라 다르며, 지역, quán 이름, 커피 종류 등이影響할 수 있습니다. 일반적으로冰 coffee는 2,000 ~ 5,000 원之间이전이라고 생각됩니다.]



# 3) 다음 테스트를 하기 위한 사전 설정값


In [3]:
model_types_table = {'local', 'ollama', }# 'gpt', } # 'claude'}
model_names_table = {
                     'local':  ['meta-llama/Llama-3.2-1B', 'yanolja/EEVE-Korean-2.8B-v1.0'],
                     'ollama': ['llama3.2', 'gemma2', 'llama3:8b', 'mistral:7b',],
                     'gpt' :   ['gpt-3.5-turbo'], # 'GPT-4o' ],
                     'claude': ['claude'],
                    }

api_key_table = {'local': os.getenv("HF_TOKEN"),
                 'ollama': os.getenv("HF_TOKEN"),
                 'gpt': os.getenv("OPENAI_API_KEY"),
                 'claude': os.getenv("ANTHROPIC_API_KEY"),
                }


###################################################################
import gc
import torch
import psutil

def calc_coffee(query,enhanced_context_text,is_template):
    for model_type in model_types_table:
        api_key = api_key_table[model_type]
        for model_name in model_names_table[model_type]:
            print(f"\nThinking using {model_type}/{model_name}...\n")
            model = LLMFactory.create_llm(model_type=model_type, model_name=model_name, api_key=api_key)
            response, elapsed_time = model.generate_response(context=enhanced_context_text,  question=query, is_template=is_template)
    
            # 
            del model
            gc.collect()
            torch.cuda.empty_cache()
            process = psutil.Process()
            usage = process.memory_info().rss 
            
            #print(f'GPU allocated = {torch.cuda.memory_allocated()/1024**2}, \
            #        GPU reserved = {torch.cuda.memory_reserved()/1024**2}, \
            #        CPU Mem used = {usage/1024**2}')
    
            print(f"elapse time = {elapsed_time:.2f}\nresponse = [{response}]")
            print("----"*20)



# 3.1) 반복적인 테스트하도록 수정  (100% 질의 내용만으로 질의하는 방법)


In [31]:
# 3.1) 반복적인 테스트하도록 수정  (100% 질의 내용만으로 질의하는 방법)



calc_coffee(query = "아이스 커피 한잔에 얼마하나요?",
            enhanced_context_text = None,
            is_template=False)


Thinking using ollama/llama3.2...

elapse time = 1.35
response = [ice coffee는 일반적으로 더 비싸기 때문에 저는 10,000원에서 15,000원之间의 가격을 제시할 수 있습니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 2.49
response = [죄송합니다만, 저는 실제 세계의 가격 정보를 알 수 없습니다. 아이스 커피 가격은 매장, 위치, 크기, 첨가재 등 여러 요인에 따라 다릅니다.

가장 정확한 정보는 해당 매장으로 직접 문의하시거나 온라인 메뉴에서 확인하는 것이 좋습니다.]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 3.02
response = [😊

The price of an iced coffee at a cafe or coffee shop can vary depending on the location, size, and type of coffee. Here are some rough estimates:

* Small (8-10 oz): ₩2,000 to ₩3,500 (~$1.70 to $2.90 USD)
* Medium (12-14 oz): ₩3,000 to ₩5,000 (~$2.50 to $4.20 USD)
* Large (16-18 oz): ₩4,000 to ₩6,500 (~$3.30 to $5.40 USD)

Keep in mind that prices can be higher or lower depending on the cafe, its location, and any additional fea

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

elapse time = 0.22
response = [정확히 1잔에 얼마가 되나요?]
--------------------------------------------------------------------------------



# 3.2) 반복적인 테스트하도록 수정  (template방식으로 질의)


In [32]:
# 3.2) 반복적인 테스트하도록 수정  (template방식으로 질의)


calc_coffee(query = "아이스 커피 한잔에 얼마하나요?",
            enhanced_context_text = None,
            is_template=True)


Thinking using ollama/llama3.2...

elapse time = 0.21
response = ["오늘은 8,000원입니다. 차가운 아이스 커피를 드시고 싶으신가요?"]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 3.18
response = [I need more information to answer your question. "아이스 커피 한잔" means "one iced coffee" in Korean, but I need to know where you want to buy it!

Please tell me:

* **The location:** Is it a specific cafe, a general area, or a type of store (e.g., convenience store)?
* **Size:**  Is it a small, medium, or large iced coffee?


With more details, I can help you find the price! 😊  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 0.73
response = [A popular Korean phrase!

The answer is: 일반적으로 2,000~3,000원 (around $1.80-$2.70 USD) per cup.

Of course, prices may vary depending on the location, cafe, or quality of the coffee. But generally speaking, a standard-s

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.


elapse time = 13.34
response = [Human: 
Answer the following question: 아이스 커피 한잔에 얼마하나요?
Answer: 2.5 캔
<|im_start|>theorem
You are a helpful assistant.]
--------------------------------------------------------------------------------



# 3.3) 반복적인 테스트하도록 수정 (template + context를 보충해서 질의하는 방법)


In [33]:
# 3.3) 반복적인 테스트하도록 수정 (template + context를 보충해서 질의하는 방법)


calc_coffee(query = "아이스 커피 한잔에 얼마하나요?",
            enhanced_context_text = ['커피는 1잔에 1000원, 커피에 아이스가 추가되면 500원이 추가됩니다.'],
            is_template=True)


Thinking using ollama/llama3.2...

elapse time = 1.82
response = [커피 한 잔에 1000원입니다. 커피에 아이스가 추가되면 500원 더 추가되므로 아이스 커피의 총 가격은 1000 + 500 = 1500원입니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 1.95
response = [1500원  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 0.20
response = [1,000원 plus 500원 is... 1,500원!]
--------------------------------------------------------------------------------

Thinking using ollama/mistral:7b...

elapse time = 0.35
response = [1500원 입니다. (Assuming a base price of 1000원 for coffee, and an additional charge of 500won for ice.)]
--------------------------------------------------------------------------------

Thinking using local/meta-llama/Llama-3.2-1B...

elapse time = 2.28
response = [#1#.

---

## Step 1: 5000원

In the 5000원 case, if we were to assume that the following are all the 

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.


elapse time = 14.05
response = [
I'm sorry for the misunderstanding. “아이스 커피”는 "1잔에 1000원, 커피에 아이스가 추가되면 500원이 추가됩니다.”입니다.]
--------------------------------------------------------------------------------



# 3.4) 반복적인 테스트하도록 수정 (template + 더 복잡한 context를 보충해서 질의하는 방법)


In [8]:
# 3.4) 반복적인 테스트하도록 수정 (template + context를 보충해서 질의하는 방법)

# ==> 똑같은 질의로 반복하면, 답이 왔다 갔다 한다.

query = "아이스 카페라테 3잔에 얼마하나요?"
#enhanced_context_text = None
enhanced_context_text = [
    # 시도1
    # '아메리카노 1잔에 1000원','카페라떼 1잔에 1200원','에스프레소 1잔에 1400원', '카푸치노 1잔에 1300원','아이스를 추가하면 500원'
    # 정답 산출 모델 : ollama/llama3:8b...
    
    # 시도2
    # 정답 산출 모델 : ollama/llama3.2, ollama/llama3:8b
    #'아메리카노 1잔의 가격은 1000원','카페라떼 1잔의 가격은  1200원','에스프레소  1잔의 가격은 1400원', 
    #'카푸치노  1잔의 가격은 1300원','아이스를 추가하면 500원'

    # 시도3
    # 정답 산출 모델 : ollama/llama3:8b
    #'아메리카노 1잔의 가격은 1000원입니다.','카페라떼 1잔의 가격은  1200원입니다.','에스프레소  1잔의 가격은 1400원입니다.', 
    #'카푸치노  1잔의 가격은 1300원입니다.','아이스를 추가하면 500원 추가됩니다.'

    # 시도4
    # 정답 산출 모델 : ollama/llama3.2
    '아메리카노 1잔의 가격은 1000원.','카페라떼 1잔의 가격은  1200원.','에스프레소  1잔의 가격은 1400원.', 
    '카푸치노  1잔의 가격은 1300원.','아이스를 추가하면 500원 추가됩니다.'
]

# 정답은 3 x (1200 + 500) = 5100원



# 1차 시도

calc_coffee(query =query,
            enhanced_context_text = enhanced_context_text,
            is_template=True)



Thinking using ollama/llama3.2...

elapse time = 1.85
response = [카페라테 1 잔의 가격은 1200원입니다. 아이스를 추가하면 500원 추가됩니다. 따라서, 아이스 카페라테 3잔의 가격은 (1200 + 500) * 3 = 5100원입니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 0.19
response = [4200원  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 1.04
response = [A nice question!

Ice adds 500 won to each drink, so for Ice Cappuccino (not Cafe Rata), it would be:

1st cup: 1300 won + 500 won = 1800 won
2nd cup: 1300 won + 500 won = 1800 won
3rd cup: 1300 won + 500 won = 1800 won

So, the total price for Ice Cappuccino 3 cups is: 1800 won x 3 = 5400 won.]
--------------------------------------------------------------------------------

Thinking using ollama/mistral:7b...

elapse time = 1.52
response = [4700원. (Assuming the base price of a latte is 1200 won, plus an additional 500 won 

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

elapse time = 0.17
response = [You are a helpful assistant.]
--------------------------------------------------------------------------------


In [36]:
# 2차 시도

calc_coffee(query =query,
            enhanced_context_text = enhanced_context_text,
            is_template=True)


Thinking using ollama/llama3.2...

elapse time = 0.29
response = [카페라테 1잔에 1200원입니다. therefore, 아이스 카페라테 3잔의 가격은 1200원 x 3 = 3600원입니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 1.95
response = [4800원  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 0.70
response = [이사 카페라떼 1잔에 1200원이고, 아이스를 추가하면 500원이 더 들어갑니다. 따라서 아이스 카페라떼 1잔은 1700원입니다. 그러면 아이스 카페라떼 3잔에는 1700 x 3 = 5100원입니다.]
--------------------------------------------------------------------------------

Thinking using ollama/mistral:7b...

elapse time = 1.35
response = [4500원 (맛있을거에요!)]
--------------------------------------------------------------------------------

Thinking using local/meta-llama/Llama-3.2-1B...

elapse time = 1.11
response = [Question:
- what is the most appropriate choice to answer this question? Explain your choice.
- if you choose 3 1.5 

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

elapse time = 7.12
response = [
Sure, I can help you with that.

--

For the case of '아이스 라테 3잔에 얼마', you can make a calculation on your own or you can just get the answer from me.

--

If you want to make the calculation on your own, here is how it goes.

First, we need to know how much the price is for 1잔, 2잔, and 3잔.

1잔: 1000원
2잔: 1200원
3잔: 1400원

Next, we need to multiply the price of 1잔 by the number of 3잔 we want to buy.

1000원 x 3 = 3000원

That's it! You can calculate the price of 3잔 on your own.

--

But, if you don't want to do the calculation, I can give you the exact price of 3잔.

For 3잔, the price is]
--------------------------------------------------------------------------------


In [37]:
# 3차 시도

calc_coffee(query =query,
            enhanced_context_text = enhanced_context_text,
            is_template=True)


Thinking using ollama/llama3.2...

elapse time = 0.47
response = [카페라떼 1 잔에 1200원이라고 하니, 아이스 카페라떼 1 잔에 1200 + 500 = 1700원이라고합니다. 따라서, 아이스 카페라테 3잔에는 1700 * 3 = 5100원입니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 1.93
response = [4800원  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 0.48
response = [카페라떼 1잔에 1200원 + 아이스 추가하면 500원 = 1700원
아이스 카페라테 3잔에는 3 x 1700원 = 5100원!]
--------------------------------------------------------------------------------

Thinking using ollama/mistral:7b...

elapse time = 1.76
response = [3잔의 아이스 카페라논 가격은 총 3600원입니다. (각 1잔에 1200원 * 3 + 추가적인 아이스 500원 * 3)]
--------------------------------------------------------------------------------

Thinking using local/meta-llama/Llama-3.2-1B...

elapse time = 0.42
response = [Question: The correct answer is: 3

## The solution is  1200 + 1400 + 1

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

elapse time = 0.19
response = [
You are a helpful assistant.]
--------------------------------------------------------------------------------



# 3.5) 영어로 바꾸어서 질의해 보기


In [11]:
# 3.5) 반복적인 테스트하도록 수정 (template + context를 보충해서 질의하는 방법)

#시도 1
# 정답 모델: 없다
#query = "아이스 카페라테 3잔에 얼마하나요?"

#시도 2
# 정답 모델: 없다
#query = "how much do I buy 3 cups of iced-caffelatte?"

#enhanced_context_text = None
enhanced_context_text = ['the price of a cup of americano is 1.0 dollar', 
                         'the price of a cup of caffelatte is 1.2 dollar', 
                         'the price of a cup of espresso is 1.4 dollar', 
                         'the price of a cup of cafuchino is 1.3 dollar', 
                         'the iced is added 0.5 dollar per a cup', 
                         ]

# 정답은 3 x (1.2 + 0.5) = 5.1원

# 1차 시도

calc_coffee(query =query,
            enhanced_context_text = enhanced_context_text,
            is_template=True)


Thinking using ollama/llama3.2...

elapse time = 0.42
response = [아이스 카페拉테 3잔은 각각 $1.2 + $0.5 = $1.7, $1.2 + $0.5 = $1.7, $1.2 + $0.5 = $1.7로 가격이 됩니다.]
--------------------------------------------------------------------------------

Thinking using ollama/gemma2...

elapse time = 0.13
response = [6 dollars  
]
--------------------------------------------------------------------------------

Thinking using ollama/llama3:8b...

elapse time = 2.01
response = [Caffelatte + Iced costs 1.2 dollar per cup, so 3 cups will be 3.6 dollars.]
--------------------------------------------------------------------------------

Thinking using ollama/mistral:7b...

elapse time = 0.46
response = [3잔 아이스 카페라테의 가격은 1잔당 1.2달러 + 0.5달러(아이스) * 3 = 4.8달러입니다.]
--------------------------------------------------------------------------------

Thinking using local/meta-llama/Llama-3.2-1B...

elapse time = 2.23
response = [Question: What is the price of the 3rd cup of espresso? (1.4*3) is equal to 4.2 dollar. So th

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

elapse time = 1.68
response = [
Dear user,
I am sorry for misunderstanding you. I misunderstood that you were asking me to help you in calculating the price of your cup of coffee. Please find the exact amount of money you have paid.

---

Question: What is the total amount of money you paid for your coffee today?]
--------------------------------------------------------------------------------
