## Inference test

In [1]:
import pandas as pd
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from unsloth import FastLanguageModel
from transformers import TextStreamer

  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!


## Vector database code and embedding functions

In [2]:
#load faiss index and show
index = faiss.read_index("faiss_index_jina-embeddings.idx")
print(index.d)
print(index.ntotal)

1024
390330


In [3]:
#instantiate vector database
index_file = 'faiss_index_jina-embeddings.idx'

In [4]:
access_token = "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"

In [5]:
embedder = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)

task = "retrieval.query"

A new version of the following files was downloaded from https://huggingface.co/jinaai/xlm-roberta-flash-implementation:
- configuration_xlm_roberta.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/jinaai/xlm-roberta-flash-implementation:
- xlm_padding.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/jinaai/xlm-roberta-flash-implementation:
- rotary.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/jinaai/xlm-roberta-flash-implementation:
- embe

In [6]:
index = faiss.read_index(index_file)

model_name = "lora_model_medico_conversa_v3"  # Your model name
max_seq_length = 512  # Example max sequence length
dtype = "float16"  # Example dtype
load_in_4bit = True  # Example load in 4-bit

data = pd.read_parquet("hf://datasets/DrTailor/crawler_LIMPO_doctoralia/data/train-00000-of-00001.parquet")

In [7]:
# Step 4: Define a function to query the FAISS index
def retrieve(query, k: int = 5):
    print("Index dimension:", index.d)  # Print index dimension
    print("Total vectors in index:", index.ntotal)  # Print total vectors
    distances, indices = index.search(query, k)
    print("-------RETRIEVE FUNC-------")
    print("Indices:", indices)
    print("Distances:", distances)
    # Retrieve rows from CSV
    results = [{"id": int(idx), "text": data.iloc[idx]["Comentário"], "score": dist}
               for dist, idx in zip(distances[0], indices[0]) if idx != -1]
    return results

def generate_response(query: str, context_docs: list):
    # Format the context documents into a structured format
    context = "\n".join([f"{i+1}. {doc}" for i, doc in enumerate(context_docs)])
    
    # Define the structured prompt
    prompt = f"""Você é um assistente médico especializado em fornecer informações precisas e confiáveis baseadas em evidências. 

    Siga estas diretrizes ao responder:

    1. Análise do Contexto:
    - Examine cuidadosamente o contexto fornecido
    - Identifique informações médicas relevantes e baseadas em evidências
    - Priorize dados de fontes científicas confiáveis

    2. Estrutura da Resposta:
    - Resposta Direta: Forneça uma resposta concisa e clara à pergunta
    - Fundamentação Científica: Cite evidências específicas do contexto
    - Nuances Médicas: Destaque aspectos importantes ou ressalvas
    - Orientação Prática: Sugira próximos passos ou recomendações

    3. Princípios Importantes:
    - Se o contexto for insuficiente, admita honestamente
    - Evite especulações ou informações não comprovadas
    - Priorize a segurança e bem-estar do paciente
    - Use linguagem técnica precisa, mas compreensível

    Contexto:
    {context}

    Pergunta: {query}

    Resposta Detalhada:"""
    
    # Create a list of messages with only user role
    messages = [
        {"role": "user", "content": prompt}
    ]
    
    # Tokenize the input prompt
    input_ids = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        return_tensors="pt",
    ).to("cuda")
    
    text_streamer = TextStreamer(tokenizer, skip_prompt=True)
    response = model.generate(
        input_ids, 
        streamer=text_streamer,
        pad_token_id=tokenizer.eos_token_id
    )
    
    # Convert the generated tokens back to text
    decoded_response = tokenizer.decode(response[0], skip_special_tokens=True)
    return decoded_response


# Step 7: Define the incoming_message function
def incoming_message(message: str):
    query_embedding = np.array([embedder.encode(message, task=task)])
    
    # Get top k nearest neighbors
    results = retrieve(query_embedding, k=5)

    # Extract the text of the retrieved documents
    retrieved_texts = [doc["text"] for doc in results]

    # Generate a response using the retrieved documents
    response = generate_response(message, retrieved_texts)
    return response



==((====))==  Unsloth 2024.12.4: Fast Llama patching. Transformers:4.46.3.
   \\   /|    GPU: NVIDIA GeForce RTX 3090. Max memory: 23.663 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1. CUDA: 8.6. CUDA Toolkit: 12.4. Triton: 3.1.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unsloth 2024.12.4 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Index dimension: 1024
Total vectors in index: 390330
-------RETRIEVE FUNC-------
Indices: [[189905 190120 189902 189903 190124]]
Distances: [[0.5095116  0.5427855  0.55420643 0.5870764  0.6095059 ]]
Olá, bem-vindo ao hcm. Com base na sua pergunta, minha opinião é a seguinte: 1. Você precisa de investigações de sangue. 2. O tratamento depende dos resultados dos exames de sangue. 3. O dengue pode causar sangramento. 4. Portanto, a coagulação do sangue precisa ser monitorada. 5. O tratamento para dengue depende da gravidade do caso. 6. A dengue é uma doença viral. Portanto, o tratamento é apenas de suporte. 7. Não há medicamentos específicos para dengue. 8. Apenas analgésicos e antieméticos são prescritos. 9. A dengue pode causar complicações graves. 10. A dengue é transmitida pelo mosquito aedes aegypti. Portanto, o mosquito precisa ser controlado. 11. Você precisa de uma avaliação física e investigações de sangue. 12. O tratamento depende dos resultados dos exames de sangue. 13. Você pr

## Inference code

In [None]:

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
)

FastLanguageModel.for_inference(model)  # Enable native 2x faster inference

# Example usage
message = "Eu estou com dengue o que tenho que fazer?"
response = incoming_message(message)
print("Response:", response)


==((====))==  Unsloth 2024.12.4: Fast Llama patching. Transformers:4.46.3.
   \\   /|    GPU: NVIDIA GeForce RTX 3090. Max memory: 23.663 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1. CUDA: 8.6. CUDA Toolkit: 12.4. Triton: 3.1.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!
Index dimension: 1024
Total vectors in index: 390330
-------RETRIEVE FUNC-------
Indices: [[189905 190120 189902 189903 190124]]
Distances: [[0.5095116  0.5427855  0.55420643 0.5870764  0.6095059 ]]
Olá, obrigado por perguntar. Com base na sua dúvida, minha opinião é a seguinte: 1. Sim, é dengue. 2. É um tipo de infecção viral. 3. Você deve se manter hidratada. 4. Beba bastante água e sucos. 5. Não se exercite muito. 6. Não se submeta a estresse. 7. Evite alimentos picantes e fritos. 8. Evite alimentos oleosos e gordurosos. 9. Evite