# Retrieval Augmented Generation (RAG) application with LLMs

### Overview:
- Import the Required Libraries
- Load the LLM Model
    - Ollama
- Load the Embeddig model

- Extract and Process the document text

- Setup of vector data base 
    - Creating embeddings in vectorstore 
    - Similarity Search 
- Prompt Template
- Create a RAG chain conversation


## Import the Required Libraries

In [1]:
import torch

if torch.cuda.is_available():
    print(f"CUDA disponible. Using  GPU: {torch.cuda.get_device_name(0)}")
else:
    print("CUDA not disponible. Using  CPU.")

print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)

  from .autonotebook import tqdm as notebook_tqdm


CUDA disponible. Using  GPU: NVIDIA A100-SXM4-80GB
1.13.1+cu116
True
11.6


In [2]:
import os
from glob import glob 
import getpass
import warnings
warnings.filterwarnings('ignore')

In [3]:
from transformers import AutoTokenizer
import transformers

In [4]:
from langchain_ollama.llms import OllamaLLM
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.docstore.document import Document

from langchain_community.embeddings.ollama import OllamaEmbeddings

from langchain.memory import ConversationBufferMemory
from langchain.chains import RetrievalQA

In [5]:
import pdfplumber
from langchain_community.document_loaders import PyPDFLoader

AutoTokenizer. A tokenizer is responsible for preprocessing text into an array of numbers as inputs to a model.

## **Load the Llama Model Using Ollama**

https://ollama.com/library

The temperature parameter adjusts the randomness of the output. Higher values like 0.7 will make the output more random, while lower values like 0.2 will make it more focused and deterministic.

temperature value--> how creative we want our model to be

0 ---> temperature it means model is  very safe it is not taking any bets.

1 --> it will take risk it might generate wrong output but it is very creative

In [38]:
llm = OllamaLLM(model="llama3.2:3b", temperature = 0.2, max_new_tokens = 512, max_length=512,)

In [7]:
prompt = ''' 
        role: system,
        content: You are the IA assistent .
        question: What the prompt template structure used by llama3 model to infom the system and user prompt?
        '''
print(llm(prompt,truncation=True))

  print(llm1(prompt,truncation=True))


The LLaMA 3 model uses a specific prompt template structure to inform both the system and the user's prompt. This structure is designed to elicit more informative, coherent, and relevant responses from the model.

Here is an overview of the prompt template structure used by LLaMA 3:

1. **Context**: The first line or two of the prompt provides context about the topic, question, or task at hand.
2. **Task/Question**: The next line(s) clearly state the task or question being asked, and may include any relevant constraints or requirements.
3. **Input/Output**: This section specifies what input (e.g., text, image, etc.) is expected from the user, as well as what output (e.g., text, summary, etc.) is desired from the model.
4. **Additional Parameters**: Optional parameters may be included to provide additional context or constraints for the model.

Here's an example of a complete prompt template:

"Context: The company has recently launched a new product line. Task/Question: Provide a 2-sen

## Load the Embeddig model

#**Logged in with a Hugging Face account**

https://huggingface.co/docs/huggingface_hub/quick-start

In [8]:
# api token is disponible in hugginface site 
HUGGINGFACEHUB_API_TOKEN = "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"
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN
os.environ['HUGGING_FACE_HUB_API_KEY'] = HUGGINGFACEHUB_API_TOKEN #getpass.getpass('Hugging face api key:')

In [9]:
embeding_model='sentence-transformers/all-MiniLM-L6-v2'
embeddings = HuggingFaceEmbeddings(model_name=embeding_model)

  embeddings = HuggingFaceEmbeddings(model_name=embeding_model)


## Extract and Process the document text

**Read text from PDF**

In [10]:
def read_pdf(file_path):
    """Extracts and returns text from a PDF file as a single string."""
    with pdfplumber.open(file_path) as pdf:
        text = [page.extract_text() for page in pdf.pages if page.extract_text() is not None]
    return "\n".join(text)  # Join text from all pages into a single string

In [11]:
for name in glob('files/*'):
    print(name)

files/Haim Azhari(auth) - Basics of Biomedical Ultrasou_241017_135112.pdf


In [12]:
pdf_text = read_pdf('files/Haim Azhari(auth) - Basics of Biomedical Ultrasou_241017_135112.pdf')

In [13]:
print(pdf_text[:100])

BASICS OF BIOMEDICAL
ULTRASOUND FOR
ENGINEERS
BASICS OF BIOMEDICAL
ULTRASOUND FOR
ENGINEERS
HAIM AZH


**make chunks from the all PDF text**

In [14]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [15]:
def get_text_chunks(text):
    text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=1500, chunk_overlap=200, length_function=len
        )
    chunks = text_splitter.split_text(text)
    return chunks

In [16]:
chunks = get_text_chunks(pdf_text)

In [17]:
chunks[0]

'BASICS OF BIOMEDICAL\nULTRASOUND FOR\nENGINEERS\nBASICS OF BIOMEDICAL\nULTRASOUND FOR\nENGINEERS\nHAIM AZHARI\nA JOHN WILEY & SONS, INC., PUBLICATION\nCopyright © 2010 John Wiley & Sons, Inc. All rights reserved.\nPublished by John Wiley & Sons, Inc., Hoboken, New Jersey\nPublished simultaneously in Canada\nCopyright for the Hebrew version of the book and distribution rights in Israel are held by\nMichlol, Inc.\nNo part of this publication may be reproduced, stored in a retrieval system, or transmitted in\nany form or by any means, electronic, mechanical, photocopying, recording, scanning, or\notherwise, except as permitted under Section 107 or 108 of the 1976 United States Copyright\nAct, without either the prior written permission of the Publisher, or authorization through\npayment of the appropriate per-copy fee to the Copyright Clearance Center, Inc., 222\nRosewood Drive, Danvers, MA 01923, (978) 750-8400, fax (978) 750-4470, or on the web at\nwww.copyright.com. Requests to the Pu

In [18]:
chunk_documents = [Document(page_content=chunk) for chunk in chunks]

In [19]:
def get_text_chunks(text):
    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1500,
        chunk_overlap=200,
        length_function=len
    )
    chunks = text_splitter.split_text(text)
    return chunks

## Setup of vector data base 

**Creating embeddings in vectorstore**

In [20]:
vectorstore = Chroma.from_documents(documents = chunk_documents, embedding=embeddings, persist_directory='db')
#vectorstore = Chroma.from_documents(documents = chunks, embedding=OllamaEmbeddings(model="llama3.2:3b"))

In [21]:
vectorstore.persist()

  vectorstore.persist()


In [None]:
# clear memory
del  chunks, chunk_documents, pdf_text

**Similarity Search**

In [22]:
query = "doppler"
docs = vectorstore.similarity_search(query, k=4)
len(docs)

4

## Prompt Template 

In [24]:
#<s>[INST] <<SYS>>
#{{ system_prompt }}
#<</SYS>>
#
#{{ user_message }} [/INST]

In [28]:
from langchain import HuggingFacePipeline, PromptTemplate


In [29]:
template = """
Use as seguintes partes do contexto (definidas em <ctx></ctx>) e o histórico de conversa (definidas em <hs</hs>) para responder a pergunta no final.
    Se você não souber a resposta, apenas diga que não sabe, não tente inventar uma resposta, responda sempre em portugês com tom formal, com tempo verbal no passado e na terceira pessoal do singular.
------
<ctx>
{context}
</ctx>
------
<hs>
{history}
</hs>
------
{question}

Resposta:
"""

In [33]:
SYSTEM_PROMPT = """Use as seguintes partes do contexto (definidas em <ctx></ctx>) e o histórico de conversa (definidas em <hs</hs>) para responder a pergunta no final.
    Se você não souber a resposta, apenas diga que não sabe, não tente inventar uma resposta, responda sempre em portugês com tom formal, com tempo verbal no passado e na terceira pessoal do singular.
"""


In [34]:
B_INST, E_INST = "[INST]", "[/INST]"
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
instruction = """
<ctx>
{context}
</ctx>

<hs>
{history}
</hs>

Question: {question}
"""

In [35]:
SYSTEM_PROMPT = B_SYS + SYSTEM_PROMPT + E_SYS
template = B_INST + SYSTEM_PROMPT + instruction + E_INST

In [79]:
template

'[INST]<<SYS>>\nUse as seguintes partes do contexto para responder à pergunta no final.\n    Se você não sabe a resposta, apenas diga que não sabe, não tente inventar uma resposta, sempre responda em portugês.\n<</SYS>>\n\n\n{context}\n\nQuestion: {question}\n[/INST]'

In [36]:
prompt = PromptTemplate(
    input_variables=["history", "context", "question"],
    template=template,
)

## Create a RAG chain conversation

In [126]:
def get_conversation_chain(vectorstore, llm, prompt):
    
    memory = ConversationBufferMemory(
        memory_key='chat_history', return_messages=True)
    
    #memory = ConversationBufferWindowMemory(k=5)
    
    conversation_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=vectorstore.as_retriever(),
        #retriever=vectorstore.as_retriever(search_kwargs={"k": 20}),
        return_source_documents=True,
        chain_type_kwargs={
        "verbose": False,
        "prompt": prompt,
        "memory": ConversationBufferMemory(
            memory_key="history",
            input_key="question"),}
    )
    return conversation_chain

In [132]:
def get_conversation_chain(vectorstore, llm, prompt):
    # Configura a memória com limite para as últimas 10 interações
    memory = ConversationBufferMemory(
        memory_key='chat_history', 
        max_memory=5,
        return_messages=True,
        output_key= "result"
    )
    
    # Configuração da cadeia de conversação
    conversation_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        return_source_documents=True,
        retriever=vectorstore.as_retriever(),
        chain_type_kwargs={
            "verbose": False,
            "prompt": prompt,
        },
        memory=memory
    )
    
    # Função de wrapper para manipular a saída e armazenar apenas o 'result'
    def query_chain(input_text):
        response = conversation_chain({"query": input_text})
        return response
    return query_chain

In [189]:

def get_conversation_chain(vectorstore, llm, prompt):
    # Configuração da memória para armazenar apenas as últimas 10 interações
    memory = ConversationBufferMemory(
        memory_key='chat_history', 
        max_memory=10,
        return_messages=True,
        output_key= "result"
    )
    
    # Configuração do chain com retorno de documentos de origem
    conversation_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=vectorstore.as_retriever(),
        return_source_documents=True,
        chain_type_kwargs={
            "verbose": False,
            "prompt": prompt,
            "output_key": "result"  # Define explicitamente a chave de saída
        },
        memory=memory
    )
    
    return conversation_chain

def query_with_history(chain, question):
        
    # Carregar o histórico de conversa existente
    chat_history = chain.memory.load_memory_variables({})
    
    # Formatar o histórico em uma string para ser incluído na pergunta
    
    formatted_history = "\n".join([
        f"{msg.type.capitalize()}: {msg.content}" for msg in chat_history['chat_history']
    ])
    

    if chat_pdf.memory.load_memory_variables({})['chat_history'] !=[]:
        complete_prompt = f"Contexto do histórico:\n{formatted_history}\n\nPergunta atual: {question}"
    else:
        complete_prompt = question
    # Passar o prompt para o modelo
    response = chain({"query": complete_prompt})
    
    return response

In [190]:
chat_pdf=get_conversation_chain(vectorstore, llm, prompt)

In [192]:
response=query_with_history(chat_pdf,'Explique passo a passo o equacionamento matemático do PW doppler')
print(response['result'])

Claro, vou explicar passo a passo o equacionamento matemático do PW Doppler.

O PW Doppler é uma técnica de ultrassonografia que utiliza a frequência de pulso para medir a velocidade de movimento de objetos dentro do corpo. O equacionamento matemático do PW Doppler é baseado na seguinte fórmula:

f_d = f_t \* (1 - v^2 / c^2)

Onde:

* f_d é a frequência detectada
* f_t é a frequência de pulso transmitida
* v é a velocidade de movimento do objeto
* c é a velocidade do som

Aqui está o passo a passo para entender essa equação:

1. **Frequência de pulso transmitida (f_t)**: É a frequência da onda sonora que é transmitida pelo ultrassonador.
2. **Velocidade de movimento do objeto (v)**: É a velocidade com que o objeto está se movendo dentro do corpo.
3. **Velocidade do som (c)**: É a velocidade com que a onda sonora viaja no ar ou na coluna de água.
4. **Frequência detectada (f_d)**: É a frequência da onda sonora que é detectada pelo ultrassonador após a interação com o objeto.

Agora, vam

In [198]:
response.keys()

dict_keys(['query', 'chat_history', 'result', 'source_documents'])

In [193]:
response=query_with_history(chat_pdf,'Agora como seria uma aplicação em python disso')
print(response['result'])

Vamos criar um exemplo simples em Python para calcular a frequência detectada do PW Doppler. Neste exemplo, vamos considerar que a frequência de pulso transmitida é de 2 MHz e a velocidade do som é de 343 m/s.

```python
import math

# Frequência de pulso transmitida (f_t) em Hz
ft = 2000000

# Velocidade do som (c) em m/s
c = 343

def calcular_frequencia_detectada(v):
    # Equação do PW Doppler
    fd = ft * math.sqrt(1 - (v**2 / c**2))
    
    return fd

# Exemplo de uso:
velocidade_objeto = 10  # em m/s
f_d = calcular_frequencia_detectada(velocidade_objeto)
print(f"A frequência detectada é: {f_d} Hz")
```

Neste exemplo, a função `calcular_frequencia_detectada` recebe a velocidade do objeto como parâmetro e retorna a frequência detectada usando a equação do PW Doppler. A frequência de pulso transmitida é fixa em 2 MHz e a velocidade do som é fixa em 343 m/s.

Lembre-se de que essa é uma simplificação e não leva em conta outros fatores que podem afetar a frequência detectada, como 