<h1>Nutrien + LLMs - Llama2/Vicuna com RAG</h1>

Esse notebook foi criado com o intuito de explorar as possibilidades de utilização de LLM's com a técnica de RAG. Aqui vamos utilizar modelos de conversação para extrair dados de textos completos e responder de forma coesa perguntas inputadas pelo usuário.

<h2>Prefácio e considerações</h2>

<h3>Glossário + links</h3>

* O que é um __LLM__: https://pt.wikipedia.org/wiki/Modelo_de_linguagem_grande 
* Um LLM chamado __LLAMA2__: https://pt.wikipedia.org/wiki/LLaMA
    * Download utilziado nessa exploração:
* Um LLM chamado __Vicuna__: https://en.wikipedia.org/wiki/Vicuna_LLM
    * Download utilziado nessa exploração:
* O que é RAG: https://medium.com/blog-do-zouza/rag-retrieval-augmented-generation-8238a20e381d#:~:text=A%20RAG%20%C3%A9%20uma%20t%C3%A9cnica,de%20dados%20adicionais%20sem%20retreinamento
* Links utilizados como __auxilio nessa exploração__:
    * Utilização de LLM's de forma __local__: https://python.langchain.com/docs/guides/local_llms
    * Guia de referencia da LIB __Langchain__: https://api.python.langchain.com/en/latest/langchain_api_reference.html
    * Guia de referencia da LIB __llama-cpp__: https://python.langchain.com/docs/integrations/llms/llamacpp
    * Guia de referencia da LIB __llama-index__: https://docs.llamaindex.ai/en/stable/

<h3>Requisitos para reproduzir</h3>

Para reproduzir esse notebook na sua máquina é imprescindivel que você tenha instalado as seguintes bibliotecas:
* __pandas__: Bibilioteca para manipulação de objetos de tabela no python;
* __markdown__: Biblioteca para interpretação de strings no formato markdown (vem por padrão instalado no jupyter, garantir apenas o update);
* __langchain__: Utilizado para criar cadeias de query e buscas em textos longos;
* __llama-cpp__: Utilizado para interpretar e utilizar LLM's baseados no llama de forma local:
* __llama-index__: Essa lib tem a função de fazer operações mais complexas utilizando uma LLM:
* __gputil__: Utilizado para recuperar dados sistemicos de placa de video;
* __torch__: Utilizado para manipular o backend da rede neural;
* __os__, __psutil__ e __plataform__: Libs padrao do Python3, utilizadas para recuperar informacoes de sistema;
<br>

Para a instalação:
* Caso execute no __windows__ ou no __mac_osx__, a lib __llama-cpp__ tem alguns passos adicionais, veja o guia: https://python.langchain.com/docs/integrations/llms/llamacpp
* Linha para instalação com __pip__:
    * pip3 install pandas markdown langchain llama-cpp-python llama-index gputil torch

<h3>Hardware utilizado</h3>

In [1]:
from custom_libs.ds_utils import hardware_info
hi = hardware_info()
hi.get_info()

|2024-02-20 13:21:02.515960| Hardware report:
        
     Software:
      Python ver:............3.9.6
      OS system:.............Darwin
      OS name:...............posix
      OS plataform:..........23.2.0
      Machine sys:...........arm64
      Machine architecture...('64bit', '')

     CPU:
      Total cores:...........8
      Logical cores:.........8
      CPU max frequency:.....Max Frequency: 3228.00Mhz
      CPU min frequency:.....Min Frequency: 600.00Mhz 
      CPU frequency now:.....Current Frequency: 3228.00Mhz 

     RAM:
      Total RAM:.............16.00GB
      RAM avaliable:.........4.86GB
      RAM used:..............6.54GB
      RAM%:..................69.6
      
     Storage:
      Partition 1:............DISK1 - Device: /dev/disk3s3s1
      Partition 2:............DISK1 - Device: /dev/disk3s6
      Partition 3:............DISK1 - Device: /dev/disk3s4
      Python avaliable HDD:...460.43GB
      Python free HDD:........240.43GB

     GPU:
      GPU:..............

---

<h2>Execução da LLM</h2>

<h3>Imports de libs</h3>

In [2]:
# Imports de libs padrao
import os
import sys

# Imports de libs especificos para manipulacao de dados
import numpy as np
import pandas as pd
import torch

# Imports de libs de apresentacao
from markdown import markdown

# Import das libs para execucao de LLM's
from langchain.llms import LlamaCpp
from llama_index.schema import TextNode

# Import das lins para RAG
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_core.output_parsers import StrOutputParser
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.document_loaders import DirectoryLoader
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate

# Import de libs customizadas locais
from custom_libs.ds_utils import suppress_stdout_stderr

<h3>Funções auxiliares</h3>

In [3]:
# Funcao para recuperar documentos de uma fpasta
def get_documents(path_transcripts='./02-transcript-data', log = False):

    # Cria objeto de leitura
    loader = DirectoryLoader(path_transcripts, glob="*.txt")#, loader_cls=PyPDFLoader, show_progress=False)

    # Cria objeto com os arquivos de leitura
    documents = loader.load()

    # Caso o log esteja ligado mostra os documentos carregados
    if log:
        print(documents)

    # Retorna todos os documentos carregados
    return documents

In [4]:
def build_vectorstore(documents, path_storage = './00-storage', 
                      device = 'cpu', log = False):
    # Carrega arquivos txt recebendo uma colecao de arquivos txt
    len(documents)

    # Divide os arquivos txt em chunks
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=120, chunk_overlap=0)
    texts = text_splitter.split_documents(documents)

    # Carrega modelo de embedding
    embedding_function = HuggingFaceEmbeddings(model_kwargs={'device': device}) #(model_name=path_models+'/all-MiniLM-L6-v2', model_kwargs={'device': device})
    embedding_function.embed_query(texts[0].page_content)

    # Cria e persiste um base FAISS
    vector_database = FAISS.from_documents(texts, embedding_function)

    # Tenta salvar a vector store no caminho de storage
    try:
        # Tenta persistir a base de vetores
        vector_database.save_local(path_storage)

        # Caso o log esteja ligado avisa sobre a persistencia do vetor
        if log: 
            print("Vector store created in:", path_storage)
            return True
        
    except Exception as e:
        # Caso o log esteja ligado avisa sobre o erro encontrado
        if log: 
            print(e)
            return False


In [5]:
def get_vectorstore(path_storage = './00-storage', device = 'cpu', 
                    log = False):

    try:
        # Carrega o modelo de embeddings
        embeddings = HuggingFaceEmbeddings()#(model_name='sentence-transformers/all-MiniLM-L6-v2', model_kwargs={'device': device})
    
        # Carrega a base FAISS
        vectorstore = FAISS.load_local(path_storage, embeddings)

        if log:
            # Caso log esteja ligado avisa sobre o carregamento com sucesso
            print("VectorStore carregado a partir de:"+ path_storage)

        # Retorna objeto de vetores previamente carregado no disco
        return vectorstore
        
    except Exception as e:
        # Caso o log esteja ligado avisa sobre o erro encontrado
        if log: 
            print(e)
            return False

In [6]:
def generateResponseText(prompt, vector_store):

    response = ""
    
    response_raw_texts = vector_store.similarity_search(prompt, top_k=1)
    
    for document in response_raw_texts:
        response += document.page_content
    
    return response

<h3>Inicialização de variaveis</h3>

In [10]:
with suppress_stdout_stderr():
    
    # Caso esteja no MacOsX, habilita processamento Metal
    %env CMAKE_ARGS="-DLLAMA_METAL=on"
    
    # Forca compilacao em C, quando disponivel
    %env FORCE_CMAKE=1

    # Objeto que guarda a LLM que vai ser utilizada
    llm = LlamaCpp(
    #model_path="./01-models/llama-2-7b-chat.Q5_K_M.gguf",
    model_path = "./01-models/vicuna-13b-v1.5.Q5_K_S.gguf",
    n_gpu_layers=1,
    n_batch=1024,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=False,
    )

    # Variavel de utilizacao de GPU ou nao
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # Variaveis de caminho de pastas 
    path_storage = './00-storage'
    path_models = './01-models'
    path_transcripts = './02-transcript-data'
    path_results = './03-results'

<h3>Criando artificios de apoio</h3>

In [12]:
%%time

# Gera lista de documentos que vao ser inseridos no contexto de resposta da llm
documents = get_documents(path_transcripts)

# Constroi o banco de dados vetorizado
build_vectorstore(documents, path_storage)

# Gera objeto da vector store 
vector_store = get_vectorstore(path_storage)

# Devolve o banco em um objeto retriever
retriever = vector_store.as_retriever()

CPU times: user 1min 5s, sys: 37.2 s, total: 1min 42s
Wall time: 29.3 s


<h2>Cria template de respoosta para perguntas</h2>

In [14]:
# Configura o template de resposta
prompt_template= """
### [INST] 
Instrução: Responda a pergunta baseada no seu conhecimento e leve em consideração o seguinte contexto:

{context}

### Questão:
{question} 

[/INST]
"""
 
# Abstraction of Prompt
prompt = ChatPromptTemplate.from_template(prompt_template)
output_parser = StrOutputParser()

# Criando a cadeia LLM
llm_chain = LLMChain(llm=llm, prompt=prompt)

# Cadeia de resposta RAG
rag_chain = ( 
 {"context": retriever, "question": RunnablePassthrough()}
    | llm_chain
)

<h2>Teste da LLM</h2>

In [None]:
%%time

# Teste com contexto
output_with_rag = rag_chain.invoke("O que é LANNATE?")


**Human**: LAN