<h1>Nutrien + LLMs - Llama2/Vicuna com RAG</h1>

Esse notebook foi criado com o intuito de explorar as possibilidades de utilização de LLM's com a técnica de RAG. Aqui vamos utilizar modelos de conversação para extrair dados de textos completos e responder de forma coesa perguntas inputadas pelo usuário.

<h2>Prefácio e considerações</h2>

<h3>Glossário + links</h3>

* O que é um __LLM__: https://pt.wikipedia.org/wiki/Modelo_de_linguagem_grande 
* Um LLM chamado __LLAMA2__: https://pt.wikipedia.org/wiki/LLaMA
    * __Download__ do LLAMA2 CHAT 7b: https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF/blob/main/llama-2-7b-chat.Q5_K_M.gguf
    * __Download__ do LLAMA2 CHAT 13b: https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/blob/main/llama-2-13b-chat.Q5_K_S.gguf
* Um LLM chamado __Vicuna__: https://en.wikipedia.org/wiki/Vicuna_LLM
    * __Download__ do Vicuna 13b Q5: https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGUF/blob/main/vicuna-13b-v1.5-16k.Q5_K_S.gguf
    * __Download__ do Vicuna 13b Q3: https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGUF/blob/main/vicuna-13b-v1.5-16k.Q3_K_L.gguf
* O que é RAG: https://medium.com/blog-do-zouza/rag-retrieval-augmented-generation-8238a20e381d#:~:text=A%20RAG%20%C3%A9%20uma%20t%C3%A9cnica,de%20dados%20adicionais%20sem%20retreinamento
* Links utilizados como __auxilio nessa exploração__:
    * Utilização de LLM's de forma __local__: https://python.langchain.com/docs/guides/local_llms
    * Guia de referencia da LIB __Langchain__: https://api.python.langchain.com/en/latest/langchain_api_reference.html
    * Guia de referencia da LIB __llama-cpp__: https://python.langchain.com/docs/integrations/llms/llamacpp
    * Guia de referencia da LIB __llama-index__: https://docs.llamaindex.ai/en/stable/

<h3>Requisitos para reproduzir</h3>

Para reproduzir esse notebook na sua máquina é imprescindivel que você tenha instalado as seguintes bibliotecas:
* __pandas__: Bibilioteca para manipulação de objetos de tabela no python;
* __markdown__: Biblioteca para interpretação de strings no formato markdown (vem por padrão instalado no jupyter, garantir apenas o update);
* __langchain__: Utilizado para criar cadeias de query e buscas em textos longos;
* __llama-cpp__: Utilizado para interpretar e utilizar LLM's baseados no llama de forma local:
* __llama-index__: Essa lib tem a função de fazer operações mais complexas utilizando uma LLM:
* __gputil__: Utilizado para recuperar dados sistemicos de placa de video;
* __torch__: Utilizado para manipular o backend da rede neural;
* __unstructured__: Realiza a leitura de arquivos nao estruturados;
* __os__, __psutil__ e __plataform__: Libs padrao do Python3, utilizadas para recuperar informacoes de sistema;
<br>

Para a instalação:
* Caso execute no __windows__ ou no __mac_osx__, a lib __llama-cpp__ tem alguns passos adicionais, veja o guia: https://python.langchain.com/docs/integrations/llms/llamacpp
* Linha para instalação com __pip__:
    * pip3 install pandas markdown langchain llama-cpp-python llama-index gputil torch unstructured faiss-cpu
* Se você estiver __no Windows, talvez precise especificar a versão do llama-cpp-python__:
    * pip install llama-cpp-python==0.1.48
* __No Linux__, você pode utilizar o banco faz em GPU
    * pip install faiss-gpu

<h3>Hardware utilizado</h3>

In [1]:
from custom_libs.ds_utils import hardware_info
hi = hardware_info()
hi.get_info()

|2024-02-20 16:22:36.080207| Hardware report:
        
     Software:
      Python ver:............3.10.6
      OS system:.............Windows
      OS name:...............nt
      OS plataform:..........10
      Machine sys:...........AMD64
      Machine architecture...('64bit', 'WindowsPE')

     CPU:
      Total cores:...........6
      Logical cores:.........12
      CPU max frequency:.....Max Frequency: 3701.00Mhz
      CPU min frequency:.....Min Frequency: 0.00Mhz 
      CPU frequency now:.....Current Frequency: 3701.00Mhz 

     RAM:
      Total RAM:.............47.89GB
      RAM avaliable:.........39.49GB
      RAM used:..............8.40GB
      RAM%:..................17.5
      
     Storage:
      Partition 1:............DISK1 - Device: C:\
      Partition 2:............DISK1 - Device: X:\
      Partition 3:............DISK1 - Device: Z:\
      Python avaliable HDD:...1.82TB
      Python free HDD:........1.10TB

     GPU:
      GPU:....................[<GPUtil.GPUtil.GPU obj

---

<h2>Execução da LLM</h2>

<h3>Imports de libs</h3>

In [2]:
# Imports de libs padrao
import os
import sys

# Imports de libs especificos para manipulacao de dados
import numpy as np
import pandas as pd
import torch

# Imports de libs de apresentacao
from markdown import markdown

# Import das libs para execucao de LLM's
from langchain.llms import LlamaCpp
#from llama_index.schema import TextNode

# Import das lins para RAG
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_core.output_parsers import StrOutputParser
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.document_loaders import DirectoryLoader
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate

# Import de libs customizadas locais
from custom_libs.ds_utils import suppress_stdout_stderr

<h3>Funções auxiliares</h3>

In [3]:
class suppress_stdout_stderr(object):
    """Essa classe tem como objetivo suprimir os logs de execucao
    da classe cpp

    Args:
        object: Qualquer objeto que herde cpp
    """
            
    import os, sys


    def __enter__(self):

      self.outnull_file = open(os.devnull, 'w')
      self.errnull_file = open(os.devnull, 'w')

      self.old_stdout_fileno_undup    = sys.stdout.fileno()
      self.old_stderr_fileno_undup    = sys.stderr.fileno()

      self.old_stdout_fileno = os.dup ( sys.stdout.fileno() )
      self.old_stderr_fileno = os.dup ( sys.stderr.fileno() )

      self.old_stdout = sys.stdout
      self.old_stderr = sys.stderr

      os.dup2 ( self.outnull_file.fileno(), self.old_stdout_fileno_undup )
      os.dup2 ( self.errnull_file.fileno(), self.old_stderr_fileno_undup )

      sys.stdout = self.outnull_file        
      sys.stderr = self.errnull_file
      return self

    def __exit__(self, *_):
        
      sys.stdout = self.old_stdout
      sys.stderr = self.old_stderr

      os.dup2 ( self.old_stdout_fileno, self.old_stdout_fileno_undup )
      os.dup2 ( self.old_stderr_fileno, self.old_stderr_fileno_undup )

      os.close ( self.old_stdout_fileno )
      os.close ( self.old_stderr_fileno )

      self.outnull_file.close()
      self.errnull_file.close()

In [4]:
# Funcao para recuperar documentos de uma fpasta
def get_documents(path_transcripts='./02_transcript_data', log = False):

    # Cria objeto de leitura
    loader = DirectoryLoader(path_transcripts, glob="*.txt")#, loader_cls=PyPDFLoader, show_progress=False)

    # Cria objeto com os arquivos de leitura
    documents = loader.load()

    # Caso o log esteja ligado mostra os documentos carregados
    if log:
        print(documents)

    # Retorna todos os documentos carregados
    return documents

In [5]:
def build_vectorstore(documents, path_storage = './00_storage', 
                      device = 'cpu', log = False):
    # Carrega arquivos txt recebendo uma colecao de arquivos txt
    len(documents)

    # Divide os arquivos txt em chunks
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=120, chunk_overlap=0)
    texts = text_splitter.split_documents(documents)

    # Carrega modelo de embedding
    embedding_function = HuggingFaceEmbeddings(model_kwargs={'device': device})
    embedding_function.embed_query(texts[0].page_content)

    # Cria e persiste um base FAISS
    vector_database = FAISS.from_documents(texts, embedding_function)

    # Tenta salvar a vector store no caminho de storage
    try:
        # Tenta persistir a base de vetores
        vector_database.save_local(path_storage)

        # Caso o log esteja ligado avisa sobre a persistencia do vetor
        if log: 
            print("Vector store created in:", path_storage)
            return True
        
    except Exception as e:
        # Caso o log esteja ligado avisa sobre o erro encontrado
        if log: 
            print(e)
            return False


In [6]:
def get_vectorstore(path_storage = './00_storage', device = 'cpu', 
                    log = False):

    try:
        # Carrega o modelo de embeddings
        embeddings = HuggingFaceEmbeddings()
    
        # Carrega a base FAISS
        vectorstore = FAISS.load_local(path_storage, embeddings)

        if log:
            # Caso log esteja ligado avisa sobre o carregamento com sucesso
            print("VectorStore carregado a partir de:"+ path_storage)

        # Retorna objeto de vetores previamente carregado no disco
        return vectorstore
        
    except Exception as e:
        # Caso o log esteja ligado avisa sobre o erro encontrado
        if log: 
            print(e)
            return False

In [7]:
def generateResponseText(prompt, vector_store):

    response = ""
    
    response_raw_texts = vector_store.similarity_search(prompt, top_k=1)
    
    for document in response_raw_texts:
        response += document.page_content
    
    return response

<h3>Inicialização de variaveis</h3>

In [8]:
# Caso esteja no MacOsX, habilita processamento Metal
%env CMAKE_ARGS="-DLLAMA_METAL=on"

# Forca compilacao em C, quando disponivel
%env FORCE_CMAKE=1

# Objeto que guarda a LLM que vai ser utilizada
llm = LlamaCpp(
    model_path = "./01_models/llama-2-13b-chat.Q5_K_S.gguf", # Melhores respostas
    n_gpu_layers=1,
    n_batch=2048,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
    )

# Variavel de utilizacao de GPU ou nao
device = "cuda" if torch.cuda.is_available() else "cpu"

# Variaveis de caminho de pastas 
path_storage = './00_storage'
path_models = './01_models'
path_transcripts = './02_transcript_data'
path_results = './03_results'

llama_model_loader: loaded meta data with 19 key-value pairs and 363 tensors from ./01_models/llama-2-13b-chat.Q5_K_S.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = LLaMA v2
llama_model_loader: - kv   2:                       llama.context_length u32              = 4096
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 5120
llama_model_loader: - kv   4:                          llama.block_count u32              = 40
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 13824
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32   

env: CMAKE_ARGS="-DLLAMA_METAL=on"
env: FORCE_CMAKE=1


llm_load_tensors:        CPU buffer size =  8555.93 MiB
....................................................................................................
llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_kv_cache_init:        CPU KV buffer size =  1600.00 MiB
llama_new_context_with_model: KV self size  = 1600.00 MiB, K (f16):  800.00 MiB, V (f16):  800.00 MiB
llama_new_context_with_model:        CPU input buffer size   =    72.03 MiB
llama_new_context_with_model:        CPU compute buffer size =   800.00 MiB
llama_new_context_with_model: graph splits (measure): 1
AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 | 
Model metadata: {'general.name': 'LLaMA v2', 'general.architecture': 'llama', 'llama.context_length': '

<h3>Criando artificios de apoio</h3>

In [9]:
%%time

# Gera lista de documentos que vao ser inseridos no contexto de resposta da llm
documents = get_documents(path_transcripts)

# Constroi o banco de dados vetorizado
build_vectorstore(documents, path_storage)

# Gera objeto da vector store 
vector_store = get_vectorstore(path_storage)

# Devolve o banco em um objeto retriever
retriever = vector_store.as_retriever()

CPU times: total: 2min 54s
Wall time: 1min 28s


<h2>Cria template de resposta para perguntas</h2>

In [10]:
# Configura o template de resposta
prompt_template= """
### [INST] 
Instructions: Answer in portuguese, and take the following context in mind:

{context}

### Question to answer:
{question} 

[/INST]
"""
 
# Abstraction of Prompt
prompt = ChatPromptTemplate.from_template(prompt_template)
output_parser = StrOutputParser()

# Criando a cadeia LLM
llm_chain = LLMChain(llm=llm, prompt=prompt)

# Cadeia de resposta RAG
rag_chain = ( 
 {"context": retriever, "question": RunnablePassthrough()}
    | llm_chain
)

<h2>Teste da LLM</h2>

In [11]:
%%time

# Teste com contexto
output_with_rag = rag_chain.invoke("O que é LANNATE?")

LANNATE é um produto químico utilizado para controlar pragas em culturas. É um insecticida que tem ação seletiva nas culturas recomendadas e deve ser utilizado de acordo com as recomendações da bula. O uso de LANNATE deve ser exclusivo e rotineiro com outros produtos de mecanismo de ação efetivos para a praga alvo. É importante seguir as instruções da bula para evitar danos aos cultivos e ao meio ambiente.


llama_print_timings:        load time =   45029.52 ms
llama_print_timings:      sample time =      16.99 ms /   122 runs   (    0.14 ms per token,  7181.12 tokens per second)
llama_print_timings: prompt eval time =   45029.14 ms /   315 tokens (  142.95 ms per token,     7.00 tokens per second)
llama_print_timings:        eval time =   32686.83 ms /   121 runs   (  270.14 ms per token,     3.70 tokens per second)
llama_print_timings:       total time =   78102.34 ms /   436 tokens


CPU times: total: 3min 5s
Wall time: 1min 18s


In [12]:
%%time

# Teste com contexto
output_with_rag = rag_chain.invoke("Qual é o numero mapa do LANNATE?")

Llama.generate: prefix-match hit


O número de registro MAPA do LANNATE é 16812.


llama_print_timings:        load time =   45029.52 ms
llama_print_timings:      sample time =       2.93 ms /    22 runs   (    0.13 ms per token,  7500.85 tokens per second)
llama_print_timings: prompt eval time =   39269.11 ms /   248 tokens (  158.34 ms per token,     6.32 tokens per second)
llama_print_timings:        eval time =    5743.36 ms /    21 runs   (  273.49 ms per token,     3.66 tokens per second)
llama_print_timings:       total time =   45079.78 ms /   269 tokens


CPU times: total: 1min 18s
Wall time: 45.2 s


In [13]:
%%time

# Teste com contexto
output_with_rag = rag_chain.invoke("Qual é a dose recomendada de LANNATE?")

Llama.generate: prefix-match hit


Claro! Com base nas informações fornecidas, a dose recomendada de LANNATE é de 0,6 L/ha ou 129 g i.a./ha. Isso é citado nas informações da bula, especificamente na parte que diz: "LANNATE® BR aplicado a partir da dose 0,6 L/ha ou 129 g i.a./ha, apresenta ação seletiva para este alvo nesta cultura."


llama_print_timings:        load time =   45029.52 ms
llama_print_timings:      sample time =      14.42 ms /   115 runs   (    0.13 ms per token,  7976.69 tokens per second)
llama_print_timings: prompt eval time =   34464.61 ms /   245 tokens (  140.67 ms per token,     7.11 tokens per second)
llama_print_timings:        eval time =   27899.96 ms /   114 runs   (  244.74 ms per token,     4.09 tokens per second)
llama_print_timings:       total time =   62690.50 ms /   359 tokens


CPU times: total: 3min 53s
Wall time: 1min 2s


---

<h2>Pip Freeze</h2>

In [14]:
!pip freeze

about-time==3.1.1
aiohttp==3.9.3
aiosignal==1.3.1
alive-progress==2.4.1
annotated-types==0.6.0
anyio==3.6.1
appdirs==1.4.4
argcomplete==3.1.6
argon2-cffi==21.3.0
argon2-cffi-bindings==21.2.0
astropy==5.1.1
asttokens==2.0.8
async-generator==1.10
async-timeout==4.0.3
attrs==22.1.0
autoslot==2021.10.1
Babel==2.10.3
backcall==0.2.0
backoff==2.2.1
beautifulsoup4==4.12.3
beautifultable==1.1.0
bleach==5.0.1
bs4==0.0.2
certifi==2024.2.2
cffi==1.15.1
chardet==5.0.0
charset-normalizer==3.3.2
click==8.1.7
cmdstanpy==1.0.8
colorama==0.4.5
commonmark==0.9.1
convertdate==2.4.0
cryptography==38.0.4
cycler==0.11.0
dataclasses-json==0.6.4
dataclasses-json-speakeasy==0.5.11
debugpy==1.6.3
decorator==5.1.1
defusedxml==0.7.1
Deprecated==1.2.14
dirtyjson==1.0.8
diskcache==5.6.3
distro==1.9.0
emoji==2.10.1
entrypoints==0.4
ephem==4.1.3
et-xmlfile==1.1.0
executing==0.10.0
faiss-cpu==1.7.4
fastjsonschema==2.16.1
filelock==3.13.1
filetype==1.2.0
fonttools==4.36.0
frozenlist==1.4.1
fsspec==2024.2.0
geographicli