<h1>Nutrien + LLMs - Llama2/Vicuna com RAG</h1>

Esse notebook foi criado com o intuito de explorar as possibilidades de utilização de LLM's com a técnica de RAG. Aqui vamos utilizar modelos de conversação para extrair dados de textos completos e responder de forma coesa perguntas inputadas pelo usuário.

<h2>Prefácio e considerações</h2>

<h3>Glossário + links</h3>

* O que é um __LLM__: https://pt.wikipedia.org/wiki/Modelo_de_linguagem_grande 
* Um LLM chamado __LLAMA2__: https://pt.wikipedia.org/wiki/LLaMA
    * LLAMA2 CHAT 7b: https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF/blob/main/llama-2-7b-chat.Q5_K_M.gguf
    * LLAMA2 CHAT 13b: https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/blob/main/llama-2-13b-chat.Q5_K_S.gguf
* Um LLM chamado __Vicuna__: https://en.wikipedia.org/wiki/Vicuna_LLM
    * Vicuna 13b Q5: https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGUF/blob/main/vicuna-13b-v1.5-16k.Q5_K_S.gguf
    * Vicuna 13b Q3: https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGUF/blob/main/vicuna-13b-v1.5-16k.Q3_K_L.gguf
* O que é RAG: https://medium.com/blog-do-zouza/rag-retrieval-augmented-generation-8238a20e381d#:~:text=A%20RAG%20%C3%A9%20uma%20t%C3%A9cnica,de%20dados%20adicionais%20sem%20retreinamento
* Links utilizados como __auxilio nessa exploração__:
    * Utilização de LLM's de forma __local__: https://python.langchain.com/docs/guides/local_llms
    * Guia de referencia da LIB __Langchain__: https://api.python.langchain.com/en/latest/langchain_api_reference.html
    * Guia de referencia da LIB __llama-cpp__: https://python.langchain.com/docs/integrations/llms/llamacpp
    * Guia de referencia da LIB __llama-index__: https://docs.llamaindex.ai/en/stable/

In [1]:
# Paramos warnings dentro do jupyter apenas para deixar o codigo mais limpo
import warnings

warnings.filterwarnings('ignore', category=UserWarning) 

<h3>Observações</h3>

Esse notebook tem como objetivo rodar apenas um benchmark de respostas baseado em uma lib criada internamente. 
<br> O ideal é que sejam utilizadas apenas poucas linhas de código como no exemplo:

In [3]:
%%time

from custom_libs.custom_llm import LLM_With_Rag

llm = LLM_With_Rag(assist_log = True, llm_verbose = True)

llm.start_model()

llm.answer_me("O que é LANNATE?")

llm.answer_me("Qual é o numero MAPA do LANNATE?")

|2024-03-05 15:36:41.449949| Hardware report:
        
     Software:
      Python ver:............3.10.6
      OS system:.............Windows
      OS name:...............nt
      OS plataform:..........10
      Machine sys:...........AMD64
      Machine architecture...('64bit', 'WindowsPE')

     CPU:
      Total cores:...........6
      Logical cores:.........12
      CPU max frequency:.....Max Frequency: 3701.00Mhz
      CPU min frequency:.....Min Frequency: 0.00Mhz 
      CPU frequency now:.....Current Frequency: 3701.00Mhz 

     RAM:
      Total RAM:.............47.89GB
      RAM avaliable:.........37.27GB
      RAM used:..............10.62GB
      RAM%:..................22.2
      
     Storage:
      Partition 1:............DISK1 - Device: C:\
      Partition 2:............DISK1 - Device: X:\
      Partition 3:............DISK1 - Device: Z:\
      Python avaliable HDD:...1.82TB
      Python free HDD:........1.13TB

     GPU:
      GPU:....................[<GPUtil.GPUtil.GPU ob

llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ./01_models/llama-2-7b-chat.Q5_K_M.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = LLaMA v2
llama_model_loader: - kv   2:                       llama.context_length u32              = 4096
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32    

VectorStore carregado a partir de:./00_storage


llm_load_tensors:        CPU buffer size =  4560.87 MiB
...................................................................................................
llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_kv_cache_init:        CPU KV buffer size =  1024.00 MiB
llama_new_context_with_model: KV self size  = 1024.00 MiB, K (f16):  512.00 MiB, V (f16):  512.00 MiB
llama_new_context_with_model:        CPU input buffer size   =    64.03 MiB
llama_new_context_with_model:        CPU compute buffer size =   640.00 MiB
llama_new_context_with_model: graph splits (measure): 1
AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 | 
Model metadata: {'general.name': 'LLaMA v2', 'general.architecture': 'llama', 'llama.context_length': '4

Modelo carregado e instanciado com sucesso
Warmup do motor finalizado
O que é LANNATE?
 LANNATE é um produto de mecanismo de ação efetivo para a praga alvo. É um inseticida que pode ser usado para controlar pragas em variedades de culturas, incluindo culturas de frutas, legumes e hortaliças. O LANNATE é seletivo às culturas recomendadas e deve ser utilizado de acordo com as recomendações da bula ou do rolo. É importante levar em consideração as instruções de uso do produto para evitar danos colaterais às plantas.


llama_print_timings:        load time =   21823.18 ms
llama_print_timings:      sample time =      16.51 ms /   134 runs   (    0.12 ms per token,  8117.28 tokens per second)
llama_print_timings: prompt eval time =   21822.80 ms /   320 tokens (   68.20 ms per token,    14.66 tokens per second)
llama_print_timings:        eval time =   21199.91 ms /   133 runs   (  159.40 ms per token,     6.27 tokens per second)
llama_print_timings:       total time =   43408.78 ms /   453 tokens




Qual é o numero MAPA do LANNATE?


Llama.generate: prefix-match hit


 O número MAPA do LANNATE é 16812.


llama_print_timings:        load time =   21823.18 ms
llama_print_timings:      sample time =       2.44 ms /    19 runs   (    0.13 ms per token,  7796.47 tokens per second)
llama_print_timings: prompt eval time =   17314.16 ms /   252 tokens (   68.71 ms per token,    14.55 tokens per second)
llama_print_timings:        eval time =    2840.01 ms /    18 runs   (  157.78 ms per token,     6.34 tokens per second)
llama_print_timings:       total time =   20207.26 ms /   270 tokens




CPU times: total: 10min 23s
Wall time: 2min 29s


---

<h3>Rode na sua maquina executando as linhas:</h3>

In [None]:
%%time

# Importa a lib que vai executar a LLM de forma local
from custom_libs.custom_llm import LLM_With_Rag

# Cria um objeto que instancia a classe de utilizacao das LLM
llm = LLM_With_Rag(assist_log = True)

# Inicializa a LLM e gera o banco de dados indexado com os documentos
# que vao ser lidos
llm.start_model()


In [None]:
# Executa a pergunta
llm.answer_me("O que é PRIVILEGE?")

---