#Minicurso - IA na Prática:  LLM e LangChain em ação

## Instalação de dependências

In [None]:
!pip install bs4 sentence-transformers chromadb pysqlite3-binary transformers==4.39.0 langchain gradio bitsandbytes
!pip install accelerate

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-2.6.1-py3-none-any.whl (163 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m163.3/163.3 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting chromadb
  Downloading chromadb-0.4.24-py3-none-any.whl (525 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m525.5/525.5 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pysqlite3-binary
  Downloading pysqlite3_binary-0.5.2.post3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.1/5.1 MB[0m [31m19.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting transformers==4.39.0
  Downloading transformers-4.39.0-py3-none-any.whl (8.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.8/8.8 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langch

## Importação de dependências

In [None]:
import torch
import transformers

from torch import cuda, bfloat16
from transformers import StoppingCriteria, StoppingCriteriaList
from langchain.document_loaders import WebBaseLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA

import gradio as gr

__import__('pysqlite3')
import sys
sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')

## Modelo

Llama

O Llama 2 é um LLM de código aberto da Meta AI

===========Versões===========

Llama2 => Versão Base do modelo;

Llama2-hf => Versão Base do modelo (treinado com Human Feedback);

Llama2-chat => Versão fine-tuned do modelo para especialização em conversas;

Llama2-chat-hf => Versão fine-tuned do modelo para especialização em conversas (treinado com Human Feedback);

Cada uma das versões acima tem suas variações de 7B, 13B ou 70B de parâmetros.

In [None]:
base_model = "meta-llama/Llama-2-7b-chat-hf"

sentence_embedding_model = "all-MiniLM-L6-v2"

## Chat

In [None]:
class Chat:
    def __init__(self, auth_token: str, vectordb_folder: str, model_path: str, sentence_embedding_model: str, temperature: float = 0.1):
        #vectordb_folder=> Caminho/Pasta onde ficarão os arquivos do Chroma (Vector DB)
        #model_path=> Caminho/Pasta que aponta para o modelo LLM a ser utilizado
        #sentence_embedding_model=> Caminho/Pasta que aponta para o modelo de embedding a ser utilizado
        #temperature=> Nível de aleatoriedade (ou precisão) das respostas. [0,1] onde 0 é o menos aleatório
        #auth_token=> Token Hugging Face

        self.vectordb_folder = vectordb_folder
        self.model_path = model_path
        self.sentence_embedding_model = sentence_embedding_model
        self.temperature = temperature
        self.auth_token = auth_token
        self.pages = []
        self.chunks = []

    def load(self) -> int:
        web_links = ['https://www.unijui.edu.br/graduacao-mais/',
                     'https://www.unijui.edu.br/estude/graduacao/cursos/ciencia-da-computacao-bacharelado',
                     'https://www.unijui.edu.br/estude/graduacao/cursos/engenharia-de-software-bacharelado-289',
                     'https://www.unijui.edu.br/estude/graduacao/cursos/ciencia-da-computacao-bacharelado']

        loader = WebBaseLoader(web_links)

        self.pages = loader.load()

        return len(self.pages)

    def split(self, chunk_size: int = 1400, chunk_overlap: int = 100) -> int:
        #chunk_size=> Quantidade máxima de caracteres de cada chunk
        #chunk_overlap=> Quantidade de caracteres de overlap entre chunks

        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap
        )

        self.chunks = text_splitter.split_documents(self.pages)

        return len(self.chunks)

    def get_embeddings(self):
        self.embeddings = SentenceTransformerEmbeddings(model_name=self.sentence_embedding_model)

    def store(self):
        vectordb = Chroma.from_documents(
            documents=self.chunks,
            embedding=self.embeddings,
            persist_directory=self.vectordb_folder
        )

        vectordb.persist()

        self.vectordb = vectordb

    def create_retriever(self):
        #k=> Quandtidade de chunks dos documentos que serâo retornados
        self.retriever = self.vectordb.as_retriever(search_kwargs={'k': 3})

    def create_llm(self):

        #Quantização de bits e bytes, uma técnica usada para reduzir o tamanho dos modelos de IA e acelerar sua execução.
        #load_in_4bit=True=> Indica que os pesos do modelo serão carregados em 4 bits (ou seja, serão quantizados em 4 bits).
        #bnb_4bit_quant_type='nf4'=> Define o tipo de quantização para 4 bits. "nf4" significa "no folding 4", uma técnica de quantização sem dobramento.
        #bnb_4bit_use_double_quant=True=> Indica que será feita uma quantização dupla de 4 bits. Isso geralmente significa que os pesos serão quantizados duas vezes para melhorar a precisão.
        #bnb_4bit_compute_dtype=bfloat16=> Define o tipo de dados para calcular os gradientes durante o treinamento. Neste caso, está configurado para bfloat16.

        bnb_config = transformers.BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_quant_type='nf4',
            bnb_4bit_use_double_quant=True,
            bnb_4bit_compute_dtype=bfloat16
        )

        #Vai baixar as configurações específicas do modelo
        model_config = transformers.AutoConfig.from_pretrained(
            base_model,
            trust_remote_code=True,
            use_auth_token=self.auth_token
        )

        #O LLM é carregado
        #base_model=> O modelo base que será carregado.
        #trust_remote_code=True=> Indica se o código remoto associado ao modelo pode ser confiável.
        #config=model_config=> O objeto de configuração do modelo que foi criado anteriormente.
        #quantization_config=bnb_config=> A configuração de quantização que foi criada anteriormente.
        #device_map={"": 0}=> Mapeamento do dispositivo que indica em qual dispositivo (GPU ou CPU) o modelo será executado. Neste caso, o modelo será executado na primeira GPU disponível. (para listar as GPUs rodar nvidia-smi)
        #use_auth_token=self.auth_token=> Token de autenticação que será usado para autorizar o download do modelo.
        model = transformers.AutoModelForCausalLM.from_pretrained(
            base_model,
            trust_remote_code=True,
            config=model_config,
            quantization_config=bnb_config,
            device_map={"": 0},
            use_auth_token=self.auth_token
        )

        #Aciona o modelo em modo de inferência
        model.eval()

        #Tokenizer é usado para tokenizar e destokenizar textos.
        tokenizer = transformers.AutoTokenizer.from_pretrained(
            base_model,
            use_auth_token=self.auth_token
        )


        #Critérios de parada (Cada modelo tem seu específico)
        stop_list = ['\nHuman:', '\n```\n']

        stop_token_ids = [tokenizer(x)['input_ids'] for x in stop_list]
        stop_token_ids = [torch.LongTensor(x).to(f'cuda:{cuda.current_device()}') for x in stop_token_ids]

        class StopOnTokens(StoppingCriteria):
            def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
                for stop_ids in stop_token_ids:
                    if torch.eq(input_ids[0][-len(stop_ids):], stop_ids).all():
                        return True
                return False

        stopping_criteria = StoppingCriteriaList([StopOnTokens()])


        #Criação do Pipeline do Hugging Face, que é uma ferramenta poderosa para trabalhar com modelos de linguagem e tarefas relacionadas ao processamento de linguagem natural (PLN)
        #model=> O modelo de linguagem que será usado para gerar texto. Este é o modelo que foi carregado anteriormente.
        #tokenizer=> O tokenizer associado ao modelo de linguagem.
        #return_full_text=True=> Indica que a saída do pipeline deve incluir o texto completo gerado, em vez de apenas uma lista de tokens.
        #task='text-generation'=> Especifica que o pipeline deve ser usado para geração de texto.
        #stopping_criteria=> Os critérios de parada que serão usados durante a geração de texto.
        #temperature=> O parâmetro de temperatura controla a aleatoriedade da geração de texto. Um valor maior produzirá saídas mais diversas e criativas, enquanto um valor menor tenderá a produzir saídas mais previsíveis.
        #max_new_tokens=> O número máximo de novos tokens que podem ser gerados.
        #repetition_penalty=> Este parâmetro controla a probabilidade de tokens repetidos na geração de texto. Valores maiores reduzem a probabilidade de repetições.

        generate_text = transformers.pipeline(
            model=model,
            tokenizer=tokenizer,
            return_full_text=True,
            task='text-generation',
            stopping_criteria=stopping_criteria,
            temperature=self.temperature,
            max_new_tokens=400,
            repetition_penalty=1.1
        )

        llm = HuggingFacePipeline(pipeline=generate_text)

        self.llm = llm

    def create_qa_session(self):
        no_answers = """Peço desculpas, mas neste momento, não possuo informações suficientes para responder à sua pergunta. \
        Estou continuamente aprendendo e expandindo meu conhecimento, então espero poder ajudá-lo(a) em breve."""

        PROMPT_TEMPLATE = """
        Use as seguintes partes do contexto para responder à pergunta no final. \
        Se você não sabe a resposta, apenas responda \" """ + no_answers + """\", e não tente inventar uma resposta. \
        Use no máximo três frases. Mantenha a resposta o mais concisa possível. \
        Você responderá pelo nome \"Unijuí IA\" e você é uma IA desenvolvida pela \"Universidade Regional do Noroeste do Estado do Rio Grande do Sul\".
        {context}
        Pergunta: {question}
        Resposta útil:"""

        #Criação do Prompt - Responsável por unir a query do usuário com o contexto
        #{context} será substituído dinamicamente com o contexto retornado pelo banco vetorial.
        #{question} será substituído dinamicamente com o valor da query do usuário

        QA_CHAIN_PROMPT = PromptTemplate.from_template(PROMPT_TEMPLATE)

        #Configuração do sistema de perguntas e respostas.

        self.qa = RetrievalQA.from_chain_type(
            self.llm,
            'stuff',
            retriever=self.retriever,
            return_source_documents=True,
            chain_type_kwargs={'prompt': QA_CHAIN_PROMPT}
        )

In [None]:
chat = Chat(auth_token="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", model_path=base_model, vectordb_folder="chroma", sentence_embedding_model=sentence_embedding_model)

In [None]:
# Executa a carga dos dados (site Unijuí)
chat.load()

4

In [None]:
# Executa o split dos documentos carregados
chat.split()

20

In [None]:
# Obtem os embeddings do modelo de linguagem
chat.get_embeddings()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [None]:
# Armazena os chunks dos documentos, junto com o embedding, no Vector DB (Chroma)
chat.store()

In [None]:
# Cria a LLM (LLAMA 2) localmente para interagirmos na sessão de chat
chat.create_llm()



config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]



model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]



tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

In [None]:
# Cria o retriever, que irá recuperar os documentos do Vector DB, com base nos Prompts
chat.create_retriever()

In [None]:
# Cria uma sessão de chat para Q&A, com base no LLM e Retriever
chat.create_qa_session()

## Q&A

 Qual o perfil do egresso do curso da Ciência da Computação da Unijuí?

 O que são os Projetos Integradores?

 Fale mais sobre o curso de Engenharia de Software (Bacharelado) da Unijuí

In [None]:
result = chat.qa({"query": "Qual o perfil do egresso do curso da Ciência da Computação da Unijuí?"})


print(result["result"].split("Resposta útil:")[1] + "\nPosso te ajudar com algo mais?")

  warn_deprecated(


 O egresso do curso da Ciência da Computação da Unijuí é um profissional com habilidades técnicas e criativas, capaz de resolver problemas complexos e criar soluções innovadoras. Ele ou ela tem uma formação robusta em programação, análise de dados, segurança cibernética, entre outros assuntos relevantes para o mercado de trabalho. Além disso, ele ou ela tem uma mentalidade empreendedora, capacitado para identificar oportunidades de negócios e desenvolver soluções inovadoras para atender a essas necessidades.
Posso te ajudar com algo mais?


In [None]:
# Front-End da Aplicação Web - Gradio

chat_history = []

with gr.Blocks() as demo:

    chatbot = gr.Chatbot()
    msg = gr.Textbox()
    clear = gr.Button("Clear")

    chat_history = []

    def user(user_message, chat_history):

        # Retorna resposta da LLM, através da sessão de Q&A
        result = chat.qa({"query": user_message})

        # Realiza um append na tela do chat, contendo a mensagem do usuário e a resposta do modelo
        chat_history.append((user_message, result["result"].split("Resposta útil:")[1] + "\nPosso te ajudar com algo mais?"))

        return gr.update(value=""), chat_history

    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False)
    clear.click(lambda: None, None, chatbot, queue=False)

if __name__ == "__main__":
    demo.launch(debug=True, share=True)

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Running on public URL: https://c3fcb81ab4297d484a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)
