<a href="https://colab.research.google.com/github/viniciusgomesbatista/generativeai/blob/main/Chatbot_LLaMa_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Introduction
In this Colab Notebook, we are going to explore Llama-2 7B, a model fine-tuned for generating text & chatting.

By the end of this tutorial, you'll be able to interact with this model and use it to generate conversational responses.

Whether you're curious about chatbot technology or simply want to see a machine-generated response to a particular question, this notebook will serve as a comprehensive guide.

## Workflow
1. **Installations**: We'll begin by setting up our environment with the required libraries.
2. **Prerequisites**: Ensure we have access to the Llama-2 7B model on Hugging Face.
3. **Loading the Model & Tokenizer**: Retrieve the model and tokenizer for our session.
4. **Creating the Llama Pipeline**: Prepare our model for generating responses.
5. **Interacting with Llama**: Prompt the model for answers and explore its capabilities.

Let's dive in!

**First, change runtime to GPU.**


You can play with Llama-2 7B Chat here: https://huggingface.co/spaces/huggingface-projects/llama-2-7b-chat

In [None]:
from google.colab import userdata

## Installations

Before we proceed, we need to ensure that the essential libraries are installed:
- `Hugging Face Transformers`: Provides us with a straightforward way to use pre-trained models.
- `PyTorch`: Serves as the backbone for deep learning operations.
- `Accelerate`: Optimizes PyTorch operations, especially on GPU.

In [None]:
!pip install transformers torch accelerate

Collecting accelerate
  Downloading accelerate-0.24.1-py3-none-any.whl (261 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m261.4/261.4 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: accelerate
Successfully installed accelerate-0.24.1


### Prerequisites

To load our desired model, `meta-llama/Llama-2-7b-chat-hf`, we first need to authenticate ourselves on Hugging Face. This ensures we have the correct permissions to fetch the model.

1. Gain access to the model on Hugging Face: [Link](https://huggingface.co/meta-llama/Llama-2-7b-chat-hf).
2. Use the Hugging Face CLI to login and verify your authentication status.



In [None]:
!huggingface-cli login


    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

    To login, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Token: 
Add token as git credential? (Y/n) n
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
!huggingface-cli whoami

viniciusgomes


### Loading Model & Tokenizer

Here, we are preparing our session by loading both the Llama model and its associated tokenizer.

The tokenizer will help in converting our text prompts into a format that the model can understand and process.

In [None]:
from transformers import AutoTokenizer
import transformers
import torch

model = "meta-llama/Llama-2-7b-chat-hf" # meta-llama/Llama-2-7b-hf

tokenizer = AutoTokenizer.from_pretrained(model, use_auth_token=True)



tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

### Creating the Llama Pipeline

We'll set up a pipeline for text generation.

This pipeline simplifies the process of feeding prompts to our model and receiving generated text as output.

*Note*: This cell takes 2-3 minutes to run

In [None]:
from transformers import pipeline

llama_pipeline = pipeline(
    "text-generation",  # LLM task
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

### Getting Responses

With everything set up, let's see how Llama responds to some sample queries.

In [None]:
def get_llama_response(prompt: str) -> None:
    sequences = llama_pipeline(
        prompt,
        do_sample=True,
        top_k=10,
        num_return_sequences=1,
        eos_token_id=tokenizer.eos_token_id,
        max_length=1000,
    )
    print("Chatbot:", sequences[0]['generated_text'])

* prompt: Este é o texto ou a frase que você fornece ao modelo como entrada para gerar a resposta. No contexto de um modelo de linguagem, o prompt é a informação inicial ou a pergunta que você faz ao modelo.

* do_sample=True: Este parâmetro indica se o modelo deve amostrar ou não as palavras durante a geração de texto. Se for True, o modelo irá amostrar palavras ao gerar a resposta. Se for False, o modelo pode seguir uma abordagem mais determinística na escolha das palavras.

* top_k=10: Este parâmetro controla a quantidade de palavras ou tokens que o modelo considera durante o processo de geração de texto. top_k limita as escolhas a um número específico das palavras mais prováveis.

* num_return_sequences=1: Este parâmetro especifica quantas sequências de texto diferentes o modelo deve gerar em resposta ao prompt. No caso, está definido como 1, o que significa que o modelo deve gerar uma única resposta.

* eos_token_id=tokenizer.eos_token_id: eos_token_id representa o ID do token de fim de sequência (end-of-sequence). É usado para indicar ao modelo que a geração de texto deve parar quando esse token for gerado. Parece que este valor é obtido do objeto tokenizer, que provavelmente é um tokenizer associado ao modelo.

* max_length=1000: Este parâmetro define o comprimento máximo da sequência gerada pelo modelo. No caso, está definido como 1000, o que significa que a resposta gerada não deve exceder 1000 tokens.

In [None]:
# novos parâmetros indicados pelo BARD
def get_llama_response(prompt: str) -> None:
    sequences = llama_pipeline(
        prompt,
        do_sample=True,
        top_k=100,
        num_return_sequences=1,
        eos_token_id=tokenizer.eos_token_id,
        max_length=1000,
        temperature=1.0,
        top_p=0.9,
        alpha=1.0,
        beta=0.0,
    )
    print("Chatbot:", sequences[0]['generated_text'])


* Para gerar respostas mais criativas, você pode aumentar a temperatura e o alpha.
* Para gerar respostas mais precisas, você pode diminuir a temperatura e o alpha.
* Para gerar respostas mais concisas, você pode aumentar o beta.
* Para gerar respostas mais detalhadas, você pode diminuir o beta.

In [None]:
prompt = 'Posso usar o LLama no google colab?\n'
get_llama_response(prompt)

Chatbot: Posso usar o LLama no google colab?

Eu estou usando o Google Colab para desenvolver um modelo de aprendizado automático e eu gostaria de usar o LLama para gerar um relatório detalhado do modelo. No entanto, eu não consigo encontrar como usar o LLama no Google Colab.

O LLama é uma ferramenta de análise de modelos de aprendizado automático que permite gerar relatórios detalhados dos modelos. No entanto, é necessário instalar o LLama no computador local antes de usar ele.

Eu tenho certeza de que existem outras opções para gerar relatórios detalhados dos modelos no Google Colab, mas eu gostaria de saber se é possível usar o LLama nesse ambiente.

Se alguém sabe como usar o LLama no Google Colab, por favor, me diga.


### More Queries

In [None]:
prompt = """I'm a programmer and Python is my favorite language because of it's simple syntax and variety of applications I can build with it.\
Based on that, what language should I learn next?\
Give me 5 recommendations"""
get_llama_response(prompt)

In [None]:
prompt = 'How to learn fast?\n'
get_llama_response(prompt)

In [None]:
prompt = 'I love basketball. Do you have any recommendations of team sports I might like?\n'
get_llama_response(prompt)

In [None]:
prompt = 'How to get rich?\n'
get_llama_response(prompt)

### Problems

After 3-4 prompts, the model stops giving responses. It only outputs the user prompt.

To keep talking to the model, you need to restart the notebook: `Runtime -> Restart Runtime` and run the notebook again...

### Make it conversational
Let's create an interactive chat loop, where you can converse with the Llama model.

Type your questions or comments, and see how the model responds!

In [None]:
while True:
    user_input = input("You: ")
    if user_input.lower() in ["bye", "quit", "exit"]:
        print("Chatbot: Goodbye!")
        break
    get_llama_response(user_input)

### Conclusion

Thanks to the Hugging Face Library, creating a pipeline to chat with llama 2 (or any other open-source LLM) is quite easy.

But if you worked a lot with much larger models such as GPT-4, you need to adjust your expectations.