<a href="https://colab.research.google.com/github/armandossrecife/teste/blob/main/Testes_BERTimbau_and_GPT_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Example: Using BERTimbau for Text Embedding (Feature Extraction)

This code shows how to get contextual embeddings (vector representations) of a Portuguese sentence using BERTimbau:

In [1]:
from transformers import AutoModel, AutoTokenizer
import torch

In [2]:
# Load BERTimbau model and tokenizer
model_name = 'neuralmind/bert-base-portuguese-cased'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Input text in Portuguese
text = "Qual é a capital do Brasil?"

# Tokenize and encode the text
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# Get model output (no gradients needed for inference)
with torch.no_grad():
    outputs = model(**inputs)

# Extract the embeddings (CLS token or mean pooling)
last_hidden_states = outputs.last_hidden_state
embeddings = last_hidden_states.mean(dim=1)  # Mean pooling

print("Embedding shape:", embeddings.shape)  # [1, 768]
print("Embedding (first 5 dims):", embeddings[0, :5])

tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/210k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

Embedding shape: torch.Size([1, 768])
Embedding (first 5 dims): tensor([ 0.2248,  0.1926,  0.6707, -0.1607,  0.4403])


# Example: Using BERTimbau for Question Answering (QA)

If you want to use BERTimbau for question answering, you need a fine-tuned QA model. Here’s an example using a Portuguese QA model (if available):

In [3]:
from transformers import pipeline

In [5]:
# Load a Portuguese QA model (if fine-tuned)
qa_pipeline = pipeline(
    "question-answering",
    model="neuralmind/bert-base-portuguese-cased",
    tokenizer="neuralmind/bert-base-portuguese-cased"
)

context = """
O Brasil é um país localizado na América do Sul. Sua capital é Brasília,
que foi planejada pelo arquiteto Oscar Niemeyer. O idioma oficial é o português.
"""

question = "Qual é a capital do Brasil?"

result = qa_pipeline(question=question, context=context)
print("Answer:", result["answer"])  # Output: "Brasília"

Some weights of BertForQuestionAnswering were not initialized from the model checkpoint at neuralmind/bert-base-portuguese-cased and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


Answer: na América do Sul. Sua


# Example: Using BERTimbau for Text Classification

If you want to classify text (e.g., sentiment analysis in Portuguese):

In [6]:
# Load a Portuguese text classification model (if fine-tuned)
classifier = pipeline(
    "text-classification",
    model="neuralmind/bert-base-portuguese-cased",
    tokenizer="neuralmind/bert-base-portuguese-cased"
)

result = classifier("Eu amo programar em Python!")
print(result)  # Output: [{'label': 'POSITIVE', 'score': 0.98}]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at neuralmind/bert-base-portuguese-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


[{'label': 'LABEL_1', 'score': 0.5156468749046326}]


# Using GPT-2 fine-tuned for Portuguese (specifically the pierreguillou/gpt2-small-portuguese model) to generate text in Portuguese.

In [7]:
!pip install transformers torch

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5

## Basic Text Generation Example

This example generates Portuguese text from a prompt:

In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

In [2]:
# Load the Portuguese GPT-2 model and tokenizer
model_name = "pierreguillou/gpt2-small-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Input prompt in Portuguese
prompt = "O futuro da inteligência artificial no Brasil"

# Tokenize the input
inputs = tokenizer(prompt, return_tensors="pt")

# Generate text (adjust max_length and temperature as needed)
outputs = model.generate(
    inputs.input_ids,
    max_length=100,  # Maximum length of generated text
    num_return_sequences=1,  # Number of responses to generate
    temperature=0.7,  # Controls randomness (lower = more deterministic)
    do_sample=True,  # Enable sampling
)

# Decode and print the generated text
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

tokenizer_config.json:   0%|          | 0.00/92.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

O futuro da inteligência artificial no Brasil é incerto. Algumas teorias sugerem que o Brasil tenha se desenvolvido através de técnicas avançadas, como computadores pessoais, redes de computadores e redes de fibra de carbono. Outras teorias sugerem que as tecnologias atuais poderiam ser desenvolvidas mais rapidamente, com a tecnologia atual sendo capaz de atingir grandes distancias, como a capacidade de se comunicar em alta velocidade.

Uma das maiores preocupações sobre a tecnologia atual é o fato de que, embora haja um crescimento significativo no número de robôs e


## Advanced Generation with Custom Settings

You can tweak generation parameters for more control:

In [4]:
outputs = model.generate(
    inputs.input_ids,
    max_length=150,
    num_return_sequences=3,  # Now works with sampling
    temperature=0.9,        # Higher = more creative/random
    top_p=0.95,             # Nucleus sampling (keep top 95% of probable tokens)
    do_sample=True,         # Critical for multiple sequences
)

for i, output in enumerate(outputs):
    print(f"\n--- Generated Text {i+1} ---")
    print(tokenizer.decode(output, skip_special_tokens=True))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.



--- Generated Text 1 ---
O futuro da inteligência artificial no Brasil deve entrar em um momento de grande desenvolvimento.

A ideia de um futuro em que o homem, ao invés de ficar em silêncio, possa comunicar-se com os outros em tempo real, uma forma de gerar conhecimento para os outros, foi introduzida pelo psicólogo e cientista brasileiro Renato Magalhães.

Meses depois, o jornalista Luiz Felipe Castro chegou ao Brasil, para criar o primeiro aparelho de comunicação na cidade, para estudar os pensamentos de um indivíduo, assim como desenvolver um aparelho de comunicação.

O projeto veio à luz com a participação de Maurício Tavares, diretor do Centro de Pesquisas da Universidade Federal de São Paulo (UFSP), que realizou o primeiro experimento da vida em rede e foi contratado em parceria com

--- Generated Text 2 ---
O futuro da inteligência artificial no Brasil deve ser definida por meio da análise de inteligência artificial.

A análise da inteligência artificial será desenvolvida no 

In [17]:
from transformers import pipeline

# Load model
generator = pipeline(
    "text-generation",
    model="pierreguillou/gpt2-small-portuguese",
    device="cuda" if torch.cuda.is_available() else "cpu"
)

# Test directly
prompt = "O futuro da inteligência artificial no Brasil"
output = generator(
    prompt,
    max_length=100,
    temperature=0.7,
    do_sample=True
)

print("Generated Text:")
print(output[0]["generated_text"])

Device set to use cpu
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


Generated Text:
O futuro da inteligência artificial no Brasil (principalmente em relação à tecnologia avançada) é incerta, apesar das previsões de que a inteligência artificial será usada para melhorar o ambiente em todos os países.

O conceito de inteligência artificial no Brasil foi desenvolvido pela iniciativa privada brasileira no final de 2015. Em novembro de 2015, o cientista político e ambiental Carlos Chagas, pesquisador da Universidade Federal do Rio de Janeiro (UFRJ) e da Universidade de São Paulo (USP), apresentou seu projeto de Inteligência Artificial no Congresso


## Using API by FastAPI

In [18]:
#!pip install fastapi uvicorn nest-asyncio pyngrok
#!pip install fastapi transformers torch uvicorn nest-asyncio
!pip install fastapi transformers torch uvicorn nest-asyncio requests



In [19]:
from fastapi import FastAPI
from pydantic import BaseModel
from transformers import pipeline
import nest_asyncio
from fastapi.middleware.cors import CORSMiddleware
import threading
import uvicorn
import requests
import time

In [20]:
# Initialize the app
app = FastAPI()

# Add CORS middleware
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# Load the model
print("Loading model...")
generator = pipeline(
    "text-generation",
    model="pierreguillou/gpt2-small-portuguese",
    tokenizer="pierreguillou/gpt2-small-portuguese",
    device="cuda" if torch.cuda.is_available() else "cpu"
)
print("Model loaded!")

class Request(BaseModel):
    prompt: str
    max_length: int = 100

@app.post("/generate")
def generate_text(request: Request):
    response = generator(
        request.prompt,
        max_length=request.max_length,
        temperature=0.7,
        do_sample=True,
    )
    return {"generated_text": response[0]["generated_text"]}

@app.get("/generate_test")
def generate_test(prompt: str = "O futuro da IA no Brasil", max_length: int = 100):
    response = generator(
        prompt,
        max_length=max_length,
        temperature=0.7,
        do_sample=True,
    )
    return {"generated_text": response[0]["generated_text"]}

# Function to run the server
def run_server():
    uvicorn.run(app, host="0.0.0.0", port=8000)

Loading model...


Device set to use cpu


Model loaded!


In [21]:
# Start the server in a background thread
print("Starting server...")
nest_asyncio.apply()
thread = threading.Thread(target=run_server, daemon=True)
thread.start()

# Wait for server to start
time.sleep(5)

# Now test the API
print("\nTesting API...")
test_prompt = "A importância da inteligência artificial"
response = requests.post(
    "http://localhost:8000/generate",
    json={"prompt": test_prompt, "max_length": 100}
)

print(f"\nPrompt: {test_prompt}")
print("Generated Text:")
print(response.json()["generated_text"])

print("\nServer is running in background. You can make more requests!")

Starting server...


INFO:     Started server process [4077]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.



Testing API...
INFO:     127.0.0.1:45484 - "POST /generate HTTP/1.1" 200 OK

Prompt: A importância da inteligência artificial
Generated Text:
A importância da inteligência artificial, da inteligência artificial e da inteligência artificial como um campo de trabalho para os cientistas da área de ciência e tecnologia, e a necessidade de se envolver, nos anos de 1990, com os governos, a Agência Nacional de Energia Atômica, e o Instituto de Energia Atômica, foi muito debatida.

Em 1998, o programa de computador quântico-fluidação de campo da NASA foi chamado de "Programa de Pesquisa de Fluidação de Energia Atômica". O

Server is running in background. You can make more requests!


In [24]:
import requests

response = requests.post(
    "http://localhost:8000/generate",
    json={"prompt": "A importância da educação", "max_length": 100}
)
print(response.json())

INFO:     127.0.0.1:55798 - "POST /generate HTTP/1.1" 200 OK
{'generated_text': 'A importância da educação no mundo ocidental é enorme. Muitos países ocidentais consideram a educação a maior fonte de motivação para o progresso. Um estudo de 1998 do Instituto de Pesquisas Chinesas (IUPER) concluiu que os países ocidentais com o maior índice de alfabetização têm uma taxa de 14,7% de alfabetização a cada dez anos. Em 2005, o estudo de alfabetização da Europa Oriental, liderado pelo professor de educação física e informática Hans-Joachim Söder, e publicada em 2008 pela revista "'}


In [26]:
! curl -X POST "http://localhost:8000/generate" \
-H "Content-Type: application/json" \
-d '{"prompt":"A importância do uso inteligência artificial nos cursos de ciência da computação","max_length":500}'

INFO:     127.0.0.1:39844 - "POST /generate HTTP/1.1" 200 OK
{"generated_text":"A importância do uso inteligência artificial nos cursos de ciência da computação é largamente discutida, devido ao fato de que o uso de inteligência artificial não é um campo de pesquisa acadêmica.\n\nA computação é uma ciência de computação altamente dinâmica e possui várias aplicações em diversas áreas como medicina e ciência da computação, engenharia, medicina, ciências da computação, engenharia de sistemas e engenharia de sistemas.\n\nAnálise de dados, análise de dados, análise de dados, análise de dados, análise de dados em nuvem, análise de dados em nuvem, análise de dados em nuvem e análise de dados em nuvem são alguns dos aspectos de análise de dados utilizados no ensino de computação, principalmente a análise de dados em nuvem.\n\nA análise de dados é realizada através do uso de técnicas de programação dinâmica e de redes para analisar, analisar e resolver problemas de forma eficiente através de al