# Fine-Tune do Whisper para Portugu√™s com Transformers do Hugging Face ü§ó

## Introduction

Whisper √© um modelo pr√©-treinado para reconhecimento autom√°tico de fala (ASR), publicado em [setembro de 2022](https://openai.com/blog/whisper/) pelos autores Alec Radford et al., da OpenAI. Diferente de muitos de seus predecessores, como [Wav2Vec 2.0](https://arxiv.org/abs/2006.11477), que s√£o pr√©-treinados em dados de √°udio n√£o rotulados, o Whisper √© pr√©-treinado em uma grande quantidade de dados de √°udio **rotulados**, totalizando 680.000 horas. Isso representa uma ordem de magnitude maior do que os 60.000 horas de dados de √°udio n√£o rotulados usados para treinar o Wav2Vec 2.0.  

Al√©m disso, 117.000 horas desses dados de pr√©-treinamento correspondem a dados multil√≠ngues de ASR. Como resultado, os pontos de verifica√ß√£o do modelo podem ser aplicados a mais de 96 idiomas, muitos dos quais s√£o considerados _de poucos recursos_.  

Quando escalados para 680.000 horas de dados de pr√©-treinamento rotulados, os modelos Whisper demonstram uma forte capacidade de generaliza√ß√£o para diversos conjuntos de dados e dom√≠nios. Os pontos de verifica√ß√£o pr√©-treinados alcan√ßam resultados competitivos em rela√ß√£o aos sistemas de ASR de √∫ltima gera√ß√£o, com uma taxa de erro de palavras (WER) pr√≥xima a 3% no subconjunto test-clean do LibriSpeech ASR, al√©m de estabelecer um novo recorde no TED-LIUM com 4,7% de WER (_ver_ Tabela 8 do [artigo do Whisper](https://cdn.openai.com/papers/whisper.pdf)).  

O amplo conhecimento adquirido pelo Whisper durante o pr√©-treinamento para ASR multil√≠ngue pode ser aproveitado para outros idiomas de poucos recursos. Atrav√©s do fine-tuning, os pontos de verifica√ß√£o pr√©-treinados podem ser adaptados para conjuntos de dados e idiomas espec√≠ficos, aprimorando ainda mais esses resultados. Neste Colab, mostraremos como o Whisper pode ser ajustado para idiomas de poucos recursos.  

<figure>
<img src="https://raw.githubusercontent.com/sanchit-gandhi/notebooks/main/whisper_architecture.svg" alt="Trulli" style="width:100%">
<figcaption align="center"><b>Figura 1:</b> Modelo Whisper. A arquitetura segue o modelo padr√£o de codificador-decodificador baseado em Transformer.  
Um espectrograma log-Mel √© inserido no codificador. Os √∫ltimos estados ocultos do codificador s√£o passados para o decodificador por meio de mecanismos de aten√ß√£o cruzada.  
O decodificador prev√™ tokens de texto de forma autoregressiva, condicionando-se conjuntamente aos estados ocultos do codificador e aos tokens previstos anteriormente.  
Fonte da figura: <a href="https://openai.com/blog/whisper/">Blog OpenAI Whisper</a>.  
</figcaption>
</figure>

Os pontos de verifica√ß√£o (checkpoints) do Whisper est√£o dispon√≠veis em cinco configura√ß√µes com tamanhos variados de modelo. Os quatro menores foram treinados em dados exclusivamente em ingl√™s ou em dados multil√≠ngues. J√° os maiores foram treinados apenas em dados multil√≠ngues. Todos os 11 pontos de verifica√ß√£o pr√©-treinados est√£o dispon√≠veis no [Hugging Face Hub](https://huggingface.co/models?search=openai/whisper). A tabela abaixo resume esses pontos de verifica√ß√£o, com links para os modelos no Hub:  

| Tamanho  | Camadas | Largura | Cabe√ßas | Par√¢metros | Apenas em Ingl√™s                                   | Multil√≠ngue                                      |
|----------|--------|---------|---------|------------|--------------------------------------------------|-------------------------------------------------|
| tiny     | 4      | 384     | 6       | 39 M       | [‚úì](https://huggingface.co/openai/whisper-tiny.en)   | [‚úì](https://huggingface.co/openai/whisper-tiny.)    |
| base     | 6      | 512     | 8       | 74 M       | [‚úì](https://huggingface.co/openai/whisper-base.en)   | [‚úì](https://huggingface.co/openai/whisper-base)     |
| small    | 12     | 768     | 12      | 244 M      | [‚úì](https://huggingface.co/openai/whisper-small.en)  | [‚úì](https://huggingface.co/openai/whisper-small)    |
| medium   | 24     | 1024    | 16      | 769 M      | [‚úì](https://huggingface.co/openai/whisper-medium.en) | [‚úì](https://huggingface.co/openai/whisper-medium)   |
| large    | 32     | 1280    | 20      | 1550 M     | x                                                    | [‚úì](https://huggingface.co/openai/whisper-large)    |
| large-v2 | 32     | 1280    | 20      | 1550 M     | x                                                    | [‚úì](https://huggingface.co/openai/whisper-large-v2) |
| large-v3 | 32     | 1280    | 20      | 1550 M     | x                                                    | [‚úì](https://huggingface.co/openai/whisper-large-v3) |

Para esse estudo faremos o fine-tuning da vers√£o multil√≠ngue do checkpoint [`"small"`](https://huggingface.co/openai/whisper-small), que possui 244M de par√¢metros (~1GB).  

Quanto aos dados, treinaremos e avaliaremos nosso sistema em um idioma de poucos recursos, retirado do conjunto de dados [Common Voice](https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0).

---
\\({}^1\\) O nome Whisper deriva do acr√¥nimo ‚ÄúWSPSR‚Äù, que significa ‚ÄúWeb-scale Supervised Pre-training for Speech Recognition‚Äù (‚ÄúPr√©-treinamento Supervisionado em Escala Web para Reconhecimento de Fala‚Äù).

## Preparando o Ambiente

Verificando a disponibilidade da GPU e visualizar suas especifica√ß√µes:

In [12]:
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)
if gpu_info.find('failed') >= 0:
  print('Not connected to a GPU')
else:
  print(gpu_info)

Sat Mar 22 11:44:30 2025       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.256.02   Driver Version: 470.256.02   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A |
| 30%   47C    P8    17W / 175W |    719MiB /  7948MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

Usaremos v√°rios pacotes populares do Python para fazer o fine-tuning do modelo Whisper.  
Usaremos o `datasets[audio]` para baixar e preparar nossos dados de treinamento, junto com o `transformers` e o `accelerate` para carregar e treinar nosso modelo Whisper.  
Tamb√©m precisaremos do pacote `soundfile` para pr√©-processar arquivos de √°udio, `evaluate` e `jiwer` para avaliar o desempenho do nosso modelo, e `tensorboard` para registrar nossas m√©tricas. Por fim, usaremos o `gradio` para construir uma demonstra√ß√£o visual do nosso modelo ajustado.

In [14]:
!pip install --upgrade pip
!pip install --upgrade datasets[audio] transformers accelerate evaluate jiwer tensorboard gradio



Recomendamos fortemente que voc√™ fa√ßa o upload dos pontos de verifica√ß√£o do modelo diretamente no [Hugging Face Hub](https://huggingface.co/) durante o treinamento. O Hub oferece:

- Controle de vers√£o integrado: voc√™ pode ter certeza de que nenhum ponto de verifica√ß√£o do modelo ser√° perdido durante o treinamento.
- Logs do Tensorboard: acompanhe m√©tricas importantes ao longo do treinamento.
- Cart√µes de modelo: documente o que o modelo faz e seus casos de uso pretendidos.
- Comunidade: uma maneira f√°cil de compartilhar e colaborar com a comunidade!

Vincular o notebook ao Hub √© simples - basta inserir o token de autentica√ß√£o do Hub quando solicitado. Encontre seu token de autentica√ß√£o do Hub [aqui](https://huggingface.co/settings/tokens).

In [16]:
!git config --global credential.helper store

In [17]:
#from huggingface_hub import notebook_login

#notebook_login()

In [18]:
from huggingface_hub import login
import os

# Lendo a chave do arquivo token.txt
with open(os.path.join("key.txt"), "r") as file:
    token = file.read().strip()  # .strip() remove espa√ßos extras e quebras de linha

# Fazer login com a chave
login(token=token)

## Carregando os Dados

Usando ü§ó Datasets, baixar e preparar os dados √© extremamente simples. Podemos baixar e preparar as divis√µes do Common Voice em apenas uma linha de c√≥digo.

Primeiro, certifique-se de ter aceitado os termos de uso no Hugging Face Hub: [mozilla-foundation/common_voice_17_0](https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0). Depois de aceitar os termos, voc√™ ter√° acesso total ao conjunto de dados e poder√° fazer o download dos dados localmente.

In [21]:
from datasets import load_dataset, DatasetDict

common_voice = DatasetDict()

common_voice["train"] = load_dataset("mozilla-foundation/common_voice_17_0", "pt", split="train+validation", trust_remote_code=True)#use_auth_token=True)
common_voice["test"] = load_dataset("mozilla-foundation/common_voice_17_0", "pt", split="test", trust_remote_code=True)#use_auth_token=True)

print(common_voice)

DatasetDict({
    train: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 31432
    })
    test: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 9467
    })
})


A maioria dos conjuntos de dados de ASR fornece apenas amostras de √°udio de entrada (`√°udio`) e o texto transcrito correspondente (`senten√ßa`). O Common Voice cont√©m informa√ß√µes adicionais de metadados, como `sotaque` e `localidade`, que podemos desconsiderar para ASR. Mantendo o notebook o mais geral poss√≠vel, consideramos apenas o √°udio de entrada e o texto transcrito para o fine-tuning, descartando as informa√ß√µes adicionais de metadados.

In [23]:
common_voice = common_voice.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "path", "segment", "up_votes"])

print(common_voice)

DatasetDict({
    train: Dataset({
        features: ['audio', 'sentence', 'variant'],
        num_rows: 31432
    })
    test: Dataset({
        features: ['audio', 'sentence', 'variant'],
        num_rows: 9467
    })
})


## Preparando o Extrator de Caracter√≠sticas, o Tokenizados e os Dados

O pipeline de ASR pode ser decomposto em tr√™s est√°gios:

1. Um extrator de caracter√≠sticas que pr√©-processa os √°udios brutos de entrada
2. O modelo que realiza o mapeamento sequ√™ncia a sequ√™ncia
3. Um tokenizador que p√≥s-processa as sa√≠das do modelo para o formato de texto

No ü§ó Transformers, o modelo Whisper possui um extrator de caracter√≠sticas e um tokenizador associados, chamados respectivamente de [WhisperFeatureExtractor](https://huggingface.co/docs/transformers/main/model_doc/whisper#transformers.WhisperFeatureExtractor) e [WhisperTokenizer](https://huggingface.co/docs/transformers/main/model_doc/whisper#transformers.WhisperTokenizer).

Vamos passar pelos detalhes para configurar o extrator de caracter√≠sticas e o tokenizador, um por vez!

### Carregando WhisperFeatureExtractor

O extrator de caracter√≠sticas do Whisper realiza duas opera√ß√µes:
1. Preenche / trunca os √°udios de entrada para 30s: quaisquer √°udios de entrada mais curtos que 30s s√£o preenchidos com sil√™ncio (zeros) at√© 30s, e os que t√™m mais de 30s s√£o truncados para 30s.
2. Converte os √°udios de entrada em caracter√≠sticas de entrada de _espectrograma log-Mel_, uma representa√ß√£o visual do √°udio e a forma de entrada esperada pelo modelo Whisper.

<figure>
<img src="https://raw.githubusercontent.com/sanchit-gandhi/notebooks/main/spectrogram.jpg" alt="Trulli" style="width:100%">
<figcaption align="center"><b>Figura 2:</b> Convers√£o do array de √°udio amostrado para espectrograma log-Mel. 
Esquerda: sinal de √°udio unidimensional amostrado. Direita: espectrograma log-Mel correspondente. Fonte da figura: 
<a href="https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html">Blog do Google SpecAugment</a>.
</figcaption>

Carregaremos o extrator de recursos do ponto de verifica√ß√£o pr√©-treinado com os valores padr√£o:

In [30]:
from transformers import WhisperFeatureExtractor

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")

### Carregando o WhisperTokenizer

O modelo Whisper gera uma sequ√™ncia de _ids de tokens_. O tokenizador mapeia cada um desses ids de tokens para suas respectivas strings de texto. Para o Portugu√™s, podemos carregar o tokenizador pr√©-treinado e us√°-lo para fine-tuning sem nenhuma modifica√ß√£o adicional. Basta especificarmos o idioma de destino e a tarefa. Esses argumentos informam ao tokenizador para prefixar os tokens de idioma e tarefa no in√≠cio das sequ√™ncias de r√≥tulos codificados:

In [33]:
from transformers import WhisperTokenizer

tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Portuguese", task="transcribe")

### Combinando para criar um WhisperProcessor

Para simplificar o uso do extrator de caracter√≠sticas e do tokenizador, podemos _agrupar_ ambos em uma √∫nica classe `WhisperProcessor`. Este objeto processador herda da `WhisperFeatureExtractor` e `WhisperTokenizer`, e pode ser usado nas entradas de √°udio e nas previs√µes do modelo conforme necess√°rio. Ao fazer isso, precisamos apenas acompanhar dois objetos durante o treinamento: o `processador` e o `modelo`.

In [36]:
from transformers import WhisperProcessor

processor = WhisperProcessor.from_pretrained("openai/whisper-small", language="Potuguese", task="transcribe")

### Preparando os Dados

Vamos imprimir o primeiro exemplo do conjunto de dados Common Voice para ver
em que formato os dados est√£o:

In [39]:
print(common_voice["train"][0])

{'audio': {'path': '/home/lcad/.cache/huggingface/datasets/downloads/extracted/8e9e219409ef4bc4521f2b3145bee0e7851c99e7f4a6f4bcef5a61b75c81f339/pt_train_0/common_voice_pt_33954672.mp3', 'array': array([ 1.77635684e-15, -5.41788836e-14, -9.05941988e-14, ...,
        1.72863140e-10,  1.45055787e-10,  7.10012743e-11]), 'sampling_rate': 48000}, 'sentence': 'Sinta-se feliz com a vit√≥ria que voc√™ ganha.', 'variant': 'Portuguese (Brasil)'}


Como nosso √°udio de entrada √© amostrado a 48kHz, precisamos _reduzir a taxa de amostragem_ para 16kHz antes de pass√°-lo para o extrator de caracter√≠sticas do Whisper, sendo 16kHz a taxa de amostragem esperada pelo modelo Whisper.

Vamos ajustar as entradas de √°udio para a taxa de amostragem correta usando o m√©todo [`cast_column`](https://huggingface.co/docs/datasets/package_reference/main_classes.html?highlight=cast_column#datasets.DatasetDict.cast_column) do dataset. Essa opera√ß√£o n√£o altera o √°udio no local, mas sim instrui o `datasets` a reamostrar as amostras de √°udio _on the fly_ na primeira vez que elas forem carregadas.

In [41]:
from datasets import Audio

common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))

Recarregar a primeira amostra de √°udio no conjunto de dados Common Voice ir√° reamostra-la para a taxa de amostragem desejada:

In [43]:
print(common_voice["train"][0])

{'audio': {'path': '/home/lcad/.cache/huggingface/datasets/downloads/extracted/8e9e219409ef4bc4521f2b3145bee0e7851c99e7f4a6f4bcef5a61b75c81f339/pt_train_0/common_voice_pt_33954672.mp3', 'array': array([-2.32830644e-09, -1.62981451e-09, -6.98491931e-10, ...,
        1.58855151e-11,  8.93578544e-11,  1.82353688e-10]), 'sampling_rate': 16000}, 'sentence': 'Sinta-se feliz com a vit√≥ria que voc√™ ganha.', 'variant': 'Portuguese (Brasil)'}


Agora podemos escrever uma fun√ß√£o para preparar os dados prontos para o modelo:

1. Carregamos e reamostramos os dados de √°udio chamando `batch["audio"]`. Como explicado acima, o ü§ó Datasets realiza qualquer opera√ß√£o de reamostragem necess√°ria automaticamente.
2. Usamos o extrator de caracter√≠sticas para calcular as caracter√≠sticas de entrada do espectrograma log-Mel a partir do nosso array de √°udio unidimensional.
3. Codificamos as transcri√ß√µes para ids de r√≥tulos atrav√©s do uso do tokenizador.

In [45]:
def prepare_dataset(batch):
    # load and resample audio data from 48 to 16kHz
    audio = batch["audio"]

    # compute log-Mel input features from input audio array
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # encode target text to label ids
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

Podemos aplicar a fun√ß√£o de prepara√ß√£o dos dados a todos os nossos exemplos de treinamento usando o m√©todo `.map` do dataset. O argumento `num_proc` especifica quantos n√∫cleos de CPU usar. Definir `num_proc` > 1 ativar√° o processamento multiprocessado. Se o m√©todo `.map` travar com o processamento multiprocessado, defina `num_proc=1` e processe o dataset sequencialmente.

In [47]:
common_voice = common_voice.map(prepare_dataset, remove_columns=common_voice.column_names["train"], num_proc=2)#num_proc=2

## Treinamento e Avalia√ß√£o

Agora que preparamos nossos dados, estamos prontos para entrar no pipeline de treinamento. O [ü§ó Trainer](https://huggingface.co/transformers/master/main_classes/trainer.html?highlight=trainer) far√° grande parte do trabalho pesado para n√≥s. Tudo o que precisamos fazer √©:

- **Carregar um ponto de verifica√ß√£o pr√©-treinado**: precisamos carregar um ponto de verifica√ß√£o pr√©-treinado e configur√°-lo corretamente para o treinamento.

- **Definir um collator de dados**: o collator de dados pega nossos dados pr√©-processados e os prepara em tensores PyTorch prontos para o modelo.

- **M√©tricas de avalia√ß√£o**: durante a avalia√ß√£o, queremos avaliar o modelo usando a m√©trica [taxa de erro de palavras (WER)](https://huggingface.co/metrics/wer). Precisamos definir uma fun√ß√£o `compute_metrics` que fa√ßa esse c√°lculo.

- **Definir a configura√ß√£o de treinamento**: essa configura√ß√£o ser√° usada pelo ü§ó Trainer para definir o cronograma de treinamento.

Depois de fazer o fine-tuning do modelo, vamos avali√°-lo nos dados de teste para verificar se o treinamos corretamente para transcrever fala em Portugu√™s.

###¬†Carregando um ponto de verifica√ß√£o pr√©-treinado

Come√ßaremos nosso processo de fine-tuning a partir do ponto de verifica√ß√£o pr√©-treinado do Whisper `small`, cujos pesos precisamos carregar do Hugging Face Hub.

In [52]:
from transformers import WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")

Podemos desabilitar a tarefa de detec√ß√£o autom√°tica de idioma realizada durante a infer√™ncia e for√ßar o modelo a gerar em Portugu√™s. Para fazer isso, definimos os argumentos [language](https://huggingface.co/docs/transformers/en/model_doc/whisper#transformers.WhisperForConditionalGeneration.generate.language) e [task](https://huggingface.co/docs/transformers/en/model_doc/whisper#transformers.WhisperForConditionalGeneration.generate.task) na configura√ß√£o de gera√ß√£o. Tamb√©m definiremos quaisquer [`forced_decoder_ids`](https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate.forced_decoder_ids) como None, j√° que esta era a maneira legada de definir os argumentos de idioma e tarefa.

In [54]:
model.generation_config.language = "portuguese"
model.generation_config.task = "transcribe"

model.generation_config.forced_decoder_ids = None

### Define a Data Collator

O collator de dados para um modelo de fala sequ√™ncia-para-sequ√™ncia √© √∫nico no sentido de que ele trata os `input_features` e os `labels` de forma independente: os `input_features` devem ser manipulados pelo extrator de caracter√≠sticas e os `labels` pelo tokenizador.

Os `input_features` j√° est√£o preenchidos para 30s e convertidos para um espectrograma log-Mel de dimens√£o fixa pela a√ß√£o do extrator de caracter√≠sticas, ent√£o tudo o que precisamos fazer √© converter os `input_features` para tensores PyTorch em lotes. Fazemos isso utilizando o m√©todo `.pad` do extrator de caracter√≠sticas com `return_tensors=pt`.

Por outro lado, os `labels` n√£o est√£o preenchidos. Primeiro, preenchemos as sequ√™ncias at√© o comprimento m√°ximo no lote usando o m√©todo `.pad` do tokenizador. Os tokens de preenchimento s√£o ent√£o substitu√≠dos por `-100` para que esses tokens **n√£o** sejam levados em conta ao calcular a perda. Em seguida, cortamos o token BOS (Beginning of Sequence) do in√≠cio da sequ√™ncia de r√≥tulos, pois o adicionamos novamente mais tarde durante o treinamento.

Podemos aproveitar o `WhisperProcessor` que definimos anteriormente para realizar tanto as opera√ß√µes do extrator de caracter√≠sticas quanto as do tokenizador.

In [57]:
import torch

from dataclasses import dataclass
from typing import Any, Dict, List, Union

@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any
    decoder_start_token_id: int

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch

Vamos inicializar o coletor de dados que acabamos de definir:

In [59]:
data_collator = DataCollatorSpeechSeq2SeqWithPadding(
    processor=processor,
    decoder_start_token_id=model.config.decoder_start_token_id,
)

### Evaluation Metrics

Usaremos a m√©trica de taxa de erro de palavras (WER), a m√©trica 'de-facto' para avaliar sistemas ASR. Para mais informa√ß√µes, consulte a documenta√ß√£o do WER [aqui](https://huggingface.co/metrics/wer). Vamos carregar a m√©trica WER do ü§ó Evaluate:

In [62]:
import evaluate

metric = evaluate.load("wer")

Ent√£o, precisamos simplesmente definir uma fun√ß√£o que receba as previs√µes do nosso modelo e retorne a m√©trica WER. Essa fun√ß√£o, chamada `compute_metrics`, primeiro substitui `-100` pelo `pad_token_id` nos `label_ids` (desfazendo o passo que aplicamos no collator de dados para ignorar corretamente os tokens de preenchimento na perda). Em seguida, ela decodifica os ids previstos e os ids dos r√≥tulos para strings. Finalmente, ela calcula o WER entre as previs√µes e os r√≥tulos de refer√™ncia:

In [64]:
def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # replace -100 with the pad_token_id
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    wer = 100 * metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

### Defindo as Configura√ß√µes de Treinamento

No passo final, definimos todos os par√¢metros relacionados ao treinamento. Para mais detalhes sobre os argumentos de treinamento, consulte a documenta√ß√£o do **Seq2SeqTrainingArguments** [aqui](https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArguments).

In [67]:
from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    output_dir="./whisper-small-pt-br",  # change to a repo name of your choice
    per_device_train_batch_size=16, # diminuir para 8 ou 4 se encontrar problemas de mem√≥ria
    gradient_accumulation_steps=2,  # increase by 2x for every 2x decrease in batch size (Se voc√™ diminuir o per_device_train_batch_size, pode aumentar o n√∫mero de gradient_accumulation_steps para acumular gradientes e simular um maior batch size)
    learning_rate=1e-5,
    warmup_steps=1000,
    #max_steps=8000,
    num_train_epochs = 2,
    gradient_checkpointing=True,
    fp16=True,
    eval_strategy="steps",  #
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=True,
    resume_from_checkpoint=r"/home/lcad/Documents/whisper-small-pt-br/checkpoint-2000/",
)


  return torch._C._cuda_getDeviceCount() > 0


**Nota**: se n√£o desejar enviar os pontos de verifica√ß√£o do modelo para o Hub, defina `push_to_hub=False`.

Podemos encaminhar os argumentos de treinamento para o ü§ó Trainer junto com nosso modelo, conjunto de dados, collator de dados e a fun√ß√£o `compute_metrics`:

In [70]:
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=common_voice["train"],
    eval_dataset=common_voice["test"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    processing_class=processor.feature_extractor,
)

Vamos salvar o objeto do processador uma vez antes de iniciar o treinamento. Como o processador n√£o √© trein√°vel, ele n√£o mudar√° durante o treinamento.

In [72]:
processor.save_pretrained(training_args.output_dir)

[]

### Training

O treinamento levar√° aproximadamente de 60 horas, dependendo da sua GPU.

A mem√≥ria m√°xima da GPU para a configura√ß√£o de treinamento fornecida √© de aproximadamente 8 GB. Dependendo da GPU alocada, √© poss√≠vel que voc√™ encontre um erro de CUDA `"out-of-memory"` ao iniciar o treinamento. 

Neste caso, voc√™ pode reduzir o `per_device_train_batch_size` progressivamente por fatores de 2 e utilizar o par√¢metro [`gradient_accumulation_steps`](https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArguments.gradient_accumulation_steps) para compensar.

Para iniciar o treinamento, basta executar:

torch.cuda.empty_cache(): Libera mem√≥ria n√£o utilizada em PyTorch.

In [77]:
torch.cuda.empty_cache()

In [78]:
trainer.train()

Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.43.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.
`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...


Step,Training Loss,Validation Loss,Wer
1000,0.1831,0.259262,17.379128


You have passed task=transcribe, but also have set `forced_decoder_ids` to [[1, 50259], [2, 50359], [3, 50363]] which creates a conflict. `forced_decoder_ids` will be ignored in favor of task=transcribe.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
There were missing keys in the checkpoint model loaded: ['proj_out.weight'].


TrainOutput(global_step=1964, training_loss=0.23888846345685893, metrics={'train_runtime': 229859.0685, 'train_samples_per_second': 0.273, 'train_steps_per_second': 0.009, 'total_flos': 1.813008918970368e+19, 'train_loss': 0.23888846345685893, 'epoch': 1.998473282442748})

In [89]:
metrics = trainer.evaluate()
print(metrics)

{'eval_loss': 0.259261816740036, 'eval_wer': 17.37912830747441, 'eval_runtime': 18328.189, 'eval_samples_per_second': 0.517, 'eval_steps_per_second': 0.065, 'epoch': 1.998473282442748}


Nosso melhor WER √© 17,37%.

Voc√™ pode alterar esses valores para corresponder ao seu conjunto de dados, idioma e nome do modelo de acordo com suas necessidades:

In [80]:
kwargs = {
    "dataset_tags": "mozilla-foundation/common_voice_17_0",
    "dataset": "Common Voice 17.0",  # a 'pretty' name for the training dataset
    "dataset_args": "config: pt, split: test",
    "language": "pt",
    "model_name": "Whisper Small Pt-Br - RFard",  # 
    "finetuned_from": "openai/whisper-small",
    "tasks": "automatic-speech-recognition",
}

Agora, os resultados do treinamento podem ser enviados para o Hub. Para fazer isso, execute o comando `push_to_hub` e salve o objeto preprocessor que criamos:

In [82]:
trainer.push_to_hub(**kwargs)

CommitInfo(commit_url='https://huggingface.co/RodrigoFardin/whisper-small-pt-br/commit/27a4a1af754c7a89a6d985cd122cc9e170f2e994', commit_message='End of training', commit_description='', oid='27a4a1af754c7a89a6d985cd122cc9e170f2e994', pr_url=None, repo_url=RepoUrl('https://huggingface.co/RodrigoFardin/whisper-small-pt-br', endpoint='https://huggingface.co', repo_type='model', repo_id='RodrigoFardin/whisper-small-pt-br'), pr_revision=None, pr_num=None)

In [88]:
!tensorboard --logdir=./whisper-small-pt-br/runs

TensorFlow installation not found - running with reduced feature set.
[0m[38;5;8m[[0m2025-03-25T11:40:41Z [0m[33mWARN [0m rustboard_core::run[0m[38;5;8m][0m Read error in ./whisper-small-pt-br/runs/Mar21_00-44-41_lcad-XPS-8940/events.out.tfevents.1742528682.lcad-XPS-8940.7657.0: ReadRecordError(BadLengthCrc(ChecksumError { got: MaskedCrc(0x07980329), want: MaskedCrc(0x00000000) }))

NOTE: Using experimental fast data loading logic. To disable, pass
    "--load_fast=false" and report issues on GitHub. More details:
    https://github.com/tensorflow/tensorboard/issues/4784

Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.19.0 at http://localhost:6006/ (Press CTRL+C to quit)
^C


## Construindo uma Demonstra√ß√£o

Agora que ajustamos nosso modelo, podemos criar uma demonstra√ß√£o para mostrar suas capacidades de ASR (Reconhecimento Autom√°tico de Fala)! Vamos utilizar o `pipeline` do ü§ó Transformers, que cuidar√° de todo o processo de ASR, desde o pr√©-processamento das entradas de √°udio at√© a decodifica√ß√£o das previs√µes do modelo.

Executando o exemplo abaixo, ser√° gerada uma demonstra√ß√£o no Gradio onde podemos gravar fala atrav√©s do microfone do nosso computador e inseri-la no nosso modelo Whisper ajustado para transcrever o texto correspondente.

Observa√ß√£o: Certifique-se de que `ffmpeg` est√° instalado no seu sistema, pois ele √© necess√°rio para processar √°udios.

In [1]:
from transformers import pipeline
import gradio as gr

pipe = pipeline(model="RodrigoFardin/whisper-small-pt-br") 
def transcribe(audio):
    text = pipe(audio)["text"]
    return text

iface = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(type="filepath"),
    outputs="text",
    title="Whisper Small Portuguese",
    description="Realtime demo for Portugues-Brazil speech recognition using a fine-tuned Whisper small model.",
)

iface.launch()

  return torch._C._cuda_getDeviceCount() > 0
Device set to use cpu


* Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




## Verificando e Testando se o modelo foi salvo corretamente no Hugging Face

In [3]:
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="RodrigoFardin/whisper-small-pt-br")

print("Modelo carregado com sucesso!")


Device set to use cpu


Modelo carregado com sucesso!


In [38]:
audio_path = "/home/lcad/Downloads/WhatsApp Ptt 2025-03-29 at 19.27.45.ogg"
result = pipe(audio_path)
print(result)




{'text': '√â uma coisa √©, mas provavelmente ela toma um caf√© com um dia depois, n√©? N√£o sei. Porque eu n√£o tenho dinheiro para ir nem para voltar amanh√£, entendeu? Eu estava querendo ir mesmo que a gente n√£o v√° fazer nada, n√©? Porque voc√™ tem que ir trabalhando no trabalho? Mas porque eu t√¥ com saudade e a√≠, tipo, eu queria estar com voc√™, mas... qualquer forma, amanh√£ eu n√£o vou ter como voltar.'}
