# Huggingface ü§ó NLP Course

Neste curso ser√£o abordados t√≥picos sobre Natural Language Processing (NLP) usando as bibliotecas do ecossistem a do [hugging face](https://huggingface.co/), como ü§ó Transformers, ü§ó Datasets, ü§ó Tokenizers, and ü§ó Accelerate ‚Äî assim como Hugging Face Hub.

## Vis√£o Geral
- Os cap√≠tulos 1 a 4 fornecem uma introdu√ß√£o aos principais conceitos da biblioteca ü§ó Transformers. Ao final desta parte do curso, voc√™ estar√° familiarizado com o funcionamento dos modelos do Transformer e saber√° como usar um modelo do Hugging Face Hub, ajust√°-lo em um conjunto de dados e compartilhar seus resultados no Hub!
- Os cap√≠tulos 5 a 8 ensinam o b√°sico de ü§ó Conjuntos de dados e ü§ó Tokenizers antes de mergulhar nas tarefas cl√°ssicas de PNL. Ao final desta parte, voc√™ ser√° capaz de resolver sozinho os problemas mais comuns da PNL.
- Os cap√≠tulos 9 a 12 v√£o al√©m da PNL e exploram como os modelos Transformer podem ser usados para lidar com tarefas de processamento de fala e vis√£o computacional. Ao longo do caminho, voc√™ aprender√° como criar e compartilhar demonstra√ß√µes de seus modelos e otimiz√°-los para ambientes de produ√ß√£o. Ao final desta parte, voc√™ estar√° pronto para aplicar ü§ó Transformers a (quase) qualquer problema de aprendizado de m√°quina!

# 1. Modelos Transformers

## O que √© NLP?
NLP √© um campo da lingu√≠stica e da Aprendizagem de M√°quina (ML) focada em entender tudo relacionado a linguagem humana. O objetivo das tarefas de NLP n√£o √© apenas entender palavras soltas individualmente, mas ser capaz de entender o contexto dessas palavras.

A seguir uma lista de tarefas comuns de NLP, com alguns exemplos:

- Classifica√ß√£o de senten√ßas completas: Capturar o sentimento de uma revis√£o, detectar se um email √© spam, determinar se a senten√ßa √© gramaticalmente correta ou onde duas senten√ßas s√£o logicamente relacionadas ou n√£o
- Classifica√ß√£o de cada palavra em uma senten√ßa: Identificar os componentes gramaticais de uma senten√ßa (substantivo, verbo, adjetivo), ou as entidades nomeadas (pessoa, local, organiza√ß√£o)
- Gera√ß√£o de conte√∫do textual: Completar um trecho com autogera√ß√£o textual, preenchendo as lacunas em um texto com palavras mascaradas
Extrair uma resposta de um texto: Dada uma pergunta e um contexto, extrair a resposta baseada na informa√ß√£o passada no contexto
- Gerar uma nova senten√ßa a partir de uma entrada de texto: Traduzir um texto para outro idioma, resumi-lo

NLP n√£o se limita ao texto escrito. Tamb√©m engloba desafios complexos nos campos de reconhecimento de discurso e vis√£o computacional, tal como a gera√ß√£o de transcri√ß√£o de uma amostra de √°udio ou a descri√ß√£o de uma imagem.


## Por que isso √© desafiador?
Os computadores n√£o processam a informa√ß√£o da mesma forma que os seres humanos. Por exemplo, quando n√≥s lemos a senten√ßa ‚ÄúEstou com fome‚Äù, n√≥s podemos facilmente entender seu significado. Similarmente, dada duas senten√ßas como ‚ÄúEstou com fome‚Äù e ‚ÄúEstou triste‚Äù, n√≥s somos capazes de facilmente determinar qu√£o similares elas s√£o. Para modelos de Aprendizagem de M√°quina (ML), tarefas como essas s√£o mais dif√≠ceis. O texto precisa ser processado de um modo que possibilite o modelo aprender por ele. E porque a linguagem √© complexa, n√≥s precisamos pensar cuidadosamente sobre como esse processamento tem que ser feito. Tem se feito muita pesquisa sobre como representar um texto e n√≥s iremos observar alguns desses m√©todos no pr√≥ximo cap√≠tulo.



## Transformers, o que eles podem fazer?

O objeto mais b√°sico na biblioteca ü§ó Transformers √© a fun√ß√£o pipeline() . Ela conecta o modelo com seus passos necess√°rios de pr√© e p√≥s-processamento, permitindo-nos a diretamente inserir qualquer texto e obter uma resposta intelig√≠vel.


H√° tr√™s principais passos envolvidos quando voc√™ passa algum texto para um pipeline:

O texto √© pr√©-processado para um formato que o modelo consiga entender.
As entradas (inputs) pr√©-processados s√£o passadas para o modelo.
As predi√ß√µes do modelo s√£o p√≥s-processadas, para que ent√£o voc√™ consiga atribuir sentido a elas.
Alguns dos pipelines dispon√≠veis atualmente, s√£o:

- feature-extraction (pega a representa√ß√£o vetorial do texto)
- fill-mask (preenchimento de m√°scara)
- ner (reconhecimento de entidades nomeadas)
- question-answering (responder perguntas)
- sentiment-analysis (an√°lise de sentimentos)
- summarization (sumariza√ß√£o)
- text-generation (gera√ß√£o de texto)
- translation (tradu√ß√£o)
- zero-shot-classification (classifica√ß√£o ‚Äúzero-shot‚Äù)

In [5]:
# !pip install datasets evaluate transformers[sentencepiece]

In [6]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

In [7]:
classifier(
    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9598048329353333},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

### Classifica√ß√£o Zero-shot
N√≥s come√ßaremos abordando uma tarefa mais desafiadora da qual n√≥s precisamos classificar texto que n√£o tenham sido rotulados. Esse √© um cen√°rio comum nos projetos reais porque anotar texto geralmente consome bastante do nosso tempo e requer expertise no dom√≠nio. Para esse caso, o pipeline zero-shot-classification √© muito poderoso: permite voc√™ especificar quais r√≥tulos usar para a classifica√ß√£o, desse modo voc√™ n√£o precisa ‚Äúconfiar‚Äù nos r√≥tulos dos modelos pr√©-treinados. Voc√™ j√° viu como um modelo pode classificar uma senten√ßa como positiva ou negativa usando esses dois r√≥tulos - mas tamb√©m pode ser classificado usando qualquer outro conjunto de r√≥tulos que voc√™ quiser. Esse pipeline √© chamado de zero-shot porque voc√™ n√£o precisa fazer o ajuste fino do modelo nos dados que voc√™ o utiliza.

In [8]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (‚Ä¶)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445989489555359, 0.11197412759065628, 0.04342695698142052]}

### Gera√ß√£o de Texto
Agora vamos ver como usar um pipeline para gerar uma por√ß√£o de texto. A principal ideia aqui √© que voc√™ coloque um peda√ßo de texto e o modelo ir√° autocomplet√°-lo ao gerar o texto restante. Isso √© similar ao recurso de predi√ß√£o textual que √© encontrado em in√∫meros celulares. A gera√ß√£o de texto envolve aleatoriedade, ent√£o √© normal se voc√™ n√£o obter o mesmo resultado obtido mostrado abaixo. Voc√™ pode controlar qu√£o diferentes sequ√™ncias s√£o geradas com o argumento num_return_sequences e o tamanho total da sa√≠da de texto (output) com o argumento max_length.

In [9]:
from transformers import pipeline

generator = pipeline("text-generation")
generator(
    "In this course, we will teach you how to"
)  # nesse curso, n√≥s te mostraremos como voc√™

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading (‚Ä¶)neration_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (‚Ä¶)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to integrate Android into Android Studio, which will help achieve high performance and maintainability in your project. With this course (which is available as an MP3 download), we will work together with you and your'}]

In [10]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

Downloading (‚Ä¶)neration_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (‚Ä¶)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to get involved in public and private businesses and the benefits of these new jobs and what you can do to'},
 {'generated_text': 'In this course, we will teach you how to use JavaScript. This content will be hosted in the browser and on a mobile device.\n\n\n'}]

### Preenchimento de m√°scara (*Mask filling*)
O pr√≥ximo pipeline que voc√™ ir√° testar √© o fill-mask. A ideia dessa tarefa √© preencher os espa√ßos em branco com um texto dado. O argumento top_k controla quantas possibilidades voc√™ quer que sejam geradas. Note que aqui o modelo preenche com uma palavra <m√°scara> especial, que √© frequentemente referida como mask token. Outros modelos de preenchimento de m√°scara podem ter diferentes mask tokens, ent√£o √© sempre bom verificar uma palavra m√°scara apropriada quando explorar outros modelos. Um modo de checar isso √© olhando para a palavra m√°scara usada no widget.

In [11]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (‚Ä¶)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19619806110858917,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052723944187164,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

### Reconhecimento de entidades nomeadas
Reconhecimento de Entidades Nomeadas (NER) √© uma tarefa onde o modelo tem de achar quais partes do texto correspondem a entidades como pessoas, locais, organiza√ß√µes. Vamos olhar em um exemplo. Aqui o modelo corretamente identificou que Sylvain √© uma pessoa (PER), Hugging Face √© uma organiza√ß√£o (ORG), e Brooklyn √© um local (LOC).

N√≥s passamos a op√ß√£o grouped_entities=True na cria√ß√£o da fun√ß√£o do pipelina para dize-lo para reagrupar juntos as partes da senten√ßa que correspondem √† mesma entidade: aqui o modelo agrupou corretamente ‚ÄúHugging‚Äù e ‚ÄúFace‚Äù como √∫nica organiza√ß√£o, ainda que o mesmo nome consista em m√∫ltiplas palavras. Na verdade, como veremos no pr√≥ximo cap√≠tulo, o pr√©-processamento at√© mesmo divide algumas palavras em partes menores. Por exemplo, Sylvain √© dividido em 4 peda√ßos: S, ##yl, ##va, e ##in. No passo de p√≥s-processamento, o pipeline satisfatoriamente reagrupa esses peda√ßos.

In [12]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]



[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

### question-answering
O pipeline question-answering responde perguntas usando informa√ß√µes dado um contexto. Note que o pipeline funciona atrav√©s da extra√ß√£o da informa√ß√£o dado um contexto; n√£o gera uma resposta.

In [13]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (‚Ä¶)/main/tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.6949767470359802, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

### Sumariza√ß√£o
Sumariza√ß√£o √© uma tarefa de reduzir um texto em um texto menor enquanto pega toda (ou boa parte) dos aspectos importantes do texto referenciado. Como a gera√ß√£o de texto, voc√™ pode especificar o tamanho m√°ximo max_length ou m√≠nimo min_length para o resultado

In [14]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The number of engineering graduates in the United States has declined in recent years . China and India graduate six and eight times as many traditional engineers as the U.S. does . Rapidly developing economies such as China continue to encourage and advance the teaching of engineering . There are declining offerings in engineering subjects dealing with infrastructure, infrastructure, the environment, and related issues .'}]

### Tradu√ß√£o
Para tradu√ß√£o, voc√™ pode usar o modelo default se voc√™ der um par de idiomas no nome da tarefa (tal como "translation_en_to_fr", para traduzir ingl√™s para franc√™s), mas a maneira mais f√°cil √© pegar o moddelo que voc√™ quiser e usa-lo no Model Hub. Aqui n√≥s iremos tentar traduzir do Franc√™s para o Ingl√™s. Como a gera√ß√£o de texto e a sumariza√ß√£o, voc√™ pode especificar o tamanho m√°ximo max_length e m√≠nimo min_length para o resultado.

In [15]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

Downloading (‚Ä¶)neration_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

Downloading (‚Ä¶)olve/main/vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



[{'translation_text': 'This course is produced by Hugging Face.'}]

## Como transformers funciona ?

Em linhas gerais, eles podem ser agrupados em tr√™s categorias:

- GPT-like (tamb√©m chamados de modelos Transformers auto-regressivos)
- BERT-like (tamb√©m chamados de modelos Transformers auto-codificadores)
- BART/T5-like (tamb√©m chamados de modelos Transformers sequence-to-sequence)

### Transformers s√£o modelos de linguagem
Todos os modelos de Transformer mencionados acima (GPT, BERT, BART, T5, etc.) foram treinados como ```modelos de linguagem (langauge models)```. Isso significa que eles foram treinados em grandes quantidades de texto bruto de forma auto-supervisionada. O aprendizado autossupervisionado √© um tipo de treinamento no qual o objetivo √© calculado automaticamente a partir das entradas do modelo. Isso significa que os humanos n√£o s√£o necess√°rios para rotular os dados!

Este tipo de modelo desenvolve uma compreens√£o estat√≠stica da linguagem em que foi treinado, mas n√£o √© muito √∫til para tarefas pr√°ticas espec√≠ficas. Por causa disso, o modelo geral pr√©-treinado passa por um processo chamado ```transfer learning```. Durante esse processo, o modelo √© ajustado de maneira supervisionada - ou seja, usando r√≥tulos anotados por humanos - em uma determinada tarefa.

Um exemplo de tarefa √© prever a pr√≥xima palavra em uma frase depois de ler as n palavras anteriores. Isso √© chamado de ```modelagem de linguagem causal (causal language modeling)``` porque a sa√≠da depende das entradas passadas e presentes, mas n√£o das futuras.

### Transformers s√£o modelos grandes
Al√©m de alguns outliers (como o DistilBERT), a estrat√©gia geral para obter melhor desempenho √© aumentar os tamanhos dos modelos, bem como a quantidade de dados em que s√£o pr√©-treinados.

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/model_parameters.png">

Pr√©-treinamento √© o ato de treinar um modelo do zero: os pesos s√£o inicializados aleatoriamente e o treinamento come√ßa sem nenhum conhecimento pr√©vio.

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining.svg">

Esse pr√©-treinamento geralmente √© feito em grandes quantidades de dados. Portanto, requer um corpus de dados muito grande e o treinamento pode levar v√°rias semanas.

```Ajuste fino (fine tuning)```, por outro lado, √© o treinamento feito **ap√≥s** um modelo ter sido pr√©-treinado. Para realizar o ajuste fino, primeiro voc√™ adquire um modelo de linguagem pr√©-treinado e, em seguida, realiza treinamento adicional com um conjunto de dados espec√≠fico para sua tarefa. Espere - por que n√£o simplesmente treinar diretamente para a tarefa final? Existem algumas raz√µes:

- O modelo pr√©-treinado j√° foi treinado em um conjunto de dados que possui algumas semelhan√ßas com o conjunto de dados de ajuste fino. O processo de ajuste fino √©, portanto, capaz de aproveitar o conhecimento adquirido pelo modelo inicial durante o pr√©-treinamento (por exemplo, com problemas de NLP, o modelo pr√©-treinado ter√° algum tipo de compreens√£o estat√≠stica da linguagem que voc√™ est√° usando para sua tarefa).
- Como o modelo pr√©-treinado j√° foi treinado com muitos dados, o ajuste fino requer muito menos dados para obter resultados decentes.
Pela mesma raz√£o, a quantidade de tempo e recursos necess√°rios para obter bons resultados s√£o muito menores.

Por exemplo, pode-se aproveitar um modelo pr√©-treinado treinado no idioma ingl√™s e, em seguida, ajust√°-lo em um corpus arXiv, resultando em um modelo baseado em ci√™ncia/pesquisa. O ajuste fino exigir√° apenas uma quantidade limitada de dados: o conhecimento que o modelo pr√©-treinado adquiriu √© ‚Äútransferido‚Äù, da√≠ o termo ```transfer learning```.

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning.svg">

O ajuste fino de um modelo de linguagem √© mais barato do que o pr√©-treinamento, tanto em tempo quanto em dinheiro. Portanto, acarreta menores custos de tempo, dados, financeiros e ambientais. Tamb√©m √© mais r√°pido e f√°cil iterar diferentes esquemas de ajuste fino, pois o treinamento √© menos restritivo do que um pr√©-treinamento completo.

Este processo tamb√©m alcan√ßar√° melhores resultados do que treinar do zero (a menos que voc√™ tenha muitos dados), e √© por isso que voc√™ deve sempre tentar aproveitar um modelo pr√©-treinado ‚Äì um que seja o mais pr√≥ximo poss√≠vel da tarefa que voc√™ tem em m√£os ‚Äì e ajustar isto.

### Arquitetura geral

O modelo transformer √© composto principalmente por dois blocos:

- Encoder/Codificador (esquerda): O codificador recebe uma entrada e constr√≥i uma representa√ß√£o dela (seus recursos). Isso significa que o modelo √© otimizado para adquirir entendimento a partir da entrada.
- Decoder/Decodificador (direita): O decodificador usa a representa√ß√£o (recursos) do codificador junto com outras entradas para gerar uma sequ√™ncia alvo. Isso significa que o modelo est√° otimizado para gerar resultados.

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks.svg">


Cada uma dessas partes pode ser usada de forma independente, dependendo da tarefa:

- Encoder-only models: bons para tarefas que exigem compreens√£o da entrada, como **classifica√ß√£o de frases** e **reconhecimento de entidade nomeada**.
- Decoder-only models: bons para tarefas generativas, como **gera√ß√£o de texto**.
- Encoder-decoder models ou sequence-to-sequence models: bons para tarefas generativas que requerem uma entrada, como **tradu√ß√£o** ou **resumo**.

### Camadas de Aten√ß√£o

Uma caracter√≠stica importante dos modelos Transformer √© que eles s√£o constru√≠dos com camadas especiais chamadas **camadas de aten√ß√£o**. Na verdade, o t√≠tulo do artigo que apresenta a arquitetura do Transformer era _‚ÄúAttention is all you need‚Äù. Esta camada dir√° ao modelo para prestar aten√ß√£o espec√≠fica a certas palavras da frase que voc√™ passou (e mais ou menos ignorar as outras) ao lidar com a representa√ß√£o de cada palavra.

Para contextualizar isso, considere a tarefa de traduzir um texto do ingl√™s para o franc√™s. Dada a entrada ‚ÄúVoc√™ gosta deste curso‚Äù, um modelo de tradu√ß√£o precisar√° tamb√©m atender √† palavra adjacente ‚ÄúVoc√™‚Äù para obter a tradu√ß√£o adequada para a palavra ‚Äúgosto‚Äù, porque em franc√™s o verbo ‚Äúgosto‚Äù √© conjugado de forma diferente dependendo de o sujeito. O resto da frase, por√©m, n√£o √© √∫til para a tradu√ß√£o dessa palavra. Na mesma linha, ao traduzir ‚Äúisto‚Äù o modelo tamb√©m precisar√° prestar aten√ß√£o √† palavra ‚Äúcurso‚Äù, porque ‚Äúisto‚Äù √© traduzido de forma diferente dependendo se o substantivo associado √© masculino ou feminino. Novamente, as outras palavras da frase n√£o importar√£o para a tradu√ß√£o de ‚Äúisto‚Äù. Com frases mais complexas (e regras gramaticais mais complexas), o modelo precisaria prestar aten√ß√£o especial √†s palavras que possam aparecer mais distantes na frase para traduzir corretamente cada palavra.

O mesmo conceito se aplica a qualquer tarefa associada √† linguagem natural: uma palavra por si s√≥ tem um significado, mas esse significado √© profundamente afetado pelo contexto, que pode ser qualquer outra palavra (ou palavras) antes ou depois da palavra em estudo.

### A arquitetura original

A arquitetura Transformer foi originalmente projetada para tradu√ß√£o. Durante o treinamento, o **codificador recebe entradas (frases) em um determinado idioma**, enquanto o **decodificador recebe as mesmas frases no idioma de destino desejado**. No codificador, **as camadas de aten√ß√£o podem usar todas as palavras em uma frase** (j√° que, como acabamos de ver, a tradu√ß√£o de uma determinada palavra pode ser dependente do que est√° depois e antes dela na frase). **O decodificador, no entanto, funciona sequencialmente e s√≥ pode prestar aten√ß√£o nas palavras da frase que ele j√° traduziu** (portanto, apenas as palavras anteriores √† palavra que est√° sendo gerada no momento). Por exemplo, quando previmos as tr√™s primeiras palavras do alvo traduzido, as entregamos ao decodificador que ent√£o usa todas as entradas do codificador para tentar prever a quarta palavra.

Para acelerar as coisas durante o treinamento (quando o modelo tem acesso √†s frases alvo), o decodificador √© alimentado com todo o alvo, mas n√£o √© permitido usar palavras futuras (se teve acesso √† palavra na posi√ß√£o 2 ao tentar prever a palavra na posi√ß√£o 2, o problema n√£o seria muito dif√≠cil!). Por exemplo, ao tentar prever a quarta palavra, a camada de aten√ß√£o s√≥ ter√° acesso √†s palavras nas posi√ß√µes 1 a 3.

A arquitetura original do Transformer ficou assim, com o codificador √† esquerda e o decodificador √† direita:

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg">

Observe que **a primeira camada de aten√ß√£o em um bloco decodificador presta aten√ß√£o a todas as entradas (passadas) do decodificador**, mas a **segunda camada de aten√ß√£o usa a sa√≠da do codificador**. Ele pode, assim, acessar toda a frase de entrada para melhor prever a palavra atual. Isso √© muito √∫til, pois diferentes idiomas podem ter regras gramaticais que colocam as palavras em ordens diferentes, ou algum contexto fornecido posteriormente na frase pode ser √∫til para determinar a melhor tradu√ß√£o de uma determinada palavra.

A _m√°scara de aten√ß√£o_ (attention mask) tamb√©m pode ser usada no codificador/decodificador para evitar que o modelo preste aten√ß√£o a algumas palavras especiais - por exemplo, a palavra de preenchimento especial usada para fazer com que todas as entradas tenham o mesmo comprimento ao agrupar frases.

### Arquiteturas vs. checkpoints
- **Arquitetura**: Este √© o esqueleto do modelo ‚Äî a defini√ß√£o de cada camada e cada opera√ß√£o que acontece dentro do modelo.
- **Checkpoints**: Esses s√£o os pesos que ser√£o carregados em uma determinada arquitetura.
- **Modelos**: Este √© um termo abrangente que n√£o √© t√£o preciso quanto ‚Äúarquitetura‚Äù ou ‚Äúcheckpoint‚Äù: pode significar ambos. Este curso especificar√° arquitetura ou checkpoint quando for necess√°rio reduzir a ambiguidade.
Por exemplo, BERT √© uma arquitetura enquanto bert-base-cased, um conjunto de pesos treinados pela equipe do Google para a primeira vers√£o do BERT, √© um checkpoint. No entanto, pode-se dizer ‚Äúo modelo BERT‚Äù e ‚Äúo modelo bert-base-cased‚Äú.

## Encoder Models

Os modelos de **encoder** usam apenas o encoder de um modelo Transformer. Em cada est√°gio, as camadas de aten√ß√£o podem acessar todas as palavras da frase inicial. Cada palavra, √© representada numericamente atrav√©s de um vetor contextualizado gerado pelo encoder. Essa a contextualiza√ß√£o √© criada atrav√©s do mecanismo de **self-attention**. O vetor gerado √© chamado de vetor de features ou tensor de features, e ele segue o tamanho (dimens√£o) do vetor √© definida pela arquitetura do modelo, no caso do BERT base, o tamanho √© de 768. 


Esses modelos geralmente s√£o caracterizados como tendo aten√ß√£o ‚Äúbidirecional‚Äù e s√£o frequentemente chamados de ```auto-encoding models```.

O pr√©-treinamento desses modelos geralmente gira em torno de corromper de alguma forma uma determinada frase (por exemplo, mascarando palavras aleat√≥rias nela) e encarregando o modelo de encontrar ou reconstruir a frase inicial.

Os modelos de codificador s√£o mais adequados para tarefas que exigem uma compreens√£o da senten√ßa completa, como classifica√ß√£o de senten√ßa, reconhecimento de entidade nomeada (e, mais geralmente, classifica√ß√£o de palavras) e resposta extrativa de perguntas.

Modelos encoder s√£o bons em extrair informa√ß√µes contextuais. Esses modelos s√£oa dequados para atividades como:
- Sequence Classification
- Question Answering
- Masked Langauge modeling
- NLU: Natural language understanding

Os representantes desta fam√≠lia de modelos incluem:
- ALBERT
- BERT
- DistilBERT
- ELECTRA
- RoBERTa

## Decoder Models

Os modelos de decodificador usam apenas o decodificador de um modelo Transformer. Em cada etapa, para uma determinada palavra, as camadas de aten√ß√£o s√≥ podem acessar as palavras posicionadas antes dela na frase. Esses modelos geralmente s√£o chamados de modelos ```auto-regressive models```. O pr√©-treinamento de modelos de decodificadores geralmente gira em torno de prever a pr√≥xima palavra na frase.

Os inputs passados no decoder tamb√©m criam uma representa√ß√£o num√©rica das palavras, de forma contextualizada. Mas diferente do encoder, no encoder o self attention √© chamado de **masked self attention**, e essas representa√ß√µes num√©ricas das palavras s√£o criadas somente das palavras anteriores at√© a atual, **n√£o s√£o usadas todas as palavras**. Todas as palavras da direta s√£o ocultas (mascaradas). Os modelos encoder **n√£o** s√£o bidirecionais, e sim, **unidirecional**. 

Esses modelos s√£o mais adequados para tarefas que envolvem gera√ß√£o de texto. Como
- Causal tasks; gera√ß√£o de sequencias
- NLG: Natural language generation

Os representantes desta fam√≠lia de modelos incluem:
- CTRL
- GPT
- GPT-2
- Transformer XL

## Sequence-to-sequence models

Modelos **encoder-decoder** (tamb√©m chamados de modelos **sequence-to-sequence**) usam ambas as partes da arquitetura Transformer. Em cada est√°gio, as camadas de aten√ß√£o do encoder podem acessar todas as palavras da frase inicial, enquanto as camadas de aten√ß√£o do decoder podem acessar apenas as palavras posicionadas antes de uma determinada palavra na entrada.

O pr√©-treinamento desses modelos pode ser feito usando os objetivos dos modelos de codificador ou decodificador, mas geralmente envolve algo um pouco mais complexo. Por exemplo, T5 √© pr√©-treinado substituindo trechos aleat√≥rios de texto (que podem conter v√°rias palavras) por uma √∫nica palavra especial de m√°scara, e o objetivo √© prever o texto que esta palavra de m√°scara substitui.

No encoder-decoder, al√©m de receber os inputs inicialmente, ele tamb√©m recebe os outputs do encoder, na segunda camada de aten√ß√£o. Quando n√£o √© passado uma sequencia inicial, s√£o atribu·πïidos valores que indica o in√≠cio de uma sequencia. O encoder recebe a sequencia como entrada, calcula uma previs√£o e gera a representa√ß√£o num√©rica. Depois, ele envia a sequencia encodada para o decoder, e ele usa essa entrada junto com sua entrada de sequencia do decoder e tenta decodificar a sequencia. Assim, atuando de forma autoregressiva prevendo a pr√≥xima palavra a partir das palavras atuais. 

Os modelos **seq2seq** s√£o capazes de atuar em tarefas de:
- Tradu√ß√£o
- Summarization

Os representantes desta fam√≠lia de modelos incluem:
- BART
- mBART
- Marian
- T5

# Usando ü§ó Transformers

A biblioteca ü§ó Transformers foi criada para fornecer uma API √∫nica atrav√©s do qual qualquer modelo Transformer possa ser carregado, treinado e salvo. As principais caracter√≠sticas da biblioteca s√£o:

- F√°cil de usar: Baixar, carregar e usar um modelo de processamento natural de linguagem (PNL) de √∫ltima gera√ß√£o para infer√™ncia pode ser feito em apenas duas linhas de c√≥digo
- Flexibilidade: Em sua ess√™ncia, todos os modelos s√£o uma simples classe PyTorch nn.Module ou TensorFlow tf.keras.Model e podem ser tratadas como qualquer outro modelo em seus respectivos frameworks de machine learning (ML).
- Simplicidade: Quase nenhuma abstra√ß√£o √© feita em toda a biblioteca. O ‚ÄúTudo em um arquivo‚Äù √© um conceito principal: o ‚Äúpasse para frente‚Äù de um modelo √© inteiramente definido em um √∫nico arquivo, de modo que o c√≥digo em si seja compreens√≠vel e hacke√°vel.

Esta √∫ltima caracter√≠stica torna ü§ó Transformers bem diferente de outras bibliotecas ML que modelos e/ou configura√ß√µes s√£o compartilhados entre arquivos; em vez disso, cada modelo tem suas pr√≥prias camadas. Al√©m de tornar os modelos mais acess√≠veis e compreens√≠veis, isto permite que voc√™ experimente facilmente um modelo sem afetar outros.

A fun√ß√£o pipeline agrupa tr√™s processos: tokenizer, model e post processing
- Tokenizer: √â respons√°vel por criar a representa√ß√£o num√©rica do texto de entrada, e, depois retornar ao texto quando necess√°rio. Recebe a entrada de texto e divide em palavras e palavras, adiciona tokens especiais (de in√≠cio da senten√ßa [CLS] e final [SEP]). Ent√£o, o tokenizer associa cada token ao seu id exclusivo do vocabul√°rio do modelo pr√©-treinado.
- Model: Recebe as representa√ß√µes num√©ricas do texto de entrada, e retorna um output Logit* da tarefa executada. 
- Post processing: A etapa de p√≥s processamento recebe a sa√≠da do model e aplica uma fun√ß√£o de ativa√ß√£o, como softmax, para normalizar os valores de logit em probabilidade. O retorno do p√≥s processamento √© uma lista com dois valores (no caso da classifica√ß√£o), em que um representa a classe negativa e outro positiva. Para ver qual valor representa √© qual, basta utilizar ```model.config.id2label```.

***Logit*** valores que n√£o est√£o diretamente relacionados a probabilidades. Eles representam a sa√≠da da √∫ltima camada da rede neural antes de aplicar uma fun√ß√£o de ativa√ß√£o, como a fun√ß√£o sigmoid ou softmax. Quanto maior o logit para uma classe, mais a rede neural est√° "pensando" que a imagem pertence a essa classe.

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/full_nlp_pipeline.svg">

Exemplo

```python
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)
```

tem como resultado:

```python

[{'label': 'POSITIVE', 'score': 0.9598047137260437},
 {'label': 'NEGATIVE', 'score': 0.9994558095932007}]
 
```

Aprofundando cada etapa...

### Pr√©-processamento com o tokenizer

Como outras redes neurais, os modelos do Transformer n√£o podem processar texto bruto diretamente, portanto, a primeira etapa do nosso pipeline √© converter as entradas de texto em n√∫meros que o modelo possa entender. Para isso utilizamos um tokenizer, que ser√° respons√°vel por:

- Dividir a entrada em palavras, subpalavras ou s√≠mbolos (como pontua√ß√£o) que s√£o chamados de tokens
Mapeando cada token para um n√∫mero inteiro
- Adicionando entradas adicionais que podem ser √∫teis para o modelo
- Todo esse pr√©-processamento precisa ser feito exatamente da mesma maneira que quando o modelo foi pr√©-treinado, ent√£o primeiro precisamos baixar essas informa√ß√µes do **Model Hub**. Para fazer isso, usamos a classe ```AutoTokenizer``` e seu m√©todo ```from_pretrained()```. Aqui, instanciando o modelo no objeto ```checkpoint```, ele ir√° buscar automaticamente os dados associados ao tokenizer do modelo e armazen√°-los em cache (portanto, ele s√≥ ser√° baixado na primeira vez que voc√™ executar o c√≥digo abaixo).

Como o modelo padr√£o do pipeline de an√°lise de sentimento √© ```distilbert-base-uncased-finetuned-sst-2-english```, executamos o seguinte:

```python
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
```

Assim que tivermos o tokenizer, podemos passar diretamente nossas frases para ele e receberemos de volta um dicion√°rio que est√° pronto para alimentar nosso modelo! A √∫nica coisa que falta fazer √© converter a lista de identifica√ß√µes de entrada em tensores.

Voc√™ pode usar ü§ó Transformers sem ter que se preocupar com qual estrutura ML √© usada como backend; pode ser PyTorch ou TensorFlow, ou Flax para alguns modelos. Entretanto, os Transformers s√≥ aceitam **tensores** como entrada. Os tensores s√£o estruturas de dados fundamentais em matem√°tica e no campo da aprendizagem de m√°quina, incluindo deep learning. Eles podem ser pensados como uma generaliza√ß√£o de vetores e matrizes, que s√£o estruturas unidimensionais e bidimensionais, respectivamente. Em termos simples, voc√™ pode imaginar tensores como recipientes que podem armazenar dados em diferentes formatos. Cada elemento dentro de um tensor √© identificado por um conjunto de √≠ndices. Vou dar alguns exemplos para ilustrar:

1. **Tensor 0D (Escalar)**: Este √© o tensor mais simples, representando um √∫nico n√∫mero. Por exemplo, a temperatura de um dia (30 graus Celsius) pode ser armazenada em um tensor 0D.

2. **Tensor 1D (Vetor)**: Este √© um tensor unidimensional, como uma lista de n√∫meros. Um exemplo √© a sequ√™ncia de pre√ßos de a√ß√µes ao longo de v√°rios dias.

3. **Tensor 2D (Matriz)**: Aqui, voc√™ tem uma estrutura de tabela com linhas e colunas, como uma planilha. Uma imagem em tons de cinza pode ser representada como uma matriz, onde cada elemento representa a intensidade do pixel.

4. **Tensor 3D**: Este tipo de tensor √© tridimensional e pode ser usado para representar dados como um conjunto de imagens coloridas, onde uma dimens√£o adiciona a informa√ß√£o de cor (por exemplo, vermelho, verde, azul).

5. **Tensor ND (Tensor Multidimensional)**: Tensores podem ter mais de tr√™s dimens√µes, tornando-os adequados para uma variedade de aplica√ß√µes complexas. Por exemplo, v√≠deos podem ser representados como tensores 4D, onde as dimens√µes s√£o largura, altura, tempo e canais de cor.

Os tensores s√£o a base para armazenar e manipular dados em deep learning e matem√°tica aplicada. Eles s√£o usados para representar entradas, sa√≠das e par√¢metros em redes neurais, permitindo que modelos de aprendizado de m√°quina processem informa√ß√µes em v√°rias dimens√µes e realizem opera√ß√µes matem√°ticas complexas. Portanto, tensores desempenham um papel crucial na an√°lise de dados, vis√£o computacional, processamento de linguagem natural e muitas outras aplica√ß√µes.

Para especificar o tipo de tensores que queremos recuperar (PyTorch, TensorFlow ou NumPy), utilizamos o argumento ```return_tensors```:

```python
raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)
```
O parametro ```padding```foi utilizado para criar matrizes do mesmo tamanho para frases com tamanhos diferentes, enquanto que o ```truncation``` foi usado pra limitar o tamanho da frase para o tamanho que o modelo suporta.

```python
{
    'input_ids': tensor([
        [  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172, 2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,     0,     0,     0,     0,     0,     0]
    ]), 
    'attention_mask': tensor([
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    ])
}
```
Os resultados como tensores √© um dicion√°rio contendo duas chaves, ```input_ids``` e ```attention_mask```. O ```input_ids``` cont√©m duas linhas de inteiros (uma para cada frase) que s√£o os identificadores √∫nicos dos tokens em cada frase. J≈õ os valores da chave ```attention_mask``` mostra onde foi aplicado o mecanismo de aten√ß√£o, como as duas frases tem tamanhos diferentes, onde foi inserido o ```padding``` n√£o foi aplicado o mecanismo de aten√ß√£o.

### Etapa do modelo

Podemos baixar nosso modelo pr√©-treinado da mesma forma que fizemos com nosso tokenizer. ü§ó Transformers fornece uma classe AutoModel que tamb√©m tem um m√©todo from_pretrained():

```python
from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)
```

Neste trecho de c√≥digo, fizemos o download do mesmo checkpoint que usamos anteriormente em nosso pipeline (j√° deveria estar em cache) e instanciamos um modelo com ele.

Esta arquitetura cont√©m apenas o m√≥dulo base do Transformer: dadas algumas entradas, ele produz o que chamaremos de hidden states (estados ocultos), tamb√©m conhecidos como features (caracter√≠sticas). Para cada modelo de entrada, recuperaremos um vetor de alta dimensionalidade representando a compreens√£o contextual dessa entrada pelo Transformer*.

A sa√≠da vetorial pelo m√≥dulo do Transformer √© geralmente grande. Geralmente tem tr√™s dimens√µes:

- Tamanho do lote (Batch size): O n√∫mero de sequ√™ncias processadas de cada vez (2 em nosso exemplo).
- Tamanho da sequencia (Sequence length): O comprimento da representa√ß√£o num√©rica da sequ√™ncia (16 em nosso exemplo).
- Tamanho oculto (Hidden size): A dimens√£o vetorial de cada modelo de entrada.

Diz-se que √© ‚Äúde alta dimensionalidade‚Äù por causa do √∫ltimo valor. O tamanho oculto pode ser muito grande (768 √© comum para modelos menores, e em modelos maiores isto pode chegar a 3072 ou mais).

Podemos ver isso se alimentarmos os inputs que pr√©-processamos para nosso modelo:

```python
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

torch.Size([2, 16, 768])
```

Observe que as sa√≠das dos ü§ó Transformer se comportam como ‚Äòtuplas nomeadas‚Äô (namedtuple) ou dicion√°rios. Voc√™ pode acessar os elementos por atributos (como fizemos) ou por chave (outputs["last_hidden_state"]), ou mesmo por √≠ndice se voc√™ souber exatamente onde o que est√° procurando (outputs[0]).

As heads do modelo usam o vetor de alta dimensionalidade dos hidden states como entrada e os projetam em uma dimens√£o diferente. Eles s√£o geralmente compostos de uma ou algumas camadas lineares:

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/transformer_and_head.svg">

A sa√≠da do Transformer √© enviada diretamente para a head do modelo a ser processado.

Neste diagrama, o modelo √© representado por sua camada de embeddings (vetores) e pelas camadas subsequentes. A camada de embeddings converte cada ID de entrada na entrada tokenizada em um vetor que representa o token associado. As camadas subsequentes manipulam esses vetores usando o mecanismo de aten√ß√£o para produzir a representa√ß√£o final das senten√ßas.

H√° muitas arquiteturas diferentes dispon√≠veis no ü§ó Transformers, com cada uma projetada em torno de uma tarefa espec√≠fica. Aqui est√° uma lista por algumas destas tarefas:

* Model (recuperar os hidden states)
* ForCausalLM
* ForMaskedLM
* ForMultipleChoice
* ForQuestionAnswering
* ForSequenceClassification
* ForTokenClassification
e outros ü§ó

Para nosso exemplo, precisaremos de um modelo com uma head de classifica√ß√£o em sequencia (para poder classificar as senten√ßas como positivas ou negativas). Portanto, n√£o utilizaremos a classe ```AutoModel```, mas sim, a classe ```AutoModelForSequenceClassification```:

```python
from transformers import AutoModelForSequenceClassification
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)
```

Agora se observarmos o tamanho dos nossos inputs, a dimensionalidade ser√° muito menor: a head do modelo toma como entrada os vetores de alta dimensionalidade que vimos anteriormente, e os vetores de sa√≠da contendo dois valores (um por label):

```python
print(outputs.logits.shape)
torch.Size([2, 2])
```

Como temos apenas duas senten√ßas e duas labels, o resultado que obtemos de nosso modelo √© de tamanho 2 x 2.

### Etapa de p√≥s processamento
Os valores que obtemos como resultado de nosso modelo n√£o fazem necessariamente sentido sozinhos. Vamos dar uma olhada:

```python
print(outputs.logits)

tensor([[-1.5607,  1.6123],
        [ 4.1692, -3.3464]], grad_fn=<AddmmBackward>)
```
Nosso modelo previu [-1.5607, 1.6123] para a primeira frase e [ 4.1692, -3.3464] para a segunda. Essas n√£o s√£o probabilidades, mas **logits**, a pontua√ß√£o bruta e n√£o normalizada produzida pela √∫ltima camada do modelo. Para serem convertidos em probabilidades, eles precisam passar por uma camada **SoftMax** (todas sa√≠das dos ü§ó Transformers produzem **logits**, j√° que a **fun√ß√£o de loss (perda)** para treinamento geralmente fundir√° a √∫ltima fun√ß√£o de ativa√ß√£o, como **SoftMax**, com a fun√ß√£o de **loss real**, por exemplo a **cross entropy**), ou seja, a camada em que √© aplicado o SoftMax √© uma camada "pr√©-ativa√ß√£o":

```python
import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

tensor([[4.0195e-02, 9.5980e-01],
        [9.9946e-01, 5.4418e-04]], grad_fn=<SoftmaxBackward>)
```
Agora podemos ver que o modelo previu [0.0402, 0.9598] para a primeira frase e [0.9995, 0.0005] para a segunda. Estas s√£o pontua√ß√µes de probabilidade reconhec√≠veis.

Para obter as etiquetas correspondentes a cada posi√ß√£o, podemos inspecionar o atributo id2label da configura√ß√£o do modelo (mais sobre isso na pr√≥xima se√ß√£o):

```python
model.config.id2label

{0: 'NEGATIVE', 1: 'POSITIVE'}
```

Agora podemos concluir que o modelo previu o seguinte:
- A primeira frase: NEGATIVE: 0.0402, POSITIVE: 0.9598
- Segunda frase: NEGATIVE: 0.9995, POSITIVE: 0.0005

## Modelos

A classe ```AutoModel``` e todas as classes filhas s√£o na verdade simples wrapper sobre a grande variedade de modelos dispon√≠veis na biblioteca. √â um wrapper inteligente, pois pode automaticamente ‚Äúadivinhar‚Äù a arquitetura apropriada do modelo para seu checkpoint, e ent√£o instancia um modelo com esta arquitetura.

Entretanto, se voc√™ conhece o tipo de modelo que deseja usar, pode usar diretamente a classe que define sua arquitetura. Vamos dar uma olhada em como isto funciona com um modelo BERT.

### Criando um modelo
A primeira coisa que precisamos fazer para inicializar um modelo BERT √© carregar um objeto de configura√ß√£o:

```python
from transformers import BertConfig, BertModel

# Construindo a configura√ß√£o
config = BertConfig()

# Construindo o modelo a partir da configura√ß√£o
model = BertModel(config)
```

A configura√ß√£o cont√©m muitos atributos que s√£o usados para construir o modelo:

```python
print(config)


BertConfig {
  [...]
  "hidden_size": 768,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  [...]
}
```

### Diferentes m√©todos de inicializar o modelo

A cria√ß√£o de um modelo a partir da configura√ß√£o padr√£o o inicializa com valores aleat√≥rios:

```python
from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

# O modelo √© inicializado aleatoriamente!

```

O modelo pode ser utilizado neste estado, mas produzir√° sa√≠das err√¥neas; ele precisa ser treinado primeiro. Poder√≠amos treinar o modelo a partir do zero na tarefa em m√£os, mas isto exigiria muito recurso, tempo e muitos dados. Para evitar esfor√ßos desnecess√°rios e duplicados, normalmente √© poss√≠vel compartilhar e reutilizar modelos que j√° foram treinados.

Carregar um Transformer j√° treinado √© simples - podemos fazer isso utilizando o m√©todo ```from_pretrained()```:


```python
from transformers import BertModel
model = BertModel.from_pretrained("bert-base-cased")
```

Como voc√™ viu anteriormente, poder√≠amos substituir o BertModel pela classe equivalente ao AutoModel. Faremos isto de agora em diante, pois isto produz um c√≥digo generalista a partir de um checkpoint; se seu c√≥digo funciona para checkpoint, ele deve funcionar perfeitamente com outro. Isto se aplica mesmo que a arquitetura seja diferente, desde que o checkpoint tenha sido treinado para uma tarefa semelhante (por exemplo, uma tarefa de an√°lise de sentimento).

No exemplo de c√≥digo acima n√£o utilizamos BertConfig, e em vez disso carregamos um modelo pr√©-treinado atrav√©s do identificador bert-base-cased. **Este √© um checkpoint do modelo** que foi treinado pelos pr√≥prios autores do BERT; voc√™ pode encontrar mais detalhes sobre ele em seu [model card](https://huggingface.co/bert-base-cased).

Este modelo agora √© inicializado com todos os pesos do checkpoint. Ele pode ser usado diretamente para infer√™ncia sobre as tarefas nas quais foi treinado, e tamb√©m pode ser fine-tuned (aperfei√ßoado) em uma nova tarefa. Treinando com pesos pr√©-treinados e n√£o do zero, podemos rapidamente alcan√ßar bons resultados.

Os pesos foram baixados e armazenados em cache (logo, para as futuras chamadas do m√©todo ```from_pretrained()``` n√£o ser√° realizado o download novamente) em sua respectiva pasta, que tem como padr√£o o path ```~/.cache/huggingface/transformers```. Voc√™ pode personalizar sua pasta de cache definindo a vari√°vel de ambiente HF_HOME.

O identificador usado para carregar o modelo pode ser o identificador de qualquer modelo no Model Hub, desde que seja compat√≠vel com a arquitetura BERT. A lista completa dos checkpoints BERT dispon√≠veis podem ser encontrada [aqui].https://huggingface.co/models?filter=bert).

### M√©todos para salvar/armazenar o modelo
Salvar um modelo √© t√£o f√°cil quanto carregar um - utilizamos o m√©todo save_pretrained(), que √© an√°logo ao m√©todo ```from_pretrained()```:

```python
model.save_pretrained("path_no_seu_computador")

# Isto salva dois arquivos em seu disco:

ls path_no_seu_computador
config.json pytorch_model.bin

```

Se voc√™ der uma olhada no arquivo config.json, voc√™ reconhecer√° os atributos necess√°rios para construir a arquitetura modelo. Este arquivo tamb√©m cont√©m alguns metadados, como a origem do checkpoint e a vers√£o ü§ó Transformers que voc√™ estava usando quando salvou o checkpoint pela √∫ltima vez.

O arquivo pytorch_model.bin √© conhecido como o **dicion√°rio de estado**; ele cont√©m todos os pesos do seu modelo. Os dois arquivos andam de m√£os dadas; **a configura√ß√£o √© necess√°ria para conhecer a arquitetura de seu modelo**, enquanto **os pesos do modelo s√£o os par√¢metros de seu modelo**.

### Usando um modelo de Transformer para infer√™ncia
Os Tokenizers podem se encarregar de lan√ßar as entradas nos tensores da estrutura apropriada, mas para ajud√°-lo a entender o que est√° acontecendo, vamos dar uma r√°pida olhada no que deve ser feito antes de enviar as entradas para o modelo.

Digamos que temos um par de sequ√™ncias

```python
sequences = ["Hello!", "Cool.", "Nice!"]

```

O tokenizer os converte em √≠ndices de vocabul√°rio que s√£o normalmente chamados de IDs de entrada. Cada sequ√™ncia √© agora uma lista de n√∫meros! A sa√≠da resultante √©:


```python
encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

```

Esta √© uma lista de sequ√™ncias codificadas: uma lista de listas. Os tensores s√≥ aceitam shapes (tamanhos) retangulares (pense em matrizes). Esta ‚Äúmatriz‚Äù j√° √© de forma retangular, portanto, convert√™-la em um tensor √© f√°cil:

```python
import torch
model_inputs = torch.tensor(encoded_sequences)
```

### Usando os tensores como entradas para o modelo

Fazer uso dos tensores com o modelo √© extremamente simples - chamamos apenas o modelo com os inputs:

```python
output = model(model_inputs)
```

Embora o modelo aceite muitos argumentos diferentes, apenas os IDs de entrada s√£o necess√°rios. 

## Tokenizers

Os Tokenizers cuidam da primeira e da √∫ltima etapa do processamento, cuidando da convers√£o de texto para entradas num√©ricas para a rede neural, e da convers√£o de volta ao texto quando for necess√°rio. Eles s√£o um dos componentes centrais do pipeline da PNL. Eles t√™m um prop√≥sito: traduzir texto em dados que podem ser processados pelo modelo. Os modelos s√≥ podem processar n√∫meros, portanto os tokenizers precisam converter nossas entradas de texto em dados num√©ricos. O objetivo dos tokenizers √© encontrar a representa√ß√£o mais significativa - ou seja, a que faz mais sentido para o modelo - e, se poss√≠vel, a menor representa√ß√£o.

Os tokernizers podem ser divididos em:
- Baseado em palavras (word-based):
- Baseado em caracteres (Character-based)
- Tokeniza√ß√£o por sub-palavras (Subword tokenization)


### Baseado em palavras (word-based):
O primeiro tipo de tokenizer que me vem √† mente √© baseado em palavras. √â geralmente muito f√°cil de instalar e usar com apenas algumas regras, e muitas vezes produz resultados decentes. Por exemplo, na imagem abaixo, o objetivo √© dividir o texto bruto em palavras e encontrar uma representa√ß√£o num√©rica para cada uma delas:

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/word_based_tokenization.svg">

H√° diferentes maneiras de dividir o texto. Por exemplo, poder√≠amos utilizar o espa√ßo em branco para simbolizar o texto em palavras, usando a fun√ß√£o split() do Python:

```python
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)
['Jim', 'Henson', 'was', 'a', 'puppeteer']

```

H√° tamb√©m varia√ß√µes de tokenizers de palavras que t√™m regras extras para pontua√ß√£o. Com este tipo de tokenizer, podemos terminar com alguns ‚Äúvocabul√°rios‚Äù bem grandes, onde um vocabul√°rio √© definido pelo n√∫mero total de tokens independentes que tem no texto de exemplo.

A cada palavra √© atribu√≠da uma identifica√ß√£o, come√ßando em 0 e indo at√© o tamanho do vocabul√°rio. O modelo utiliza estas identifica√ß√µes para identificar cada palavra.

Se quisermos cobrir completamente um idioma com um tokenizer baseado em palavras, precisaremos ter um identificador para cada palavra no idioma, o que gerar√° uma enorme quantidade de tokens. Por exemplo, existem mais de 500.000 palavras no idioma ingl√™s, portanto, **para construir um mapa a partir de cada palavra para um ID de entrada, precisar√≠amos manter um registro desse grande n√∫mero de IDs**. Al√©m disso, palavras como ‚Äúdog‚Äù s√£o representadas de forma diferente de palavras como ‚Äúdogs‚Äù, e **o modelo inicialmente n√£o ter√° como saber que ‚Äúdog‚Äù e ‚Äúdogs‚Äù s√£o semelhantes**: ele identificar√° as **duas palavras como n√£o relacionadas**. O mesmo se aplica a outras palavras semelhantes, como ‚Äúrun‚Äù e ‚Äúrunning‚Äù, que o modelo n√£o ver√° inicialmente como sendo semelhantes.

Finalmente, precisamos de token personalizada para representar palavras que n√£o est√£o em nosso vocabul√°rio. Isto √© conhecido como o s√≠mbolo ‚Äúunknown‚Äù (desconhecido), frequentemente representado como ‚Äù[UNK]‚Äù ou ‚Äù‚Äù. Geralmente √© um mau sinal se voc√™ v√™ que o tokenizer est√° produzindo muitos desses tokens, pois n√£o foi capaz de recuperar uma representa√ß√£o sensata de uma palavra e voc√™ est√° perdendo informa√ß√µes ao longo do caminho. O objetivo ao elaborar o vocabul√°rio √© faz√™-lo de tal forma que o tokenizer transforme o menor n√∫mero poss√≠vel de palavras no token desconhecido.

Principais pontos fracos:
- Vocabul√°rios muito grandes
- Muitas palavras desconhecidas, por nao terem sido inclu√≠das no dicionario
- Perda de significado entre palavras muito similares

Uma maneira de **reduzir a quantidade de tokens desconhecidas** √© ir um n√≠vel mais fundo, usando um tokenizer baseado em caracteres.


### Baseado em caracteres (Character-based)
Os tokenizers baseados em caracteres dividem o texto em caracteres, ao inv√©s de palavras. Isto tem dois benef√≠cios principais:

O vocabul√°rio ser√° muito menor;
H√° muito menos tokes fora de vocabul√°rio (desconhecidas), uma vez que cada palavra pode ser constru√≠da a partir de personagens.
Mas tamb√©m aqui surgem algumas quest√µes sobre os espa√ßos e √† pontua√ß√£o:

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/character_based_tokenization.svg">

Esta abordagem tamb√©m n√£o √© perfeita. Como a representa√ß√£o agora √© baseada em caracteres e n√£o em palavras, pode-se argumentar que, intuitivamente, **ela √© menos significativa**: **cada caractere n√£o significa muito por si s√≥**, ao contrario do caso das palavras. No entanto, isto novamente difere de acordo com o idioma; em chin√™s, por exemplo, cada caractere traz mais informa√ß√µes do que um caractere em um idioma latino.

Outra coisa a considerar √© que **acabaremos com uma quantidade muito grande de tokens a serem processadas por nosso modelo**: enquanto uma palavra seria apenas um √∫nico token com um tokenizer baseado em palavras, ela pode facilmente se transformar em 10 ou mais tokens quando convertida em caracteres.

Principais pontos fracos:
- Sequ√™ncias muito grandes
- Perda de significado entre tokens individuais

Para obter o **melhor dos dois mundos**, podemos usar uma terceira t√©cnica que combina as duas abordagens: Tokeniza√ß√£o por sub-palavras.


### Tokeniza√ß√£o por sub-palavras (Subword tokenization)

Algoritmos de tokeniza√ß√£o de sub-palavras baseiam-se no princ√≠pio de que **palavras frequentemente usadas n√£o devem ser divididas em sub-palavras menores, mas palavras raras devem ser decompostas em sub-palavras significativas.**

Por exemplo, ‚Äúirritantemente‚Äù poderia ser considerado uma palavra rara e poderia ser decomposto em ‚Äúirritante‚Äù e ‚Äúmente‚Äù. √â prov√°vel que ambas apare√ßam mais frequentemente como sub-palavras isoladas, enquanto ao mesmo tempo o significado de ‚Äúirritantemente‚Äù √© mantido pelo significado composto de ‚Äúirritante‚Äù e ‚Äúmente‚Äù.

Aqui est√° um exemplo que mostra como um algoritmo de tokeniza√ß√£o de uma sub-palavra indicaria a sequ√™ncia ‚ÄúLet‚Äôs do tokenization!

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/bpe_subword.svg">

Estas sub-palavras acabam fornecendo muito significado sem√¢ntico: por exemplo, **no exemplo acima ‚Äútokenization‚Äù foi dividido em ‚Äútoken‚Äù e ‚Äúization‚Äù, dois tokens que t√™m um significado sem√¢ntico enquanto s√£o eficientes em termos de espa√ßo** (apenas dois tokens s√£o necess√°rios para representar uma palavra longa). Isto **nos permite ter uma cobertura relativamente boa com pequenos vocabul√°rios, e perto de nenhum token desconhecido.**

Esta abordagem √© especialmente √∫til em idiomas aglutinativos como o turco, onde √© poss√≠vel formar palavras (quase) arbitrariamente longas e complexas, encadeando sub-palavras.


### Carregando e salvando
Carregando e salvando tokenizers √© t√£o simples quanto com os modelos. Na verdade, ele se baseia nos mesmos dois m√©todos: ```from_pretrained()``` e ```save_pretrained()```. Estes m√©todos ir√£o carregar ou salvar o algoritmo utilizado pelo tokenizer (um pouco como a ```arquitetura``` do modelo), bem como seu vocabul√°rio (um pouco como os ```pesos``` do modelo).

O carregamento do tokenizer BERT treinado com o mesmo checkpoint do BERT √© feito da mesma forma que o carregamento do modelo, exceto que utilizamos a classe ```BertTokenizer```:

```python
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
```

Similar ao AutoModel, a classe AutoTokenizer ira carregar a classe tokenizer apropriada na biblioteca com base no nome do checkpoint, e pode ser utilizada diretamente com qualquer checkpoint:

```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

```

Agora podemos usar o tokenizer, como mostrado na se√ß√£o anterior:
```python
tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
```

Salvar um tokenizer √© id√™ntico a salvar um modelo:
```python
tokenizer.save_pretrained("directory_on_my_computer")

output:
    ('directory_on_my_computer/tokenizer_config.json',
     'directory_on_my_computer/special_tokens_map.json',
     'directory_on_my_computer/vocab.txt',
     'directory_on_my_computer/added_tokens.json',
     'directory_on_my_computer/tokenizer.json')
```

### Encoding
Traduzir texto para n√∫meros √© conhecido como encoding. O encoding √© feito em um processo de duas etapas: a tokeniza√ß√£o, seguida pela convers√£o para IDs de entrada.

O primeiro passo √© dividir o texto em palavras (ou partes de palavras, s√≠mbolos de pontua√ß√£o, etc.), normalmente chamadas de tokens. H√° v√°rias regras que podem guiar esse processo, e √© por isso que precisamos instanciar o tokenizer usando o nome do modelo, para nos certificarmos de usar as mesmas regras que foram usadas quando o modelo foi pr√©-treinado.

O segundo passo √© converter esses tokens em n√∫meros, para que possamos construir um tensor a partir deles e aliment√°-los com o modelo. Para isso, **o tokenizer tem um vocabul√°rio (vocabulary)**, que √© a parte que realizamos o download quando o instanciamos com o m√©todo ```from_pretrained()```. Mais uma vez, precisamos utilizar o mesmo vocabul√°rio utilizado quando o modelo foi pr√©-treinado

Para entender melhor os dois passos, vamos explor√°-los separadamente. Note que usaremos alguns m√©todos que executam partes da pipeline de tokeniza√ß√£o separadamente para mostrar os resultados intermedi√°rios dessas etapas, mas na pr√°tica, voc√™ deve chamar o tokenizer diretamente em suas entradas


O processo de tokenization √© feito atrav√©s do m√©todo tokenize() do tokenizer:

```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)
output:
    ['Using', 'a', 'transform', '##er', 'network', 'is', 'simple']
```    
Este tokenizer √© um tokenizer de sub-palavras: ele divide as palavras at√© obter tokens que podem ser representadas por seu vocabul√°rio. √â o caso aqui do ‚Äútransformer‚Äù, que √© dividido em dois tokens: ‚Äútransform‚Äù e ‚Äú##er‚Äù.

A convers√£o para IDs de entrada √© feita pelo m√©todo de tokeniza√ß√£o ```convert_tokens_to_ids()```:


```python
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)
[7993, 170, 11303, 1200, 2443, 1110, 3014]

```
Estas sa√≠das, uma vez convertidas no tensor com a estrutura apropriada, podem ent√£o ser usadas como entradas para um modelo como visto anteriormente.

```python
final_inputs = tokenizer.prepare_for_model(ids)
print(final_inputs["input_ids"])

output:
    [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102]

```


### Decoding
Decoding vai pela dire√ß√£o ao contr√°rio: a partir de √≠ndices de vocabul√°rio, queremos obter uma string. Isto pode ser feito com o m√©todo decode() da seguinte forma:

```python
decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)

output:
    Using a transformer network is simple
```

Observe que o m√©todo decode n√£o apenas converte os √≠ndices em tokens, mas tamb√©m agrupa os tokens que fizeram parte das mesmas palavras para produzir uma frase leg√≠vel. Este comportamento ser√° extremamente √∫til quando utilizamos modelos que preveem um novo texto (seja texto gerado a partir de um prompt, ou para problemas de sequence-to-sequence como tradu√ß√£o ou sumariza√ß√£o).

## Tratando Sequencias M√∫ltiplas

Os modelos esperam um batch de entradas. Anteriormente, vimos como as sequ√™ncias s√£o traduzidas em listas de n√∫meros. Vamos converter esta lista de n√∫meros em um tensor e envi√°-la para o modelo

```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor(ids)
# This line will fail.
model(input_ids)

IndexError: Dimension out of range (expected to be in range of [-1, 0], but got 1)
```

O problema √© que enviamos uma √∫nica sequ√™ncia para o modelo, enquanto que os ü§ó transformers esperam v√°rias senten√ßas por padr√£o. Aqui tentamos fazer tudo o que o tokenizer fez nos bastidores quando o aplicamos a uma sequ√™ncia, mas se voc√™ olhar com aten√ß√£o, ver√° que ele n√£o apenas converteu a lista de IDs de entrada em um tensor, mas acrescentou uma dimens√£o em cima dele:

```python
tokenized_inputs = tokenizer(sequence, return_tensors="pt")
print(tokenized_inputs["input_ids"])

tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102]])
```


Vamos tentar novamente e acrescentar uma nova dimens√£o:
```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)

input_ids = torch.tensor([ids]) # IDS COMO LISTA AQUI
print("Input IDs:", input_ids)

output = model(input_ids)
print("Logits:", output.logits)

# Printamos os IDs de entrada assim como os logits resultantes - aqui est√° a sa√≠da:
Input IDs: [[ 1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,  2607, 2026,  2878,  2166,  1012]]
Logits: [[-2.7276,  2.8789]]
    
# Para termos a previs√£o, precisamos aplicar a fun√ß√£o de ativa√ß√£o nos logits:
logits = output.logits
probabilities = F.softmax(logits, dim=1)
print("Probabilities:", probabilities)

predicted_class = torch.argmax(probabilities, dim=1)
print("Predicted class:", predicted_class.item())
    
``` 

***Batching*** √© o ato de enviar m√∫ltiplas senten√ßas atrav√©s do modelo, todas de uma s√≥ vez. Se voc√™ tiver apenas uma frase, voc√™ pode apenas construir um lote com uma √∫nica sequ√™ncia: batched_ids = [ids, ids]

O Batching permite que o modelo funcione quando voc√™ o alimenta com v√°rias frases. Usar v√°rias sequ√™ncias √© t√£o simples quanto construir um lote com uma √∫nica sequ√™ncia. H√° uma segunda quest√£o, no entanto. Quando voc√™ est√° tentando agrupar duas (ou mais) senten√ßas, elas podem ser de comprimentos diferentes. Se voc√™ j√° trabalhou com tensores antes, voc√™ sabe que eles precisam ser de forma retangular, ent√£o voc√™ n√£o ser√° capaz de converter a lista de IDs de entrada em um tensor diretamente. Para contornar este problema, normalmente realizamos uma **padroniza√ß√£o (padding)** nas entradas. A seguinte lista de listas n√£o pode ser convertida em um tensor:

```python
padding_id = 100

batched_ids = [
    [200, 200, 200],
    [200, 200, padding_id],
]
```
O padding do ID token pode ser encontrada em tokenizer.pad_token_id. Vamos utiliz√°-lo e enviar nossas duas frases atrav√©s do modelo individualmente e agrupadas em batches:

```python
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)

tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)
tensor([[ 1.5694, -1.3895],
        [ 1.3373, -1.2163]], grad_fn=<AddmmBackward>)
```
a segunda fileira deveria ser a mesma que os logits para a segunda frase, mas temos valores completamente diferentes!

Isto porque a caracter√≠stica chave dos Transformer s√£o as camadas de aten√ß√£o que contextualizam cada token. Estes levar√£o em conta os tokens de padding, uma vez que atendem a todos os tokens de uma sequ√™ncia. Para obter o mesmo resultado ao passar frases individuais de diferentes comprimentos pelo modelo ou ao passar um batch com as mesmas frases e os paddings aplicados, precisamos dizer a essas camadas de aten√ß√£o para ignorar os tokens de padding. Isto √© feito com o uso de uma **m√°scara de aten√ß√£o (attention mask)**.

**Attention masks** s√£o tensores com a mesma forma exata do tensor de IDs de entrada, preenchidos com 0s e 1s: 1s indicam que os tokens correspondentes devem ser atendidas, e 0s indicam que os tokens correspondentes n√£o devem ser atendidas (ou seja, devem ser ignoradas pelas camadas de aten√ß√£o do modelo).

Vamos completar o exemplo anterior com uma m√°scara de aten√ß√£o:

```python
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]

outputs = model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)
```

Agora obtemos os mesmos logits para a segunda frase do batch. Observe como o √∫ltimo valor da segunda sequ√™ncia √© um ID de padding, que √© um valor 0 na m√°scara de aten√ß√£o.

Com os Transformer, h√° um limite para os comprimentos das sequ√™ncias, podemos passar os modelos. A maioria dos modelos manipula sequ√™ncias de at√© 512 ou 1024 tokens, e se chocar√° quando solicitados a processar sequ√™ncias mais longas. H√° duas solu√ß√µes para este problema:

- Use um modelo com suporte a um comprimento mais longo de sequ√™ncia.
Trunque suas sequ√™ncias.
- Os modelos t√™m diferentes comprimentos de sequ√™ncia suportados, e alguns s√£o especializados no tratamento de sequ√™ncias muito longas. O Longformer √© um exemplo, e outro exemplo √© o LED. Se voc√™ estiver trabalhando em uma tarefa que requer sequ√™ncias muito longas, recomendamos que voc√™ d√™ uma olhada nesses modelos.

Caso contr√°rio, recomendamos que voc√™ trunque suas sequ√™ncias, especificando o par√¢metro max_sequence_length:

```python
sequence = sequence[:max_sequence_length]
```

## Agrupando tudo

```python
# Importando a biblioteca PyTorch e as classes necess√°rias do Transformers
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Especificando o modelo pr√©-treinado a ser utilizado
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# Inicializando o tokenizador associado ao modelo pr√©-treinado
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# Inicializando o modelo pr√©-treinado para classifica√ß√£o de sequ√™ncias
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

# Definindo duas sequ√™ncias de texto para classifica√ß√£o
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Tokenizando as sequ√™ncias e obtendo os logits
tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
output = model(**tokens)
logits = output.logits

# Aplicando softmax para obter probabilidades
from torch.nn.functional import softmax
probabilities = softmax(logits, dim=1)

# Determinando as classes previstas
predicted_classes = torch.argmax(probabilities, dim=1)

# Interpretando as classes previstas
class_labels = ["Negativo", "Positivo"]
for i, sequence in enumerate(sequences):
    print(f"Sequ√™ncia: {sequence}")
    print(f"Classe Prevista: {class_labels[predicted_classes[i].item()]}")
    print(f"Probabilidades (Negativo, Positivo): {probabilities[i].tolist()}")
    print()

```

Este c√≥digo usa um modelo pr√©-treinado (DistilBERT) finetunado para a tarefa de classifica√ß√£o bin√°ria no conjunto de dados SST-2 (sentiment analysis). Ele tokeniza duas sequ√™ncias de texto, passa-as pelo modelo, calcula as probabilidades de pertencer a cada classe usando a fun√ß√£o softmax e interpreta as classes previstas, imprimindo as sequ√™ncias, as classes previstas e as probabilidades associadas.

# Fine tuning

## Pr√©processando dados

### Exemplo
```python
import torch
from transformers import AdamW, AutoTokenizer, AutoModelForSequenceClassification

# Carregando o modelo BERT pr√©-treinado e o tokenizador associado
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

# Definindo duas sequ√™ncias de texto para classifica√ß√£o
sequences = [
    "I've been waiting for a HuggingFace course my whole life.",
    "This course is amazing!",
]

# Tokenizando as sequ√™ncias, aplicando padding e truncamento, e retornando tensores PyTorch
batch = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# Adicionando r√≥tulos de classe ao lote (labels)
batch["labels"] = torch.tensor([1, 1])

# Inicializando o otimizador AdamW para ajustar os par√¢metros do modelo
optimizer = AdamW(model.parameters())

# Realizando o c√°lculo da perda (loss) para as sequ√™ncias no lote
# O modelo √© chamado com as sequ√™ncias tokenizadas e os r√≥tulos (labels)
loss = model(**batch).loss

# Propagando o gradiente para realizar o ajuste dos par√¢metros do modelo
loss.backward()

# Realizando uma etapa de otimiza√ß√£o para atualizar os par√¢metros
optimizer.step()
```

### Carregando um dataset

O hugginface hub cont√©m diversos datasets, e com comandos simples podemos baix√°-los em armazenar em cache. Por exemplo:

```python
from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})
```

Temos um ```DatasetDict```, que cont√©m os dados de treino, valida√ß√£o e teste. Cada datapoint √© composto por duas senten√ßas, e o label nos diz se as frases s√£o par√°frases ou n√£o, e o num_rows nos diz a quantidade de datapoints de cada conjunto de dados. Esse comando armazena o dataset em cache em ```~/.cache/huggingface/datasets```.

Podemos acessar os pares de frases no raw_datasets usando √≠ndices, como um dicion√°rio

```python
raw_train_dataset = raw_datasets["train"]
raw_train_dataset[0]

{'idx': 0,
 'label': 1,
 'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .'}
```

Para saber qual inteiro da label corresponde a qual label, podemos verificar as features do dataset ao executar o seguinte comando:

```python
raw_train_dataset.features

{'sentence1': Value(dtype='string', id=None),
 'sentence2': Value(dtype='string', id=None),
 'label': ClassLabel(num_classes=2, names=['not_equivalent', 'equivalent'], names_file=None, id=None),
 'idx': Value(dtype='int32', id=None)}
```

Atr√°s dos panos, o label √© do tipo ClassLabel, e √© mapeado em inteiros, em que 0 corresponde ao "not_equivalent" e 1 ao "equivalent".

### Preprocessando os datasets

Para preprocessar o dataset, precisamos converter o texto em representa√ß√µes num√©ricas para entrar como input no modelo. Fazemos isso utilizando o tokenizer, inputamos o tokenizer como uma senten√ßa ou uma lista delas, e, podemos tokenizar todas diretamente. Como estamos lidando com pares de frases, precisamos tokenizar os pares.

```python
from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{ 
  'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102],
  'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1],
  'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
```
Aqui, o token_type_ids indica se o qual parte do input se refere a primeira senten√ßa e qual se refere a segunda. Podemos decodificar de volta para palavras:

```python
tokenizer.convert_ids_to_tokens(inputs["input_ids"])
['[CLS]', 'this', 'is', 'the', 'first', 'sentence', '.', '[SEP]', 'this', 'is', 'the', 'second', 'one', '.', '[SEP]']

# o modelo espera que os inputs estejam na forma de [CLS] sentence1 [SEP] sentence2 [SEP], alinhado com o que foi retornado no token_type_ids

['[CLS]', 'this', 'is', 'the', 'first', 'sentence', '.', '[SEP]', 'this', 'is', 'the', 'second', 'one', '.', '[SEP]']
[      0,      0,    0,     0,       0,          0,   0,       0,      1,    1,     1,        1,     1,   1,       1]
```

Outros checkpoints como o DistilBERT n√£o v√£o retornar o token_type_ids, porqu√™ ele n√£o foi treinado com pares de frases como o BERT. 

Outra forma de tokenizar e de forma acelerada √© atrav√©s de uma fun√ß√£o, como os datasets s√£o arqiuvos de apache arrow, somente o valor acessado fica em mem√≥ria. Esse processo pode ser feito com outros tipos de preprocessamento al√©m da tokeniza√ß√£o. Podemos usar a fun√ß√£o atrav√©s do m√©todo .map() e utilizando batched=True, aumentando a velocidade. Ao utilizar batched=True, a fun√ß√£o √© aplicada em multiplos elementos do dataset de uma vez, e n√£o separadamente, aumentando a valocidade do preprocessamento

```python
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
tokenized_datasets
```
A forma como os datasets do huggingface aplicam o preprocessamento √© adicionando novos campos ao dataset, um para cada chave no dicion√°rio retornado pela fun√ß√£o de preprocesamento.

```python
DatasetDict({
    train: Dataset({
        features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
        num_rows: 408
    })
    test: Dataset({
        features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
        num_rows: 1725
    })
})
```

Poder√≠amos tamb√©m usar multiprocessamento ao aplicar sua fun√ß√£o de pr√©-processamento com map() passando um argumento num_proc.

Nossa tokenize_function retorna um dicion√°rio com as chaves input_ids, Attention_mask e token_type_ids, portanto, esses tr√™s campos s√£o adicionados a todas as divis√µes do nosso conjunto de dados. Observe que tamb√©m poder√≠amos ter alterado os campos existentes se nossa fun√ß√£o de pr√©-processamento retornasse um novo valor para uma chave existente no conjunto de dados ao qual aplicamos map().

### Dynamic Padding

A fun√ß√£o respons√°vel por reunir amostras dentro de um lote √© chamada de **collate function**. √â um argumento que voc√™ pode passar ao construir um DataLoader, sendo o padr√£o uma fun√ß√£o que apenas converter√° suas amostras em tensores PyTorch e os concatenar√° (recursivamente se seus elementos forem listas, tuplas ou dicion√°rios). Isso n√£o ser√° poss√≠vel no nosso caso, pois as entradas que temos n√£o ser√£o todas do mesmo tamanho. Adiamos deliberadamente o preenchimento, para aplic√°-lo apenas conforme necess√°rio em cada lote e evitar entradas muito longas com muito preenchimento. Isso ir√° acelerar um pouco o treinamento, mas observe que se voc√™ estiver treinando em uma TPU, isso poder√° causar problemas ‚Äì as TPUs preferem formas fixas, mesmo quando isso requer preenchimento extra.

Para fazer isso na pr√°tica, temos que definir uma **collate function** que aplicar√° a quantidade correta de preenchimento aos itens do conjunto de dados que queremos agrupar em lote. Felizmente, a biblioteca ü§ó Transformers nos fornece essa fun√ß√£o via **DataCollatorWithPadding**. √â necess√°rio um tokenizer quando voc√™ o instancia (para saber qual token de preenchimento usar e se o modelo espera que o preenchimento esteja √† esquerda ou √† direita das entradas) e far√° tudo o que voc√™ precisa.

Para testar, vamos pegar algumas amostras do nosso conjunto de treinamento que gostar√≠amos de agrupar. Aqui, removemos as colunas idx, senten√ßa1 e senten√ßa2 porque elas n√£o ser√£o necess√°rias e cont√™m strings (e n√£o podemos criar tensores com strings) e damos uma olhada nos comprimentos de cada entrada no lote:

```python
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}
[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]
```

N√£o √© nenhuma surpresa, obtemos amostras de comprimentos variados, de 32 a 67. Preenchimento din√¢mico significa que todas as amostras neste lote devem ser preenchidas at√© um comprimento de 67, o comprimento m√°ximo dentro do lote. Sem preenchimento din√¢mico, todas as amostras teriam que ser preenchidas at√© o comprimento m√°ximo em todo o conjunto de dados ou at√© o comprimento m√°ximo que o modelo pode aceitar. Vamos verificar se nosso data_collator est√° preenchendo dinamicamente o lote de maneira adequada:

```python
batch = data_collator(samples)
{k: v.shape for k, v in batch.items()}

{'attention_mask': torch.Size([8, 67]),
 'input_ids': torch.Size([8, 67]),
 'token_type_ids': torch.Size([8, 67]),
 'labels': torch.Size([8])}
```

## Finetune de modelo com o API Trainer ou Keras

### Training

ü§ó Transformers oferece uma classe Trainer para ajud√°-lo a ajustar qualquer um dos modelos pr√©-treinados fornecidos em seu conjunto de dados. Depois de concluir todo o trabalho de pr√©-processamento de dados na √∫ltima se√ß√£o, faltam apenas algumas etapas para definir a classe Trainer. A parte mais dif√≠cil provavelmente ser√° preparar o ambiente para executar Trainer.train(), pois ele ser√° executado muito lentamente em uma CPU.

Os exemplos de c√≥digo abaixo pressup√µem que voc√™ j√° executou os exemplos da se√ß√£o anterior. Aqui est√° um breve resumo recapitulando o que voc√™ precisa:

```python
from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)


tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

```

O primeiro passo antes de definirmos nosso Trainer √© definir uma classe TrainingArguments que conter√° todos os hiperpar√¢metros que o Trainer usar√° para treinamento e avalia√ß√£o. O √∫nico argumento que voc√™ precisa fornecer √© um diret√≥rio onde o modelo treinado ser√° salvo, bem como os pontos de verifica√ß√£o ao longo do caminho. Para todo o resto, voc√™ pode deixar os padr√µes, o que deve funcionar muito bem para um ajuste b√°sico.

```python
from transformers import TrainingArguments
from transformers import AutoModelForSequenceClassification

# define the trainer
training_args = TrainingArguments("test-trainer")

# defining the model
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
```

Voc√™ notar√° que, diferentemente do Cap√≠tulo 2, voc√™ receber√° um aviso ap√≥s instanciar este modelo pr√©-treinado. Isso ocorre porque o BERT n√£o foi pr√©-treinado para classificar pares de senten√ßas, ent√£o o n√∫cleo do modelo pr√©-treinado foi descartado e um novo n√∫cleo adequado para classifica√ß√£o de sequ√™ncia foi adicionado. Os avisos indicam que alguns pesos n√£o foram utilizados (os correspondentes ao cabe√ßote de pr√©-treinamento descartado) e que outros foram inicializados aleatoriamente (os do novo cabe√ßote). Conclui incentivando voc√™ a treinar o modelo, que √© exatamente o que faremos agora.

Assim que tivermos nosso modelo, podemos definir um Trainer passando para ele todos os objetos constru√≠dos at√© agora ‚Äî o modelo, o training_args, os conjuntos de dados de treinamento e valida√ß√£o, nosso data_collator e nosso tokenizer:

```python
from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

# fine tuning
trainer.train()
```

Isso iniciar√° o ajuste fino (que deve levar alguns minutos em uma GPU) e relatar√° a perda de treinamento a cada 500 etapas. No entanto, n√£o dir√° qu√£o bom (ou ruim) est√° o desempenho do seu modelo. Isto √© porque:

- N√£o instru√≠mos o instrutor a avaliar durante o treinamento, definindo a avalia√ß√£o_estrat√©gia como "etapas" (avaliar cada eval_steps) ou "√©poca" (avaliar no final de cada √©poca).
- N√£o fornecemos ao Trainer uma fun√ß√£o compute_metrics() para calcular uma m√©trica durante a referida avalia√ß√£o (caso contr√°rio, a avalia√ß√£o teria apenas impresso a perda, o que n√£o √© um n√∫mero muito intuitivo).

### Evaluation

Vamos ver como podemos construir uma fun√ß√£o computacional_metrics() √∫til e us√°-la na pr√≥xima vez que treinarmos. A fun√ß√£o deve pegar um objeto EvalPrediction (que √© uma tupla nomeada com um campo de previs√µes e um campo label_ids) e retornar√° um dicion√°rio de mapeamento de strings para floats (as strings s√£o os nomes das m√©tricas retornadas e os floats s√£o seus valores). Para obter algumas previs√µes do nosso modelo, podemos usar o comando Trainer.predict():

```python
predictions = trainer.predict(tokenized_datasets["validation"])
print(predictions.predictions.shape, predictions.label_ids.shape)
(408, 2) (408,)
```

A sa√≠da do m√©todo prever() √© outra tupla nomeada com tr√™s campos: previs√µes, r√≥tulo_ids e m√©tricas. O campo de m√©tricas conter√° apenas a perda no conjunto de dados transmitido, bem como algumas m√©tricas de tempo (quanto tempo levou para prever, no total e em m√©dia). Depois de concluirmos nossa fun√ß√£o compute_metrics() e pass√°-la para o Trainer, esse campo tamb√©m conter√° as m√©tricas retornadas por compute_metrics().

Como voc√™ pode ver, as previs√µes s√£o uma matriz bidimensional com formato 408 x 2 (sendo 408 o n√∫mero de elementos no conjunto de dados que usamos). Esses s√£o os logits de cada elemento do conjunto de dados que passamos para predizer() (como voc√™ viu no cap√≠tulo anterior, todos os modelos do Transformer retornam logits). Para transform√°-los em previs√µes que possamos comparar com nossos r√≥tulos, precisamos pegar o √≠ndice com valor m√°ximo no segundo eixo:

```python
import numpy as np
import evaluate

preds = np.argmax(predictions.predictions, axis=-1)

metric = evaluate.load("glue", "mrpc")
metric.compute(predictions=preds, references=predictions.label_ids)
{'accuracy': 0.8578431372549019, 'f1': 0.8996539792387542}
```

Os resultados exatos obtidos podem variar, pois a inicializa√ß√£o aleat√≥ria do cabe√ßote do modelo pode alterar as m√©tricas alcan√ßadas. Aqui, podemos ver que nosso modelo tem uma precis√£o de 85,78% no conjunto de valida√ß√£o e uma pontua√ß√£o F1 de 89,97. Essas s√£o as duas m√©tricas usadas para avaliar os resultados do conjunto de dados MRPC para o benchmark GLUE. A tabela no artigo do BERT relatou uma pontua√ß√£o F1 de 88,9 para o modelo b√°sico. Esse foi o modelo sem case, enquanto atualmente usamos o modelo com case, o que explica o melhor resultado.

Juntando tudo, obtemos nossa fun√ß√£o compute_metrics(). E para v√™-lo usado em a√ß√£o para relatar m√©tricas no final de cada √©poca, aqui est√° como definimos um novo Trainer com esta fun√ß√£o compute_metrics():

```python
# Importando as bibliotecas e m√≥dulos necess√°rios
import numpy as np
from datasets import load_dataset, load_metric
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

# Definindo uma fun√ß√£o para calcular m√©tricas de avalia√ß√£o
def compute_metrics(eval_preds):
    # Carregando a m√©trica espec√≠fica do conjunto de dados MRPC do GLUE
    metric = load_metric("glue", "mrpc")

    # Obtendo as previs√µes e r√≥tulos a partir das previs√µes do modelo
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)

    # Computando as m√©tricas usando a m√©trica espec√≠fica do GLUE para MRPC
    return metric.compute(predictions=predictions, references=labels)

# Configurando os argumentos de treinamento
training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")

# Inicializando o modelo para classifica√ß√£o de sequ√™ncias com o n√∫mero de r√≥tulos (labels) definido como 2
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# Inicializando o objeto Trainer para facilitar o treinamento
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

# Iniciando o treinamento fino (fine-tuning)
trainer.train()
```

Este c√≥digo utiliza a biblioteca Transformers da Hugging Face para treinar um modelo de classifica√ß√£o de sequ√™ncias (no caso, um modelo DistilBERT) no conjunto de dados MRPC do GLUE. Ele configura os argumentos de treinamento, inicializa o modelo, o tokenizador, e o objeto Trainer, e, finalmente, inicia o treinamento fino (fine-tuning) do modelo no conjunto de dados fornecido. A fun√ß√£o compute_metrics √© usada para calcular m√©tricas de avalia√ß√£o durante o treinamento.

Observe que criamos um novo TrainingArguments com sua ```evaluation_strategy``` definida como "√©poca" e um novo modelo ‚Äî caso contr√°rio, estar√≠amos apenas continuando o treinamento do modelo que j√° treinamos. Para iniciar uma nova execu√ß√£o de treinamento, executamos ```trainer.train()```

Desta vez, ele reportar√° a perda de valida√ß√£o e as m√©tricas no final de cada √©poca, al√©m da perda de treinamento. O Trainer funcionar√° imediatamente em v√°rias GPUs ou TPUs e oferece muitas op√ß√µes, como treinamento de precis√£o mista (use fp16 = True em seus argumentos de treinamento)

## A full training

Short summary...

```python
# Importando as bibliotecas necess√°rias
from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

# Carregando o conjunto de dados MRPC do GLUE
raw_datasets = load_dataset("glue", "mrpc")

# Especificando o modelo pr√©-treinado que ser√° utilizado (BERT neste caso)
checkpoint = "bert-base-uncased"

# Inicializando o tokenizador associado ao modelo pr√©-treinado
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# Definindo uma fun√ß√£o de tokeniza√ß√£o que ser√° aplicada ao conjunto de dados
def tokenize_function(example):
    # Aplicando a tokeniza√ß√£o para cada exemplo no conjunto de dados
    # sentence1 e sentence2 s√£o as chaves para as colunas de texto no conjunto de dados MRPC
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

# Aplicando a fun√ß√£o de tokeniza√ß√£o para cada exemplo no conjunto de dados, em lotes (batched)
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

# Inicializando o objeto DataCollatorWithPadding, que ser√° usado para processar os dados antes do treinamento
# Este objeto lida com o padding dos dados para que possam ser agrupados em lotes (batches)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
```

### Prepare for training

Antes de escrever nosso loop de treinamento, precisaremos definir alguns objetos. Os primeiros s√£o os dataloaders que usaremos para iterar em lotes. Mas antes de podermos definir esses dataloaders, precisamos aplicar um pouco de p√≥s-processamento aos nossos tokenized_datasets, para cuidar de algumas coisas que o Trainer fez automaticamente por n√≥s. Especificamente, precisamos:

- Remova as colunas correspondentes aos valores que o modelo n√£o espera (como as colunas senten√ßa1 e senten√ßa2).
- Renomeie o r√≥tulo da coluna para r√≥tulos (porque o modelo espera que o argumento seja nomeado r√≥tulos).
- Defina o formato dos conjuntos de dados para que retornem tensores PyTorch em vez de listas.
Nosso tokenized_datasets possui um m√©todo para cada uma dessas etapas:

```python
# post processing
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
tokenized_datasets.set_format("torch")
tokenized_datasets["train"].column_names

output:
["attention_mask", "input_ids", "labels", "token_type_ids"]

# criando o dataloader
from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_datasets["train"], shuffle=True, batch_size=8, collate_fn=data_collator
)
eval_dataloader = DataLoader(
    tokenized_datasets["validation"], batch_size=8, collate_fn=data_collator
)ta_collator)
```

Para validar o processamento, podemos executar:

```python
for batch in train_dataloader:
    break
{k: v.shape for k, v in batch.items()}

output:
{'attention_mask': torch.Size([8, 65]),
 'input_ids': torch.Size([8, 65]),
 'labels': torch.Size([8]),
 'token_type_ids': torch.Size([8, 65])}    
```

Agora que conclu√≠mos completamente o pr√©-processamento de dados , vamos voltar ao modelo. N√≥s o instanciamos exatamente como fizemos na se√ß√£o anterior:

```python
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

outputs = model(**batch)
print(outputs.loss, outputs.logits.shape)

output:
tensor(0.5441, grad_fn=<NllLossBackward>) torch.Size([8, 2])    

```

Todos os modelos de ü§ó Transformers retornar√£o a perda quando os r√≥tulos forem fornecidos, e tamb√©m obteremos os logits (dois para cada entrada em nosso lote, portanto, um tensor de tamanho 8 x 2).

Para o loop de treinamento faltam duas coisas: um otimizador e um scheduler de taxa de aprendizagem. Como estamos tentando replicar manualmente o que o Trainer estava fazendo, usaremos os mesmos padr√µes. O otimizador usado pelo Trainer √© o AdamW, que √© igual ao Adam, mas com um toque especial para regulariza√ß√£o da queda de peso

```python
# Importando a classe de otimizador AdamW do m√≥dulo transformers
from transformers import AdamW

# Inicializando um otimizador AdamW para ajustar os par√¢metros do modelo
# model.parameters() obt√©m todos os par√¢metros trein√°veis do modelo
# lr=5e-5 define a taxa de aprendizado (learning rate) para o otimizador
optimizer = AdamW(model.parameters(), lr=5e-5)  # lr = taxa de aprendizado

# Importando a fun√ß√£o get_scheduler do m√≥dulo transformers
from transformers import get_scheduler

# Definindo o n√∫mero de √©pocas para treinamento
num_epochs = 3

# Calculando o n√∫mero total de passos de treinamento
num_training_steps = num_epochs * len(train_dataloader)

# Inicializando um escalonador de taxa de aprendizado (learning rate)
# O tipo de escalonador √© "linear", que ajusta linearmente a taxa de aprendizado durante o treinamento
# num_warmup_steps=0 significa que n√£o h√° warm-up (um per√≠odo inicial com taxa de aprendizado baixa)
# num_training_steps define o n√∫mero total de passos de treinamento
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

# Imprimindo o n√∫mero total de passos de treinamento
print(num_training_steps)


output:
1377
```

Neste c√≥digo, um otimizador AdamW √© inicializado para ajustar os par√¢metros do modelo durante o treinamento. Al√©m disso, um escalonador de taxa de aprendizado (learning rate) √© configurado para ajustar linearmente a taxa de aprendizado ao longo dos passos de treinamento. O n√∫mero total de passos de treinamento √© calculado com base no n√∫mero de √©pocas e no tamanho do dataloader de treinamento. O resultado √© impresso como sa√≠da, indicando o n√∫mero total de passos de treinamento que ser√£o executados durante o treinamento do modelo.

### The training loop

Verificando se a GPU est√° dispon√≠vel, caso sim, ser√° usada no treinamento:

```Python
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
device

output:
device(type='cuda')    
```

Criando o loop de treinamento:
```python
# Importando a classe tqdm do m√≥dulo tqdm para exibir barras de progresso
from tqdm.auto import tqdm

# Inicializando uma barra de progresso com o n√∫mero total de passos de treinamento
progress_bar = tqdm(range(num_training_steps))

# Colocando o modelo no modo de treinamento
model.train()

# Iterando sobre o n√∫mero de √©pocas especificado para o treinamento
for epoch in range(num_epochs):
    # Iterando sobre os lotes (batches) de dados no dataloader de treinamento
    for batch in train_dataloader:
        # Movendo os dados para o dispositivo de treinamento (por exemplo, GPU)
        batch = {k: v.to(device) for k, v in batch.items()}

        # Passando o lote pelo modelo e obtendo as sa√≠das
        outputs = model(**batch)

        # Calculando a perda (loss) com base nas sa√≠das do modelo
        loss = outputs.loss

        # Propagando o gradiente para realizar o ajuste dos par√¢metros do modelo
        loss.backward()

        # Atualizando os par√¢metros do modelo usando o otimizador
        optimizer.step()

        # Atualizando a taxa de aprendizado com o escalonador de taxa de aprendizado
        lr_scheduler.step()

        # Zerando os gradientes acumulados no otimizador
        optimizer.zero_grad()

        # Atualizando a barra de progresso para indicar o progresso do treinamento
        progress_bar.update(1)
```

Ele itera sobre o n√∫mero especificado de √©pocas, passa por cada lote de dados no dataloader de treinamento, realiza a propaga√ß√£o para frente (forward pass) atrav√©s do modelo, calcula a perda, realiza a retropropaga√ß√£o (backward pass) para calcular gradientes, atualiza os par√¢metros do modelo usando o otimizador, e repete esse processo at√© que todas as √©pocas e passos de treinamento sejam conclu√≠dos. A barra de progresso √© usada para visualizar o progresso do treinamento.

### Evaluation loop

Como fizemos anteriormente, usaremos uma m√©trica fornecida pela biblioteca ü§ó Evaluate. J√° vimos o m√©todo metric.compute(), mas as m√©tricas podem, na verdade, acumular lotes para n√≥s √† medida que percorremos o loop de previs√£o com o m√©todo add_batch(). Depois de acumularmos todos os lotes, podemos obter o resultado final com metric.compute(). 

```python
# Importando a biblioteca PyTorch e a fun√ß√£o load do m√≥dulo evaluate
import torch
import evaluate

# Carregando a m√©trica espec√≠fica do conjunto de dados MRPC do GLUE
metric = evaluate.load("glue", "mrpc")

# Colocando o modelo no modo de avalia√ß√£o (evaluation)
model.eval()

# Iterando sobre os lotes (batches) de dados no dataloader de avalia√ß√£o (eval_dataloader)
for batch in eval_dataloader:
    # Movendo os dados para o dispositivo de avalia√ß√£o (por exemplo, GPU)
    batch = {k: v.to(device) for k, v in batch.items()}

    # Desativando o c√°lculo do gradiente durante a avalia√ß√£o para economizar recursos
    with torch.no_grad():
        # Passando o lote pelo modelo e obtendo as sa√≠das
        outputs = model(**batch)

    # Obtendo os logits do modelo
    logits = outputs.logits

    # Obtendo as previs√µes ao selecionar a classe com a maior probabilidade (argmax)
    predictions = torch.argmax(logits, dim=-1)

    # Adicionando o lote √†s estat√≠sticas da m√©trica
    metric.add_batch(predictions=predictions, references=batch["labels"])

# Calculando e imprimindo as m√©tricas finais
metric.compute()

output:
{'accuracy': 0.8431372549019608, 'f1': 0.8907849829351535}
```

Este c√≥digo avalia um modelo treinado no conjunto de dados MRPC do GLUE. Ele coloca o modelo no modo de avalia√ß√£o (`model.eval()`), percorre os lotes de dados no dataloader de avalia√ß√£o (`eval_dataloader`), passa cada lote pelo modelo, coleta as previs√µes, adiciona o lote √†s estat√≠sticas da m√©trica e, finalmente, calcula e imprime as m√©tricas finais usando a fun√ß√£o `compute()` da m√©trica espec√≠fica do conjunto de dados MRPC do GLUE.


### Agrupando tudo com o Train API

```python
Aqui est√° um exemplo comentado e explicado de prepara√ß√£o, treinamento em loop e valida√ß√£o em loop de fine-tuning usando a API Trainer da Hugging Face:

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments

# Carregando o tokenizador e o modelo pr√©-treinado
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# Tokenizando os conjuntos de treinamento e valida√ß√£o
train_tokenized = tokenizer(train_texts, padding=True, truncation=True, return_tensors="pt")
val_tokenized = tokenizer(val_texts, padding=True, truncation=True, return_tensors="pt")

# Configurando os argumentos de treinamento
training_args = TrainingArguments(
    output_dir="./fine_tuned_model",
    evaluation_strategy="epoch",
    num_train_epochs=3,
)

# Inicializando o objeto Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_tokenized,
    eval_dataset=val_tokenized,
    data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
    tokenizer=tokenizer,
)

# Fine-tuning do modelo
trainer.train()

# Avalia√ß√£o do modelo no conjunto de valida√ß√£o
results = trainer.evaluate()

# Imprimindo as m√©tricas de avalia√ß√£o
print("Results:", results)
```

Explica√ß√£o:

1. **Carregando Tokenizador e Modelo Pr√©-Treinado:**
   - Um tokenizador e um modelo pr√©-treinado (DistilBERT neste exemplo) s√£o carregados usando a API Transformers.

2. **Tokeniza√ß√£o dos Dados de Treinamento e Valida√ß√£o:**
   - Os conjuntos de treinamento e valida√ß√£o s√£o tokenizados usando o tokenizador carregado.

3. **Configura√ß√£o dos Argumentos de Treinamento:**
   - Os argumentos de treinamento s√£o configurados usando a classe `TrainingArguments`. Neste exemplo, o diret√≥rio de sa√≠da, a estrat√©gia de avalia√ß√£o, e o n√∫mero de √©pocas de treinamento s√£o definidos.

4. **Inicializa√ß√£o do Objeto Trainer:**
   - O objeto `Trainer` √© inicializado com o modelo, os argumentos de treinamento, os conjuntos de treinamento e valida√ß√£o tokenizados, o data collator (para lidar com padding), e o tokenizador.

5. **Fine-tuning do Modelo:**
   - O m√©todo `train` do objeto `Trainer` √© chamado para realizar o fine-tuning do modelo nos dados de treinamento.

6. **Avalia√ß√£o do Modelo no Conjunto de Valida√ß√£o:**
   - O m√©todo `evaluate` do objeto `Trainer` √© chamado para avaliar o modelo no conjunto de valida√ß√£o.

7. **Impress√£o das M√©tricas de Avalia√ß√£o:**
   - As m√©tricas de avalia√ß√£o s√£o impressas para avaliar o desempenho do modelo.

Agora, em loop

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments, DataCollatorWithPadding
import torch

# Exemplo de dados de treinamento e valida√ß√£o (substitua pelos seus pr√≥prios dados)
train_texts = ["I love fine-tuning!", "Fine-tuning is great!"]
val_texts = ["Fine-tuning is working.", "Hugging Face is awesome."]

# Carregando o tokenizador e o modelo pr√©-treinado
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# Tokenizando os conjuntos de treinamento e valida√ß√£o
train_tokenized = tokenizer(train_texts, padding=True, truncation=True, return_tensors="pt")
val_tokenized = tokenizer(val_texts, padding=True, truncation=True, return_tensors="pt")

# Configurando os argumentos de treinamento
training_args = TrainingArguments(
    output_dir="./fine_tuned_model",
    evaluation_strategy="epoch",
    num_train_epochs=3,
)

# Inicializando o objeto Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_tokenized,
    eval_dataset=val_tokenized,
    data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
    tokenizer=tokenizer,
)

# Loop de treinamento
for epoch in range(training_args.num_train_epochs):
    # Treinamento
    trainer.train()

    # Avalia√ß√£o
    results = trainer.evaluate()

    # Imprimir m√©tricas de avalia√ß√£o
    print(f"Epoch {epoch + 1}/{training_args.num_train_epochs}")
    print("Results:", results)
    
    # Avalia√ß√£o no conjunto de valida√ß√£o
    val_results = trainer.evaluate(eval_dataset=val_tokenized)
    print(f"Epoch {epoch + 1}/{training_args.num_train_epochs} - Validation Results:", val_results)

# Salvar o modelo treinado
trainer.save_model("./final_model")
```

### Supercharge the trainig loop with huggingface Accelerate

O loop de treinamento que definimos anteriormente funciona bem em uma √∫nica CPU ou GPU. Mas usando a biblioteca ü§ó Accelerate, com apenas alguns ajustes podemos habilitar o treinamento distribu√≠do em m√∫ltiplas GPUs ou TPUs. 

Aqui, o mesmo c√≥digo mas modificado par utilizar o Accelerate:

```python
+ from accelerate import Accelerator
  from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler

+ accelerator = Accelerator()

  model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
  optimizer = AdamW(model.parameters(), lr=3e-5)

- device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
- model.to(device)

+ train_dataloader, eval_dataloader, model, optimizer = accelerator.prepare(
+     train_dataloader, eval_dataloader, model, optimizer
+ )

  num_epochs = 3
  num_training_steps = num_epochs * len(train_dataloader)
  lr_scheduler = get_scheduler(
      "linear",
      optimizer=optimizer,
      num_warmup_steps=0,
      num_training_steps=num_training_steps
  )

  progress_bar = tqdm(range(num_training_steps))

  model.train()
  for epoch in range(num_epochs):
      for batch in train_dataloader:
-         batch = {k: v.to(device) for k, v in batch.items()}
          outputs = model(**batch)
          loss = outputs.loss
-         loss.backward()
+         accelerator.backward(loss)

          optimizer.step()
          lr_scheduler.step()
          optimizer.zero_grad()
          progress_bar.update(1)
        
```

A primeira linha a ser adicionada √© a linha de importa√ß√£o. A segunda linha instancia um objeto Accelerator que examinar√° o ambiente e inicializar√° a configura√ß√£o distribu√≠da adequada. ü§ó O Accelerate cuida do posicionamento do dispositivo para voc√™, para que voc√™ possa remover as linhas que colocam o modelo no dispositivo (ou, se preferir, alter√°-las para usar accelerator.device em vez de device).

Em seguida, a maior parte do trabalho √© realizada na linha que envia os dataloaders, o modelo e o otimizador para accelerator.prepare(). Isso colocar√° esses objetos no cont√™iner adequado para garantir que seu treinamento distribu√≠do funcione conforme planejado. As altera√ß√µes restantes a serem feitas s√£o remover a linha que coloca o lote no dispositivo (novamente, se voc√™ quiser manter isso, basta alter√°-la para usar accelerator.device) e substituir loss.backward() por accelerator.backward(loss).

Colocar isso em um script train.py tornar√° esse script execut√°vel em qualquer tipo de configura√ß√£o distribu√≠da. Para experimentar em sua configura√ß√£o distribu√≠da, execute o comando:

```python
# solicitar√° que voc√™ responda algumas perguntas e coloque suas respostas em um arquivo de configura√ß√£o usado por este comando
accelerate config

# lan√ßar√° o treinamento distribu√≠do.
accelerate launch train.py
```

# Compartilhando Modelos e Tokenizers

# Datasets Library

# Principais tasks de NLP

# Como pedir ajuda

# Desenvolvendo e Compartilhando Demos