<a href="https://colab.research.google.com/github/Baldros/NLP-Course-HuggingFace/blob/main/2.5.%20Putting_it_all_together.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Apresentação:

    O modulo 2 do curso é uma passagem superficial de como funciona
    a utilização dos modelos do ecossistema da Hugging Face, passando
    um pouco, para isso, por alguns conceitos importantes da arquitetura
    Transformer para NLP. A ideia aqui é juntar tudo que foi visto
    de modo a consolidar o conhecimento.

# Reunindo tudo:

    Nas últimas seções, tentamos fazer a maior parte do trabalho
    manualmente. Exploramos como os tokenizadores funcionam e
    analisamos a tokenização, conversão para IDs de entrada,
    preenchimento, truncamento e máscaras de atenção.

    No entanto, como vimos na seção 2, a API 🤗 Transformers pode
    lidar com tudo isso para nós com uma função de alto nível na qual
    mergulharemos aqui. Quando você chama seu tokenizador diretamente
    na frase, você recebe de volta entradas prontas para passar pelo
    seu modelo:

    Essa primeira etapa é igual para os dois casos, tanto para
    o Pytorch, quanto para o Tensorflow.

In [3]:
# Definindo o checkpoint:
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# Definindo a sequencia:
sequence = "I've been waiting for a HuggingFace course my whole life."

**Pytorch**

In [5]:
# Importando dependencia:
from transformers import AutoTokenizer

In [10]:
# Instanciando o tokenizador:
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# tokenizando:
model_inputs = tokenizer(sequence)

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]}')

input_ids:[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102]
attention_mask:[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]



    Aqui, a variável model_inputs contém tudo o que é necessário para
    que um modelo funcione bem. Para o DistilBERT, isso inclui os IDs
    de entrada, bem como a máscara de atenção. Outros modelos que aceitam
    entradas adicionais também terão essas saídas pelo objeto do tokenizador.

    Poderiamos também ter uma entrada dupla:

In [30]:
# Sequencia com duas entradas:
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Tokenização:
model_inputs = tokenizer(sequences)

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102]] -> (2) -> (16,6)
attention_mask:[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]] -> (2) -> (16,6)


Podemos preencher de acordo com diversos objetivos:

In [37]:
# Preenchendo as sequências até o comprimento máximo de sequência
model_inputs = tokenizer(sequences, padding="longest")

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]] -> (2) -> (16,16)
attention_mask:[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]] -> (2) -> (16,16)


In [38]:
# Preenchendo as sequências até o comprimento máximo do modelo
# (512 para BERT ou DistilBERT)
model_inputs = tokenizer(sequences, padding="max_length")

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

In [39]:
# Preenchendo as sequências até o comprimento máximo especificado
model_inputs = tokenizer(sequences, padding="max_length", max_length=8)
# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102, 0, 0]] -> (2) -> (16,8)
attention_mask:[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 0, 0]] -> (2) -> (16,8)


Também podemos truncar sequências:

In [40]:
# Truncando as sequências que forem mais longas do que o comprimento máximo do modelo
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, truncation=True)

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102]] -> (2) -> (16,6)
attention_mask:[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]] -> (2) -> (16,6)


In [41]:
# truncar as sequências que forem mais longas do que o comprimento máximo especificado
model_inputs = tokenizer(sequences, max_length=8, truncation=True)

# Visualizando:
for key in model_inputs.keys():
  print(f'{key}:{model_inputs[key]} -> ({len(model_inputs[key])}) -> ({len(model_inputs[key][0])},{len(model_inputs[key][1])})')

input_ids:[[101, 1045, 1005, 2310, 2042, 3403, 2005, 102], [101, 2061, 2031, 1045, 999, 102]] -> (2) -> (8,6)
attention_mask:[[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]] -> (2) -> (8,6)


    O objeto do tokenizador pode lidar com a conversão para tensores
    específicos do framework, que podem então ser enviados diretamente
    para o modelo. Por exemplo, no seguinte trecho de código, estamos
    solicitando ao tokenizador que retorne tensores dos diferentes
    frameworks - "pt" retorna tensores PyTorch, "tf" retorna tensores
    TensorFlow e "np" retorna arrays NumPy:

In [48]:
# Retornando PyTorch tensors
model_inputs_pt = tokenizer(sequences, padding=True, return_tensors="pt")

# Visualizando:
for key in model_inputs_pt.keys():
  print(f'{key}:{model_inputs_pt[key]} -> ({len(model_inputs_pt[key])}) -> ({len(model_inputs_pt[key][0])},{len(model_inputs_pt[key][1])})\n')

input_ids:tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102],
        [  101,  2061,  2031,  1045,   999,   102,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0]]) -> (2) -> (16,16)

attention_mask:tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]) -> (2) -> (16,16)



In [49]:
# Retornando TensorFlow tensors
model_inputs_tf = tokenizer(sequences, padding=True, return_tensors="tf")

# Visualizando:
for key in model_inputs_tf.keys():
  print(f'{key}:{model_inputs_tf[key]} -> ({len(model_inputs_tf[key])}) -> ({len(model_inputs_tf[key][0])},{len(model_inputs_tf[key][1])})\n')

input_ids:[[  101  1045  1005  2310  2042  3403  2005  1037 17662 12172  2607  2026
   2878  2166  1012   102]
 [  101  2061  2031  1045   999   102     0     0     0     0     0     0
      0     0     0     0]] -> (2) -> (16,16)

attention_mask:[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0]] -> (2) -> (16,16)



In [47]:
# Retornando NumPy arrays
model_inputs_np = tokenizer(sequences, padding=True, return_tensors="np")

# Visualizando:
for key in model_inputs_np.keys():
  print(f'{key}:{model_inputs_np[key]} -> ({len(model_inputs_np[key])}) -> ({len(model_inputs_np[key][0])},{len(model_inputs_np[key][1])})\n')

input_ids:[[  101  1045  1005  2310  2042  3403  2005  1037 17662 12172  2607  2026
   2878  2166  1012   102]
 [  101  2061  2031  1045   999   102     0     0     0     0     0     0
      0     0     0     0]] -> (2) -> (16,16)

attention_mask:[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0]] -> (2) -> (16,16)



**Tokens especiais**

    Se dermos uma olhada nos IDs de entrada retornados pelo tokenizador,
    veremos que eles são um pouco diferentes do que tínhamos antes:

In [51]:
# Tokenizando sequencia:
model_inputs = tokenizer(sequence)
print(model_inputs["input_ids"])

[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102]
[1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012]


In [53]:
# Tokenizando:
tokens = tokenizer.tokenize(sequence)

# Convertendo tokens em ids:
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

[1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012]


    Um ID de token foi adicionado no início e outro
    no final. Se decodificarmos eles, teremos:

In [56]:
# Checando decodificação:
print(tokenizer.decode(model_inputs["input_ids"]))
print(tokenizer.decode(ids))

[CLS] i've been waiting for a huggingface course my whole life. [SEP]
i've been waiting for a huggingface course my whole life.


    Legal que é o mesmo método, mas consegue decodificar as duas
    codificações diferentes. Porque é isso que são, são duas
    codificações diferentes, mas relacionadas.

In [57]:
# Checando igualdade:
ids == model_inputs["input_ids"]

False


    O tokenizador adicionou a palavra especial [CLS] no início e a
    palavra especial [SEP] no final. Isso ocorre porque o modelo foi
    pré-treinado com elas, então, para obter os mesmos resultados para
    inferência, precisamos adicioná-las também. Observe que alguns modelos
    não adicionam palavras especiais, ou adicionam diferentes; os modelos
    também podem adicionar essas palavras especiais apenas no início ou
    apenas no final. De qualquer forma, o tokenizador sabe quais são
    esperadas e lidará com isso para você.

# Resumindo: Do tokenizador para o modelo

    Agora que vimos todos os passos individuais que o objeto do
    tokenizador usa quando aplicado em textos, vamos ver uma última
    vez como ele pode lidar com múltiplas sequências (preenchimento!),
    sequências muito longas (truncamento!), e múltiplos tipos de tensores
    com sua API principal:






**Tensorflow**

In [60]:
# Dependencias utilizadas:
import tensorflow as tf
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification

In [62]:
# Instanciando tokenizador:
tokenizer_tf = AutoTokenizer.from_pretrained(checkpoint)

# Instanciando modelo:
model_tf = TFAutoModelForSequenceClassification.from_pretrained(checkpoint)

All PyTorch model weights were used when initializing TFDistilBertForSequenceClassification.

All the weights of TFDistilBertForSequenceClassification were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFDistilBertForSequenceClassification for predictions without further training.


In [66]:
# Tokenizando sequências:
tokens_tf = tokenizer(sequences, padding=True, truncation=True, return_tensors="tf")

# Gerando as saídas:
output_tf = model_tf(**tokens_tf);output_tf

TFSequenceClassifierOutput(loss=None, logits=<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
array([[-1.5606961,  1.6122813],
       [-3.618318 ,  3.9137495]], dtype=float32)>, hidden_states=None, attentions=None)

**Pytorch**

In [67]:
# Dependências utilizadas:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

In [68]:
# Instanciando Tokenizador:
tokenizer_pt = AutoTokenizer.from_pretrained(checkpoint)

# Instanciando modelo:
model_pt = AutoModelForSequenceClassification.from_pretrained(checkpoint)

In [69]:
# Tokenizando sequências:
tokens_pt = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# Gerando as saídas:
output_pt = model_pt(**tokens_pt);output_pt

SequenceClassifierOutput(loss=None, logits=tensor([[-1.5607,  1.6123],
        [-3.6183,  3.9137]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)