[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/sensioai/blog/blob/master/039_nlp_transfer/nlp_transfer.ipynb)

# Clasificación de texto - Transfer Learning

En el [post](https://sensioai.com/blog/038_clasificacion_texto) anterior vimos cómo podemos entrenar una `red neuronal recurrente` para clasificar texto. En este tipo de tarea, nuestro modelo será capaz de asignar una etiqueta concreta entre varias a una pieza de texto determinada. Vimos, por ejemplo, que podemos saber de manera automática si una opinión de una película es positiva o negativa. En este post vamos a resolver exactamente el mismo caso, pero introduciendo una nueva técnica muy utilizada: el `transfer learning`.

## Transfer Learning

Esta técnica nos permite entrenar redes neuronales de manera más rápida, con menores requisitos computacionales y permitiendo el entrenamiento de redes con mejores prestaciones con pequeños datasets. La idea consiste en entrenar una red neuronal en un gran dataset, con grandes recursos computacionales, y una vez entrenada utilizar el conocimiento que este modelo ya posee como punto de partida para nuestro caso particular en el proceso conocido como `fine tuning`.

![](https://pennylane.ai/qml/_images/transfer_learning_general.png)

Este proceso de `fine tuning` puede variar según la tarea, pero lo más común es sustituir las capas finales de la red por nuevas capas adaptadas a nuestra tarea y entrenar solo estas nuevas capas, dejando intactas las capas ya entrenadas. Sin embargo, en el caso en el que los datos usados en la nueva tarea sean muy diferentes que los usados originalmente, también es común el entrenamiento de toda la red, a partir de los pesos pre-entrenados. 

Como comentábamos al principio, esta técnica es muy utilizada en la práctica. Podemos encontrar modelos pre-entrenados en diferentes librerías, que podemos descargar y empezar a utilizar directamente. El `transfer learning` es utilizado tanto en aplicaciones de lenguaje como tareas visuales, y lo usaremos de manera extensiva de ahora en adelante.

 ## El *dataset*

Seguimos utilizando el dataset IMDB, disponible en [torchtext](https://pytorch.org/text/).

In [1]:
import torch
import torchtext

In [2]:
TEXT = torchtext.legacy.data.Field(tokenize = 'spacy')
LABEL = torchtext.legacy.data.LabelField(dtype = torch.long)

train_data, test_data = torchtext.legacy.datasets.IMDB.splits(TEXT, LABEL)

downloading aclImdb_v1.tar.gz


aclImdb_v1.tar.gz: 100%|██████████| 84.1M/84.1M [00:01<00:00, 62.5MB/s]


In [3]:
len(train_data), len(test_data)

(25000, 25000)

In [None]:
print(vars(train_data.examples[0]))

{'text': ['to', 'communicate', 'in', 'film', 'essential', 'things', 'of', 'life', '-', 'like', 'what', 'is', 'life', ',', 'does', 'it', 'have', 'a', 'meaning', '?', '-', 'is', 'sheer', 'impossible', '.', 'Of', 'course', 'possible', 'answers', 'to', 'these', 'questions', 'are', 'demonstrated', 'in', 'every', 'film', '(', 'story', ')', ',', 'but', 'communication', 'needs', 'a', 'direct', 'appeal', 'to', 'consciousness', '.', 'This', 'happens', 'if', 'the', 'input', 'from', 'the', 'senses', 'overrules', 'the', '"', 'input', '"', 'from', 'our', 'mind', ',', 'i.e.', 'our', 'thoughts', '.', 'Few', 'directors', 'know', 'how', 'to', 'communicate', 'essential', 'things', '.', 'Tarkovsky', ',', 'is', 'one', '.', 'His', '"', 'Stalker', '"', 'shows', 'images', 'of', 'existence', ',', 'communicates', 'life', 'as', 'it', 'shows', 'itself', 'and', 'yet', 'escapes', 'your', 'mind', '.', 'I', 'think', 'De', 'Zee', 'and', 'De', 'Graaff', 'do', 'the', 'same', '.'], 'label': 'pos'}


## *Embeddings* pre-entrenados

El primer ejemplo de `transfer learning` que vamos a ver es el uso de `embeddings` pre-entrenados. Recuerda que un embedding es la respresentación vectorial de cada palabra en el vocabulario que utilizaremos para alimentar nuestra red recurrente. Puedes aprender más sobre `embeddings` en este [post](https://sensioai.com/blog/037_charRNN). En `torchtext` podemos descargar estos `embeddings` en la función `build_vocab`, con el parámtero `vectors`. En la documentación encontrarás los diferentes `embeddings` disponibles.

In [4]:
MAX_VOCAB_SIZE = 10000

TEXT.build_vocab(train_data, 
                 max_size = MAX_VOCAB_SIZE, 
                 vectors = "glove.6B.100d", # embeddings pre-entrenados
                 unk_init = torch.Tensor.normal_)

LABEL.build_vocab(train_data)

len(TEXT.vocab), len(LABEL.vocab)

.vector_cache/glove.6B.zip: 862MB [02:39, 5.39MB/s]                           
100%|█████████▉| 398961/400000 [00:20<00:00, 19578.30it/s]

(10002, 2)

Y, de la misma manera que hicimos en el post anterior, definimos nuestros *dataloaders* con la clase `torchtext.data.BucketIterator`.

In [5]:
device = "cuda" if torch.cuda.is_available() else "cpu"

dataloader = {
    'train': torchtext.legacy.data.BucketIterator(train_data, batch_size=64, shuffle=True, sort_within_batch=True, device=device),
    'test': torchtext.legacy.data.BucketIterator(test_data, batch_size=64, device=device)
}

## El modelo

Usaremos exactamente el mismo modelo que ya vimos en el post anterior. Este modelo está compuesto, principalmente, por la capa `embedding`, que en este caso sustituiremos por los vectores descargados anteriormente, y las capas recurrente y lineal, que entrenaremos desde cero.

In [6]:
class RNN(torch.nn.Module):
    def __init__(self, input_dim, embedding_dim=128, hidden_dim=128, output_dim=2, num_layers=2, dropout=0.2, bidirectional=False):
        super().__init__()
        self.embedding = torch.nn.Embedding(input_dim, embedding_dim)
        self.rnn = torch.nn.GRU(
            input_size=embedding_dim, 
            hidden_size=hidden_dim, 
            num_layers=num_layers, 
            dropout=dropout if num_layers > 1 else 0,
            bidirectional=bidirectional
        )
        self.fc = torch.nn.Linear(2*hidden_dim if bidirectional else hidden_dim, output_dim)
        
    def forward(self, text):
        # no entrenamos los embeddings
        with torch.no_grad():
            #text = [sent len, batch size]        
            embedded = self.embedding(text)        
        #embedded = [sent len, batch size, emb dim]        
        output, hidden = self.rnn(embedded)        
        #output = [sent len, batch size, hid dim]
        y = self.fc(output[-1,:,:].squeeze(0))     
        return y

Una vez definido el modelo, sustituimos los tensores en la capa `embedding` por los vectores pre-entrenados descargados anteriormente.

In [7]:
model = RNN(input_dim=len(TEXT.vocab), bidirectional=True, embedding_dim=100)

pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)
# ponemos a cero los pesos correspondientes a los tokens <unk> y <pad>
model.embedding.weight.data[TEXT.vocab.stoi[TEXT.unk_token]] = torch.zeros(100)
model.embedding.weight.data[TEXT.vocab.stoi[TEXT.pad_token]] = torch.zeros(100)

outputs = model(torch.randint(0, len(TEXT.vocab), (100, 64)))
outputs.shape

torch.Size([64, 2])

## Entrenamiento

Para entrenar nuestra red usamos el bucle estándar que ya usamos en posts anteriores.

In [8]:
from tqdm import tqdm
import numpy as np

def fit(model, dataloader, epochs=5):
    model.to(device)
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
    criterion = torch.nn.CrossEntropyLoss()
    for epoch in range(1, epochs+1):
        model.train()
        train_loss, train_acc = [], []
        bar = tqdm(dataloader['train'])
        for batch in bar:
            X, y = batch
            X, y = X.to(device), y.to(device)
            optimizer.zero_grad()
            y_hat = model(X)
            loss = criterion(y_hat, y)
            loss.backward()
            optimizer.step()
            train_loss.append(loss.item())
            acc = (y == torch.argmax(y_hat, axis=1)).sum().item() / len(y)
            train_acc.append(acc)
            bar.set_description(f"loss {np.mean(train_loss):.5f} acc {np.mean(train_acc):.5f}")
        bar = tqdm(dataloader['test'])
        val_loss, val_acc = [], []
        model.eval()
        with torch.no_grad():
            for batch in bar:
                X, y = batch
                X, y = X.to(device), y.to(device)
                y_hat = model(X)
                loss = criterion(y_hat, y)
                val_loss.append(loss.item())
                acc = (y == torch.argmax(y_hat, axis=1)).sum().item() / len(y)
                val_acc.append(acc)
                bar.set_description(f"val_loss {np.mean(val_loss):.5f} val_acc {np.mean(val_acc):.5f}")
        print(f"Epoch {epoch}/{epochs} loss {np.mean(train_loss):.5f} val_loss {np.mean(val_loss):.5f} acc {np.mean(train_acc):.5f} val_acc {np.mean(val_acc):.5f}")

In [9]:
fit(model, dataloader)


  0%|          | 0/391 [00:00<?, ?it/s][A
loss 0.69852 acc 0.48438:   0%|          | 0/391 [00:00<?, ?it/s][A
loss 0.69852 acc 0.48438:   0%|          | 1/391 [00:00<01:50,  3.54it/s][A
loss 0.70409 acc 0.45312:   0%|          | 1/391 [00:00<01:50,  3.54it/s][A
loss 0.70420 acc 0.46354:   0%|          | 1/391 [00:00<01:50,  3.54it/s][A
loss 0.70420 acc 0.46354:   1%|          | 3/391 [00:00<01:23,  4.64it/s][A
loss 0.70119 acc 0.45312:   1%|          | 3/391 [00:00<01:23,  4.64it/s][A
loss 0.70119 acc 0.45312:   1%|          | 4/391 [00:00<01:19,  4.87it/s][A
loss 0.69768 acc 0.49375:   1%|          | 4/391 [00:00<01:19,  4.87it/s][A
loss 0.69691 acc 0.49740:   1%|          | 4/391 [00:00<01:19,  4.87it/s][A
loss 0.69691 acc 0.49740:   2%|▏         | 6/391 [00:00<01:08,  5.63it/s][A
loss 0.69740 acc 0.49330:   2%|▏         | 6/391 [00:00<01:08,  5.63it/s][A
loss 0.69670 acc 0.49805:   2%|▏         | 6/391 [00:01<01:08,  5.63it/s][A
loss 0.69670 acc 0.49805:   2%|▏        

Epoch 1/5 loss 0.58878 val_loss 0.91603 acc 0.67345 val_acc 0.51272



loss 0.41028 acc 0.82812:   0%|          | 1/391 [00:00<01:13,  5.31it/s][A
loss 0.36927 acc 0.84896:   0%|          | 1/391 [00:00<01:13,  5.31it/s][A
loss 0.36927 acc 0.84896:   1%|          | 3/391 [00:00<01:00,  6.47it/s][A
loss 0.39208 acc 0.83984:   1%|          | 3/391 [00:00<01:00,  6.47it/s][A
loss 0.39059 acc 0.83750:   1%|          | 3/391 [00:00<01:00,  6.47it/s][A
loss 0.39059 acc 0.83750:   1%|▏         | 5/391 [00:00<00:50,  7.66it/s][A
loss 0.39876 acc 0.83073:   1%|▏         | 5/391 [00:00<00:50,  7.66it/s][A
loss 0.38946 acc 0.83705:   1%|▏         | 5/391 [00:00<00:50,  7.66it/s][A
loss 0.38946 acc 0.83705:   2%|▏         | 7/391 [00:00<00:42,  9.08it/s][A
loss 0.39052 acc 0.83398:   2%|▏         | 7/391 [00:00<00:42,  9.08it/s][A
loss 0.41624 acc 0.81944:   2%|▏         | 7/391 [00:01<00:42,  9.08it/s][A
loss 0.41624 acc 0.81944:   2%|▏         | 9/391 [00:01<00:55,  6.87it/s][A
loss 0.42583 acc 0.81406:   2%|▏         | 9/391 [00:01<00:55,  6.87it/s][

Epoch 2/5 loss 0.35416 val_loss 0.35369 acc 0.84612 val_acc 0.84713


loss 0.33863 acc 0.84375:   0%|          | 1/391 [00:00<01:13,  5.31it/s][A
loss 0.32905 acc 0.84375:   0%|          | 1/391 [00:00<01:13,  5.31it/s][A
loss 0.31456 acc 0.85938:   0%|          | 1/391 [00:00<01:13,  5.31it/s][A
loss 0.31456 acc 0.85938:   1%|          | 3/391 [00:00<00:58,  6.68it/s][A
loss 0.33495 acc 0.85156:   1%|          | 3/391 [00:00<00:58,  6.68it/s][A
loss 0.34775 acc 0.84062:   1%|          | 3/391 [00:00<00:58,  6.68it/s][A
loss 0.34775 acc 0.84062:   1%|▏         | 5/391 [00:00<00:48,  7.91it/s][A
loss 0.34708 acc 0.84375:   1%|▏         | 5/391 [00:00<00:48,  7.91it/s][A
loss 0.34708 acc 0.84375:   2%|▏         | 6/391 [00:00<00:49,  7.81it/s][A
loss 0.34629 acc 0.84375:   2%|▏         | 6/391 [00:00<00:49,  7.81it/s][A
loss 0.34563 acc 0.84375:   2%|▏         | 6/391 [00:00<00:49,  7.81it/s][A
loss 0.34563 acc 0.84375:   2%|▏         | 8/391 [00:00<00:40,  9.55it/s][A
loss 0.35038 acc 0.84375:   2%|▏         | 8/391 [00:00<00:40,  9.55it/s][A

Epoch 3/5 loss 0.31368 val_loss 0.31917 acc 0.86654 val_acc 0.86120



loss 0.35460 acc 0.85156:   0%|          | 1/391 [00:00<00:59,  6.61it/s][A
loss 0.35460 acc 0.85156:   1%|          | 2/391 [00:00<00:54,  7.20it/s][A
loss 0.35750 acc 0.84896:   1%|          | 2/391 [00:00<00:54,  7.20it/s][A
loss 0.35750 acc 0.84896:   1%|          | 3/391 [00:00<00:57,  6.73it/s][A
loss 0.37554 acc 0.82422:   1%|          | 3/391 [00:00<00:57,  6.73it/s][A
loss 0.37554 acc 0.82422:   1%|          | 4/391 [00:00<00:55,  6.96it/s][A
loss 0.37957 acc 0.82500:   1%|          | 4/391 [00:00<00:55,  6.96it/s][A
loss 0.37957 acc 0.82500:   1%|▏         | 5/391 [00:00<01:04,  6.01it/s][A
loss 0.34731 acc 0.83854:   1%|▏         | 5/391 [00:00<01:04,  6.01it/s][A
loss 0.33458 acc 0.84152:   1%|▏         | 5/391 [00:00<01:04,  6.01it/s][A
loss 0.33458 acc 0.84152:   2%|▏         | 7/391 [00:01<00:56,  6.75it/s][A
loss 0.32061 acc 0.85156:   2%|▏         | 7/391 [00:01<00:56,  6.75it/s][A
loss 0.31785 acc 0.85069:   2%|▏         | 7/391 [00:01<00:56,  6.75it/s][

Epoch 4/5 loss 0.27203 val_loss 0.30364 acc 0.88783 val_acc 0.86924



loss 0.24555 acc 0.89062:   0%|          | 0/391 [00:00<?, ?it/s][A
loss 0.24555 acc 0.89062:   0%|          | 1/391 [00:00<01:59,  3.27it/s][A
loss 0.26569 acc 0.90625:   0%|          | 1/391 [00:00<01:59,  3.27it/s][A
loss 0.26081 acc 0.88542:   0%|          | 1/391 [00:00<01:59,  3.27it/s][A
loss 0.26081 acc 0.88542:   1%|          | 3/391 [00:00<01:32,  4.19it/s][A
loss 0.24260 acc 0.89062:   1%|          | 3/391 [00:00<01:32,  4.19it/s][A
loss 0.25282 acc 0.88750:   1%|          | 3/391 [00:00<01:32,  4.19it/s][A
loss 0.25282 acc 0.88750:   1%|▏         | 5/391 [00:00<01:22,  4.67it/s][A
loss 0.23389 acc 0.89844:   1%|▏         | 5/391 [00:00<01:22,  4.67it/s][A
loss 0.23389 acc 0.89844:   2%|▏         | 6/391 [00:00<01:14,  5.16it/s][A
loss 0.24857 acc 0.89062:   2%|▏         | 6/391 [00:01<01:14,  5.16it/s][A
loss 0.23871 acc 0.89844:   2%|▏         | 6/391 [00:01<01:14,  5.16it/s][A
loss 0.23871 acc 0.89844:   2%|▏         | 8/391 [00:01<01:03,  6.08it/s][A
loss 0

Epoch 5/5 loss 0.23676 val_loss 0.27785 acc 0.90543 val_acc 0.88142





## Generando predicciones

Una vez nuestro modelo ha sido entrenado, podemos generar predicciones exactamente igual que hicimos en el post anterior.

In [10]:
import spacy
nlp = spacy.load('en')

def predict(model, X):
    model.eval() 
    with torch.no_grad():
        X = torch.tensor(X).to(device)
        pred = model(X)
        return pred

In [11]:
sentences = ["this film is terrible", "this film is great", "this film is good", "a waste of time"]
tokenized = [[tok.text for tok in nlp.tokenizer(sentence)] for sentence in sentences]
indexed = [[TEXT.vocab.stoi[_t] for _t in t] for t in tokenized]
tensor = torch.tensor(indexed).permute(1,0)
predictions = torch.argmax(predict(model, tensor), axis=1)
predictions

  import sys


tensor([0, 1, 1, 0], device='cuda:0')

## Transformers

Como has visto en el ejemplo anterior, utilizar unos `embeddings` pre-entrenados puede darnos mucho mejores resultados que entrenarlos desde cero, ya que la representación de nuestras palabras será mucho mejor desde el principio. Siguiendo en esta línea, podemos sustituir nuestra capa `embedding` por otro modelo que nos aportará todavía mejores resultados, un `transformer`. 

Estos modelos aparecieron alrededor de 2017, y fueron presentados en el famoso artículo [Attention is All You Need](https://arxiv.org/pdf/1706.03762.pdf). Desde su aparación, estos modelos están batiendo todos los *benchmarks* en las diferentes tareas de procesado de lenguaje, y son utilizados como base de cualquier modelo competente a día de hoy. De momento, no entraremos en detalles en la definición de esta arquitectura (lo dejamos para un futuro post, ya que hay mucha tela que cortar) pero vamos a ver como utilizar un `transformer` para hacer `transfer learning` y obtener muy buenos resultados de manera rápida. 

Una librería muy utilizada para trabajar con estos modelos es la librería `transformers` de [huggingface](https://huggingface.co/).

In [None]:
!pip install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/00/92/6153f4912b84ee1ab53ab45663d23e7cf3704161cb5ef18b0c07e207cef2/transformers-4.7.0-py3-none-any.whl (2.5MB)
[K     |████████████████████████████████| 2.5MB 7.3MB/s 
[?25hCollecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/75/ee/67241dc87f266093c533a2d4d3d69438e57d7a90abb216fa076e7d475d4a/sacremoses-0.0.45-py3-none-any.whl (895kB)
[K     |████████████████████████████████| 901kB 49.0MB/s 
Collecting huggingface-hub==0.0.8
  Downloading https://files.pythonhosted.org/packages/a1/88/7b1e45720ecf59c6c6737ff332f41c955963090a18e72acbcbeac6b25e86/huggingface_hub-0.0.8-py3-none-any.whl
Collecting tokenizers<0.11,>=0.10.1
[?25l  Downloading https://files.pythonhosted.org/packages/d4/e2/df3543e8ffdab68f5acc73f613de9c2b155ac47f162e725dcac87c521c11/tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3MB)
[K     |█

En primer lugar, tendremos que utilizar el mismo `tokenizer` utilizado para entrenar el modelo original. En este caso usaremos la red conocida como `BERT`.

In [None]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=231508.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=28.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=466062.0, style=ProgressStyle(descripti…




In [None]:
tokens = tokenizer.tokenize('Hello WORLD how ARE yoU?')
tokens

['hello', 'world', 'how', 'are', 'you', '?']

In [None]:
indexes = tokenizer.convert_tokens_to_ids(tokens)
indexes

[7592, 2088, 2129, 2024, 2017, 1029]

A diferencia de las `redes neuronales recurrentes`, los transformers trabajan con longitudes de secuencia fijas (no son modelos recurrentes). Es por este motivo que tenemos que asegurarnos que ninguna frase en el dataset tiene mayor longitud que la máxima permitida por `BERT`, que es de 512 palabras.

In [None]:
max_input_length = tokenizer.max_model_input_sizes['bert-base-uncased']

def tokenize_and_cut(sentence):
    tokens = tokenizer.tokenize(sentence) 
    tokens = tokens[:max_input_length-2]
    return tokens

`torchtext` nos da la libertad de definir nuestros propios tokenizers, y podemos incluirlos de la siguiente manera.

In [None]:
TEXT = torchtext.legacy.data.Field(batch_first = True,
                  use_vocab = False,
                  tokenize = tokenize_and_cut,
                  preprocessing = tokenizer.convert_tokens_to_ids,
                  init_token = tokenizer.cls_token_id,
                  eos_token = tokenizer.sep_token_id,
                  pad_token = tokenizer.pad_token_id,
                  unk_token = tokenizer.unk_token_id)

LABEL = torchtext.legacy.data.LabelField(dtype = torch.long)

In [None]:
train_data, test_data = torchtext.legacy.datasets.IMDB.splits(TEXT, LABEL)

LABEL.build_vocab(train_data)

dataloader = {
    'train': torchtext.legacy.data.BucketIterator(train_data, batch_size=64, shuffle=True, sort_within_batch=True, device=device),
    'test': torchtext.legacy.data.BucketIterator(test_data, batch_size=64, device=device)
}

Una vez tenemos los datos preparados con el nuevo tokenizer, necesitamos definir nuestro nuevo modelo. En este caso, `BERT` se encargará de actuar como nuestra capa `embedding`, proveyendo de la mejor representación posible de nuestro texto para que las siguientes capas puedan clasificarlo.

In [None]:
from transformers import BertModel

class BERT(torch.nn.Module):
    def __init__(self, hidden_dim=256, output_dim=2, n_layers=2, bidirectional=True, dropout=0.2):
        super().__init__()        
        self.bert = BertModel.from_pretrained('bert-base-uncased')        
        
        # freeze BERT
        for name, param in self.bert.named_parameters():                
            if name.startswith('bert'):
                param.requires_grad = False

        embedding_dim = self.bert.config.to_dict()['hidden_size']
        self.rnn = torch.nn.GRU(embedding_dim,
                          hidden_dim,
                          num_layers = n_layers,
                          bidirectional = bidirectional,
                          batch_first = True,
                          dropout = 0 if n_layers < 2 else dropout)
        
        self.fc = torch.nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim)
        
    def forward(self, text):                       
        with torch.no_grad():
            embedded = self.bert(text)[0]
        output, hidden = self.rnn(embedded)        
        y = self.fc(output[:,-1,:].squeeze(1))     
        return y

In [None]:
model = BERT()
fit(model, dataloader, epochs=3)

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


  0%|          | 0/391 [00:00<?, ?it/s][A[A

loss 0.68542 acc 0.67188:   0%|          | 0/391 [00:00<?, ?it/s][A[A

loss 0.68542 acc 0.67188:   0%|  

Epoch 1/3 loss 0.31978 val_loss 0.25546 acc 0.86077 val_acc 0.90374




loss 0.38978 acc 0.82812:   0%|          | 0/391 [00:00<?, ?it/s][A[A

loss 0.38978 acc 0.82812:   0%|          | 1/391 [00:00<03:42,  1.76it/s][A[A

loss 0.29116 acc 0.85938:   0%|          | 1/391 [00:01<03:42,  1.76it/s][A[A

loss 0.29116 acc 0.85938:   1%|          | 2/391 [00:01<03:37,  1.79it/s][A[A

loss 0.26669 acc 0.87500:   1%|          | 2/391 [00:01<03:37,  1.79it/s][A[A

loss 0.26669 acc 0.87500:   1%|          | 3/391 [00:01<03:45,  1.72it/s][A[A

loss 0.26518 acc 0.88281:   1%|          | 3/391 [00:03<03:45,  1.72it/s][A[A

loss 0.26518 acc 0.88281:   1%|          | 4/391 [00:03<05:06,  1.26it/s][A[A

loss 0.24155 acc 0.90000:   1%|          | 4/391 [00:03<05:06,  1.26it/s][A[A

loss 0.24155 acc 0.90000:   1%|▏         | 5/391 [00:03<03:59,  1.61it/s][A[A

loss 0.23842 acc 0.90104:   1%|▏         | 5/391 [00:03<03:59,  1.61it/s][A[A

loss 0.23842 acc 0.90104:   2%|▏         | 6/391 [00:03<03:50,  1.67it/s][A[A

loss 0.25217 acc 0.89732:   2%|▏  

Epoch 2/3 loss 0.21753 val_loss 0.21106 acc 0.91459 val_acc 0.91519




loss 0.19302 acc 0.92188:   0%|          | 0/391 [00:01<?, ?it/s][A[A

loss 0.19302 acc 0.92188:   0%|          | 1/391 [00:01<08:28,  1.30s/it][A[A

loss 0.19303 acc 0.93750:   0%|          | 1/391 [00:01<08:28,  1.30s/it][A[A

loss 0.19303 acc 0.93750:   1%|          | 2/391 [00:01<06:42,  1.04s/it][A[A

loss 0.23758 acc 0.92708:   1%|          | 2/391 [00:02<06:42,  1.04s/it][A[A

loss 0.23758 acc 0.92708:   1%|          | 3/391 [00:02<05:19,  1.21it/s][A[A

loss 0.24700 acc 0.92578:   1%|          | 3/391 [00:03<05:19,  1.21it/s][A[A

loss 0.24700 acc 0.92578:   1%|          | 4/391 [00:03<06:27,  1.00s/it][A[A

loss 0.23623 acc 0.92188:   1%|          | 4/391 [00:03<06:27,  1.00s/it][A[A

loss 0.23623 acc 0.92188:   1%|▏         | 5/391 [00:03<05:30,  1.17it/s][A[A

loss 0.22691 acc 0.92969:   1%|▏         | 5/391 [00:04<05:30,  1.17it/s][A[A

loss 0.22691 acc 0.92969:   2%|▏         | 6/391 [00:04<04:52,  1.31it/s][A[A

loss 0.21655 acc 0.93080:   2%|▏  

Epoch 3/3 loss 0.19083 val_loss 0.21271 acc 0.92590 val_acc 0.91925





Puedes ver que en la primera *epoch* ya tenemos un modelo mejor que cualquiera de los obtenidos anteriormente cuando entrenamos desde cero. Y finalmente, podemos generar las predicciones de la siguiente manera

In [None]:
def predict(sentence):
    tokenized = [tok[:max_input_length-2] for tok in tokenizer.tokenize(sentence)]
    indexed = [tokenizer.cls_token_id] + tokenizer.convert_tokens_to_ids(tokenized) + [tokenizer.sep_token_id]
    tensor = torch.tensor([indexed]).to(device)
    model.eval()
    return torch.argmax(model(tensor), axis=1)

In [None]:
sentences = ["Best film ever !", "this movie is terrible"]
preds = [predict(s) for s in sentences]
preds

[tensor([1], device='cuda:0'), tensor([0], device='cuda:0')]

## Resumen

En este post hemos visto como podemos obtener mejores modelos de clasificación de texto si utilizamos el `transfer learning`. Con esta técnica, sustituiremos las primeras capas de nuestro modelo por otros modelos ya entrenados en otros datasets. Dadas las condiciones adecuadas, esta técnica nos va a permitir entrenar modelos muy buenos con pocos datos y en poco tiempo. En nuestro caso, hemos conseguido nuestro mejor clasificador utilizando el modelo `BERT` como capa `embedding` y entrenando nuestro modelo recurrente encima, el cual solo hemos necesitado entrenar por una epoch. 