## Técnicas de Normalización de Texto en NPL

- Stemming: Reglas fijas como descartar`able,ing` para derivar una palabra
- Lemmatization: Uso del `conocimiento del lenguaje` (a.k.a. linguistic knowledge) to derive a word


### Pasos para el preprocesamiento de texto:

1. Tokenización: dividir el texto en tokens (frases, palabras y símbolos separados)
2. Lematización: reducir las palabras a sus formas fundamentales (lema)
3. BoW

#### Librerias para tokenizar y lematizar:
- Natural Language Toolkit (NLTK) - (Uso de bolsa de palabras)
- spaCy (Uso de bolsa de palabras) o TF-IDF
- word2vec - (embedded o insertado de palabra)
- etc.


## Preprocesamiento usando NLTK

In [19]:
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

#Llamamos a la clase wordnetlematizer
lemmatizer = WordNetLemmatizer()

text= 'All models are wrong, but some are useful'

# Tokenizamos nuestro texto que subdvide el texto
tokens = word_tokenize(text.lower())

# Derivamos nuestros tokens
lemmas = [lemmatizer.lemmatize(token) for token in tokens]

doc = " ".join(lemmas)

print('Esto es el texto tokenizado')
print(tokens, end='\n\n')

print('Esto es el texto lematizado')
print(lemmas, end='\n\n')

print('Texto procesado')
print(doc, end='\n\n')

Esto es el texto tokenizado
['all', 'models', 'are', 'wrong', ',', 'but', 'some', 'are', 'useful']

Esto es el texto lematizado
['all', 'model', 'are', 'wrong', ',', 'but', 'some', 'are', 'useful']

Texto procesado
all model are wrong , but some are useful



## Preprocesamiento usando Spacy

In [24]:
import spacy

#Natural language processor
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
text= 'All models are wrong, but some are useful'
doc = nlp(text.lower())
lemmas = [token.lemma_ for token in doc]

print(' '.join(lemmas))

all model be wrong , but some be useful


## Preprocesamiento spacy con un dataframe

In [64]:
import pandas as pd
import random
import spacy

data = pd.read_csv('D:/Tripleten/datasets/imdb_reviews_small.tsv', sep='\t')
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
corpus = data['review'][0:10] # Hacemos mas corto nuestro dataframe para que se tarde menos

lemmas_list = []

def lemmatize(corpus):
    for text in corpus:
        doc= nlp(text.lower())
        lemmas = [token.lemma_ for token in doc]
        lemmas_list.append(" ".join(lemmas))
    return lemmas_list


lemmatize(corpus)

print(corpus.shape)
print(len(lemmas_list))
print(lemmas_list[0:3])

(10,)
10
["this true story of carlson 's raider be more of a army training film than anything else.obviously throw together quickly on a miniscule budget about the only thing it have to recommend it be an early performance by robert mitchum , who be the only decent actor in the cast , and actual footage of the wreckage at pearl harbor which get your blood boiling , as it be obviously intend to do .", "should have be title ' balderdash ! ' little in the film be true except the name of the island and the fact submarine be involve . little more than train film quality with poor camera work , muddy stock footage and perhaps the low point of stereotype ' jap ' with laugh japanese infantry , laugh japanese fighter pilot and one - dimensional square - jaw americans die leave and right . sixty year later it be unintentionally funny as an odd artifact and as an opportunity to see what be possible when the war fever be upon you . the plot and the dialogue remind I of play gun on a summer 's afte

# Expresiones Regulares

Dentro de la libreria re, podemos hacer uso de la función que nos permitirá encontrar una busqueda y remplazarla re.sub(pattern, substitution, text)

In [39]:
import re

text = '''I liked this show from the first episode I saw, which was the "Rhapsody in Blue" episode (for those that don't know what that is, the Zan going insane and becoming pau lvl 10 ep). Best visuals and special effects I've seen on a television series, nothing like it anywhere.'''

# re.sub(pattern, substitution, text)
clear_text = re.sub(r'[^A-Za-z\' ]', '', text) #Buscamos palabras que sean diferentes de A hasta la Z en mayusculas y minúsculas, es decir, puntos y comas, los sustituiremos por nada. 

clear_text = " ".join(clear_text.split())  # es muy importante aplicar el split join porque algunas veces se quedan dobles espacios por los elementos que estamos descartando
    
print(text)
print(clear_text)

I liked this show from the first episode I saw, which was the "Rhapsody in Blue" episode (for those that don't know what that is, the Zan going insane and becoming pau lvl 10 ep). Best visuals and special effects I've seen on a television series, nothing like it anywhere.
I liked this show from the first episode I saw which was the Rhapsody in Blue episode for those that don't know what that is the Zan going insane and becoming pau lvl ep Best visuals and special effects I've seen on a television series nothing like it anywhere


Ahora crearemos una función para limpiar los acentos y puntoss antes de entregar nuestro texto.

In [67]:

def clean(text):
    '''Eliminamos todo lo que sea diferente a A-Z mayusculas y minusculas, 
    y mantenemos espacios y apostrofes. Lo demás será eliminado.'''
    clear_text = re.sub(r'[^A-Za-z\' ]',' ', text) 
    clean_text = " ".join(clear_text.split())
    return clear_text, clean_text

to_clean,clear = clean("Yesterday I found an ugly dog don't you      think?")

print(to_clean)
print(clear)

Yesterday I found an ugly dog don't you      think 
Yesterday I found an ugly dog don't you think


Ahora pasaremos todo lo aprendido a un solo apartado

In [3]:
import pandas as pd
import random
import spacy

data = pd.read_csv('D:/Tripleten/datasets/imdb_reviews_small.tsv', sep='\t')
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
corpus = data['review'][0:10] # Hacemos mas corto nuestro dataframe para que se tarde menos

lemmas_list = []


def clean(text):
    '''Eliminamos todo lo que sea diferente a A-Z mayusculas y minusculas, 
    y mantenemos espacios y apostrofes. Lo demás será eliminado.'''
    clear_text = re.sub(r'[^A-Za-z\' ]',' ', text) 
    clean_text = " ".join(clear_text.split())
    return clean_text

def lemmatize(corpus):
    for text in corpus:
        doc= nlp(text.lower())
        lemmas = [token.lemma_ for token in doc]
        lemmas_list.append(" ".join(lemmas))
    return lemmas_list


lemmatize(corpus)


#Corregimoss el formato de else obviously
print(lemmas_list[0])
clean(lemmas_list[0]) # Podríamos mostrar la lista completa pero queremos hacer enfasis en lo que se logra.



this true story of carlson 's raider be more of a army training film than anything else.obviously throw together quickly on a miniscule budget about the only thing it have to recommend it be an early performance by robert mitchum , who be the only decent actor in the cast , and actual footage of the wreckage at pearl harbor which get your blood boiling , as it be obviously intend to do .


NameError: name 're' is not defined

# Bag of words (BoW)

Ahora vamos a aprender cómo podemos convertir datos de texto en datos numéricos, Lo que hace es transformar textos en vectores sin tomar en cuenta el orden de las palabras y, por eso, se llama bolsa.

## BOW Usando libreria spacy

In [89]:
import spacy
from collections import Counter


nlp = spacy.load('en_core_web_sm', disable=['parser','ner'])
text =  """For want of a nail the shoe was lost. For want of a' shoe the horse was "lost". For want of a horse the rider was lost."""
doc = nlp(text)
tokens = [token.lemma_ for token in doc if not token.is_punct] #token.is_punct excluye los signos de puntuacion.
bow = Counter(tokens) #Cuenta el número de cada palabra,

vector = [bow[token] for token in sorted(bow)]

print(bow) # Obtenemos los valores y diccionarios
print (bow.keys()) # Obtenemos los nombress de los diccionarios
print(vector) # Imprimimos nuestro vector creado


Counter({'for': 3, 'want': 3, 'of': 3, 'a': 3, 'the': 3, 'be': 3, 'lose': 3, 'shoe': 2, 'horse': 2, 'nail': 1, 'rider': 1})
dict_keys(['for', 'want', 'of', 'a', 'nail', 'the', 'shoe', 'be', 'lose', 'horse', 'rider'])
[3, 3, 3, 2, 3, 1, 3, 1, 2, 3, 3]


 # n-gramas

Un n-grama es una secuencia de varias palabras. N indica el número de elementos y es arbitrario. Por ejemplo, si N=1, tenemos palabras separadas o unigramas. Si N=2, tenemos frases de dos palabras o bigramas. N=3 produce trigramas

## BOW Usando libreria Scikit Learn 

In [120]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer() #Count vecotizer no toma en cuenta letras individuales.

corpus = [
    'for want of a nail the shoe be lose',
    'for want of a shoe the horse be lose',
    'for want of a horse the rider be lose',
    'for want of a rider the message be lose',
    'for want of a message the battle be lose',
    'for want of a battle the kingdom be lose',
    'and all for the want of a horseshoe nail'
]

bow = count_vect.fit_transform(corpus)
unique_words = count_vect.get_feature_names_out()

print(f' Tamaño {bow.shape}: {bow.shape[0]} textos, {bow.shape[1]} palabras únicas', end='\n\n')
print(f'El vocabulario es el siguiente: {unique_words}')
print(bow.toarray(), end='\n\n')


 Tamaño (7, 16): 7 textos, 16 palabras únicas

El vocabulario es el siguiente: ['all' 'and' 'battle' 'be' 'for' 'horse' 'horseshoe' 'kingdom' 'lose'
 'message' 'nail' 'of' 'rider' 'shoe' 'the' 'want']
[[0 0 0 1 1 0 0 0 1 0 1 1 0 1 1 1]
 [0 0 0 1 1 1 0 0 1 0 0 1 0 1 1 1]
 [0 0 0 1 1 1 0 0 1 0 0 1 1 0 1 1]
 [0 0 0 1 1 0 0 0 1 1 0 1 1 0 1 1]
 [0 0 1 1 1 0 0 0 1 1 0 1 0 0 1 1]
 [0 0 1 1 1 0 0 1 1 0 0 1 0 0 1 1]
 [1 1 0 0 1 0 1 0 0 0 1 1 0 0 1 1]]



## BOW Usando libreria Scikit Learn y n-gramas = 2 

Si quisieramos hacer una bolsa de palabras con 2 o más elementos podemos usar el parametro ngram_range

In [119]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'for want of a nail the shoe be lose',
    'for want of a shoe the horse be lose',
    'for want of a horse the rider be lose',
    'for want of a rider the message be lose',
    'for want of a message the battle be lose',
    'for want of a battle the kingdom be lose',
    'and all for the want of a horseshoe nail'
]

count_vect = CountVectorizer(ngram_range=(2,2))
bow = count_vect.fit_transform(corpus)
unique_words = count_vect.get_feature_names_out()
print(f'El vocabulario es el siguiente: {unique_words}')
print(bow.toarray())
print(bow.shape)


El vocabulario es el siguiente: ['all for' 'and all' 'battle be' 'battle the' 'be lose' 'for the'
 'for want' 'horse be' 'horse the' 'horseshoe nail' 'kingdom be'
 'message be' 'message the' 'nail the' 'of battle' 'of horse'
 'of horseshoe' 'of message' 'of nail' 'of rider' 'of shoe' 'rider be'
 'rider the' 'shoe be' 'shoe the' 'the battle' 'the horse' 'the kingdom'
 'the message' 'the rider' 'the shoe' 'the want' 'want of']
[[0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 1]
 [0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1]
 [0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1]
 [0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1]
 [0 0 1 0 1 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]
 [0 0 0 1 1 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1]
 [1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1]]
(7, 33)


## Excluir palabras vacias

Algunas veces deseamos excluir palabras vacias (que por si solas no aportan nada), para poder excluirlas podemos importarlas de la libreria de nltk y mandarselas como parametro a nuestro CounVectorizer

In [118]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import nltk

# nltk.download('stopwords') # Para descargar la última versión de stopwords
stop_words = list(set(stopwords.words('english')))

count_vect = CountVectorizer(stop_words=stop_words) #Count vectizer no toma en cuenta letras individuales.


corpus = [
    'for want of a nail the shoe be lose',
    'for want of a shoe the horse be lose',
    'for want of a horse the rider be lose',
    'for want of a rider the message be lose',
    'for want of a message the battle be lose',
    'for want of a battle the kingdom be lose',
    'and all for the want of a horseshoe nail'
]

bow = count_vect.fit_transform(corpus)
unique_words = count_vect.get_feature_names_out()


print(f' Tamaño {bow.shape}: {bow.shape[0]} textos, {bow.shape[1]} palabras únicas')
print(f'El vocabulario es el siguiente: {unique_words}')
print(bow.toarray())


 Tamaño (7, 10): 7 textos, 10 palabras únicas
El vocabulario es el siguiente: ['battle' 'horse' 'horseshoe' 'kingdom' 'lose' 'message' 'nail' 'rider'
 'shoe' 'want']
[[0 0 0 0 1 0 1 0 1 1]
 [0 1 0 0 1 0 0 0 1 1]
 [0 1 0 0 1 0 0 1 0 1]
 [0 0 0 0 1 1 0 1 0 1]
 [1 0 0 0 1 1 0 0 0 1]
 [1 0 0 1 1 0 0 0 0 1]
 [0 0 1 0 0 0 1 0 0 1]]


* La lista de palabras únicas en la bolsa se llama vocabulario

# TF-IFD 
La formula TF-IDF mejor conocida como Term Frequency , Inverse Document Frequency, se ejecuta de la siguiente forma.

$$ TF-IDF  - TF * IDF $$

En donde: 

$TF = \frac{f}{n}$

- f = frecuencia que aparece la palabra
- n = numero total de palabras

$IDF = log_{10}(\frac{D}{d})$

- D = Numero de parrafos
- d = Numero de parrafos en donde aparece la palabra

## Calculando TF-IDF con Scikit-Learn

In [2]:
import pandas as pd
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer 

data = pd.read_csv('D:/Tripleten/datasets/imdb_reviews_small_lemm.tsv', sep='\t')
corpus = data['review_lemm']

stop_words = list(set(nltk_stopwords.words('english')))
tfid_vect = TfidfVectorizer(stop_words=stop_words)

tf_idf = tfid_vect.fit_transform(corpus)
vocabulary = tfid_vect.get_feature_names_out()

print('El tamaño de la matriz TF-IDF:', tf_idf.shape)
print(vocabulary)

# x = pd.DataFrame(tf_idf.toarray())

El tamaño de la matriz TF-IDF: (4541, 26098)
['aa' 'aaaaaaaaaaaahhhhhhhhhhhhhh' 'aaah' ... 'zuucka' 'zuzz' 'zz']


##  Análisis de sentimiento

El siguiente ejercicio incluye el uso de creación de bolsas para ser usadas en un modelo de regresion. Las bolsas por si solas no mencionan si algo es negativo o positivo es por eso que la columna [pos] entrenará el modelo y le enseñara que elementos han sido considerados como negativos.

In [149]:
import pandas as pd
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, root_mean_squared_error
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split


train_data = pd.read_csv('D:/Tripleten/datasets/imdb_reviews_small_lemm_train.tsv', sep='\t')
test_data = pd.read_csv('D:/Tripleten/datasets/imdb_reviews_small_lemm_test.tsv', sep='\t')

train_corpus = train_data['review_lemm']# extraer reseñas lematizadas para el entrenamiento

stop_words = list(set(nltk_stopwords.words('english')))
count_tf_idf = TfidfVectorizer(stop_words=stop_words)
tf_idf = count_tf_idf.fit_transform(train_corpus) # Transformando mis texto a vectores de palabras únicas.

features_train = tf_idf 
target_train = train_data['pos']# extraer la columna objetivo

test_corpus = test_data['review_lemm'] # extraer reseñas lematizadas para la prueba
features_test = count_tf_idf.transform(test_corpus) # transformar el corpus de entrenamiento

X_train,X_test, y_train, y_test = train_test_split(features_train, target_train ,test_size=1/4 , random_state=12345)

model =  LogisticRegression() # inicializar el modelo de regresión logística y ajustarlo

model.fit(X_train, y_train)
pred_pre_test = model.predict(X_test)# obtener predicciones para la parte de prueba de los datos
acc_score = accuracy_score(y_test,pred_pre_test) 
f1score = f1_score(y_test,pred_pre_test)
roc_score = roc_auc_score(y_test,pred_pre_test)
# rmse = root_mean_squared_error(y_test,pred_pre_test) #No es usado para clasificación


print(f'El resultado accuracy_score es {acc_score}')
print(f'El resultado f1_score es {f1score}')
print(f'El resultado roc_score es {roc_score}')
# print(f'El resultado rmse es {rmse}')


pred_test = model.predict(features_test)# obtener predicciones para la parte de prueba de los datos

# transformar las predicciones en un DataFrame y guardarlo
submission = pd.DataFrame({'pos':pred_test})
print(submission)

El resultado accuracy_score es 0.8757396449704142
El resultado f1_score es 0.9007874015748032
El resultado roc_score es 0.857286576602472
      pos
0       0
1       1
2       1
3       1
4       0
...   ...
2215    0
2216    1
2217    1
2218    1
2219    1

[2220 rows x 1 columns]


# Pasos para el preprocesamiento

Vamos a repasar los detalles.

1. Antes de pasar a la vectorización de palabras, necesitaremos realizar un preprocesamiento:
- Cada texto está tokenizado (descompuesto en palabras).
- Luego se lematizan las palabras (reducidas a su forma raíz). Sin embargo, los modelos más complejos, como BERT, no requieren este paso - porque entienden las formas de las palabras.
- El texto se limpia de palabras vacías o caracteres innecesarios.
- Para algunos algoritmos (por ejemplo, BERT), se agregan tokens especiales para marcar el comienzo y el final de las oraciones.

2. Cada texto adquiere su propia lista de tokens después del preprocesamiento.

3. Luego, los tokens se pasan al modelo, que los vectoriza mediante el uso de un vocabulario de tokens precompilado. En la salida obtenemos - vectores de longitud predeterminada formados para cada texto.

4. El paso final es pasar las características (vectores) al modelo. Luego, el modelo predice la tonalidad del texto: "0" — negativo o "1" — positivo.

`Embedded` (Insertado de palabra) = Embedded en el contexto de procesamiento de lenguaje natural (NLP) significa que una palabra está representada como un vector numérico en un espacio vectorial que forma parte de un modelo de lenguaje.

# Word2vec

Word2vec es un método que se utiliza para convertir palabras en vectores (de ahí su nombre) para que las palabras cercanas semánticamente acerquen los vectores entre sí.

Por lo tanto, para obtener vectores relevantes para tus textos, debes seleccionar un modelo word2vec que se haya creado para un corpus de textos semánticamente relevante. Por ejemplo, para convertir noticias en vectores, se debe usar un modelo word2vec entrenado en un corpus de noticias.

Además de convertir palabras en vectores, los modelos word2vec también se pueden usar para resolver tareas específicas de PNL. Por ejemplo, pueden ayudar a predecir si algunas palabras son vecinas o no. Las palabras se consideran vecinas si caen en la misma "ventana" (distancia máxima entre palabras)

Otra cosa que puede hacer word2vec es entrenar un modelo para distinguir pares de vecinas verdaderas de las aleatorias. Esta tarea es como una tarea de clasificación binaria, donde las características son palabras y el objetivo es la respuesta a la pregunta de si las palabras son vecinas verdaderas o no.

¿Cómo encontramos los pares de palabras vecinas para entrenar word2vec?
Encontramos los n-gramas a lo largo de todo el corpus de textos.





# Modelo Bert

El modelo BERT (Bidirectional Encoder Representation Transsformers) puede ayudarnos a resolver esto de manera mas sencilla ya que incorpora bastantes elementos en su modelo.

BERT es un paso evolutivo en comparación con word2vec. BERT se convirtió rápidamente en la opción popular para los programadores y ha inspirado a los investigadores a crear otros modelos de representación de lenguaje: FastText, GloVe (Vectores globales para representación de palabras), ELMO (Embeddings from Language Models), GPT (Generative Pre-trained Transformer). Los modelos más precisos actualmente son BERT y GPT.

Al procesar palabras, BERT considera tanto las palabras vecinas inmediatas como las palabras más lejanas. Esto permite que BERT produzca vectores precisos con respecto al significado natural de las palabras.

berti tiene su propio tokenizador y no requiere lematización

### Ejercicio

 Tenemos un gran conjunto de datos de reseñas de películas y necesitamos entrenar la máquina para diferenciar entre reseñas positivas y negativas.

Vamos a resolver esta tarea usando las librerías PyTorch y transformers. La primera librería se utiliza para trabajar con modelos de redes neuronales, mientras que la segunda implementa BERT y otros modelos de representación del lenguaje. Vamos a importarlas:




In [172]:
import numpy as np
import torch
import transformers


tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')
example = 'Estuvo horrible la película.'

#ids = vectores de identificadores numéricos de tokens
ids = tokenizer.encode(example, add_special_tokens=True)


print(f'Estos son indices: {ids}')


Estos son indices: [101, 9765, 2226, 6767, 9202, 2474, 21877, 10415, 7068, 1012, 102]


Para operar el modelo correctamente, establecemos el argumento add_`special_tokens en True`. Significa que agregamos el token inicial (101) y el token final (102) a cualquier texto que se esté transformando.

In [3]:
import numpy as np
import torch
import transformers


tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')
example = 'Estuvo horrible la película.'
ids = tokenizer.encode(example, add_special_tokens=True)


# BERT acepta vectores de longitud fija, por ejemplo 20 tokens. Si faltan, se rellenan con 0, si sobran se
#  limitará hasta n-2 (inicio con 101 y fin con 102) unidades
n= 512 # Longitud maxima de BERT base en tokens únicos
padded = np.array(ids[:n]+[0]*(n-len(ids)))

# print(padded)
print(f'Estos son indices: {ids}')
# print(padded)

Estos son indices: [101, 9765, 2226, 6767, 9202, 2474, 21877, 10415, 7068, 1012, 102]


## Mascaras (Attention Mask)

Ahora tenemos que decirle al modelo por qué los ceros no tienen información significativa. Esto es necesario para el componente del modelo que se llama attention. Vamos a descartar estos tokens y crear una máscara para los tokens importantes, indicando valores cero y distintos de cero:

In [196]:
import numpy as np
import torch
import transformers


tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')
example = 'Estuvo horrible la película.'
ids = tokenizer.encode(example, add_special_tokens=True)

# BERT acepta vectores de longitud fija, por ejemplo 20 tokens. Si faltan, se rellenan con 0, si sobran se
#  limitará hasta n-2 (inicio con 101 y fin con 102) unidades
n= 20
padded = np.array(ids[:n]+[0]*(n-len(ids)))

# print(padded)
# print(f'Estos son indices: {ids}')


attention_mask = np.where(padded != 0, 1, 0)
print(attention_mask.shape)


# Datos reales.
print(padded)

# Attention Mask
print(attention_mask)


(20,)
[  101  9765  2226  6767  9202  2474 21877 10415  7068  1012   102     0
     0     0     0     0     0     0     0     0]
[1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0]


Opción 2
- Podemos truncar los valores maximos con los parametros max_length=n y truncation=True en caso de necesitar limitar, ya que BERT base solo procesa vectores de longitud maxima de 512

In [14]:
import numpy as np
import torch
import transformers

n= 512

tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')
example = 'Estuvo horrible la película.'
ids = tokenizer.encode(example, add_special_tokens=True, max_length=n, truncation=True)


# BERT acepta vectores de longitud fija, por ejemplo 20 tokens. Si faltan, se rellenan con 0, si sobran se
#  limitará hasta n-2 (inicio con 101 y fin con 102) unidades

padded = np.array(ids[:n]+[0]*(n-len(ids)))
attention_mask = np.where(padded != 0 ,1, 0)
print(ids)
print(padded)
print(attention_mask)

[101, 9765, 2226, 6767, 9202, 2474, 21877, 10415, 7068, 1012, 102]
[  101  9765  2226  6767  9202  2474 21877 10415  7068  1012   102     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0   