# Curso NLP + Transformers

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

# Análisis de Reseñas de Amazon 📦🔍

## 1) Carga y Exploración del Dataset 🤓

**Objetivo: Exploración del Dataset.**

In [5]:
import pandas as pd
import rarfile

In [6]:
import torch
print(torch.cuda.is_available())  # Debería decir True
print(torch.cuda.get_device_name(0))  # Nombre de tu GPU

True
NVIDIA GeForce GTX 1650 Ti


In [7]:
import tensorflow as tf
print(tf.config.list_physical_devices('GPU')) 



[]


Descomprimir el archivo .rar

Carga del dataset

In [8]:
csv_path = "reviews_dataframe_completo.csv"
data = pd.read_csv(csv_path)

Visualizamos las primeras filas del dataset

In [4]:
data.head(3)

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0491108,product_es_0296024,reviewer_es_0999081,1,Nada bueno se me fue ka pantalla en menos de 8...,television Nevir,es,electronics
1,es_0869872,product_es_0922286,reviewer_es_0216771,1,"Horrible, nos tuvimos que comprar otro porque ...",Dinero tirado a la basura con esta compra,es,electronics
2,es_0811721,product_es_0474543,reviewer_es_0929213,1,Te obligan a comprar dos unidades y te llega s...,solo llega una unidad cuando te obligan a comp...,es,drugstore


## 2) Tokenización Avanzada con Transformers y Hugging Face 🤖

**Objetivo: Uso de tokenizadores modernos.**

**- Técnicas de Tokenización Modernas:**

**BPE (Byte-Pair Encoding) y WordPiece:** Estas técnicas segmentan las palabras en subunidades (subword units) para manejar vocabularios abiertos y palabras poco frecuentes.

Permiten capturar morfología y generar tokens que se pueden recombinar para formar palabras.

**- Uso de Tokenizers de Hugging Face:**

Hugging Face ofrece una amplia gama de tokenizadores optimizados para modelos Transformer. Estos tokenizadores son capaces de:
- Manejar caracteres especiales y emojis.
- Realizar la segmentación en subpalabras, mejorando la cobertura del vocabulario.
- Ser compatibles con modelos preentrenados como BERT, DistilBERT, etc.


In [12]:
from transformers import AutoTokenizer

  from .autonotebook import tqdm as notebook_tqdm


In [13]:
# Descargamos el tokenizador pre-entrenado para español
tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-uncased")

In [14]:
# Texto de ejemplo
sample_text = "Nada bueno, se me fue la pantalla en menos de ocho meses"

# Aplicamos el tokenizador
tokens_huggingface = tokenizer.tokenize(sample_text)
tokens = tokenizer(sample_text)

# Visualizamos los resultados
print("Texto original:", sample_text)
print("Tokens con Hugging Face:", tokens_huggingface)
print("Tokens:", tokens)

Texto original: Nada bueno, se me fue la pantalla en menos de ocho meses
Tokens con Hugging Face: ['nada', 'bueno', ',', 'se', 'me', 'fue', 'la', 'pantalla', 'en', 'menos', 'de', 'ocho', 'meses']
Tokens: {'input_ids': [4, 1505, 1491, 1019, 1057, 1094, 1247, 1032, 8289, 1035, 1885, 1009, 4286, 2817, 5], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


In [15]:
# Ejemplo de tokenización de una reseña
sample_text = data["review_body"].iloc[0]
tokens = tokenizer.tokenize(sample_text)

print("Texto de ejemplo:", sample_text)
print("Tokens con Hugging Face:", tokens)


Texto de ejemplo: Nada bueno se me fue ka pantalla en menos de 8 meses y no he recibido respuesta del fabricante
Tokens con Hugging Face: ['nada', 'bueno', 'se', 'me', 'fue', 'ka', 'pantalla', 'en', 'menos', 'de', '8', 'meses', 'y', 'no', 'he', 'recibido', 'respuesta', 'del', 'fabricante']


## 3) Uso de Modelos Preentrenados de Transformers para Clasificación 🤯

**Objetivo: Implementar un Pipeline de Clasificación.**

**Modelos Preentrenados:**

Modelos como BERT, DistilBERT y otros se han entrenado con grandes volúmenes de datos y son capaces de capturar relaciones contextuales profundas en el lenguaje.

**Ventajas:**

La utilización de modelos preentrenados permite aprovechar conocimientos lingüísticos generales y especializarlos para tareas de análisis de reseñas.

In [16]:
from transformers import pipeline
from transformers import AutoModel, AutoTokenizer
import torch

In [None]:
# Modelo y tokenizer CHATGPT
model_name = "bert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Mover modelo a GPU si está disponible
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Tokenizar texto y mover a GPU
inputs = tokenizer("Hola mundo", return_tensors="pt").to(device)

# Obtener salida
outputs = model(**inputs)

Crear un pipeline para análisis de sentimiento utilizando un modelo preentrenado para español

In [21]:
sentiment_pipeline = pipeline(
    "sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment")




To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Device set to use cuda:0


Aplicar el pipeline a una reseña de ejemplo

In [22]:
new_review = "Este producto es excelente y superó mis expectativas."
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del análisis de sentimiento:", result)

Texto de ejemplo: Este producto es excelente y superó mis expectativas.
Resultado del análisis de sentimiento: [{'label': '5 stars', 'score': 0.7781029343605042}]


In [28]:
new_review = "En general muy contenta con el gimnasio. Los empleados siempre amables y con trato cercano. Siempre que he tenido algún problema o consulta, me han ayudado en todo lo que podían. El espacio es amplio, no suelo tener problema para buscarme una zona para hacer los ejercicios y la gente suele ser bastante agradable y dispuesta a compartir el equipo o darte consejo si lo pides.No le doy 5 estrellas porque la infraestructura deja un poco que desear como problemas de goteras o daños en las paredes desde hace bastante tiempo, pero bueno, espero los encargados, en especial Lía, sigan insistiendo a sus superiores para que lo arreglen de una vez porque parece no importarles a estos ultimos sinceramente. Un gimnasio cómodo, bastante recomendable."
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del análisis de sentimiento:", result)

Texto de ejemplo: En general muy contenta con el gimnasio. Los empleados siempre amables y con trato cercano. Siempre que he tenido algún problema o consulta, me han ayudado en todo lo que podían. El espacio es amplio, no suelo tener problema para buscarme una zona para hacer los ejercicios y la gente suele ser bastante agradable y dispuesta a compartir el equipo o darte consejo si lo pides.No le doy 5 estrellas porque la infraestructura deja un poco que desear como problemas de goteras o daños en las paredes desde hace bastante tiempo, pero bueno, espero los encargados, en especial Lía, sigan insistiendo a sus superiores para que lo arreglen de una vez porque parece no importarles a estos ultimos sinceramente. Un gimnasio cómodo, bastante recomendable.
Resultado del análisis de sentimiento: [{'label': '4 stars', 'score': 0.9661840796470642}]


In [30]:
new_review = "Los vestuarios y baños masculinos tienen mal olor, es algo que no había visto en ningún otro de los gimnasios que he vistado, que ya han sido varios. El gimnasio es no es grande, tampoco pequeño y cuenta con la maquinaria necesaria."
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del análisis de sentimiento:", result)

Texto de ejemplo: Los vestuarios y baños masculinos tienen mal olor, es algo que no había visto en ningún otro de los gimnasios que he vistado, que ya han sido varios. El gimnasio es no es grande, tampoco pequeño y cuenta con la maquinaria necesaria.
Resultado del análisis de sentimiento: [{'label': '2 stars', 'score': 0.493122935295105}]


In [26]:
new_review = "me encanto!!!!!!!"
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del análisis de sentimiento:", result)

Texto de ejemplo: me encanto!!!!!!!
Resultado del análisis de sentimiento: [{'label': '5 stars', 'score': 0.8658758401870728}]


## 4) Reconocimiento de Entidades (NER) con Transformers 🧐

El NER es la tarea de identificar y clasificar entidades (como nombres de empresas, fechas, cantidades, ubicaciones) en un texto.

En el análisis de reseñas, extraer entidades permite:

- Monitorizar menciones de marcas y productos.
- Identificar fechas o cifras relevantes para evaluar tendencias o incidentes.
- Automatizar la extracción de información clave para análisis posterior.

In [27]:
from transformers import pipeline

Crear un pipeline para NER utilizando un modelo preentrenado para español

In [None]:
ner_pipeline = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    tokenizer="mrm8488/bert-spanish-cased-finetuned-ner",
    )

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Tipos de entidades comunes:

- **ORG:** Organizaciones, como empresas, instituciones o grupos.
- **LOC:** Lugares o ubicaciones geográficas, como ciudades, países o regiones.
- **MISC:** Entidades misceláneas que no encajan en las categorías anteriores, como eventos, obras de arte o conceptos abstractos.

In [None]:
review = "El producto de Samsung Galaxy S21 llegó el 12 de marzo y superó mis expectativas."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'entity': 'B-ORG', 'score': np.float32(0.99355763), 'index': 4, 'word': 'Sam', 'start': 15, 'end': 18}
{'entity': 'B-ORG', 'score': np.float32(0.52506083), 'index': 5, 'word': '##su', 'start': 18, 'end': 20}
{'entity': 'I-ORG', 'score': np.float32(0.93119097), 'index': 6, 'word': '##ng', 'start': 20, 'end': 22}
{'entity': 'I-ORG', 'score': np.float32(0.98734134), 'index': 7, 'word': 'Gala', 'start': 23, 'end': 27}
{'entity': 'I-ORG', 'score': np.float32(0.98206973), 'index': 8, 'word': '##xy', 'start': 27, 'end': 29}
{'entity': 'I-ORG', 'score': np.float32(0.813187), 'index': 9, 'word': 'S', 'start': 30, 'end': 31}
{'entity': 'I-ORG', 'score': np.float32(0.7824346), 'index': 10, 'word': '##21', 'start': 31, 'end': 33}


**Reconstruir identidad**

In [None]:
def reconstruct_entity(ner_tokens):
    """
    Reconstruye una entidad a partir de una lista de tokens de NER.
    Si un token empieza con "##", se une al token anterior sin espacio.
    """
    entity = ""
    for token in ner_tokens:
        word = token['word']
        # Si el token comienza con "##", se añade sin espacio (quitando "##")
        if word.startswith("##"):
            entity += word[2:]
        else:
            # Si ya hay contenido, se añade un espacio antes del nuevo token
            if entity:
                entity += " " + word
            else:
                entity += word
    return entity

In [None]:
# Reconstruir la entidad
entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

Entidad reconstruida: Samsung Galaxy S21


In [None]:
review = "Compré el portátil HP en Madrid, y el servicio de atención al cliente fue excelente."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9984775), 'index': 5, 'word': 'H', 'start': 19, 'end': 20}
{'entity': 'I-MISC', 'score': np.float32(0.9156492), 'index': 6, 'word': '##P', 'start': 20, 'end': 21}
{'entity': 'B-LOC', 'score': np.float32(0.9998977), 'index': 8, 'word': 'Madrid', 'start': 25, 'end': 31}
Entidad reconstruida: HP Madrid


In [None]:
review = "La cámara Canon EOS Rebel tiene una calidad de imagen impresionante, ideal para profesionales."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9957456), 'index': 3, 'word': 'Can', 'start': 10, 'end': 13}
{'entity': 'I-MISC', 'score': np.float32(0.99319434), 'index': 4, 'word': '##on', 'start': 13, 'end': 15}
{'entity': 'I-MISC', 'score': np.float32(0.9966273), 'index': 5, 'word': 'E', 'start': 16, 'end': 17}
{'entity': 'I-MISC', 'score': np.float32(0.995978), 'index': 6, 'word': '##OS', 'start': 17, 'end': 19}
{'entity': 'I-MISC', 'score': np.float32(0.9510059), 'index': 7, 'word': 'Re', 'start': 20, 'end': 22}
{'entity': 'I-MISC', 'score': np.float32(0.93761325), 'index': 8, 'word': '##bel', 'start': 22, 'end': 25}
Entidad reconstruida: Canon EOS Rebel


In [None]:
review = "Recibí el reloj Casio a tiempo, pero el embalaje estaba dañado."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9961661), 'index': 4, 'word': 'Casi', 'start': 16, 'end': 20}
{'entity': 'I-MISC', 'score': np.float32(0.88944477), 'index': 5, 'word': '##o', 'start': 20, 'end': 21}
Entidad reconstruida: Casio


In [None]:
review = "La experiencia con Apple fue innovadora, aunque el precio es bastante elevado."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

In [None]:
review = "Me cuesta entender cómo crearon DeepSeek."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9944628), 'index': 6, 'word': 'DeepSeek', 'start': 32, 'end': 40}
Entidad reconstruida: DeepSeek
