# Curso NLP + Transformers

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

# An√°lisis de Rese√±as de Amazon üì¶üîç

## 1) Carga y Exploraci√≥n del Dataset ü§ì

**Objetivo: Exploraci√≥n del Dataset.**

In [None]:
import pandas as pd

Descomprimir el archivo .rar

In [None]:
!unrar x "/content/reviews_dataframe_completo.rar"

Carga del dataset

In [None]:
csv_path = "/content/reviews_dataframe_completo.csv"
data = pd.read_csv(csv_path)

Visualizamos las primeras filas del dataset

In [None]:
data.head(3)

## 2) Tokenizaci√≥n Avanzada con Transformers y Hugging Face ü§ñ

**Objetivo: Uso de tokenizadores modernos.**

**- T√©cnicas de Tokenizaci√≥n Modernas:**

**BPE (Byte-Pair Encoding) y WordPiece:** Estas t√©cnicas segmentan las palabras en subunidades (subword units) para manejar vocabularios abiertos y palabras poco frecuentes.

Permiten capturar morfolog√≠a y generar tokens que se pueden recombinar para formar palabras.

**- Uso de Tokenizers de Hugging Face:**

Hugging Face ofrece una amplia gama de tokenizadores optimizados para modelos Transformer. Estos tokenizadores son capaces de:
- Manejar caracteres especiales y emojis.
- Realizar la segmentaci√≥n en subpalabras, mejorando la cobertura del vocabulario.
- Ser compatibles con modelos preentrenados como BERT, DistilBERT, etc.


In [None]:
from transformers import AutoTokenizer

Cargar el tokenizador preentrenado para espa√±ol

In [None]:
tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")

In [None]:
# Ejemplo de tokenizaci√≥n de una rese√±a
sample_text = data["review_body"].iloc[0]
tokens = tokenizer.tokenize(sample_text)

print("Texto de ejemplo:", sample_text)
print("Tokens con Hugging Face:", tokens)


## 3) Uso de Modelos Preentrenados de Transformers para Clasificaci√≥n ü§Ø

**Objetivo: Implementar un Pipeline de Clasificaci√≥n.**

**Modelos Preentrenados:**

Modelos como BERT, DistilBERT y otros se han entrenado con grandes vol√∫menes de datos y son capaces de capturar relaciones contextuales profundas en el lenguaje.

**Ventajas:**

La utilizaci√≥n de modelos preentrenados permite aprovechar conocimientos ling√º√≠sticos generales y especializarlos para tareas de an√°lisis de rese√±as.

In [None]:
from transformers import pipeline

Crear un pipeline para an√°lisis de sentimiento utilizando un modelo preentrenado para espa√±ol

In [None]:
sentiment_pipeline = pipeline(
    "sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment"
    )

Device set to use cuda:0


Aplicar el pipeline a una rese√±a de ejemplo

In [None]:
new_review = "Este producto es excelente y super√≥ mis expectativas."
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del an√°lisis de sentimiento:", result)

Texto de ejemplo: Este producto es excelente y super√≥ mis expectativas.
Resultado del an√°lisis de sentimiento: [{'label': '5 stars', 'score': 0.7781029343605042}]


In [None]:
new_review = "Lo odio ;)!"
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del an√°lisis de sentimiento:", result)

Texto de ejemplo: Lo odio ;)!
Resultado del an√°lisis de sentimiento: [{'label': '5 stars', 'score': 0.6157909035682678}]


In [None]:
new_review = "me encanto?"
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del an√°lisis de sentimiento:", result)

Texto de ejemplo: me encanto?
Resultado del an√°lisis de sentimiento: [{'label': '5 stars', 'score': 0.4976470172405243}]


In [None]:
new_review = "me encanto!!!!!!!"
result = sentiment_pipeline(new_review)

print("Texto de ejemplo:", new_review)
print("Resultado del an√°lisis de sentimiento:", result)

Texto de ejemplo: me encanto!!!!!!!
Resultado del an√°lisis de sentimiento: [{'label': '5 stars', 'score': 0.8658758401870728}]


## 4) Reconocimiento de Entidades (NER) con Transformers üßê

El NER es la tarea de identificar y clasificar entidades (como nombres de empresas, fechas, cantidades, ubicaciones) en un texto.

En el an√°lisis de rese√±as, extraer entidades permite:

- Monitorizar menciones de marcas y productos.
- Identificar fechas o cifras relevantes para evaluar tendencias o incidentes.
- Automatizar la extracci√≥n de informaci√≥n clave para an√°lisis posterior.

In [1]:
from transformers import pipeline

Crear un pipeline para NER utilizando un modelo preentrenado para espa√±ol

In [2]:
ner_pipeline = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    tokenizer="mrm8488/bert-spanish-cased-finetuned-ner",
    )

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Tipos de entidades comunes:

- **ORG:** Organizaciones, como empresas, instituciones o grupos.
- **LOC:** Lugares o ubicaciones geogr√°ficas, como ciudades, pa√≠ses o regiones.
- **MISC:** Entidades miscel√°neas que no encajan en las categor√≠as anteriores, como eventos, obras de arte o conceptos abstractos.

In [3]:
review = "El producto de Samsung Galaxy S21 lleg√≥ el 12 de marzo y super√≥ mis expectativas."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'entity': 'B-ORG', 'score': np.float32(0.99355763), 'index': 4, 'word': 'Sam', 'start': 15, 'end': 18}
{'entity': 'B-ORG', 'score': np.float32(0.52506083), 'index': 5, 'word': '##su', 'start': 18, 'end': 20}
{'entity': 'I-ORG', 'score': np.float32(0.93119097), 'index': 6, 'word': '##ng', 'start': 20, 'end': 22}
{'entity': 'I-ORG', 'score': np.float32(0.98734134), 'index': 7, 'word': 'Gala', 'start': 23, 'end': 27}
{'entity': 'I-ORG', 'score': np.float32(0.98206973), 'index': 8, 'word': '##xy', 'start': 27, 'end': 29}
{'entity': 'I-ORG', 'score': np.float32(0.813187), 'index': 9, 'word': 'S', 'start': 30, 'end': 31}
{'entity': 'I-ORG', 'score': np.float32(0.7824346), 'index': 10, 'word': '##21', 'start': 31, 'end': 33}


**Reconstruir identidad**

In [4]:
def reconstruct_entity(ner_tokens):
    """
    Reconstruye una entidad a partir de una lista de tokens de NER.
    Si un token empieza con "##", se une al token anterior sin espacio.
    """
    entity = ""
    for token in ner_tokens:
        word = token['word']
        # Si el token comienza con "##", se a√±ade sin espacio (quitando "##")
        if word.startswith("##"):
            entity += word[2:]
        else:
            # Si ya hay contenido, se a√±ade un espacio antes del nuevo token
            if entity:
                entity += " " + word
            else:
                entity += word
    return entity

In [5]:
# Reconstruir la entidad
entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

Entidad reconstruida: Samsung Galaxy S21


In [6]:
review = "Compr√© el port√°til HP en Madrid, y el servicio de atenci√≥n al cliente fue excelente."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9984775), 'index': 5, 'word': 'H', 'start': 19, 'end': 20}
{'entity': 'I-MISC', 'score': np.float32(0.9156492), 'index': 6, 'word': '##P', 'start': 20, 'end': 21}
{'entity': 'B-LOC', 'score': np.float32(0.9998977), 'index': 8, 'word': 'Madrid', 'start': 25, 'end': 31}
Entidad reconstruida: HP Madrid


In [7]:
review = "La c√°mara Canon EOS Rebel tiene una calidad de imagen impresionante, ideal para profesionales."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9957456), 'index': 3, 'word': 'Can', 'start': 10, 'end': 13}
{'entity': 'I-MISC', 'score': np.float32(0.99319434), 'index': 4, 'word': '##on', 'start': 13, 'end': 15}
{'entity': 'I-MISC', 'score': np.float32(0.9966273), 'index': 5, 'word': 'E', 'start': 16, 'end': 17}
{'entity': 'I-MISC', 'score': np.float32(0.995978), 'index': 6, 'word': '##OS', 'start': 17, 'end': 19}
{'entity': 'I-MISC', 'score': np.float32(0.9510059), 'index': 7, 'word': 'Re', 'start': 20, 'end': 22}
{'entity': 'I-MISC', 'score': np.float32(0.93761325), 'index': 8, 'word': '##bel', 'start': 22, 'end': 25}
Entidad reconstruida: Canon EOS Rebel


In [8]:
review = "Recib√≠ el reloj Casio a tiempo, pero el embalaje estaba da√±ado."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9961661), 'index': 4, 'word': 'Casi', 'start': 16, 'end': 20}
{'entity': 'I-MISC', 'score': np.float32(0.88944477), 'index': 5, 'word': '##o', 'start': 20, 'end': 21}
Entidad reconstruida: Casio


In [None]:
review = "La experiencia con Apple fue innovadora, aunque el precio es bastante elevado."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

In [9]:
review = "Me cuesta entender c√≥mo crearon DeepSeek."
ner_result = ner_pipeline(review)

for result in ner_result:
    print(result)

entity_name = reconstruct_entity(ner_result)
print("Entidad reconstruida:", entity_name)

{'entity': 'B-MISC', 'score': np.float32(0.9944628), 'index': 6, 'word': 'DeepSeek', 'start': 32, 'end': 40}
Entidad reconstruida: DeepSeek
