<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_13_tokens_y_representaciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesi√≥n 13 ‚Äì Tokens y Representaciones

## Objetivos
- Comprender c√≥mo representar texto en formato num√©rico.
- Comparar Bag-of-Words, TF-IDF y Embeddings.
- Implementar embeddings preentrenados.






---

### ¬øQu√© es NLP?

El **Procesamiento de Lenguaje Natural (NLP, por sus siglas en ingl√©s)** es una rama de la inteligencia artificial que estudia c√≥mo las computadoras pueden comprender, interpretar y generar lenguaje humano.
Sus aplicaciones incluyen traducci√≥n autom√°tica, chatbots, an√°lisis de sentimientos, clasificaci√≥n de texto, extracci√≥n de informaci√≥n, entre muchas otras.

---

### Tokens en NLP

En NLP, los *tokens* son las unidades m√≠nimas en que se divide el texto para su an√°lisis.

* **Tokenizaci√≥n tradicional**: cada palabra se considera un token (ej. ‚Äúaprendiendo NLP‚Äù ‚Üí \[‚Äúaprendiendo‚Äù, ‚ÄúNLP‚Äù]).
* **Tokenizaci√≥n subword**: divide palabras en fragmentos m√°s peque√±os (ej. ‚Äúaprendiendo‚Äù ‚Üí \[‚Äúaprend‚Äù, ‚Äúiendo‚Äù]), √∫til para manejar vocabularios extensos y palabras desconocidas.
* **Caracteres**: en algunos sistemas, cada letra o car√°cter es un token.

---

### Bag-of-Words (BoW), TF-IDF y Embeddings

#### Bag-of-Words (BoW)

* Representa el texto como un vector que cuenta la frecuencia de cada palabra en un vocabulario.
* Ventajas: sencillo, interpretable.
* Limitaciones:

  * Pierde el orden de las palabras.
  * Alt√≠sima dimensionalidad (un vector por cada palabra del vocabulario).
  * No captura relaciones sem√°nticas (ej. ‚Äúgato‚Äù y ‚Äúfelino‚Äù aparecen como vectores totalmente distintos).

#### TF-IDF (Term Frequency ‚Äì Inverse Document Frequency)

* Mejora sobre BoW ponderando cada palabra seg√∫n:

  * **TF (Frecuencia de t√©rmino)**: cu√°ntas veces aparece en un documento.
  * **IDF (Frecuencia inversa de documento)**: qu√© tan rara es esa palabra en la colecci√≥n de documentos.
* Intuici√≥n: las palabras comunes como ‚Äúel‚Äù o ‚Äúla‚Äù reciben menor peso, mientras que t√©rminos distintivos como ‚Äúneuronas‚Äù o ‚Äútransformer‚Äù reciben mayor relevancia.
* Sigue siendo esparso y no captura relaciones sem√°nticas profundas, pero mejora la representaci√≥n frente a BoW.

#### Embeddings

* Son representaciones densas y de baja dimensi√≥n, donde cada palabra (o token) se proyecta en un espacio vectorial.
* Capturan similitudes sem√°nticas: palabras con significados cercanos quedan m√°s pr√≥ximas en el espacio.
* Ejemplos cl√°sicos: **Word2Vec**, **GloVe**, **FastText**.
* Ejemplo: ‚Äúrey - hombre + mujer ‚âà reina‚Äù.

**Importancia:** Los embeddings permiten que los modelos comprendan mejor las relaciones entre palabras, mejorando traducci√≥n autom√°tica, clasificaci√≥n de texto, an√°lisis de sentimientos, etc.

---

### Arquitectura Transformer

Los **Transformers** revolucionaron el NLP al introducir mecanismos de *atenci√≥n* en lugar de depender de redes recurrentes (RNN/LSTM).

* **Self-Attention**: cada token puede ‚Äúprestar atenci√≥n‚Äù a todos los dem√°s en la secuencia, capturando dependencias largas.
* **Paralelizaci√≥n**: al no ser recurrente, se entrena de manera m√°s eficiente.
* **Escalabilidad**: es la base de los grandes modelos de lenguaje modernos.

---

### Modelos basados en Transformers: BERT y RoBERTa

#### BERT (*Bidirectional Encoder Representations from Transformers*)

* Propuesto por Google (2018).
* Pre-entrenado en grandes corpus con dos tareas principales:

  * *Masked Language Modeling (MLM)*: predecir palabras ocultas en una oraci√≥n.
  * *Next Sentence Prediction (NSP)*: predecir si una oraci√≥n sigue a otra.
* Es bidireccional: tiene en cuenta el contexto a izquierda y derecha de cada token.
* Se adapta bien a m√∫ltiples tareas mediante *fine-tuning* (clasificaci√≥n, preguntas y respuestas, etc.).

#### RoBERTa (*Robustly Optimized BERT Approach*)

* Propuesto por Facebook AI.
* Mejora sobre BERT al:

  * Entrenar con m√°s datos y durante m√°s tiempo.
  * Usar secuencias m√°s largas.
  * Eliminar la tarea NSP, que resultaba poco √∫til.
* Generalmente supera a BERT en benchmarks de NLP.

---

‚úÖ **Resumen actualizado:**
El **NLP** busca ense√±ar a las m√°quinas a comprender el lenguaje humano. Para representarlo, se empez√≥ con enfoques simples como **Bag-of-Words** y **TF-IDF**, que cuentan frecuencias pero no capturan significado profundo. Los **embeddings** aportaron representaciones densas y sem√°nticas, abriendo paso a modelos m√°s poderosos. Finalmente, los **Transformers**, con arquitecturas como **BERT** y **RoBERTa**, lograron un entendimiento contextual bidireccional, revolucionando el estado del arte en m√∫ltiples tareas de NLP.

---


In [None]:
# Ejemplo de Clasificador (LogReg/Naive Bayes) con BoW/TF-IDF.

from datasets import load_dataset
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Cargar dataset AG News
dataset = load_dataset("ag_news")
X_train = dataset["train"]["text"]
y_train = dataset["train"]["label"]
X_test = dataset["test"]["text"]
y_test = dataset["test"]["label"]

# 2. Vectorizadores (BoW y TF-IDF)
bow_vectorizer = CountVectorizer(max_features=5000, stop_words="english")
tfidf_vectorizer = TfidfVectorizer(max_features=5000, stop_words="english")

X_train_bow = bow_vectorizer.fit_transform(X_train)
X_test_bow = bow_vectorizer.transform(X_test)

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# 3. Modelos a comparar
models = {
    "LogReg_BoW": (LogisticRegression(max_iter=1000), X_train_bow, X_test_bow),
    "NaiveBayes_BoW": (MultinomialNB(), X_train_bow, X_test_bow),
    "LogReg_TFIDF": (LogisticRegression(max_iter=1000), X_train_tfidf, X_test_tfidf),
    "NaiveBayes_TFIDF": (MultinomialNB(), X_train_tfidf, X_test_tfidf),
}

results = []

# 4. Entrenar y evaluar
for name, (model, Xtr, Xte) in models.items():
    model.fit(Xtr, y_train)
    y_pred = model.predict(Xte)
    acc = accuracy_score(y_test, y_pred)
    results.append({"Modelo": name, "Accuracy": acc})

    # --- Matriz de confusi√≥n ---
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(6,5))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
                xticklabels=dataset["train"].features["label"].names,
                yticklabels=dataset["train"].features["label"].names)
    plt.title(f"Matriz de Confusi√≥n - {name}")
    plt.xlabel("Predicci√≥n")
    plt.ylabel("Real")
    plt.show()

# 5. Tabla comparativa de accuracies
df_results = pd.DataFrame(results).sort_values(by="Accuracy", ascending=False).reset_index(drop=True)
print("\nResultados comparativos:\n", df_results)



In [None]:
# Ejemplo de Bag-of-Words vs embeddings

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import torch
from sentence_transformers import SentenceTransformer

# Ejemplo de oraciones
sentences = [
    "El gato duerme en la silla",
    "Un felino descansa en la silla",
]

# --- Bag of Words ---
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(sentences).toarray()

# --- Embeddings con modelo preentrenado ---
model = SentenceTransformer("paraphrase-MiniLM-L6-v2")
embeddings = model.encode(sentences)

# --- Similaridades ---
bow_sim = cosine_similarity([bow_matrix[0]], [bow_matrix[1]])[0][0]
embed_sim = cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]

import pandas as pd
df = pd.DataFrame({
    "M√©todo": ["Bag-of-Words", "Embeddings"],
    "Representaci√≥n (dim)": [str(bow_matrix.shape[1]), str(embeddings.shape[1])],
    "Similitud coseno": [bow_sim, embed_sim]
})

df


**Checklist:**

1. Cargar dataset (IMDB o Yelp).
2. Mostrar 5 rese√±as aleatorias y discutir su tono.
3. Escribir 2 rese√±as propias (positiva y negativa).
4. Tokenizar esas rese√±as con Hugging Face `AutoTokenizer`.
5. Medir longitud de tokens y compararla con el texto original.
6. Visualizar tokens generados (IDs y palabras).


---

## 1. Cargar dataset y explorar

In [None]:
from datasets import load_dataset

# IMDB reviews (50k rese√±as)
dataset = load_dataset("imdb")
print(dataset)

# Ejemplo
print(dataset["train"][0])

---

## 2. Explorar rese√±as y escribir ejemplos propios

In [None]:
import pandas as pd
from datasets import load_dataset
from transformers import pipeline

# Convierte el split 'train' a un DataFrame de pandas
df = pd.DataFrame(dataset["train"])

# Configura pandas para mostrar el contenido completo de las columnas
pd.set_option('display.max_colwidth', None)

# Filtra las rese√±as que tienen menos de 140 caracteres
# (El dataset IMDB tiene textos largos, ajustamos el filtro si es necesario)
short_reviews_df = df[df['text'].str.len() < 140]

# Toma una muestra aleatoria reproducible de 5 rese√±as cortas
sample_of_short_reviews = short_reviews_df.sample(n=5, random_state=42)
print("Muestra de 6 rese√±as cortas seleccionada.")

# Traducci√≥n del texto

try:
    # 6. Carga el pipeline de traducci√≥n (descargar√° el modelo la primera vez)
    print("\nCargando el modelo de traducci√≥n (Helsinki-NLP/opus-mt-en-es)...")
    translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")
    print("Modelo de traducci√≥n cargado. ‚úÖ")

    # 7. Extrae la lista de textos en ingl√©s del DataFrame
    texts_to_translate = sample_of_short_reviews['text'].tolist()

    # 8. Traduce la lista de textos
    print("\nTraduciendo textos...")
    translated_texts = translator(texts_to_translate)
    print("Traducci√≥n completada.")

    # 9. A√±ade la traducci√≥n como una nueva columna al DataFrame
    sample_of_short_reviews['texto_traducido'] = [t['translation_text'] for t in translated_texts]

    # 10. Muestra el DataFrame final con ambas columnas
    print("\n--- Resultado Final: Rese√±as Originales y Traducidas ---")
    print(sample_of_short_reviews[['text', 'texto_traducido', 'label']])

except Exception as e:
    print(f"\nHa ocurrido un error: {e}")
    print("Aseg√∫rate de tener todas las librer√≠as instaladas.")




---

## 3. Tokenizar rese√±as

In [None]:
from transformers import AutoTokenizer

my_reviews = [
    "Fui a ver 'Ecos del Silencio' este fin de semana sin muchas expectativas, y sal√≠ de la sala completamente maravillado.",
    "Ten√≠a muchas ganas de ver 'Misi√≥n Cifrada', pero lamentablemente ha sido una gran decepci√≥n."
]

# RoBERTa base en espa√±ol, con tokenizador BPE est√°ndar
tokenizer = AutoTokenizer.from_pretrained("bertin-project/bertin-roberta-base-spanish")

print("‚úÖ Tokenizador RoBERTa en espa√±ol cargado correctamente.")

tokens = tokenizer(my_reviews, padding=True, truncation=True)
print("\n--- Resultado de la Tokenizaci√≥n ---")
print(tokens)

---

## 4. An√°lisis de tokens

* Comparar n√∫mero de palabras vs tokens.
* Visualizar palabras ‚Üí IDs.

In [None]:
# --- C√≥digo para comparar palabras vs. tokens ---

for i, review in enumerate(my_reviews):
    print(f"--- RESE√ëA #{i+1} ---")
    print(f"Texto original: \"{review}\"")

    # 1. Conteo de palabras (m√©todo simple: dividir por espacios)
    word_count = len(review.split())
    print(f"üîπ N√∫mero de Palabras: {word_count}")

    # 2. Conteo de tokens (usando el tokenizador)
    # Tokenizamos el texto y obtenemos los IDs de los tokens
    token_ids = tokenizer.encode(review)

    # Contamos el n√∫mero total de tokens
    token_count = len(token_ids)
    print(f"üî∏ N√∫mero de Tokens: {token_count}")

    # Para visualizar, convertimos los IDs de vuelta a tokens
    tokens_list = tokenizer.convert_ids_to_tokens(token_ids)
    print(f"   Tokens generados: {tokens_list}\n")


---

## Preguntas de discusi√≥n

### 1. ¬øQu√© ventajas tienen los embeddings frente a bag-of-words?

Los **embeddings** (incrustaciones de palabras) representan un avance fundamental sobre el modelo **bag-of-words** (BoW) porque capturan el **significado sem√°ntico** y el **contexto** de las palabras, algo que BoW es incapaz de hacer.

El modelo **bag-of-words** √∫nicamente registra la frecuencia de las palabras en un texto, pero ignora por completo su orden y la relaci√≥n que tienen entre s√≠. Para BoW, las frases "el perro persigue al gato" y "el gato persigue al perro" son muy similares, aunque su significado es opuesto. Adem√°s, trata palabras como "rey" y "reina" como dos conceptos totalmente independientes y sin ninguna relaci√≥n.

Los **embeddings**, en cambio, mapean palabras a vectores de n√∫meros de tal manera que las palabras con significados similares tienen vectores cercanos en un espacio multidimensional.

Las principales ventajas son:

* **Captura de Relaciones Sem√°nticas:** Los embeddings sit√∫an palabras como "rey" y "reina" cerca una de la otra. Incluso pueden capturar relaciones anal√≥gicas, como la famosa `vector('rey') - vector('hombre') + vector('mujer') ‚âà vector('reina')`.
* **Eficiencia Dimensional:** Mientras que BoW crea vectores muy largos (uno por cada palabra del vocabulario) y dispersos (llenos de ceros), los embeddings son vectores densos y de menor dimensi√≥n (ej. 300 dimensiones vs. 50,000 de BoW), lo que los hace computacionalmente m√°s eficientes.
* **Generalizaci√≥n:** Un modelo pre-entrenado con embeddings (como Word2Vec o GloVe) ya "sabe" que "excelente" y "fant√°stico" son similares, incluso si en tu set de datos de entrenamiento nunca aparecen en el mismo contexto. BoW no puede hacer esta generalizaci√≥n.

En resumen, pasar de bag-of-words a embeddings es como pasar de un simple conteo de palabras a una verdadera comprensi√≥n de su significado y de c√≥mo se relacionan entre s√≠.

---

### 2. ¬øQu√© tipo de rese√±as ser√≠an m√°s dif√≠ciles de clasificar?

Los modelos de clasificaci√≥n de texto, incluso los m√°s avanzados, tienen dificultades con rese√±as que requieren una comprensi√≥n profunda del lenguaje humano, el contexto y el conocimiento del mundo. Las m√°s dif√≠ciles son:

* **Sarcasmo e Iron√≠a:** Son el mayor desaf√≠o. Una rese√±a como *"Claro, me encant√≥ esperar 40 minutos por un caf√© fr√≠o. Una experiencia fant√°stica."* utiliza palabras positivas ("encant√≥", "fant√°stica") para expresar un sentimiento fuertemente negativo. El modelo, al leer literalmente las palabras, puede clasificarla err√≥neamente.

* **Rese√±as Mixtas o Ambiguas:** Aquellas que contienen tanto elementos positivos como negativos son dif√≠ciles de encasillar en una sola categor√≠a. Por ejemplo: *"La comida era deliciosa y el ambiente muy bueno, pero el servicio fue p√©simo y arruin√≥ la noche."* ¬øEs una rese√±a positiva o negativa? Depende del peso que se le d√© a cada aspecto.

* **Lenguaje Comparativo:** Rese√±as que eval√∫an un producto en relaci√≥n con otro. *"Es mucho mejor que el modelo anterior, aunque sigue sin estar a la altura de la competencia."* La clasificaci√≥n depende de un punto de referencia que el modelo puede no conocer.

* **Falta de Contexto o Conocimiento del Mundo:** Frases que requieren conocimiento externo. Por ejemplo, *"Este producto es el 'New Coke' de los videojuegos."* Para entender que esto es una cr√≠tica muy negativa, el modelo necesitar√≠a saber sobre el famoso fracaso comercial de Coca-Cola en los a√±os 80.

* **Textos muy cortos o con jerga:** Rese√±as como *"meh"* o *"equis"* son dif√≠ciles porque contienen muy poca informaci√≥n contextual. De igual manera, el uso de jerga muy espec√≠fica de un nicho puede confundir a un modelo que no fue entrenado con ella.