# De Métodos Tradicionales a LLMs 👀
---

Una comparación entre métodos tradicionales (como ser TF-IDF) y Large Language Models (LLMs) puede enfocarse en aspectos clave como la capacidad de extracción de características (vectorización), el manejo del contexto y la generalización.



**TF-IDF** (Term Frequency - Inverse Document Frequency)

Es una técnica clásica de NLP usada para representar texto de manera numérica. Se utiliza principalmente en recuperación de información y análisis de texto.

## 1) Comparación de Vectorización 📊

Muestra cómo los métodos tradicionales y los LLMs generan representaciones (vectores) de un texto o una palabra.

In [None]:
import torch
from sklearn.feature_extraction.text import TfidfVectorizer
from transformers import AutoTokenizer, AutoModel

In [None]:
# Datos de ejemplo
texts = ["El Deep Learning es increíble.",
         "Los modelos de lenguaje son poderosos.",
         "Pytorch es una herramienta útil."]

# 1. Vectorización Tradicional con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_vectors = vectorizer.fit_transform(texts).toarray()

# 2. Vectorización con un LLM (como BERT)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

# Tokenización y Vectorización
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)  # Promedio de embeddings

# Mostrar vectores
print("TF-IDF Vectors Shape:", tfidf_vectors.shape)
print("LLM Vectors Shape:", llm_vectors.shape)


TF-IDF Vectors Shape: (3, 15)


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

LLM Vectors Shape: torch.Size([3, 768])


**Puntos para Comparar:**
- Dimensión de los vectores.
- Captura de contexto (ejemplo: "herramienta útil" tiene un solo sentido en TF-IDF, pero puede ser contextualizado en LLM).
- Escalabilidad y tiempos de cómputo.

## 2) Manejo de Contexto 📚

Diseña un ejemplo donde el significado de una palabra cambie según el contexto.
<br>Por ejemplo, la palabra "banco" puede significar "institución financiera" o "asiento".

In [None]:
# Frases con contexto diferente
sentences = [
    "Voy al banco para depositar dinero.",
    "Me senté en un banco del parque."
]

# TF-IDF (Método Tradicional)
tfidf_vectors = vectorizer.transform(sentences).toarray()
print("TF-IDF Vectors:", tfidf_vectors)

# BERT (LLM)
inputs = tokenizer(sentences, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)
print("LLM Contextualized Vectors:", llm_vectors)

TF-IDF Vectors: [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]
LLM Contextualized Vectors: tensor([[-0.1080, -0.1016, -0.0551,  ..., -0.2480, -0.0584,  0.4269],
        [-0.2354, -0.5212,  0.0697,  ..., -0.3874,  0.2658,  0.4694]])


**Puntos para Comparar:**
- Con TF-IDF, "banco" tendría la misma representación en ambos casos.
- Con LLMs, la representación cambiaría según el contexto de la frase.

## 3) Medición de Similaridad Semántica 🔍

Compara cómo TF-IDF y LLMs calculan la similitud entre textos.
<br>Puedes usar el coseno entre los vectores generados.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
text1 = "Pytorch es excelente para redes neuronales."
text2 = "TensorFlow es otra herramienta poderosa."

# TF-IDF Similarity
tfidf_vectors = vectorizer.transform([text1, text2]).toarray()
similarity_tfidf = cosine_similarity(tfidf_vectors)[0, 1]
print("TF-IDF Similarity:", similarity_tfidf)

# BERT Similarity
inputs = tokenizer([text1, text2], return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)
similarity_llm = cosine_similarity(llm_vectors.numpy())[0, 1]
print("LLM Similarity:", similarity_llm)

TF-IDF Similarity: 0.3664468162665131
LLM Similarity: 0.8217524


**Puntos para Comparar:**
- ¿Cuál método identifica mejor la relación semántica entre textos similares? LLM.
- Limitaciones de TF-IDF en comparación con LLMs.

---
## Conclusiones: 🤙
- **Pros de métodos tradicionales:** más rápidos, interpretables, fáciles de implementar.
- **Pros de LLMs:** capturan contexto, manejan mayor variedad de datos, mejor desempeño en tareas complejas.