# De M√©todos Tradicionales a LLMs üëÄ
---

Una comparaci√≥n entre m√©todos tradicionales (como ser TF-IDF) y Large Language Models (LLMs) puede enfocarse en aspectos clave como la capacidad de extracci√≥n de caracter√≠sticas (vectorizaci√≥n), el manejo del contexto y la generalizaci√≥n.



**TF-IDF** (Term Frequency - Inverse Document Frequency)

Es una t√©cnica cl√°sica de NLP usada para representar texto de manera num√©rica. Se utiliza principalmente en recuperaci√≥n de informaci√≥n y an√°lisis de texto.

## 1) Comparaci√≥n de Vectorizaci√≥n üìä

Muestra c√≥mo los m√©todos tradicionales y los LLMs generan representaciones (vectores) de un texto o una palabra.

In [None]:
import torch
from sklearn.feature_extraction.text import TfidfVectorizer
from transformers import AutoTokenizer, AutoModel

In [None]:
# Datos de ejemplo
texts = ["El Deep Learning es incre√≠ble.",
         "Los modelos de lenguaje son poderosos.",
         "Pytorch es una herramienta √∫til."]

# 1. Vectorizaci√≥n Tradicional con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_vectors = vectorizer.fit_transform(texts).toarray()

# 2. Vectorizaci√≥n con un LLM (como BERT)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

# Tokenizaci√≥n y Vectorizaci√≥n
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)  # Promedio de embeddings

# Mostrar vectores
print("TF-IDF Vectors Shape:", tfidf_vectors.shape)
print("LLM Vectors Shape:", llm_vectors.shape)


TF-IDF Vectors Shape: (3, 15)


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

LLM Vectors Shape: torch.Size([3, 768])


**Puntos para Comparar:**
- Dimensi√≥n de los vectores.
- Captura de contexto (ejemplo: "herramienta √∫til" tiene un solo sentido en TF-IDF, pero puede ser contextualizado en LLM).
- Escalabilidad y tiempos de c√≥mputo.

## 2) Manejo de Contexto üìö

Dise√±a un ejemplo donde el significado de una palabra cambie seg√∫n el contexto.
<br>Por ejemplo, la palabra "banco" puede significar "instituci√≥n financiera" o "asiento".

In [None]:
# Frases con contexto diferente
sentences = [
    "Voy al banco para depositar dinero.",
    "Me sent√© en un banco del parque."
]

# TF-IDF (M√©todo Tradicional)
tfidf_vectors = vectorizer.transform(sentences).toarray()
print("TF-IDF Vectors:", tfidf_vectors)

# BERT (LLM)
inputs = tokenizer(sentences, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)
print("LLM Contextualized Vectors:", llm_vectors)

TF-IDF Vectors: [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]
LLM Contextualized Vectors: tensor([[-0.1080, -0.1016, -0.0551,  ..., -0.2480, -0.0584,  0.4269],
        [-0.2354, -0.5212,  0.0697,  ..., -0.3874,  0.2658,  0.4694]])


**Puntos para Comparar:**
- Con TF-IDF, "banco" tendr√≠a la misma representaci√≥n en ambos casos.
- Con LLMs, la representaci√≥n cambiar√≠a seg√∫n el contexto de la frase.

## 3) Medici√≥n de Similaridad Sem√°ntica üîç

Compara c√≥mo TF-IDF y LLMs calculan la similitud entre textos.
<br>Puedes usar el coseno entre los vectores generados.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
text1 = "Pytorch es excelente para redes neuronales."
text2 = "TensorFlow es otra herramienta poderosa."

# TF-IDF Similarity
tfidf_vectors = vectorizer.transform([text1, text2]).toarray()
similarity_tfidf = cosine_similarity(tfidf_vectors)[0, 1]
print("TF-IDF Similarity:", similarity_tfidf)

# BERT Similarity
inputs = tokenizer([text1, text2], return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
    llm_vectors = outputs.last_hidden_state.mean(dim=1)
similarity_llm = cosine_similarity(llm_vectors.numpy())[0, 1]
print("LLM Similarity:", similarity_llm)

TF-IDF Similarity: 0.3664468162665131
LLM Similarity: 0.8217524


**Puntos para Comparar:**
- ¬øCu√°l m√©todo identifica mejor la relaci√≥n sem√°ntica entre textos similares? LLM.
- Limitaciones de TF-IDF en comparaci√≥n con LLMs.

---
## Conclusiones: ü§ô
- **Pros de m√©todos tradicionales:** m√°s r√°pidos, interpretables, f√°ciles de implementar.
- **Pros de LLMs:** capturan contexto, manejan mayor variedad de datos, mejor desempe√±o en tareas complejas.