<a href="https://colab.research.google.com/github/gforconi/UTNIA2025/blob/main/NLP_Conceptos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Clase de NLP ‚Äî Demo pr√°ctica
**Contenidos:** Tokenizaci√≥n y lematizaci√≥n (NLTK), clasificaci√≥n de sentimientos con TF‚ÄëIDF + Naive Bayes (scikit‚Äëlearn), **mini‚ÄëRAG** (b√∫squeda + generaci√≥n simple) y **agente** de juguete con herramientas.

> Ejecut√° las celdas en orden. Si es la primera vez, corr√© la celda de *instalaci√≥n r√°pida*.


## üöÄ Instalaci√≥n r√°pida (si te falta algo)

**NLTK (Natural Language Toolkit)**

Es una librer√≠a de Python para Procesamiento de Lenguaje Natural (PLN).

Proporciona herramientas para:

- Tokenizar (separar palabras y oraciones).

- Eliminar stopwords (palabras sin valor sem√°ntico como ‚Äúel‚Äù, ‚Äúde‚Äù).

- Stemming y lematizaci√≥n (reducir palabras a su ra√≠z).

- Trabajar con corpus (ejemplos) de texto.

Se usa mucho en investigaci√≥n, ense√±anza y prototipos de an√°lisis de texto.

**scikit-learn**

Permite:

- Clasificaci√≥n, regresi√≥n, clustering.

- Preprocesamiento de datos (vectorizaci√≥n de texto, escalado, normalizaci√≥n).

- Modelos estad√≠sticos y algoritmos de ML (Naive Bayes, SVM, √°rboles, etc.).

- Muy usada para crear y entrenar modelos predictivos de forma r√°pida y sencilla.

In [3]:

# Ejecut√° esta celda si no ten√©s las librer√≠as instaladas.
# (Pod√©s volver a ejecutarla sin problemas)
import sys, subprocess

def pip_install(pkg):
    subprocess.check_call([sys.executable, "-m", "pip", "install", "--quiet", pkg])

for pkg in ["nltk", "scikit-learn"]:
    try:
        __import__(pkg.split("==")[0])
    except Exception:
        pip_install(pkg)

import nltk
# Descargar recursos necesarios para tokenizaci√≥n y lematizaci√≥n
nltk.download('punkt', quiet=True)
nltk.download('punkt_tab')
nltk.download('wordnet', quiet=True)
nltk.download('omw-1.4', quiet=True)

print("Listo ‚úÖ")


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Listo ‚úÖ


## 1) Tokenizaci√≥n y lematizaci√≥n (NLTK)

**Tokenizar:** Es el proceso de dividir un texto en unidades m√°s peque√±as llamadas tokens.

Un token puede ser una palabra, un n√∫mero, un signo de puntuaci√≥n o incluso una oraci√≥n, seg√∫n c√≥mo lo definas.

Se pueden tokenizar palabras, oraciones, parrafos.

**Lematizar:** Es reducir una palabra a su forma base o ‚Äúlema‚Äù (la que encontrar√≠as en un diccionario). Tiene en cuenta la gram√°tica y el contexto.

**Stemming:** es una t√©cnica que recorta las palabras a su ra√≠z (stem), sin importar si la ra√≠z es una palabra v√°lida en el idioma. Se basa en reglas simples de cortar sufijos y prefijos.

El stem puede no ser una palabra v√°lida, pero sirve para agrupar variantes parecidas.

**Lematizar vs Stemming:**

Lematizar es m√°s avanzado que un stemming, ya que el stemming solo corta palabras).

Stemming es m√°s mec√°nico y agresivo que la lematizaci√≥n.


In [4]:

from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

texto = "Los modelos de lenguaje grandes est√°n transformando el NLP r√°pidamente."
tokens = word_tokenize(texto.lower(), language='spanish')
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(t) for t in tokens]

print("Tokens:", tokens)
print("Lemmas:", lemmas)


Tokens: ['los', 'modelos', 'de', 'lenguaje', 'grandes', 'est√°n', 'transformando', 'el', 'nlp', 'r√°pidamente', '.']
Lemmas: ['los', 'modelos', 'de', 'lenguaje', 'grandes', 'est√°n', 'transformando', 'el', 'nlp', 'r√°pidamente', '.']


In [6]:
text = "The cats are running faster than the dogs"

# Tokenizaci√≥n
tokens = word_tokenize(text)
print("Tokens:", tokens)

# Lematizaci√≥n
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(t) for t in tokens]
print("Lemmas:", lemmas)

Tokens: ['The', 'cats', 'are', 'running', 'faster', 'than', 'the', 'dogs']
Lemmas: ['The', 'cat', 'are', 'running', 'faster', 'than', 'the', 'dog']


"cats" ‚Üí "cat"

"dogs" ‚Üí "dog"

"running" no cambia porque la lematizaci√≥n de NLTK necesita la parte de la oraci√≥n (POS tag) para hacerlo bien.

## 2) Clasificaci√≥n de sentimientos con TF‚ÄëIDF + Naive Bayes

Las principales librerias que vamos a utilizar son:

**TfidfVectorizer:** transforma el texto en vectores num√©ricos usando la t√©cnica TF-IDF (Term Frequency ‚Äì Inverse Document Frequency).
‚Üí Sirve para representar qu√© tan importantes son las palabras en cada oraci√≥n.

**MultinomialNB:** clasificador Naive Bayes Multinomial, muy usado para texto porque funciona bien con conteos/frecuencias de palabras.

**make_pipeline:** crea un pipeline que encadena varias transformaciones y un modelo en una sola estructura.

In [1]:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Mini dataset de ejemplo (espa√±ol)
# Frases
X = [
    "Me encanta este producto, funciona de maravilla",
    "Horrible experiencia, no lo recomiendo a nadie",
    "Excelente atenci√≥n al cliente, muy satisfecho",
    "Malo y defectuoso, perd√≠ mi dinero",
    "Buen desempe√±o y calidad aceptable",
    "Terrible, se rompe a los dos d√≠as",
    "Fant√°stico, super√≥ mis expectativas",
    "P√©simo servicio y respuesta lenta"
]
# Etiqueta de cada frase
y = ["pos", "neg", "pos", "neg", "pos", "neg", "pos", "neg"]

# Creacion del modelo:
# Aqu√≠ el pipeline hace dos cosas:
# 1. TfidfVectorizer
#     ngram_range=(1,2) ‚Üí usa tanto palabras individuales (unigramas) como pares de palabras consecutivas (bigramas).
#     min_df=1 ‚Üí incluye t√©rminos que aparecen al menos en 1 documento.
# 2. MultinomialNB ‚Üí clasifica el texto transformado en TF-IDF como pos o neg.

modelo = make_pipeline(TfidfVectorizer(ngram_range=(1,2), min_df=1), MultinomialNB())

# Entrenamiento
modelo.fit(X, y)

pruebas = ["muy bueno y recomendable", "esto es una estafa", "calidad normal", "no sirve"]
pred = modelo.predict(pruebas)

for t, p in zip(pruebas, pred):
    print(f"{t!r} -> {p}")


'muy bueno y recomendable' -> pos
'esto es una estafa' -> neg
'calidad normal' -> pos
'no sirve' -> neg


En resumen:

Este script es un clasificador de sentimientos muy b√°sico en espa√±ol.

- Usa TF-IDF para convertir texto en n√∫meros.

- Usa Naive Bayes para clasificar en positivo o negativo.

- Demuestra c√≥mo entrenar y luego usar el modelo para predecir frases nuevas.

### Mirar caracter√≠sticas TF‚ÄëIDF

In [3]:
vect = modelo.named_steps['tfidfvectorizer']
nb = modelo.named_steps['multinomialnb']

feature_names = vect.get_feature_names_out()
import numpy as np

# Top caracter√≠sticas m√°s influyentes para 'pos' y 'neg'
class_idx_pos = list(nb.classes_).index('pos')
top_pos = np.argsort(nb.feature_log_prob_[class_idx_pos])[-10:]
class_idx_neg = list(nb.classes_).index('neg')
top_neg = np.argsort(nb.feature_log_prob_[class_idx_neg])[-10:]

print("Top POS:", feature_names[top_pos])
print("Top NEG:", feature_names[top_neg])

Top POS: ['buen desempe√±o' 'calidad' 'desempe√±o calidad' 'expectativas' 'aceptable'
 'buen' 'desempe√±o' 'calidad aceptable' 'super√≥ mis' 'super√≥']
Top NEG: ['mi dinero' 'perd√≠ mi' 'perd√≠' 'p√©simo servicio' 'p√©simo' 'lenta'
 'respuesta' 'servicio respuesta' 'respuesta lenta' 'servicio']


## 3) Mini‚ÄëRAG (b√∫squeda + generaci√≥n simple)


**Idea:** guardamos documentos cortos, buscamos los m√°s relevantes con TF‚ÄëIDF y **generamos** una respuesta tomando frases de esos documentos.  
> No requiere API externas ni claves.


In [4]:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

docs = [
    "El NLP permite que las computadoras entiendan y generen lenguaje humano. Involucra tareas como clasificaci√≥n, NER y traducci√≥n.",
    "RAG combina recuperaci√≥n de informaci√≥n con modelos generativos. Primero busca pasajes relevantes y luego el LLM genera la respuesta.",
    "Los embeddings o TF-IDF pueden representar documentos para b√∫squeda sem√°ntica. Luego se seleccionan los top-k m√°s similares.",
    "Un agente puede decidir qu√© herramienta usar (calculadora, b√∫squeda, API) antes de generar una respuesta final."
]

doc_ids = [f"D{i+1}" for i in range(len(docs))]

# Indexado
vectorizer = TfidfVectorizer(stop_words=None)
M = vectorizer.fit_transform(docs)

def retrieve(query, k=2):
    qv = vectorizer.transform([query])
    sims = cosine_similarity(qv, M).ravel()
    idx = sims.argsort()[::-1][:k]
    return [(doc_ids[i], docs[i], float(sims[i])) for i in idx]

def simple_generate(query, retrieved):
    # Generaci√≥n muy simple: concatena oraciones relevantes y agrega un cierre.
    context = " ".join([r[1] for r in retrieved])
    # Selecci√≥n de frases que contienen palabras clave
    import re
    sentences = re.split(r'(?<=[.!?])\s+', context)
    keywords = [w for w in query.lower().split() if len(w) > 3]
    chosen = [s for s in sentences if any(k in s.lower() for k in keywords)]
    if not chosen:
        chosen = sentences[:2]
    answer = " ".join(chosen)
    return answer + " (Respuesta generada a partir de pasajes recuperados)."

query = "¬øQu√© es RAG y c√≥mo se usa con un LLM?"
retrieved = retrieve(query, k=2)
print("Pasajes recuperados:")
for rid, text, score in retrieved:
    print(f"- {rid} (score={score:.3f}): {text}")

print("\nRespuesta:")
print(simple_generate(query, retrieved))


Pasajes recuperados:
- D2 (score=0.302): RAG combina recuperaci√≥n de informaci√≥n con modelos generativos. Primero busca pasajes relevantes y luego el LLM genera la respuesta.
- D4 (score=0.212): Un agente puede decidir qu√© herramienta usar (calculadora, b√∫squeda, API) antes de generar una respuesta final.

Respuesta:
RAG combina recuperaci√≥n de informaci√≥n con modelos generativos. Primero busca pasajes relevantes y luego el LLM genera la respuesta. (Respuesta generada a partir de pasajes recuperados).


## 4) Agente de juguete (herramientas + traza)


**Flujo:** El "agente" decide si usar la **calculadora** o la **b√∫squeda** (mini‚ÄëRAG) seg√∫n la consulta.  
Mostramos una **traza** de decisiones para explicar qu√© hizo.


In [5]:

import operator
import re

def tool_calculator(expr: str):
    # Seguridad b√°sica: solo n√∫meros, espacio y operadores + - * / ( )
    if not re.fullmatch(r"[0-9+\-*/().\s]+", expr):
        raise ValueError("Expresi√≥n no permitida")
    return eval(expr)

def tool_search(query: str):
    return retrieve(query, k=2)

def agent(query: str):
    trace = []
    # Decidir herramienta
    if re.search(r"[0-9]\s*[+\-*/]", query) or any(w in query.lower() for w in ["calcula", "sum√°", "multiplic√°"]):
        trace.append("Decisi√≥n: usar calculadora")
        expr = re.findall(r"[0-9+\-*/().\s]+", query)
        expr = expr[0] if expr else query
        result = tool_calculator(expr)
        trace.append(f"Calculadora -> {expr} = {result}")
        answer = f"El resultado es {result}."
    else:
        trace.append("Decisi√≥n: usar b√∫squeda (mini‚ÄëRAG)")
        hits = tool_search(query)
        trace.append(f"Recuperados: {[h[0] for h in hits]}")
        answer = simple_generate(query, hits)
    return trace, answer

# Pruebas
for q in ["Calcula 12 * (3 + 4)", "¬øQu√© es un agente en NLP?" ]:
    t, a = agent(q)
    print("Consulta:", q)
    print("Traza:")
    for step in t:
        print(" -", step)
    print("Respuesta:", a)
    print("-"*60)


Consulta: Calcula 12 * (3 + 4)
Traza:
 - Decisi√≥n: usar calculadora
 - Calculadora ->  12 * (3 + 4) = 84
Respuesta: El resultado es 84.
------------------------------------------------------------
Consulta: ¬øQu√© es un agente en NLP?
Traza:
 - Decisi√≥n: usar b√∫squeda (mini‚ÄëRAG)
 - Recuperados: ['D4', 'D1']
Respuesta: Un agente puede decidir qu√© herramienta usar (calculadora, b√∫squeda, API) antes de generar una respuesta final. (Respuesta generada a partir de pasajes recuperados).
------------------------------------------------------------



---
### ‚úÖ ¬øQu√© aprendimos?
- C√≥mo **preprocesar** texto (tokenizar/lematizar).
- Entrenar un **clasificador** simple con TF‚ÄëIDF + Naive Bayes.
- Armar un **mini‚ÄëRAG** sin dependencias externas.
- Implementar un **agente** de juguete que decide herramientas y expone su traza.

> Para llevarlo al siguiente nivel, vamos a cambiar TF‚ÄëIDF por **embeddings** y conectar un LLM real. Ayudados por el framework [LangChain](https://www.langchain.com/)
