# 💬 NLP: Preprocesamiento de Texto y Embeddings

En este notebook exploraremos las técnicas fundamentales para preparar texto y convertirlo en una representación numérica útil para modelos de Machine Learning y Deep Learning. Aprenderás:

- Cómo limpiar y normalizar texto
- Qué son los *tokens*, *stopwords*, *lemmatization*, etc.
- Diferentes formas de representar texto: Bag-of-Words, TF-IDF y Word Embeddings
- Cómo utilizar `spaCy`, `NLTK`, `scikit-learn`, y `gensim`

Combinaremos teoría con ejercicios prácticos para que puedas aplicar todo en tus propios proyectos.

## Limpieza y preprocesamiento de texto

### ¿Por qué es necesario preprocesar el texto?

Los datos textuales están llenos de ruido: puntuación, mayúsculas, acentos, palabras irrelevantes (*stopwords*), etc. El objetivo del preprocesamiento es transformar el texto crudo en una forma que los modelos puedan entender y aprovechar al máximo.

Pasos comunes:
- Pasar todo a minúsculas
- Eliminar puntuación y caracteres especiales
- Eliminar *stopwords*
- Tokenizar (dividir el texto en palabras)
- Lematizar (reducir palabras a su forma base)


In [None]:
import nltk
import spacy
import re
from nltk.corpus import stopwords
nltk.download('stopwords')

nlp = spacy.load("en_core_web_sm")
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    # Minúsculas
    text = text.lower()
    # Eliminar puntuación y números
    text = re.sub(r'[^a-z\s]', '', text)
    # Tokenización y lematización
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if token.text not in stop_words and token.is_alpha]
    return tokens

example_text = "Natural Language Processing (NLP) is amazing! It's used in so many cool applications."
preprocess_text(example_text)

## Representaciones de texto

### Bag of Words (BoW)

La técnica de Bag-of-Words convierte texto en vectores contando cuántas veces aparece cada palabra. Es sencilla y útil para muchos casos, aunque no captura el significado contextual.

Por ejemplo:
- "me gusta el café"
- "el café es bueno"

Ambas frases tendrán una representación basada en la frecuencia de palabras comunes.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    "I love natural language processing",
    "Language models are powerful tools",
    "Processing text is fun"
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulario:", vectorizer.get_feature_names_out())
print("Matriz BoW:\n", X.toarray())

### TF-IDF

TF-IDF (Term Frequency - Inverse Document Frequency) mejora BoW al reducir el peso de palabras frecuentes y aumentar el peso de palabras raras pero significativas.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(corpus)

print("Vocabulario:", tfidf.get_feature_names_out())
print("Matriz TF-IDF:\n", X_tfidf.toarray())

### Word Embeddings

Las *word embeddings* son representaciones densas y continuas de palabras, entrenadas para capturar relaciones semánticas. Por ejemplo, en un buen embedding:

- vector("rey") - vector("hombre") + vector("mujer") ≈ vector("reina")

Usaremos `gensim` para cargar `Word2Vec` o `glove`.


In [None]:
import gensim.downloader as api

# Descargar embeddings preentrenados
wv = api.load("glove-wiki-gigaword-50")

print("Vector de 'king':", wv['king'])

# Medir similitud
print("Similitud entre king y queen:", wv.similarity('king', 'queen'))

## Ejercicio: representar un conjunto de datos

In [None]:
texts = [
    "Deep learning is revolutionizing AI.",
    "Neural networks are the core of deep learning.",
    "NLP enables machines to understand human language."
]

# Preprocesar y vectorizar con TF-IDF
clean_texts = [" ".join(preprocess_text(t)) for t in texts]
X_clean = tfidf.fit_transform(clean_texts)

print("Texto limpio:", clean_texts)
print("TF-IDF:\n", X_clean.toarray())

## Conclusiones

- El preprocesamiento textual es un paso crítico para trabajar con texto.
- BoW y TF-IDF son representaciones sencillas pero útiles.
- Los *word embeddings* permiten capturar significado y relaciones entre palabras.
- En próximos notebooks exploraremos modelos como Word2Vec, FastText y Transformers como BERT.

## (ANEXO) Intro a LLMs y Chatbots



### ¿Qué es un LLM?

Un **Large Language Model (LLM)** es un modelo de lenguaje entrenado con enormes cantidades de texto para predecir y generar lenguaje humano de forma coherente. Algunos ejemplos conocidos:

- GPT (OpenAI)
- LLaMA (Meta)
- Claude (Anthropic)
- Mistral
- Falcon
- PaLM (Google)

Estos modelos son capaces de:

✅ Responder preguntas  
✅ Traducir texto  
✅ Generar código  
✅ Resumir documentos  
✅ Mantener conversaciones (como un chatbot)

Los LLM se basan en **Transformers**, una arquitectura introducida por Vaswani et al. en 2017.

### ¿Qué es un Chatbot?

Un chatbot es una aplicación que simula conversación con humanos. Hay dos grandes tipos:

- **Reglas fijas**: Responden con patrones predefinidos (if...else, árboles de decisión)
- **Basados en LLMs**: Usan modelos como GPT para generar respuestas dinámicas y más naturales

Los chatbots modernos combinan:
- Una interfaz (web, móvil, WhatsApp, etc.)
- Un backend con un LLM
- Posiblemente una base de datos o memoria

### DEMO: Chatbot de ejemplo

In [None]:
# Necesitas instalar primero openai si no lo tienes:
# !pip install openai

import openai

# Gestión de API: https://platform.openai.com/settings/organization/api-keys
openai.api_key = "TU_API_KEY"  # Usa tu clave de OpenAI o carga desde entorno

def ask_gpt(prompt):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",  # O gpt-4 si tienes acceso
        messages=[{"role": "user", "content": prompt}]
    )
    return response['choices'][0]['message']['content']

ask_gpt("¿Cuál es la diferencia entre una red neuronal y un árbol de decisión?")

In [None]:
### FROM OpenAI.com
#from openai import OpenAI
#client = OpenAI()
#
#response = client.responses.create(
#    model="gpt-4.1",
#    input="Write a one-sentence bedtime story about a unicorn."
#)
#
#print(response.output_text)

### App Web de Chatbot con Streamlit

In [None]:
# Instala streamlit si no lo tienes:
# !pip install streamlit openai

import streamlit as st
import openai

openai.api_key = st.secrets["OPENAI_API_KEY"]  # O ponla directo (no recomendado)

st.title("🤖 Chatbot con GPT")

user_input = st.text_input("Escribe tu mensaje")

if user_input:
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": user_input}]
    )
    st.write(response['choices'][0]['message']['content'])

In [None]:
streamlit run chatbot_app.py

## (ANEXO 2) Applicación Chatbot con memoría

Empezamos con un poco de teoría

### FastAPI: API rápida y moderna con Python

🔍 ¿Qué es?

FastAPI es un framework para crear APIs web rápidas, seguras y fáciles de escalar. Se basa en Python estándar (usando type hints) y es ideal para servir modelos de ML o conectar un frontend con un backend inteligente (por ejemplo, un chatbot).

🚀 ¿Por qué usarlo?
- Super rápido (usa uvicorn y async)
- Ideal para microservicios
- Genera automáticamente documentación Swagger
- Compatible con frameworks ML (scikit, PyTorch, TensorFlow, etc.)

In [None]:
# Ejemplo: API que responde con ChatGPT
from fastapi import FastAPI
from pydantic import BaseModel
import openai

app = FastAPI()
openai.api_key = "TU_API_KEY"

class Prompt(BaseModel):
    message: str

@app.post("/chat/")
def chat(prompt: Prompt):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt.message}]
    )
    return {"reply": response['choices'][0]['message']['content']}

> Para probarla: uvicorn app:app --reload

### LangChain: LLMs con herramientas, memoria y lógica

🔍 ¿Qué es?

LangChain es una librería para construir aplicaciones con LLMs que pueden:
- Tener memoria de la conversación
- Acceder a documentos, APIs o bases de datos
- Integrarse con agentes inteligentes y herramientas externas

🎯 Ideal para:
- Chatbots contextuales con memoria
- Sistemas de QA sobre PDFs
- Agentes autónomos con lógica y decisiones

🧠 Conceptos clave:
* Chains: flujos de pasos (input → prompt → LLM → output)
* Memory: guarda el historial de la conversación
* Tools: acceso a fuentes externas (Google, Python, DBs, etc.)
* Agents: modelos que deciden qué herramienta usar en cada momento

In [None]:
# Ejemplo: Chatbot con memoria
from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

llm = ChatOpenAI(model_name="gpt-3.5-turbo")
memory = ConversationBufferMemory()

chat = ConversationChain(
    llm=llm,
    memory=memory,
    verbose=True
)

chat.run("Hola, ¿quién eres?")
chat.run("¿Y qué puedes hacer?")

### Proyecto LLM

Un chatbot con memoria, orquestado con LangChain, que utiliza un modelo open-source de HuggingFace, y es expuesto vía FastAPI como una API que puede usarse desde cualquier frontend (web, app, etc).

DARLE UNA VUELTA PARA HACER QUE SEA UN PROYECTO

1. requirements.txt

fastapi\
uvicorn\
langchain\
transformers\
torch

In [None]:
# chatbot.py : Lógica del chatbot

#####
# AutoModelForCausalLM: Cargamos un modelo de lenguaje causal (tipo GPT)
# pipeline: Creamos un generador de texto a partir del modelo y tokenizer
# HuggingFacePipeline: Lo envolvemos para que LangChain pueda usarlo
# ConversationBufferMemory: Guarda historial de la conversación
# ConversationChain: Maneja la interacción entre usuario ↔ LLM
#####

from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory
from langchain.llms import HuggingFacePipeline
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# 1. Cargamos modelo desde Hugging Face
model_name = "tiiuae/falcon-7b-instruct"  # Puedes usar otro más ligero como "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", trust_remote_code=True)

# 2. Creamos un pipeline de generación
hf_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=200,
    do_sample=True,
    top_p=0.95,
    temperature=0.7
)

# 3. Integramos con LangChain
llm = HuggingFacePipeline(pipeline=hf_pipeline)

# 4. Agregamos memoria de conversación
memory = ConversationBufferMemory()

# 5. Creamos la cadena conversacional
conversation = ConversationChain(
    llm=llm,
    memory=memory,
    verbose=True
)

# 6. Función pública para responder desde la API
def get_chat_response(message: str) -> str:
    return conversation.run(message)

In [None]:
# main.py : API con FastAPI

#####
# FastAPI: Framework para levantar el servidor web
# BaseModel: Define los datos que esperamos recibir (solo un string)
# /chat/: Endpoint POST que recibe un mensaje y devuelve la respuesta del modelo
#####

from fastapi import FastAPI
from pydantic import BaseModel
from chatbot import get_chat_response

app = FastAPI(title="Chatbot con LLMs Open Source")

# 1. Definimos el formato del request
class UserMessage(BaseModel):
    message: str

# 2. Endpoint de prueba
@app.get("/")
def home():
    return {"message": "API de chatbot corriendo correctamente!"}

# 3. Endpoint principal del chatbot
@app.post("/chat/")
def chat(user_input: UserMessage):
    reply = get_chat_response(user_input.message)
    return {"response": reply}

In [None]:
# Ejecutamos
# Instala dependencias
pip install -r requirements.txt

# Corre el servidor
uvicorn main:app --reload

In [None]:
# Probamos el chatbot: Puedes usar curl, Postman o un frontend tipo Streamlit para hablar con él

curl -X POST "http://127.0.0.1:8000/chat/" -H "Content-Type: application/json" -d '{"message":"Hola, ¿qué puedes hacer?"}'

### Resultado: Hemos creado un chatbot que:

Usa un modelo Hugging Face (¡sin necesidad de OpenAI!)\
Guarda contexto de la conversación\
Es servible como API\
Es fácilmente integrable con apps web