##  Arquitectura del Sistema

```
┌──────────────────────────────────────────────────────────┐
│               PIPELINE DE PROCESAMIENTO                  │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Mensaje Usuario                                         │
│       ↓                                                  │
│  ┌─────────────────────┐                                │
│  │  1. REGEX           │ ← Saludos, despedidas         │
│  │  (agent.py)         │   agradecimientos             │
│  └─────────────────────┘                                │
│       ↓ (si no match)                                    │
│  ┌─────────────────────┐                                │
│  │  2. RAG             │ ← FAQs de la empresa          │
│  │  (embeddings.py)    │                                │
│  └─────────────────────┘                                │
│       ↓ (si no match)                                    │
│  ┌─────────────────────┐                                │
│  │  3. FUNCTION        │ ← Predicciones, reportes      │
│  │  MATCHER            │                                │
│  └─────────────────────┘                                │
│       ↓                                                  │
│  ┌─────────────────────┐                                │
│  │  4. LLM GEMINI      │ ← Naturalización de           │
│  │  (llm.py)           │   respuestas                   │
│  └─────────────────────┘                                │
│       ↓                                                  │
│  Respuesta Final                                         │
│                                                          │
└──────────────────────────────────────────────────────────┘
```

##  Parte 1: Integración con Google Gemini

El archivo `llm.py` contiene la integración con la API de Google Gemini.

### Configuración Inicial

In [None]:
from dotenv import load_dotenv
from google import genai
import os

# Cargar variables de entorno
load_dotenv()

# Inicializar cliente de Gemini
client = genai.Client(api_key=os.getenv("GOOGLE_GEMINI_API_KEY"))

### Función Principal: naturalize_response()

Esta función toma datos técnicos y los convierte en respuestas naturales y amigables.

In [None]:
def naturalize_response(base, presentation=False):
    """
    Naturaliza respuestas usando Google Gemini.
    
    Args:
        base: Datos técnicos (dict, list, string) a naturalizar
        presentation: Si True, genera una presentación del asistente
    
    Returns:
        str: Respuesta naturalizada en lenguaje humano
    
    Ejemplos:
        Base técnica:
        {
            'producto': 'Laptop HP',
            'stock_actual': 45,
            'dias_hasta_agotarse': 12
        }
        
        Respuesta naturalizada:
        "Actualmente tenemos 45 unidades de Laptop HP en stock.
         Según las ventas recientes, se estima que el producto
         se agotará en aproximadamente 12 días."
    """
    
    if presentation:
        # Mensaje de presentación del asistente
        message = (
            "Eres un asistente de ventas para una empresa de electrónicos "
            "llamada Arc -- tienda de electrónicos avanzada, que puede buscar "
            "en documentos de preguntas frecuentes, o predecir stock, o generar "
            "reportes, presentate"
        )
    else:
        # Naturalización de datos
        message = (
            "eres un asistente de ventas para una empresa de electrónicos "
            "de una forma amigable y cómoda, no uses decoradores de texto, "
            "es decir escribe principalmente lo necesario de forma amigable, "
            "y si el contenido no existe, da un mensaje de error. "
            f"Debes presentarle al usuario la siguiente información: {str(base)} "
            "aqui terminan los datos, si estos se encuentran vacíos, presenta "
            "un mensaje de error, en lugar de datos incorrectos"
        )
    
    # Llamada a Gemini
    response = client.models.generate_content(
        model="gemini-2.5-flash",
        contents=message
    )
    
    print(response.text)
    return response.text

### Ejemplos de Uso

In [None]:
# Ejemplo 1: Presentación del asistente
presentacion = naturalize_response(None, presentation=True)
print("="*70)
print(presentacion)
print("="*70)

# Ejemplo 2: Naturalizar predicción de stock
datos_stock = {
    'producto': 'Laptop HP',
    'stock_actual': 45,
    'prediccion': [
        {'fecha': '2024-12-08', 'stock': 42},
        {'fecha': '2024-12-09', 'stock': 39},
        {'fecha': '2024-12-10', 'stock': 36}
    ]
}

respuesta = naturalize_response(datos_stock)
print("\n" + "="*70)
print(respuesta)
print("="*70)

# Ejemplo 3: Naturalizar top productos
datos_top = {
    'tipo': 'top_vendidos',
    'productos': [
        {'nombre': 'Mouse Logitech', 'ventas': 156},
        {'nombre': 'Teclado Mecánico', 'ventas': 142},
        {'nombre': 'Monitor Samsung', 'ventas': 98}
    ]
}

respuesta = naturalize_response(datos_top)
print("\n" + "="*70)
print(respuesta)
print("="*70)

# Ejemplo 4: Datos vacíos (manejo de errores)
respuesta = naturalize_response({})
print("\n" + "="*70)
print(respuesta)
print("="*70)

##  Parte 2: Agente Conversacional

El archivo `agent.py` combina regex con el procesamiento de mensajes.

### Sistema de Detección por Regex

Ya cubierto en el notebook de Expresiones Regulares, pero aquí vemos cómo se integra:

In [None]:
import re
import random

def check_regex_response(user_text: str) -> str | None:
    """
    Primera línea de defensa: respuestas rápidas con regex.
    
    Retorna:
    - str: Respuesta inmediata
    - None: Continuar con RAG/Function Matcher/LLM
    """
    text = user_text.lower()

    # SALUDOS
    patron_saludos = r"\b(hola|oli|buenos d[íi]as|buenas tardes|buenas noches|que tal|hello)\b"
    if re.search(patron_saludos, text):
        respuestas = [
            "¡Hola! Bienvenido a Nombre. ¿En qué puedo ayudarte hoy?",
            "¡Buenas! Soy tu asistente virtual. ¿Buscas stock o información?",
            "¡Hola! Estoy listo para ayudarte con el inventario."
        ]
        return random.choice(respuestas)

    # DESPEDIDAS
    patron_despedidas = r"\b(chao|chau|adi[óo]s|hasta luego|nos vemos|bye|cu[íi]date)\b"
    if re.search(patron_despedidas, text):
        respuestas = [
            "¡Hasta luego! Gracias por visitar Nombre.",
            "¡Chao! Vuelve pronto.",
            "Nos vemos. Espero haberte ayudado."
        ]
        return random.choice(respuestas)

    # AGRADECIMIENTOS
    patron_agradecimientos = r"\b(gracias|te agradezco|muy amable|thx)\b"
    if re.search(patron_agradecimientos, text):
        respuestas = [
            "¡De nada! Es un placer ayudarte.",
            "¡Para eso estamos!",
            "Con gusto. ¿Necesitas algo más?"
        ]
        return random.choice(respuestas)

    return None

##  Pipeline Completo de Procesamiento

Así es como se integra todo en el flujo real del chatbot:

In [None]:
def process_user_message(mensaje: str) -> str:
    """
    Pipeline completo de procesamiento de mensajes.
    
    Orden de prioridad:
    1. Regex (saludos, despedidas, agradecimientos)
    2. RAG (búsqueda en FAQs)
    3. Function Matcher (identificar funciones)
    4. LLM Gemini (naturalizar respuesta o conversación general)
    """
    
    # ========================================
    # PASO 1: Verificar patrones regex simples
    # ========================================
    respuesta_regex = check_regex_response(mensaje)
    if respuesta_regex:
        print("[REGEX] Respuesta rápida")
        return respuesta_regex
    
    # ========================================
    # PASO 2: Buscar en RAG (FAQs)
    # ========================================
    from rag.embeddings import similarity_search
    from langchain_ollama import OllamaEmbeddings
    
    embedder = OllamaEmbeddings(model="nomic-embed-text")
    query_vector = embedder.embed_query(mensaje)
    
    resultados_rag = similarity_search(
        query_embedding=query_vector,
        top_k=1,
        group_filter="faq_empresa",
        threshold=0.5
    )
    
    if resultados_rag:
        mejor_match, distancia = resultados_rag[0]
        print(f"[RAG] Match encontrado (distancia: {distancia:.4f})")
        return mejor_match.text
    
    # ========================================
    # PASO 3: Function Matcher
    # ========================================
    from ai.matcher import FunctionCaller
    
    caller = FunctionCaller()
    resultado = caller.identificar_funcion(mensaje)
    
    if resultado['funcion'] and resultado['confianza'] >= 0.6:
        print(f"[FUNCTION] {resultado['funcion']} identificada")
        
        # Ejecutar la función (pseudocódigo)
        # datos = ejecutar_funcion(resultado['funcion'], resultado['parametros'])
        
        # Simular datos de respuesta
        datos = {
            'funcion': resultado['funcion'],
            'parametros': resultado['parametros'],
            'resultado': 'Datos de la función...'
        }
        
        # Naturalizar con LLM
        print("[LLM] Naturalizando respuesta...")
        return naturalize_response(datos)
    
    # ========================================
    # PASO 4: Conversación general con LLM
    # ========================================
    print("[LLM] Generando respuesta conversacional...")
    
    response = client.models.generate_content(
        model="gemini-2.5-flash",
        contents=(
            "Eres un asistente de ventas para Arc - tienda de electrónicos. "
            "Responde de forma amigable y profesional. "
            f"Usuario: {mensaje}"
        )
    )
    
    return response.text

##  Pruebas del Sistema Completo

In [None]:
# Casos de prueba diversos
test_cases = [
    # Regex - Saludos
    "Hola, buenos días",
    
    # RAG - FAQs
    "¿Cuál es el horario de atención?",
    "¿Aceptan devoluciones?",
    
    # Function Matcher
    "¿Cuánto stock hay de Laptop HP?",
    "Productos más vendidos",
    "Stock para el 25 de diciembre",
    
    # LLM General
    "¿Por qué debería comprar en su tienda?",
    "Cuéntame sobre laptops",
    
    # Regex - Despedidas
    "Gracias, adiós"
]

print("=" * 70)
print("PRUEBA COMPLETA DEL SISTEMA LLM")
print("=" * 70)

for i, mensaje in enumerate(test_cases, 1):
    print(f"\n{'='*70}")
    print(f"[{i}/{len(test_cases)}]  Usuario: '{mensaje}'")
    print("="*70)
    
    respuesta = process_user_message(mensaje)
    
    print(f"\n Asistente:\n{respuesta}")
    print("\n" + "="*70)

##  Métricas de Rendimiento

### Comparación de Tiempos de Respuesta

| Método | Tiempo Promedio | Costo | Precisión |
|--------|----------------|-------|------------|
| **Regex** | < 1ms | $0.00 | 100% (patrones exactos) |
| **RAG** | 10-50ms | $0.00 | 85-95% |
| **Function Matcher** | 20-80ms | $0.00 | 85-92% |
| **LLM Gemini** | 500-2000ms | $0.001-0.01 | 90-98% |

### Distribución de Uso (Ejemplo)

```
Regex:           15% ←─ Respuestas instantáneas
RAG:             35% ←─ FAQs y conocimiento base
Function Match:  40% ←─ Funcionalidad principal
LLM:            10% ←─ Conversación general
```

##  Configuración y Variables de Entorno

### Archivo .env

In [None]:
# .env
"""
# Google Gemini API
GOOGLE_GEMINI_API_KEY=tu_api_key_aqui

# PostgreSQL
DATABASE_URL=postgresql://usuario1:password1@localhost:5432/aprendizaje

# Ollama (para embeddings)
OLLAMA_BASE_URL=http://localhost:11434
"""

### Instalación de Dependencias

In [None]:
# requirements.txt
"""
google-generativeai
python-dotenv
langchain-ollama
sentence-transformers
sqlalchemy
pgvector
psycopg2-binary
"""

# Instalación
# !pip install -r requirements.txt

##  Personalización del Asistente

### Ajustar Personalidad y Tono

In [None]:
# Sistema de prompts modulares

SYSTEM_PROMPTS = {
    "base": (
        "Eres un asistente de ventas para Arc - tienda de electrónicos avanzada. "
    ),
    
    "tono_amigable": (
        "Usa un tono amigable, cercano y profesional. "
        "Sé conciso pero completo en tus respuestas. "
    ),
    
    "formato": (
        "No uses decoradores de texto como **negrita** o *cursiva*. "
        "Escribe en texto plano pero bien estructurado. "
    ),
    
    "manejo_errores": (
        "Si no tienes información o los datos están vacíos, "
        "comunica el error de forma amable y ofrece alternativas. "
    )
}

def build_prompt(datos, tipo="respuesta"):
    """Construye prompt personalizado según el tipo de interacción"""
    
    base = SYSTEM_PROMPTS["base"]
    tono = SYSTEM_PROMPTS["tono_amigable"]
    formato = SYSTEM_PROMPTS["formato"]
    errores = SYSTEM_PROMPTS["manejo_errores"]
    
    if tipo == "presentacion":
        return f"{base} {tono} Preséntate brevemente al usuario."
    
    elif tipo == "respuesta":
        return (
            f"{base} {tono} {formato} {errores} "
            f"Presenta la siguiente información al usuario: {datos}"
        )
    
    elif tipo == "conversacion":
        return f"{base} {tono} Responde a la consulta del usuario."

# Uso
# prompt = build_prompt(datos_stock, tipo="respuesta")
# response = client.models.generate_content(model="gemini-2.5-flash", contents=prompt)

##  Mejores Prácticas de Seguridad

### 1. Manejo Seguro de API Keys

In [None]:
import os
from dotenv import load_dotenv

# NUNCA hardcodear API keys
#  MAL
# api_key = "AIzaSyC123456789..."

#  BIEN
load_dotenv()
api_key = os.getenv("GOOGLE_GEMINI_API_KEY")

if not api_key:
    raise ValueError("API key no configurada en .env")

### 2. Validación de Entrada

In [None]:
def validate_user_input(mensaje: str) -> bool:
    """
    Valida entrada del usuario antes de procesarla.
    """
    # Longitud máxima
    if len(mensaje) > 500:
        raise ValueError("Mensaje demasiado largo (máx. 500 caracteres)")
    
    # No vacío
    if not mensaje.strip():
        raise ValueError("Mensaje vacío")
    
    # Detectar posibles inyecciones (básico)
    palabras_prohibidas = ["<script>", "DROP TABLE", "DELETE FROM"]
    mensaje_lower = mensaje.lower()
    
    for palabra in palabras_prohibidas:
        if palabra.lower() in mensaje_lower:
            raise ValueError("Entrada inválida detectada")
    
    return True

### 3. Rate Limiting

In [None]:
from collections import defaultdict
from datetime import datetime, timedelta

class RateLimiter:
    """
    Limita la cantidad de peticiones por usuario.
    """
    def __init__(self, max_requests=10, time_window=60):
        self.max_requests = max_requests  # Máximo de peticiones
        self.time_window = time_window    # Ventana de tiempo (segundos)
        self.requests = defaultdict(list)
    
    def is_allowed(self, user_id: str) -> bool:
        """Verifica si el usuario puede hacer otra petición"""
        now = datetime.now()
        
        # Limpiar peticiones antiguas
        cutoff = now - timedelta(seconds=self.time_window)
        self.requests[user_id] = [
            req_time for req_time in self.requests[user_id]
            if req_time > cutoff
        ]
        
        # Verificar límite
        if len(self.requests[user_id]) >= self.max_requests:
            return False
        
        # Registrar nueva petición
        self.requests[user_id].append(now)
        return True

# Uso
limiter = RateLimiter(max_requests=10, time_window=60)

# if not limiter.is_allowed(user_id):
#     return "Has excedido el límite de peticiones. Intenta en un minuto."

## Monitoreo y Logging

### Sistema de Logging

In [None]:
import logging
from datetime import datetime

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('chatbot.log'),
        logging.StreamHandler()
    ]
)

logger = logging.getLogger(__name__)

def log_interaction(user_id: str, mensaje: str, respuesta: str, metodo: str):
    """
    Registra cada interacción del chatbot.
    """
    logger.info(f"""\n
    {'='*50}
    INTERACCIÓN
    {'='*50}
    Timestamp: {datetime.now().isoformat()}
    User ID: {user_id}
    Método: {metodo}
    
    Mensaje: {mensaje}
    Respuesta: {respuesta[:100]}...
    {'='*50}
    """)

# Uso en el pipeline
# log_interaction(user_id, mensaje, respuesta, "REGEX")
# log_interaction(user_id, mensaje, respuesta, "RAG")
# log_interaction(user_id, mensaje, respuesta, "FUNCTION_MATCHER")
# log_interaction(user_id, mensaje, respuesta, "LLM")

##  Optimizaciones de Rendimiento

### 1. Caché de Respuestas Frecuentes

In [None]:
from functools import lru_cache
import hashlib

class ResponseCache:
    """
    Caché simple para respuestas frecuentes.
    """
    def __init__(self, max_size=100):
        self.cache = {}
        self.max_size = max_size
    
    def _hash_message(self, mensaje: str) -> str:
        """Genera hash del mensaje para usar como key"""
        return hashlib.md5(mensaje.lower().strip().encode()).hexdigest()
    
    def get(self, mensaje: str):
        """Obtiene respuesta del caché"""
        key = self._hash_message(mensaje)
        return self.cache.get(key)
    
    def set(self, mensaje: str, respuesta: str):
        """Guarda respuesta en caché"""
        if len(self.cache) >= self.max_size:
            # Eliminar el más antiguo (FIFO simple)
            self.cache.pop(next(iter(self.cache)))
        
        key = self._hash_message(mensaje)
        self.cache[key] = respuesta

# Uso
cache = ResponseCache(max_size=100)

def process_with_cache(mensaje: str) -> str:
    # Verificar caché
    cached = cache.get(mensaje)
    if cached:
        logger.info("[CACHE] Respuesta encontrada en caché")
        return cached
    
    # Procesar normalmente
    respuesta = process_user_message(mensaje)
    
    # Guardar en caché
    cache.set(mensaje, respuesta)
    
    return respuesta

### 2. Procesamiento Asíncrono

In [None]:
import asyncio

async def process_user_message_async(mensaje: str) -> str:
    """
    Versión asíncrona del pipeline.
    Permite procesar múltiples mensajes concurrentemente.
    """
    
    # PASO 1: Regex (síncono, muy rápido)
    respuesta_regex = check_regex_response(mensaje)
    if respuesta_regex:
        return respuesta_regex
    
    # PASO 2 y 3: RAG y Function Matcher en paralelo
    rag_task = asyncio.create_task(buscar_rag_async(mensaje))
    function_task = asyncio.create_task(buscar_funcion_async(mensaje))
    
    rag_result, function_result = await asyncio.gather(rag_task, function_task)
    
    # Priorizar RAG si encontró resultado
    if rag_result:
        return rag_result
    
    # Usar función si se identificó
    if function_result:
        datos = await ejecutar_funcion_async(function_result)
        return await naturalizar_async(datos)
    
    # PASO 4: LLM general
    return await llamar_llm_async(mensaje)

# Ejecutar
# respuesta = await process_user_message_async("mensaje del usuario")

##  Ventajas del Sistema LLM

###  Naturalidad
Las respuestas son humanas y contextuales, no robóticas.

###  Flexibilidad
Maneja conversaciones fuera del script sin problemas.

###  Multilingüe
Gemini soporta múltiples idiomas naturalmente.

###  Contextual
Puede adaptar el tono y contenido según la situación.

###  Actualizable
Cambios en prompts se reflejan inmediatamente sin reentrenar.

##  Recursos y Referencias

### APIs y Documentación
- **Google Gemini**: https://ai.google.dev/
- **Gemini API Docs**: https://ai.google.dev/gemini-api/docs
- **Python SDK**: https://pypi.org/project/google-generativeai/

### Alternativas
- **OpenAI GPT-4**: https://platform.openai.com/
- **Anthropic Claude**: https://www.anthropic.com/
- **Ollama (local)**: https://ollama.ai/

### Mejores Prácticas
- **Prompt Engineering Guide**: https://www.promptingguide.ai/
- **LangChain**: https://python.langchain.com/

---

*Documentación generada para ProyectoAprendizaje - Diciembre 2024*