# Prompt Optimizer para sistema de recomendaci√≥n (Goodreads)

Este notebook permite evaluar si un prompt es pertinente para un sistema de recomendaci√≥n de libros de ficci√≥n y generar una versi√≥n mejorada del prompt para optimizar b√∫squedas sobre el dataset `goodreads_data.csv`.

**‚ú® Funcionalidad principal: B√öSQUEDA AUTOM√ÅTICA EN GOODREADS**
- Menciona un libro entre comillas (ej. "similar a '1984'")
- El sistema lo busca autom√°ticamente en el dataset de Goodreads
- Extrae metadata real: autor, g√©neros, rating, valoraciones, a√±o
- Genera prompt mejorado con datos reales del dataset
- **No necesitas ingresar manualmente ning√∫n dato**

**Flujo**: 1) Configurar LLM (Gemini/OpenAI), 2) Cargar CSV, 3) Evaluar pertinencia, 4) B√∫squeda autom√°tica + Generar prompt mejorado.

**Incluye modo `mock`** para pruebas sin consumir la API.

---
## ‚ö†Ô∏è Versi√≥n Corregida - Changelog:
- ‚úÖ **B√∫squeda autom√°tica de libros en dataset de Goodreads**
- ‚úÖ **Extracci√≥n autom√°tica de metadata (autor, g√©nero, rating, etc.)**
- ‚úÖ Carga segura de API key (sin hardcodear)
- ‚úÖ Implementaci√≥n de funci√≥n `generate_text()`
- ‚úÖ Carga autom√°tica del dataset CSV
- ‚úÖ Correcci√≥n de regex para extracci√≥n de JSON
- ‚úÖ Mejora de la funci√≥n `improve_prompt()` con an√°lisis inteligente
- ‚úÖ Eliminaci√≥n de documentaci√≥n duplicada
- ‚úÖ Manejo robusto de errores con logging
- ‚úÖ Validaci√≥n del dataset


## 1. Verificaci√≥n de dependencias

Verifica que los paquetes necesarios est√©n instalados. Si falta alguno, inst√°lalo con `uv`.

In [21]:
# Verificar dependencias instaladas
import sys

def check_package(package_name, import_name=None):
    """Verifica si un paquete est√° disponible"""
    import_name = import_name or package_name
    try:
        __import__(import_name)
        print(f"‚úì {package_name} est√° instalado")
        return True
    except ImportError:
        print(f"‚úó {package_name} NO est√° instalado")
        return False

print("Verificando dependencias necesarias:\n")

# Verificar paquetes b√°sicos
check_package('pandas')
check_package('python-dotenv', 'dotenv')

# Verificar paquetes opcionales seg√∫n proveedor
print("\nPaquetes opcionales (seg√∫n proveedor LLM):")
check_package('google-generativeai', 'google.generativeai')
check_package('openai')

print("\n" + "="*60)
print("üì¶ Si falta alg√∫n paquete, inst√°lalo con uv:")
print("   uv add pandas python-dotenv")
print("   uv add google-generativeai  # para Gemini")
print("   uv add openai               # para OpenAI")
print("="*60)


Verificando dependencias necesarias:

‚úì pandas est√° instalado
‚úì python-dotenv est√° instalado

Paquetes opcionales (seg√∫n proveedor LLM):
‚úì google-generativeai est√° instalado
‚úì openai est√° instalado

üì¶ Si falta alg√∫n paquete, inst√°lalo con uv:
   uv add pandas python-dotenv
   uv add google-generativeai  # para Gemini
   uv add openai               # para OpenAI


## 2. Imports y configuraci√≥n inicial

In [22]:
# Imports principales
import os
import json
import re
import logging
from pathlib import Path
from getpass import getpass
import pandas as pd

# Configurar logging para debugging
logging.basicConfig(
    level=logging.INFO,
    format='%(levelname)s: %(message)s'
)
logger = logging.getLogger(__name__)

print("‚úÖ Imports completados")

‚úÖ Imports completados


## 3. Configuraci√≥n del Modelo LLM y API Key

Configura el proveedor de LLM (`gemini` o `openai`) y carga la API key de forma segura.

**Opciones para cargar API key**:
1. Variable de entorno (recomendado): `export GEMINI_API_KEY=tu_clave`
2. Archivo externo: `api_key_gemini.txt` (no debe estar en git)
3. Input manual del usuario (getpass)

In [23]:
# Configuraci√≥n del modelo
MODEL_NAME = 'models/gemini-2.0-flash-exp'  # o 'gpt-4o' para OpenAI
provider = 'gemini'  # 'gemini' o 'openai'

# Carga segura de API key con soporte para .env
API_KEY = None

# Intentar cargar variables de entorno desde archivo .env
try:
    from dotenv import load_dotenv
    if load_dotenv():  # Carga .env si existe
        logger.info("‚úì Archivo .env encontrado y cargado")
except ImportError:
    logger.debug("python-dotenv no instalado, continuando...")

# Opci√≥n 1: Cargar desde variable de entorno (incluye .env si se carg√≥)
env_var_name = 'GEMINI_API_KEY' if provider == 'gemini' else 'OPENAI_API_KEY'
API_KEY = os.environ.get(env_var_name)
if API_KEY:
    logger.info(f"‚úì API key cargada desde variable de entorno {env_var_name}")

# Opci√≥n 2: Cargar desde archivo de texto (si existe)
if not API_KEY:
    api_key_file = Path('api_key_gemini.txt') if provider == 'gemini' else Path('api_key_openai.txt')
    if api_key_file.exists():
        with open(api_key_file, 'r') as f:
            API_KEY = f.read().strip()
        logger.info(f"‚úì API key cargada desde archivo {api_key_file}")

# Opci√≥n 3: Solicitar al usuario
if not API_KEY:
    API_KEY = getpass(f'Ingresa tu API key para {provider} (entrada oculta): ')
    logger.info("‚úì API key ingresada manualmente")

if not API_KEY:
    logger.warning("‚ö†Ô∏è No se configur√≥ API key. Solo funcionar√° el modo mock.")
else:
    logger.info(f"‚úÖ Configuraci√≥n completa: {provider} - {MODEL_NAME}")

print(f"\nModelo: {MODEL_NAME}")
print(f"Proveedor: {provider}")
print(f"API Key configurada: {'S√≠ ‚úì' if API_KEY else 'No (solo modo mock)'}")


INFO: ‚úì Archivo .env encontrado y cargado
INFO: ‚úì API key cargada desde variable de entorno GEMINI_API_KEY
INFO: ‚úÖ Configuraci√≥n completa: gemini - models/gemini-2.0-flash-exp
INFO: ‚úì API key cargada desde variable de entorno GEMINI_API_KEY
INFO: ‚úÖ Configuraci√≥n completa: gemini - models/gemini-2.0-flash-exp



Modelo: models/gemini-2.0-flash-exp
Proveedor: gemini
API Key configurada: S√≠ ‚úì


## 4. Cargar Dataset de Goodreads

Carga el archivo CSV y valida su estructura.

In [24]:
def load_and_validate_dataset(csv_path='goodreads_data.csv'):
    """Carga y valida el dataset de Goodreads"""
    try:
        df = pd.read_csv(csv_path)
        logger.info(f"‚úì Dataset cargado: {len(df)} registros, {len(df.columns)} columnas")
        
        # Validar columnas esperadas
        expected_cols = ['Book', 'Author', 'Genres', 'Description']
        missing = [col for col in expected_cols if col not in df.columns]
        
        if missing:
            logger.warning(f"‚ö†Ô∏è Columnas esperadas pero no encontradas: {missing}")
        else:
            logger.info("‚úì Todas las columnas esperadas est√°n presentes")
        
        # Mostrar informaci√≥n b√°sica
        print(f"\n{'='*60}")
        print("INFORMACI√ìN DEL DATASET")
        print(f"{'='*60}")
        print(f"Registros: {len(df):,}")
        print(f"Columnas: {', '.join(df.columns.tolist())}")
        print(f"\nPrimeros registros:")
        print(df.head(3)[['Book', 'Author', 'Avg_Rating']].to_string())
        print(f"{'='*60}\n")
        
        return df
    
    except FileNotFoundError:
        logger.error(f"‚ùå Archivo no encontrado: {csv_path}")
        logger.info("Intentando buscar en subdirectorios...")
        # Buscar en subdirectorios comunes
        for path in ['./TP03/goodreads_data.csv', './TPv02/goodreads_data.csv']:
            if Path(path).exists():
                logger.info(f"‚úì Encontrado en: {path}")
                return load_and_validate_dataset(path)
        logger.error("‚ùå No se pudo encontrar goodreads_data.csv")
        return None
    
    except Exception as e:
        logger.error(f"‚ùå Error al cargar dataset: {e}")
        return None

# Cargar el dataset
df = load_and_validate_dataset()

if df is None:
    print("\n‚ö†Ô∏è ADVERTENCIA: Dataset no cargado. Las funciones estar√°n limitadas.")

INFO: ‚úì Dataset cargado: 10000 registros, 8 columnas
INFO: ‚úì Todas las columnas esperadas est√°n presentes
INFO: ‚úì Todas las columnas esperadas est√°n presentes



INFORMACI√ìN DEL DATASET
Registros: 10,000
Columnas: Unnamed: 0, Book, Author, Description, Genres, Avg_Rating, Num_Ratings, URL

Primeros registros:
                                                          Book        Author  Avg_Rating
0                                        To Kill a Mockingbird    Harper Lee        4.27
1  Harry Potter and the Philosopher‚Äôs Stone (Harry Potter, #1)  J.K. Rowling        4.47
2                                          Pride and Prejudice   Jane Austen        4.28



## 5. Implementaci√≥n de la Funci√≥n de Generaci√≥n de Texto (LLM)

Esta funci√≥n conecta con la API del proveedor seleccionado (Gemini o OpenAI).

In [25]:
def generate_text(prompt, mock=False, temperature=0.7, max_tokens=500):
    """
    Genera texto usando el LLM configurado.
    
    Args:
        prompt (str): El prompt a enviar al LLM
        mock (bool): Si True, devuelve respuesta simulada
        temperature (float): Temperatura para la generaci√≥n (0-1)
        max_tokens (int): M√°ximo de tokens a generar
    
    Returns:
        str: Respuesta del LLM o respuesta mock
    """
    if mock:
        logger.info("üé≠ Modo MOCK activado - generando respuesta simulada")
        # Respuestas simuladas seg√∫n el tipo de prompt
        if "is_relevant" in prompt.lower():
            return json.dumps({
                "is_relevant": "yes",
                "explanation": "El prompt menciona recomendaci√≥n de libros, lo cual es relevante para el sistema."
            })
        else:
            return json.dumps({
                "improved_prompt": "Recomi√©ndame 10 libros del g√©nero fantas√≠a contempor√°nea, publicados despu√©s de 2010, con rating promedio superior a 4.0 y al menos 1000 valoraciones.",
                "notes": [
                    "Se a√±adi√≥ especificaci√≥n de cantidad (10 libros)",
                    "Se incluy√≥ filtro temporal (despu√©s de 2010)",
                    "Se agregaron filtros de calidad (rating > 4.0, votos > 1000)"
                ]
            })
    
    if not API_KEY:
        raise ValueError("API_KEY no configurada. Usa mock=True para modo de prueba.")
    
    try:
        if provider == 'gemini':
            import google.generativeai as genai
            
            genai.configure(api_key=API_KEY)
            model = genai.GenerativeModel(MODEL_NAME)
            
            generation_config = {
                "temperature": temperature,
                "max_output_tokens": max_tokens,
            }
            
            logger.info(f"üì° Llamando a Gemini ({MODEL_NAME})...")
            response = model.generate_content(
                prompt,
                generation_config=generation_config
            )
            
            result = response.text
            logger.info(f"‚úì Respuesta recibida ({len(result)} caracteres)")
            return result
        
        elif provider == 'openai':
            import openai
            
            openai.api_key = API_KEY
            
            logger.info(f"üì° Llamando a OpenAI ({MODEL_NAME})...")
            response = openai.ChatCompletion.create(
                model=MODEL_NAME,
                messages=[
                    {"role": "system", "content": "Eres un asistente experto en sistemas de recomendaci√≥n de libros."},
                    {"role": "user", "content": prompt}
                ],
                temperature=temperature,
                max_tokens=max_tokens
            )
            
            result = response.choices[0].message.content
            logger.info(f"‚úì Respuesta recibida ({len(result)} caracteres)")
            return result
        
        else:
            raise ValueError(f"Proveedor no soportado: {provider}")
    
    except Exception as e:
        logger.error(f"‚ùå Error al generar texto: {e}")
        raise

print("‚úÖ Funci√≥n generate_text() implementada")

‚úÖ Funci√≥n generate_text() implementada


## 6. Heur√≠stica Local para Evaluar Pertinencia

Evaluaci√≥n r√°pida (sin consumir API) basada en palabras clave.

In [26]:
RELEVANT_KEYWORDS = [
    'recommend', 'recomendar', 'sugerir', 'suggest',
    'book', 'libro', 'novel', 'novela',
    'fiction', 'ficci√≥n',
    'recommendation', 'recomendaci√≥n',
    'genre', 'g√©nero', 'genero',
    'find', 'buscar', 'search',
    'similar', 'parecido', 'like',
    'read', 'leer', 'reading'
]

def heuristic_relevance_check(prompt):
    """
    Evaluaci√≥n heur√≠stica r√°pida de pertinencia.
    
    Returns:
        tuple: (is_relevant: bool, score: int)
    """
    p = prompt.lower()
    score = sum(1 for kw in RELEVANT_KEYWORDS if kw in p)
    is_relevant = score >= 1
    
    logger.debug(f"Heur√≠stica: score={score}, relevante={is_relevant}")
    return is_relevant, score


def extract_json_from_text(text):
    """
    Extrae el primer objeto JSON v√°lido del texto.
    Correcci√≥n del regex defectuoso en la versi√≥n original.
    """
    # Intentar con regex simple primero
    patterns = [
        r'\{[^{}]*\}',  # JSON simple de una l√≠nea
        r'\{.*?\}',      # JSON multil√≠nea (non-greedy)
    ]
    
    for pattern in patterns:
        matches = re.finditer(pattern, text, flags=re.DOTALL)
        for match in matches:
            try:
                return json.loads(match.group(0))
            except json.JSONDecodeError:
                continue
    
    # Si no se pudo extraer JSON, crear objeto b√°sico
    logger.debug("No se pudo extraer JSON v√°lido, creando objeto b√°sico")
    if 'yes' in text.lower() or 's√≠' in text.lower():
        return {'is_relevant': 'yes', 'explanation': text.strip()}
    else:
        return {'is_relevant': 'no', 'explanation': text.strip()}


def analyze_prompt_relevance(prompt, df=None, use_llm=True, mock=False):
    """
    Analiza si un prompt es relevante para el sistema de recomendaci√≥n.
    
    Returns:
        tuple: (is_relevant: bool, reason: str, llm_output: str or None)
    """
    logger.info(f"Analizando pertinencia del prompt: '{prompt[:50]}...'")
    
    # Heur√≠stica r√°pida
    relevance, score = heuristic_relevance_check(prompt)
    reason_parts = [f'heuristic_score={score}']
    llm_out = None
    
    if use_llm:
        # Construir prompt para LLM
        llm_prompt = f"""Eres un clasificador experto. Analiza si el siguiente prompt es relevante para un sistema de recomendaci√≥n de libros de ficci√≥n:

PROMPT DEL USUARIO:
{prompt}

Responde √öNICAMENTE en formato JSON con estos campos:
{{
  "is_relevant": "yes" o "no",
  "explanation": "1-2 frases explicando tu decisi√≥n"
}}
"""
        
        try:
            llm_out = generate_text(llm_prompt, mock=mock)
            j = extract_json_from_text(llm_out)
            
            is_rel = str(j.get('is_relevant', 'no')).lower().startswith('y')
            reason_parts.append('llm_eval=' + ('yes' if is_rel else 'no'))
            
            explanation = j.get('explanation', '')
            logger.info(f"LLM evaluaci√≥n: {'relevante' if is_rel else 'no relevante'}")
            
            return is_rel, '; '.join(reason_parts + [explanation]), llm_out
        
        except Exception as e:
            logger.error(f"Error en evaluaci√≥n LLM: {e}")
            reason_parts.append(f'llm_error={type(e).__name__}')
    
    return relevance, '; '.join(reason_parts), llm_out

print("‚úÖ Funciones de evaluaci√≥n de pertinencia implementadas")

‚úÖ Funciones de evaluaci√≥n de pertinencia implementadas


## 7. Mejora Inteligente del Prompt

La funci√≥n `improve_prompt` **busca autom√°ticamente** los libros mencionados en el dataset de Goodreads y extrae sus datos:

**Funcionalidad autom√°tica:**
- üîç Detecta libros mencionados en el prompt (ej. "similar a '1984'")
- üìö Busca el libro en el dataset de Goodreads
- üìä **Extrae autom√°ticamente**: autor, g√©neros, rating, n√∫mero de valoraciones, a√±o
- ‚ú® Genera prompt mejorado con filtros basados en datos reales del dataset

**No necesitas ingresar manualmente** g√©nero, autor, etc. - el sistema los obtiene autom√°ticamente del dataset.

In [33]:
def summarize_df_columns(df, max_cols=15):
    """Resume las columnas del dataframe."""
    if df is None:
        return 'Dataset no cargado'
    cols = list(df.columns)[:max_cols]
    result = ', '.join(cols)
    if len(df.columns) > max_cols:
        result += f' ... (+{len(df.columns) - max_cols} m√°s)'
    return result


def extract_book_reference(prompt):
    """Extrae menciones a libros espec√≠ficos del prompt."""
    # Patrones que aceptan comillas rectas (' ") y comillas tipogr√°ficas (Unicode)
    # Usando c√≥digos Unicode expl√≠citos para evitar problemas de sintaxis
    patterns = [
        r"similar(?:\s+a)?\s+['\"\u2018\u2019\u201C\u201D]([^'\"\u2018\u2019\u201C\u201D]+)['\"\u2018\u2019\u201C\u201D]",  # similar a "titulo"
        r"como\s+['\"\u2018\u2019\u201C\u201D]([^'\"\u2018\u2019\u201C\u201D]+)['\"\u2018\u2019\u201C\u201D]",  # como "titulo"
        r"parecido\s+a\s+['\"\u2018\u2019\u201C\u201D]([^'\"\u2018\u2019\u201C\u201D]+)['\"\u2018\u2019\u201C\u201D]",  # parecido a "titulo"
        r"['\"\u2018\u2019\u201C\u201D]([^'\"\u2018\u2019\u201C\u201D]{3,})['\"\u2018\u2019\u201C\u201D]",  # cualquier "Titulo" (m√≠nimo 3 caracteres)
    ]
    
    for pat in patterns:
        m = re.search(pat, prompt, flags=re.IGNORECASE)
        if m:
            candidate = m.group(1).strip()
            if len(candidate) > 2:
                logger.debug(f"Libro detectado: '{candidate}'")
                return candidate
    
    return None


def search_book_in_df(df, book_title):
    """Busca un libro en el dataframe."""
    if df is None or book_title is None:
        return None
    
    # Buscar columna de t√≠tulo
    title_col = None
    for col in df.columns:
        if col.lower() in ['title', 'book', 'name', 'titulo']:
            title_col = col
            break
    
    if title_col is None:
        logger.warning("No se encontr√≥ columna de t√≠tulo en el dataset")
        return None
    
    # B√∫squeda case-insensitive
    bt_lower = book_title.lower()
    matches = df[df[title_col].astype(str).str.lower().str.contains(bt_lower, na=False, regex=False)]
    
    if len(matches) > 0:
        logger.info(f"‚úì Libro encontrado: {matches.iloc[0][title_col]}")
        return matches.iloc[0]
    
    logger.debug(f"Libro '{book_title}' no encontrado en el dataset")
    return None


def improve_prompt(prompt, df=None, use_llm=False, mock=False):
    """
    Mejora el prompt usando an√°lisis inteligente del dataset.
    
    Estrategia:
    1. Detectar si menciona un libro espec√≠fico
    2. Buscar ese libro en el dataset de Goodreads
    3. Extraer metadata autom√°ticamente (g√©nero, autor, rating, etc.)
    4. Construir prompt mejorado con filtros espec√≠ficos basados en datos reales
    
    Returns:
        tuple: (improved_prompt: str, notes: list)
    """
    logger.info("Mejorando prompt...")
    notes = []
    
    # Informaci√≥n sobre columnas disponibles
    cols_summary = summarize_df_columns(df)
    notes.append(f'Columnas disponibles: {cols_summary}')
    
    # Intentar detectar libro de referencia
    book_ref = extract_book_reference(prompt)
    
    if book_ref and df is not None:
        notes.append(f'üìö Libro mencionado en el prompt: "{book_ref}"')
        
        # Buscar en el dataset de Goodreads
        found_row = search_book_in_df(df, book_ref)
        
        if found_row is not None:
            # ‚úÖ LIBRO ENCONTRADO - Extraer datos autom√°ticamente del dataset
            notes.append(f'‚úÖ Libro encontrado en el dataset de Goodreads')
            improved_parts = []
            metadata_info = []
            
            # T√≠tulo exacto
            if 'Book' in found_row:
                title = found_row['Book']
                improved_parts.append(f'Recomendar libros similares a "{title}"')
                metadata_info.append(f'üìñ T√≠tulo: {title}')
            
            # Autor (extra√≠do del dataset)
            if 'Author' in found_row and pd.notna(found_row['Author']):
                author = found_row['Author']
                metadata_info.append(f'‚úçÔ∏è Autor: {author}')
                notes.append(f'Autor del libro de referencia: {author}')
            
            # G√©neros (extra√≠dos del dataset)
            if 'Genres' in found_row and pd.notna(found_row['Genres']):
                genres = str(found_row['Genres'])
                improved_parts.append(f'del g√©nero: {genres[:100]}')
                metadata_info.append(f'üé≠ G√©neros: {genres[:80]}...' if len(genres) > 80 else f'üé≠ G√©neros: {genres}')
                notes.append(f'G√©neros autom√°ticamente detectados: {genres[:60]}...' if len(genres) > 60 else f'G√©neros: {genres}')
            
            # Rating (extra√≠do del dataset)
            if 'Avg_Rating' in found_row and pd.notna(found_row['Avg_Rating']):
                rating = float(found_row['Avg_Rating'])
                min_rating = max(3.5, rating - 0.5)
                improved_parts.append(f'con rating m√≠nimo: {min_rating:.1f}')
                metadata_info.append(f'‚≠ê Rating del libro de referencia: {rating:.2f}')
                notes.append(f'Rating autom√°ticamente detectado: {rating:.2f} ‚Üí filtro sugerido: m√≠nimo {min_rating:.1f}')
            
            # N√∫mero de valoraciones (extra√≠do del dataset)
            if 'Num_Ratings' in found_row and pd.notna(found_row['Num_Ratings']):
                num_ratings_raw = found_row['Num_Ratings']
                num_ratings_converted = pd.to_numeric(num_ratings_raw, errors='coerce')
                if pd.notna(num_ratings_converted):
                    num_ratings = int(num_ratings_converted)
                    min_votes = max(100, num_ratings // 20)
                    improved_parts.append(f'y al menos {min_votes:,} valoraciones')
                    metadata_info.append(f'üë• Valoraciones del libro de referencia: {num_ratings:,}')
                    notes.append(f'Valoraciones autom√°ticamente detectadas: {num_ratings:,} ‚Üí filtro sugerido: m√≠nimo {min_votes:,}')
            
            # A√±o de publicaci√≥n (si est√° disponible)
            if 'Year' in found_row and pd.notna(found_row['Year']):
                year = int(found_row['Year'])
                metadata_info.append(f'üìÖ A√±o: {year}')
                notes.append(f'A√±o de publicaci√≥n: {year}')
            
            improved_parts.append('| Limitar resultados a top 10')
            
            improved = ' '.join(improved_parts)
            
            # Agregar resumen de metadata extra√≠da
            notes.append('‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ')
            notes.append('üìä METADATA EXTRA√çDA DEL DATASET DE GOODREADS:')
            notes.extend(metadata_info)
            notes.append('‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ')
            notes.append('‚úÖ Prompt mejorado autom√°ticamente con datos reales del dataset')
        
        else:
            # ‚ùå Libro no encontrado en el dataset
            improved = f'{prompt} | Nota: El libro "{book_ref}" no se encontr√≥ en el dataset de Goodreads. Usar filtros gen√©ricos: g√©nero espec√≠fico, rating>4.0, votos>500, limitar a 10 resultados.'
            notes.append(f'‚ö†Ô∏è Libro "{book_ref}" NO encontrado en el dataset')
            notes.append(f'üí° Sugerencia: Verifica el t√≠tulo exacto o prueba con otro libro')
    
    else:
        # No se detect√≥ libro espec√≠fico: mejora gen√©rica
        improved = f"{prompt} | Sugerencias: especificar un libro de ejemplo (ej. 'similar a \"1984\"'), g√©nero, rango de rating (ej. >4.0), votos m√≠nimos (ej. >500), n√∫mero de resultados (ej. top 10)."
        notes.append('‚ÑπÔ∏è No se detect√≥ menci√≥n a un libro espec√≠fico en el prompt')
        notes.append('üí° Sugerencia: Menciona un libro entre comillas para b√∫squeda autom√°tica en Goodreads')
    
    logger.info("‚úì Prompt mejorado generado")
    return improved, notes

print("‚úÖ Funciones de mejora de prompt implementadas")
print("üí° El sistema ahora busca autom√°ticamente libros en el dataset de Goodreads")
print("   y extrae: t√≠tulo, autor, g√©neros, rating, valoraciones, a√±o")
print("üîß ACTUALIZADO: Ahora detecta comillas tipogr√°ficas (Unicode) y comillas rectas")
print("   Soporta: comillas simples rectas ('), dobles rectas (\"), y comillas tipogr√°ficas")


‚úÖ Funciones de mejora de prompt implementadas
üí° El sistema ahora busca autom√°ticamente libros en el dataset de Goodreads
   y extrae: t√≠tulo, autor, g√©neros, rating, valoraciones, a√±o
üîß ACTUALIZADO: Ahora detecta comillas tipogr√°ficas (Unicode) y comillas rectas
   Soporta: comillas simples rectas ('), dobles rectas ("), y comillas tipogr√°ficas


## 8. Uso: Evaluar y Mejorar un Prompt

Define tu prompt en la variable `PROMPT` y ejecuta para ver:
- ‚úÖ Evaluaci√≥n de pertinencia
- üîç **B√∫squeda autom√°tica** del libro mencionado en Goodreads
- üìä **Extracci√≥n autom√°tica** de metadata (autor, g√©nero, rating, etc.)
- ‚ú® Versi√≥n mejorada del prompt con datos reales
- üìù Notas explicativas detalladas

**C√≥mo funciona la b√∫squeda autom√°tica:**
1. Menciona un libro entre comillas en tu prompt: `"similar a '1984'"`
2. El sistema lo busca autom√°ticamente en el dataset de Goodreads
3. Extrae: autor, g√©neros, rating, valoraciones, a√±o
4. Genera un prompt mejorado con esos datos reales

**No necesitas ingresar manualmente** ning√∫n dato - el sistema los encuentra autom√°ticamente.

In [34]:
# ========================================
# CONFIGURACI√ìN - Edita aqu√≠ tu prompt
# ========================================

# Simplemente menciona un libro entre comillas y el sistema buscar√° autom√°ticamente
# todos sus datos (autor, g√©nero, rating, etc.) en el dataset de Goodreads
PROMPT = "Recomi√©ndame libros similares a '1984'"

# Opciones de ejecuci√≥n
use_llm = False   # True para usar LLM real (requiere API_KEY configurada)
mock = True       # True para modo de prueba sin consumir API

# ========================================
# EJECUCI√ìN
# ========================================

print("\n" + "="*70)
print("AN√ÅLISIS DE PROMPT")
print("="*70)
print(f"\nPrompt original:\n  \"{PROMPT}\"\n")
print("üí° El sistema buscar√° autom√°ticamente '1984' en Goodreads")
print("   y extraer√°: autor, g√©neros, rating, valoraciones, a√±o\n")

# 1. Evaluar pertinencia
print("üîç Evaluando pertinencia...")
is_rel, reason, llm_out = analyze_prompt_relevance(
    PROMPT, 
    df=df if df is not None else None, 
    use_llm=use_llm, 
    mock=mock
)

print(f"\n{'='*70}")
print("RESULTADO DE PERTINENCIA")
print(f"{'='*70}")
print(f"  ¬øEs pertinente?: {'‚úÖ S√ç' if is_rel else '‚ùå NO'}")
print(f"  Raz√≥n: {reason}")

if llm_out and use_llm:
    print(f"\n  Respuesta del LLM:\n  {llm_out}")

# 2. Mejorar prompt (b√∫squeda autom√°tica en Goodreads)
print(f"\n{'='*70}")
print("üîß Mejorando prompt con b√∫squeda autom√°tica en Goodreads...")
improved, notes = improve_prompt(
    PROMPT, 
    df=df if df is not None else None, 
    use_llm=use_llm, 
    mock=mock
)

print(f"\n{'='*70}")
print("PROMPT MEJORADO")
print(f"{'='*70}")
print(f"\n{improved}\n")

print(f"{'='*70}")
print("METADATA EXTRA√çDA Y NOTAS")
print(f"{'='*70}")
for i, note in enumerate(notes, 1):
    print(f"  {note}")

print(f"\n{'='*70}\n")


INFO: Analizando pertinencia del prompt: 'Recomi√©ndame libros similares a '1984'...'
INFO: Mejorando prompt...
INFO: Mejorando prompt...
INFO: ‚úì Libro encontrado: 1984
INFO: ‚úì Prompt mejorado generado
INFO: ‚úì Libro encontrado: 1984
INFO: ‚úì Prompt mejorado generado



AN√ÅLISIS DE PROMPT

Prompt original:
  "Recomi√©ndame libros similares a '1984'"

üí° El sistema buscar√° autom√°ticamente '1984' en Goodreads
   y extraer√°: autor, g√©neros, rating, valoraciones, a√±o

üîç Evaluando pertinencia...

RESULTADO DE PERTINENCIA
  ¬øEs pertinente?: ‚úÖ S√ç
  Raz√≥n: heuristic_score=2

üîß Mejorando prompt con b√∫squeda autom√°tica en Goodreads...

PROMPT MEJORADO

Recomendar libros similares a "1984" del g√©nero: ['Classics', 'Fiction', 'Science Fiction', 'Dystopia', 'Literature', 'Novels', 'Politics'] con rating m√≠nimo: 3.7 | Limitar resultados a top 10

METADATA EXTRA√çDA Y NOTAS
  Columnas disponibles: Unnamed: 0, Book, Author, Description, Genres, Avg_Rating, Num_Ratings, URL
  üìö Libro mencionado en el prompt: "1984"
  ‚úÖ Libro encontrado en el dataset de Goodreads
  Autor del libro de referencia: George Orwell
  G√©neros autom√°ticamente detectados: ['Classics', 'Fiction', 'Science Fiction', 'Dystopia', 'Lite...
  Rating autom√°ticamente det

In [35]:
Stop 

NameError: name 'Stop' is not defined

## 9. Ejemplos Adicionales

Prueba con diferentes tipos de prompts. Los que mencionan libros espec√≠ficos entre comillas activar√°n la **b√∫squeda autom√°tica** en Goodreads.

In [None]:
# Ejemplos de prompts para probar
# Los que tienen libros entre comillas activar√°n b√∫squeda autom√°tica en Goodreads
ejemplos = [
    "libros de fantas√≠a",  # Sin libro espec√≠fico - mejora gen√©rica
    "algo como 'Harry Potter'",  # CON libro - busca autom√°ticamente en Goodreads
    "similar a 'The Hunger Games'",  # CON libro - extrae metadata autom√°ticamente
    "quiero leer ciencia ficci√≥n dist√≥pica",  # Sin libro espec√≠fico
    "recomi√©ndame algo parecido a 'To Kill a Mockingbird'",  # CON libro - b√∫squeda autom√°tica
]

print("\n" + "="*70)
print("EJEMPLOS DE MEJORA DE PROMPTS")
print("="*70)
print("\nüí° Los prompts con libros entre comillas activar√°n b√∫squeda autom√°tica")
print("   en el dataset de Goodreads para extraer metadata real\n")

for i, ejemplo in enumerate(ejemplos, 1):
    print(f"\n{i}. ORIGINAL: \"{ejemplo}\"")
    
    # Evaluar
    is_rel, _, _ = analyze_prompt_relevance(ejemplo, df=df, use_llm=False, mock=True)
    print(f"   Pertinente: {'‚úÖ' if is_rel else '‚ùå'}")
    
    # Mejorar (con b√∫squeda autom√°tica si menciona libro)
    improved, notes = improve_prompt(ejemplo, df=df, use_llm=False, mock=True)
    print(f"   MEJORADO: {improved[:180]}...")
    
    # Mostrar si encontr√≥ libro autom√°ticamente
    if any('encontrado en el dataset' in note for note in notes):
        print(f"   üéØ Libro encontrado - metadata extra√≠da autom√°ticamente")
    elif any('mencionado en el prompt' in note for note in notes):
        print(f"   ‚ö†Ô∏è Libro mencionado pero no encontrado en dataset")
    print()

print("="*70)


INFO: Analizando pertinencia del prompt: 'libros de fantas√≠a...'
INFO: Mejorando prompt...
INFO: ‚úì Prompt mejorado generado
INFO: Analizando pertinencia del prompt: 'algo como 'Harry Potter'...'
INFO: Mejorando prompt...
INFO: ‚úì Libro encontrado: Harry Potter and the Philosopher‚Äôs Stone (Harry Potter, #1)
INFO: ‚úì Prompt mejorado generado
INFO: Analizando pertinencia del prompt: 'similar a 'The Hunger Games'...'
INFO: Mejorando prompt...
INFO: ‚úì Libro encontrado: The Hunger Games (The Hunger Games, #1)
INFO: ‚úì Prompt mejorado generado
INFO: Mejorando prompt...
INFO: ‚úì Prompt mejorado generado
INFO: Analizando pertinencia del prompt: 'algo como 'Harry Potter'...'
INFO: Mejorando prompt...
INFO: ‚úì Libro encontrado: Harry Potter and the Philosopher‚Äôs Stone (Harry Potter, #1)
INFO: ‚úì Prompt mejorado generado
INFO: Analizando pertinencia del prompt: 'similar a 'The Hunger Games'...'
INFO: Mejorando prompt...
INFO: ‚úì Libro encontrado: The Hunger Games (The Hunger Games,


EJEMPLOS DE MEJORA DE PROMPTS

üí° Los prompts con libros entre comillas activar√°n b√∫squeda autom√°tica
   en el dataset de Goodreads para extraer metadata real


1. ORIGINAL: "libros de fantas√≠a"
   Pertinente: ‚úÖ
   MEJORADO: libros de fantas√≠a | Sugerencias: especificar un libro de ejemplo (ej. 'similar a "1984"'), g√©nero, rango de rating (ej. >4.0), votos m√≠nimos (ej. >500), n√∫mero de resultados (ej. ...


2. ORIGINAL: "algo como 'Harry Potter'"
   Pertinente: ‚ùå
   MEJORADO: Recomendar libros similares a "Harry Potter and the Philosopher‚Äôs Stone (Harry Potter, #1)" del g√©nero: ['Fantasy', 'Fiction', 'Young Adult', 'Magic', 'Childrens', 'Middle Grade', ...
   üéØ Libro encontrado - metadata extra√≠da autom√°ticamente


3. ORIGINAL: "similar a 'The Hunger Games'"
   Pertinente: ‚úÖ
   MEJORADO: Recomendar libros similares a "The Hunger Games (The Hunger Games, #1)" del g√©nero: ['Young Adult', 'Fiction', 'Dystopia', 'Fantasy', 'Science Fiction', 'Romance', 'Adventure'

INFO: ‚úì Libro encontrado: To Kill a Mockingbird
INFO: ‚úì Prompt mejorado generado
INFO: ‚úì Prompt mejorado generado


   MEJORADO: Recomendar libros similares a "To Kill a Mockingbird" del g√©nero: ['Classics', 'Fiction', 'Historical Fiction', 'School', 'Literature', 'Young Adult', 'Historical'] con rating m√≠ni...
   üéØ Libro encontrado - metadata extra√≠da autom√°ticamente



## 10. Estad√≠sticas del Dataset (Opcional)

Explora el dataset para entender mejor qu√© filtros puedes usar.

In [None]:
if df is not None:
    print("\n" + "="*70)
    print("ESTAD√çSTICAS DEL DATASET")
    print("="*70)
    
    print(f"\nüìä Informaci√≥n General:")
    print(f"   Total de libros: {len(df):,}")
    print(f"   Columnas: {len(df.columns)}")
    
    if 'Avg_Rating' in df.columns:
        print(f"\n‚≠ê Ratings:")
        print(f"   Promedio: {df['Avg_Rating'].mean():.2f}")
        print(f"   M√≠nimo: {df['Avg_Rating'].min():.2f}")
        print(f"   M√°ximo: {df['Avg_Rating'].max():.2f}")
        print(f"   Mediana: {df['Avg_Rating'].median():.2f}")
    
    if 'Num_Ratings' in df.columns:
        # Convertir a num√©rico si es necesario
        num_ratings = pd.to_numeric(df['Num_Ratings'], errors='coerce')
        print(f"\nüë• N√∫mero de Valoraciones:")
        print(f"   Total: {num_ratings.sum():,.0f}")
        print(f"   Promedio por libro: {num_ratings.mean():.0f}")
        print(f"   M√°ximo: {num_ratings.max():,.0f}")
    
    print(f"\nüìö Top 5 Libros M√°s Valorados:")
    if 'Num_Ratings' in df.columns:
        # Asegurar que Num_Ratings sea num√©rico para ordenar
        df_sorted = df.copy()
        df_sorted['Num_Ratings_numeric'] = pd.to_numeric(df_sorted['Num_Ratings'], errors='coerce')
        top = df_sorted.nlargest(5, 'Num_Ratings_numeric')[['Book', 'Author', 'Avg_Rating', 'Num_Ratings']]
        for idx, row in top.iterrows():
            print(f"   ‚Ä¢ {row['Book'][:50]}")
            num_votes = pd.to_numeric(row['Num_Ratings'], errors='coerce')
            if pd.notna(num_votes):
                print(f"     {row['Author']} - ‚≠ê{row['Avg_Rating']} ({num_votes:,.0f} votos)")
            else:
                print(f"     {row['Author']} - ‚≠ê{row['Avg_Rating']} ({row['Num_Ratings']} votos)")
    
    print(f"\n{'='*70}\n")
else:
    print("‚ö†Ô∏è Dataset no cargado - no se pueden mostrar estad√≠sticas")



ESTAD√çSTICAS DEL DATASET

üìä Informaci√≥n General:
   Total de libros: 10,000
   Columnas: 8

‚≠ê Ratings:
   Promedio: 4.07
   M√≠nimo: 0.00
   M√°ximo: 5.00
   Mediana: 4.08

üë• N√∫mero de Valoraciones:
   Total: 453,789
   Promedio por libro: 164
   M√°ximo: 999

üìö Top 5 Libros M√°s Valorados:
   ‚Ä¢ Hometown Girl After All (Hometown, #2)
     Kirsten Fullmer - ‚≠ê4.32 (999 votos)
   ‚Ä¢ Hometown Girl After All (Hometown, #2)
     Kirsten Fullmer - ‚≠ê4.32 (999 votos)
   ‚Ä¢ Belonging (Temptation, #2)
     Karen Ann Hopkins - ‚≠ê3.98 (998 votos)
   ‚Ä¢ ÿ™ÿ¥Ÿä
     ÿ£ÿ≠ŸÖÿØ ÿÆÿßŸÑÿØ ÿ™ŸàŸÅŸäŸÇ - ‚≠ê4.0 (998 votos)
   ‚Ä¢ Living The Best Day Ever
     Hendri Coetzee - ‚≠ê4.34 (997 votos)


   Mediana: 4.08

üë• N√∫mero de Valoraciones:
   Total: 453,789
   Promedio por libro: 164
   M√°ximo: 999

üìö Top 5 Libros M√°s Valorados:
   ‚Ä¢ Hometown Girl After All (Hometown, #2)
     Kirsten Fullmer - ‚≠ê4.32 (999 votos)
   ‚Ä¢ Hometown Girl After All (Hometown, #2)
     Kirsten