# Estandarizador de descripciones (Goodreads)

Este notebook conecta con un LLM (p. ej. Gemini 2.0), carga un CSV de datos de Goodreads, limpia y estandariza las descripciones y genera una sinopsis uniforme en inglés (200-250 caracteres) que respeta el orden requerido: 
1) Categoría del libro, 2) época en la que está ambientada, 3) lugar geográfico, 4) descripción mínima de personajes principales —presentada de forma atractiva para el lector.

Instrucciones rápidas: completar `MODEL_NAME` y `API_KEY` en la celda correspondiente y ejecutar las celdas secuencialmente.

In [55]:
# Imports y verificación de dependencias (no instalar automáticamente en notebook)
import sys
import subprocess
import importlib

def ensure_package_available(pkg, import_name=None):
    import_name = import_name or pkg
    try:
        importlib.import_module(import_name)
        return True
    except Exception:
        return False

# Paquetes recomendados (añade o quita según necesites)
_required_packages = ['pandas', 'tqdm', 'unidecode', 'openai']
_missing = [p for p in _required_packages if not ensure_package_available(p)]
if _missing:
    print('Faltan paquetes requeridos:', _missing)
    print('\nInstálalos en tu entorno antes de ejecutar el notebook, por ejemplo:')
    print(f"python -m pip install {' '.join(_missing)}")
    raise ImportError('Paquetes requeridos ausentes: ' + ', '.join(_missing))

# intentamos también soporte para google.generativeai (Gemini) pero lo dejamos como opcional
try:
    import google.generativeai as genai  # puede no estar instalado en todos los entornos
except Exception:
    genai = None

import pandas as pd
from tqdm.auto import tqdm
import re
from unidecode import unidecode
import time
import json
from getpass import getpass
import os


## Configurar modelo y API key

**Importante:** La API key se lee desde la variable de entorno `GEMINI_API_KEY` o `OPENAI_API_KEY` según el proveedor.

**⚠️ NOTA:** El kernel de Jupyter NO hereda automáticamente las variables de entorno de la terminal. Tienes dos opciones:

**Opción 1 - Configurar en el notebook (Recomendado para desarrollo):**
Descomenta y ejecuta la siguiente línea en la celda de abajo:
```python
# os.environ['GEMINI_API_KEY'] = 'AIzaSyA_cHfyyBHY81HDBvJjN3VurgF61OCEjGI'
```

**Opción 2 - Usar archivo .env (Recomendado para producción):**
1. Crea un archivo `.env` en el mismo directorio con:
   ```
   GEMINI_API_KEY=tu_api_key_aqui
   ```
2. Instala python-dotenv: `pip install python-dotenv`
3. El notebook cargará automáticamente las variables del archivo .env

In [56]:
# 🔑 Configurar API key aquí (descomenta la línea siguiente):
# os.environ['GEMINI_API_KEY'] = 'AIzaSyA_cHfyyBHY81HDBvJjN3VurgF61OCEjGI'

# O cargar desde archivo .env (si tienes python-dotenv instalado)
try:
    from dotenv import load_dotenv
    load_dotenv()  # Carga variables desde .env
    print('📄 Archivo .env cargado (si existe)')
except ImportError:
    print('💡 Para usar archivo .env, instala: pip install python-dotenv')

# Configuración del modelo
MODEL_NAME = 'models/gemini-2.0-flash-exp'  # Modelos disponibles: models/gemini-2.0-flash-exp, gemini-1.5-flash, gemini-1.5-pro
provider = 'gemini'  # 'gemini' o 'openai'

# Leer API key desde variable de entorno según el proveedor
if provider == 'gemini':
    API_KEY = os.getenv('GEMINI_API_KEY')
    env_var_name = 'GEMINI_API_KEY'
elif provider == 'openai':
    API_KEY = os.getenv('OPENAI_API_KEY')
    env_var_name = 'OPENAI_API_KEY'
else:
    raise ValueError(f"Proveedor desconocido: {provider}. Usa 'gemini' o 'openai'")

# Validar que la API key esté disponible
if not API_KEY:
    print(f'❌ ERROR: No se encontró la variable de entorno {env_var_name}')
    print(f'\n📝 SOLUCIÓN RÁPIDA: Descomenta la línea al inicio de esta celda:')
    print(f'   # os.environ["{env_var_name}"] = "tu_api_key_aqui"')
    print(f'\n🔧 O crea un archivo .env con:')
    print(f'   {env_var_name}=tu_api_key_aqui')
    raise EnvironmentError(f'Falta la variable de entorno {env_var_name}. No se puede continuar sin acceso al LLM.')

print('✅ Configuración validada:')
print(f'   Modelo: {MODEL_NAME}')
print(f'   Proveedor: {provider}')
print(f'   API Key: {API_KEY[:8]}...{API_KEY[-4:]} (parcial)')


📄 Archivo .env cargado (si existe)
✅ Configuración validada:
   Modelo: models/gemini-2.0-flash-exp
   Proveedor: gemini
   API Key: AIzaSyA_...EjGI (parcial)


## Función unificada para llamar al LLM

Esta función usa el proveedor configurado en la celda anterior (`provider='gemini'` o `provider='openai'`). **No hay fallback automático**: si Gemini falla, el proceso se detiene con un error claro. Esto evita usar OpenAI inadvertidamente cuando no está configurado.

In [57]:
# Función para generar texto con el LLM (Gemini o OpenAI según configuración)
def generate_text(prompt, model=MODEL_NAME, api_key=API_KEY, provider=provider, max_tokens=250, temperature=0.7):
    prompt = prompt.strip()
    
    # Proveedor: Gemini
    if provider == 'gemini':
        if genai is None:
            raise RuntimeError('google.generativeai no está instalado. Instálalo con: uv add google-generativeai')
        try:
            # Configuración para google.generativeai (API nueva)
            genai.configure(api_key=api_key)
            
            # Crear modelo generativo
            modelo = genai.GenerativeModel(model)
            
            # Configuración de generación
            generation_config = {
                'temperature': temperature,
                'max_output_tokens': max_tokens,
            }
            
            # Generar contenido
            response = modelo.generate_content(
                prompt,
                generation_config=generation_config
            )
            
            # Verificar el finish_reason antes de intentar acceder al texto
            if hasattr(response, 'candidates') and len(response.candidates) > 0:
                candidate = response.candidates[0]
                finish_reason = candidate.finish_reason
                
                # finish_reason: 0=UNSPECIFIED, 1=STOP (normal), 2=MAX_TOKENS, 3=SAFETY, 4=RECITATION, 5=OTHER
                if finish_reason == 2:  # MAX_TOKENS
                    # La respuesta fue cortada por límite de tokens, pero podemos extraerla
                    if hasattr(candidate, 'content') and hasattr(candidate.content, 'parts'):
                        text = ''.join(part.text for part in candidate.content.parts if hasattr(part, 'text'))
                        return text if text else '[Respuesta vacía - MAX_TOKENS alcanzado]'
                elif finish_reason == 3:  # SAFETY
                    raise RuntimeError('La respuesta fue bloqueada por filtros de seguridad')
                elif finish_reason in [4, 5]:  # RECITATION u OTHER
                    raise RuntimeError(f'La generación falló con finish_reason={finish_reason}')
            
            # Extraer texto de la respuesta (caso normal)
            if hasattr(response, 'text'):
                return response.text
            elif hasattr(response, 'candidates') and len(response.candidates) > 0:
                candidate = response.candidates[0]
                if hasattr(candidate, 'content') and hasattr(candidate.content, 'parts'):
                    return ''.join(part.text for part in candidate.content.parts if hasattr(part, 'text'))
            
            # Si no se pudo extraer el texto, devolver string de la respuesta
            return str(response)
            
        except Exception as e:
            raise RuntimeError(f'Error al usar Gemini: {e}')
    
    # Proveedor: OpenAI
    elif provider == 'openai':
        try:
            import openai
        except ImportError:
            raise RuntimeError('openai no está instalado. Instálalo con: uv add openai')
        
        try:
            openai.api_key = api_key
            # Usar chat completions si el modelo lo soporta
            try:
                resp = openai.ChatCompletion.create(
                    model=model,
                    messages=[{'role':'user','content': prompt}],
                    temperature=temperature,
                    max_tokens=max_tokens
                )
                return resp['choices'][0]['message']['content'].strip()
            except Exception:
                # fallback a completions simple
                resp = openai.Completion.create(model=model, prompt=prompt, max_tokens=max_tokens, temperature=temperature)
                return resp['choices'][0]['text'].strip()
        except Exception as e:
            raise RuntimeError(f'Error al usar OpenAI: {e}')
    
    else:
        raise ValueError(f'Proveedor desconocido: {provider}. Usa "gemini" o "openai"')


## ✅ Verificar acceso al LLM

Prueba de conexión con el LLM antes de procesar datos. Si falla, el proceso se detiene aquí.

In [58]:
# Verificar que el LLM esté disponible antes de continuar
print('🔍 Verificando acceso al LLM...')
print(f'   Proveedor: {provider}')
print(f'   Modelo: {MODEL_NAME}')

# Validar que tenemos API key
if not API_KEY:
    print('❌ ERROR: No hay API_KEY configurada')
    raise EnvironmentError('Falta API_KEY. Revisa la celda de configuración.')

# Prueba simple con el LLM
test_prompt = "Di 'OK' en una sola palabra."
try:
    print(f'   Enviando prueba al LLM...', end=' ')
    test_response = generate_text(test_prompt, max_tokens=10, temperature=0.1)
    
    if test_response and len(test_response.strip()) > 0:
        print('✅')
        print(f'   Respuesta de prueba: "{test_response.strip()[:50]}"')
        print()
        print('✅ Verificación exitosa: El LLM está disponible y funcionando')
    else:
        print('❌')
        raise RuntimeError('El LLM no devolvió una respuesta válida')
        
except Exception as e:
    print('❌')
    print()
    print('=' * 80)
    print('🛑 ERROR: No se pudo conectar con el LLM')
    print('=' * 80)
    print(f'Proveedor configurado: {provider}')
    print(f'Modelo: {MODEL_NAME}')
    print(f'Error: {e}')
    print()
    print('Posibles causas:')
    print('  1. API key inválida o expirada')
    print('  2. Límite de cuota/créditos agotado')
    print('  3. Modelo no disponible o nombre incorrecto')
    print('  4. Problemas de conectividad a internet')
    print('  5. Biblioteca del proveedor no instalada correctamente')
    print()
    print('🔧 Soluciones:')
    if provider == 'gemini':
        print('  - Verifica tu API key en: https://makersuite.google.com/app/apikey')
        print('  - Instala google-generativeai: pip install google-generativeai')
    elif provider == 'openai':
        print('  - Verifica tu API key en: https://platform.openai.com/api-keys')
        print('  - Verifica tu saldo en: https://platform.openai.com/account/billing')
        print('  - Instala openai: pip install openai')
    print()
    print('❌ El proceso no puede continuar sin acceso al LLM')
    print('=' * 80)
    raise RuntimeError(f'Verificación de LLM fallida: {e}')

🔍 Verificando acceso al LLM...
   Proveedor: gemini
   Modelo: models/gemini-2.0-flash-exp
   Enviando prueba al LLM... ✅
   Respuesta de prueba: "Vale."

✅ Verificación exitosa: El LLM está disponible y funcionando
✅
   Respuesta de prueba: "Vale."

✅ Verificación exitosa: El LLM está disponible y funcionando


## Cargar datos (goodreads_data.csv)
La celda intenta abrir `goodreads_data.csv` desde el directorio del notebook. Si el archivo tiene otro nombre o está en otra carpeta, modifica la ruta.

In [59]:
import glob
# Intentar cargar goodreads_data.csv. Si no existe, buscar archivos que contengan 'goodread' o 'goodreads'
candidates = glob.glob('goodreads_data.csv') + glob.glob('*goodread*.csv') + glob.glob('*goodreads*.csv')
if not candidates:
    raise FileNotFoundError('No se encontró ningún archivo goodreads_data.csv en el directorio actual. Asegúrate de poner el CSV en la misma carpeta del notebook o ajustar la ruta.')
csv_path = candidates[0]
print('Leyendo:', csv_path)
df = pd.read_csv(csv_path, low_memory=False)
print('Filas:', len(df), 'Columnas:', len(df.columns))
df.head(3)

Leyendo: goodreads_data.csv
Filas: 10000 Columnas: 8


Unnamed: 0.1,Unnamed: 0,Book,Author,Description,Genres,Avg_Rating,Num_Ratings,URL
0,0,To Kill a Mockingbird,Harper Lee,The unforgettable novel of a childhood in a sl...,"['Classics', 'Fiction', 'Historical Fiction', ...",4.27,5691311,https://www.goodreads.com/book/show/2657.To_Ki...
1,1,Harry Potter and the Philosopher’s Stone (Harr...,J.K. Rowling,Harry Potter thinks he is an ordinary boy - un...,"['Fantasy', 'Fiction', 'Young Adult', 'Magic',...",4.47,9278135,https://www.goodreads.com/book/show/72193.Harr...
2,2,Pride and Prejudice,Jane Austen,"Since its immediate success in 1813, Pride and...","['Classics', 'Fiction', 'Romance', 'Historical...",4.28,3944155,https://www.goodreads.com/book/show/1885.Pride...


## Funciones de limpieza y normalización
Se implementan: eliminación de caracteres especiales, minúsculas, colapso de espacios, correcciones ortográficas comunes y unificación de abreviaturas. Añade o edita la lista `COMMON_MISSPELLINGS` y `ABBREVIATIONS` según conveniencia.

In [60]:
# Mapas de ejemplo (amplía según tus datos)
COMMON_MISSPELLINGS = {
    'recien': 'recién',
    'aplicacion': 'aplicación',
    # agrega más correcciones específicas de tu dataset
}
ABBREVIATIONS = {
    'av.': 'Avenida',
    'av': 'Avenida',
    'dr.': 'Doctor',
    'sr.': 'Señor',
    'sra.': 'Señora',
    'dept.': 'departamento',
}


def expand_abbreviations(text):
    """Reemplaza abreviaturas por su forma extendida (respetando límites de palabra)."""
    if not isinstance(text, str):
        return text
    for abbr, full in ABBREVIATIONS.items():
        pattern = re.compile(r"\b" + re.escape(abbr) + r"\b", flags=re.IGNORECASE)
        text = pattern.sub(full, text)
    return text


def correct_common_misspellings(text):
    """Corrige errores ortográficos comunes usando coincidencia por palabra completa."""
    if not isinstance(text, str):
        return text
    for wrong, right in COMMON_MISSPELLINGS.items():
        pattern = re.compile(r"\b" + re.escape(wrong) + r"\b", flags=re.IGNORECASE)
        text = pattern.sub(right, text)
    return text


def clean_text(text, remove_accents=False):
    """Limpia y normaliza una descripción de libro.

    - Normaliza saltos de línea y espacios
    - Expande abreviaturas y corrige errores comunes
    - Opcional: elimina acentos
    - Elimina caracteres no deseados manteniendo puntuación básica
    - Convierte a minúsculas y colapsa espacios
    """
    if not isinstance(text, str):
        return ''
    # Normalizar saltos de línea y retornos de carro a espacios
    text = text.replace('\r', ' ').replace('\n', ' ')
    # Expandir abreviaturas y corregir errores comunes antes de otras limpiezas
    text = expand_abbreviations(text)
    text = correct_common_misspellings(text)
    # Opcional: quitar acentos
    if remove_accents:
        text = unidecode(text)
    # Mantener letras (incl. acentuadas), dígitos y puntuación básica . , ; : ? ! ' " - ( )
    # Reemplazar cualquier otro carácter por espacio
    text = re.sub(r"[^0-9A-Za-zÀ-ÿ\s\.,;:\?!'\"\-()]+", ' ', text)
    # Convertir a minúsculas
    text = text.lower()
    # Colapsar espacios múltiples
    text = re.sub(r'\s+', ' ', text).strip()
    return text


# Aplicar a la columna de descripción (suponemos que la columna se llama 'description' o similar)
# detectamos el nombre de la columna posible (case-insensitive)
possible_cols = ['description', 'desc', 'summary', 'sinopsis', 'synopsis']

# Construir mapa insensible a mayúsculas
cols = list(df.columns)
lower_map = {c.lower(): c for c in cols}

# intentar encontrar una coincidencia exacta entre posibles y columnas (case-insensitive)
desc_col = None
for cand in possible_cols:
    if cand in lower_map:
        desc_col = lower_map[cand]
        break

# si no encontramos exacto, intentar heurística por substring
if desc_col is None:
    desc_col = next((c for c in df.columns if 'description' in c.lower() or 'synops' in c.lower() or 'sinops' in c.lower()), None)

# como último recurso, seleccionar la primera columna textual
if desc_col is None:
    text_cols = [c for c in df.columns if df[c].dtype == 'object']
    if text_cols:
        desc_col = text_cols[0]
    else:
        raise ValueError('No se detectó una columna de descripción en el CSV. Asegúrate de que exista una columna textual con la descripción del libro.')

print('Columnas detectadas (ejemplo):', cols[:10])
print('Usando columna de descripción:', desc_col)

# Crear columna limpia
# Usamos fillna('') por si hay NaN
df['description_clean'] = df[desc_col].fillna('').apply(lambda t: clean_text(t, remove_accents=False))
# Mostrar una vista previa
try:
    display(df[[desc_col, 'description_clean']].head(5))
except Exception:
    print(df[[desc_col, 'description_clean']].head(5))


Columnas detectadas (ejemplo): ['Unnamed: 0', 'Book', 'Author', 'Description', 'Genres', 'Avg_Rating', 'Num_Ratings', 'URL']
Usando columna de descripción: Description


Unnamed: 0,Description,description_clean
0,The unforgettable novel of a childhood in a sl...,the unforgettable novel of a childhood in a sl...
1,Harry Potter thinks he is an ordinary boy - un...,harry potter thinks he is an ordinary boy - un...
2,"Since its immediate success in 1813, Pride and...","since its immediate success in 1813, pride and..."
3,Discovered in the attic in which she spent the...,discovered in the attic in which she spent the...
4,Librarian's note: There is an Alternate Cover ...,librarian's note: there is an alternate cover ...


In [61]:
# Aca ya estan mal los nombre de las columnas!
df.head(5)

Unnamed: 0.1,Unnamed: 0,Book,Author,Description,Genres,Avg_Rating,Num_Ratings,URL,description_clean
0,0,To Kill a Mockingbird,Harper Lee,The unforgettable novel of a childhood in a sl...,"['Classics', 'Fiction', 'Historical Fiction', ...",4.27,5691311,https://www.goodreads.com/book/show/2657.To_Ki...,the unforgettable novel of a childhood in a sl...
1,1,Harry Potter and the Philosopher’s Stone (Harr...,J.K. Rowling,Harry Potter thinks he is an ordinary boy - un...,"['Fantasy', 'Fiction', 'Young Adult', 'Magic',...",4.47,9278135,https://www.goodreads.com/book/show/72193.Harr...,harry potter thinks he is an ordinary boy - un...
2,2,Pride and Prejudice,Jane Austen,"Since its immediate success in 1813, Pride and...","['Classics', 'Fiction', 'Romance', 'Historical...",4.28,3944155,https://www.goodreads.com/book/show/1885.Pride...,"since its immediate success in 1813, pride and..."
3,3,The Diary of a Young Girl,Anne Frank,Discovered in the attic in which she spent the...,"['Classics', 'Nonfiction', 'History', 'Biograp...",4.18,3488438,https://www.goodreads.com/book/show/48855.The_...,discovered in the attic in which she spent the...
4,4,Animal Farm,George Orwell,Librarian's note: There is an Alternate Cover ...,"['Classics', 'Fiction', 'Dystopia', 'Fantasy',...",3.98,3575172,https://www.goodreads.com/book/show/170448.Ani...,librarian's note: there is an alternate cover ...


In [62]:
# Asegurar nombres consistentes para campos cleaned: book_clean, author_clean, description_clean
# Detectar columna de libro (book) y autor (author) con heurísticas claras (insensible a mayúsculas)
book_candidates = ['book', 'book_title', 'title', 'titulo', 'nombre_del_libro', 'name']
author_candidates = ['author', 'authors', 'author_name', 'autor', 'writer', 'creator', 'creador']

# Mapa insensible a mayúsculas: lower_name -> actual column name
cols = list(df.columns)
lower_map = {c.lower(): c for c in cols}

def find_first_candidate(candidates):
    for cand in candidates:
        lc = cand.lower()
        if lc in lower_map:
            return lower_map[lc]
    return None

# Preferir columnas exactas en orden de candidates (case-insensitive)
book_col = find_first_candidate(book_candidates)
author_col = find_first_candidate(author_candidates)

# Si no se detectan, intentar heurística general: primera columna textual que no sea description
if book_col is None:
    text_cols = [c for c in df.columns if df[c].dtype == 'object' and c != desc_col]
    book_col = text_cols[0] if text_cols else None

if author_col is None:
    # intentar encontrar una columna que contenga 'author' o 'autor' en su nombre (case-insensitive)
    author_col = next((c for c in df.columns if 'author' in c.lower() or 'autor' in c.lower()), None)

print('Detección de columnas -> book_col:', book_col, ', author_col:', author_col, ', description_col:', desc_col)

# Crear/actualizar columnas cleaned
if book_col:
    df['book_clean'] = df[book_col].fillna('').apply(lambda t: clean_text(t, remove_accents=False))
else:
    df['book_clean'] = ''

if author_col:
    df['author_clean'] = df[author_col].fillna('').apply(lambda t: clean_text(t, remove_accents=False))
else:
    df['author_clean'] = ''

# Asegurar description_clean viene de desc_col
if desc_col and 'description_clean' not in df.columns:
    df['description_clean'] = df[desc_col].fillna('').apply(lambda t: clean_text(t, remove_accents=False))
elif desc_col:
    # Si ya existe, re-crear desde la columna original para garantizar consistencia
    df['description_clean'] = df[desc_col].fillna('').apply(lambda t: clean_text(t, remove_accents=False))
else:
    df['description_clean'] = df.get('description_clean', '')

# Mostrar una vista previa con originales y limpios
cols_to_show = []
if book_col:
    cols_to_show += [book_col]
cols_to_show += ['book_clean']
if author_col:
    cols_to_show += [author_col]
cols_to_show += ['author_clean']
if desc_col:
    cols_to_show += [desc_col]
cols_to_show += ['description_clean']

# Eliminar duplicados en la lista por si acaso
seen = set()
cols_to_show = [c for c in cols_to_show if not (c in seen or seen.add(c))]

try:
    display(df[cols_to_show].head(20))
except Exception:
    print(df[cols_to_show].head(20).to_string())

# Resumen de conteos
book_generated = df['book_clean'].astype(bool).sum()
author_generated = df['author_clean'].astype(bool).sum()
desc_generated = df['description_clean'].astype(bool).sum()
print(f"Títulos limpiados (non-empty): {book_generated} / {len(df)}")
print(f"Autores limpiados (non-empty): {author_generated} / {len(df)}")
print(f"Descripciones limpiadas (non-empty): {desc_generated} / {len(df)}")


Detección de columnas -> book_col: Book , author_col: Author , description_col: Description


Unnamed: 0,Book,book_clean,Author,author_clean,Description,description_clean
0,To Kill a Mockingbird,to kill a mockingbird,Harper Lee,harper lee,The unforgettable novel of a childhood in a sl...,the unforgettable novel of a childhood in a sl...
1,Harry Potter and the Philosopher’s Stone (Harr...,harry potter and the philosopher s stone (harr...,J.K. Rowling,j.k. rowling,Harry Potter thinks he is an ordinary boy - un...,harry potter thinks he is an ordinary boy - un...
2,Pride and Prejudice,pride and prejudice,Jane Austen,jane austen,"Since its immediate success in 1813, Pride and...","since its immediate success in 1813, pride and..."
3,The Diary of a Young Girl,the diary of a young girl,Anne Frank,anne frank,Discovered in the attic in which she spent the...,discovered in the attic in which she spent the...
4,Animal Farm,animal farm,George Orwell,george orwell,Librarian's note: There is an Alternate Cover ...,librarian's note: there is an alternate cover ...
5,The Little Prince,the little prince,Antoine de Saint-Exupéry,antoine de saint-exupéry,A pilot stranded in the desert awakes one morn...,a pilot stranded in the desert awakes one morn...
6,1984,1984,George Orwell,george orwell,The new novel by George Orwell is the major wo...,the new novel by george orwell is the major wo...
7,The Great Gatsby,the great gatsby,F. Scott Fitzgerald,f. scott fitzgerald,Alternate Cover Edition ISBN: 0743273567 (ISBN...,alternate cover edition isbn: 0743273567 (isbn...
8,The Catcher in the Rye,the catcher in the rye,J.D. Salinger,j.d. salinger,It's Christmas time and Holden Caulfield has j...,it's christmas time and holden caulfield has j...
9,The Lord of the Rings,the lord of the rings,J.R.R. Tolkien,j.r.r. tolkien,"One Ring to rule them all, One Ring to find th...","one ring to rule them all, one ring to find th..."


Títulos limpiados (non-empty): 9935 / 10000
Autores limpiados (non-empty): 9953 / 10000
Descripciones limpiadas (non-empty): 9920 / 10000


In [63]:
df.head(10 )

Unnamed: 0.1,Unnamed: 0,Book,Author,Description,Genres,Avg_Rating,Num_Ratings,URL,description_clean,book_clean,author_clean
0,0,To Kill a Mockingbird,Harper Lee,The unforgettable novel of a childhood in a sl...,"['Classics', 'Fiction', 'Historical Fiction', ...",4.27,5691311,https://www.goodreads.com/book/show/2657.To_Ki...,the unforgettable novel of a childhood in a sl...,to kill a mockingbird,harper lee
1,1,Harry Potter and the Philosopher’s Stone (Harr...,J.K. Rowling,Harry Potter thinks he is an ordinary boy - un...,"['Fantasy', 'Fiction', 'Young Adult', 'Magic',...",4.47,9278135,https://www.goodreads.com/book/show/72193.Harr...,harry potter thinks he is an ordinary boy - un...,harry potter and the philosopher s stone (harr...,j.k. rowling
2,2,Pride and Prejudice,Jane Austen,"Since its immediate success in 1813, Pride and...","['Classics', 'Fiction', 'Romance', 'Historical...",4.28,3944155,https://www.goodreads.com/book/show/1885.Pride...,"since its immediate success in 1813, pride and...",pride and prejudice,jane austen
3,3,The Diary of a Young Girl,Anne Frank,Discovered in the attic in which she spent the...,"['Classics', 'Nonfiction', 'History', 'Biograp...",4.18,3488438,https://www.goodreads.com/book/show/48855.The_...,discovered in the attic in which she spent the...,the diary of a young girl,anne frank
4,4,Animal Farm,George Orwell,Librarian's note: There is an Alternate Cover ...,"['Classics', 'Fiction', 'Dystopia', 'Fantasy',...",3.98,3575172,https://www.goodreads.com/book/show/170448.Ani...,librarian's note: there is an alternate cover ...,animal farm,george orwell
5,5,The Little Prince,Antoine de Saint-Exupéry,A pilot stranded in the desert awakes one morn...,"['Classics', 'Fiction', 'Fantasy', 'Childrens'...",4.32,1924063,https://www.goodreads.com/book/show/157993.The...,a pilot stranded in the desert awakes one morn...,the little prince,antoine de saint-exupéry
6,6,1984,George Orwell,The new novel by George Orwell is the major wo...,"['Classics', 'Fiction', 'Science Fiction', 'Dy...",4.19,4201429,https://www.goodreads.com/book/show/61439040-1984,the new novel by george orwell is the major wo...,1984,george orwell
7,7,The Great Gatsby,F. Scott Fitzgerald,Alternate Cover Edition ISBN: 0743273567 (ISBN...,"['Classics', 'Fiction', 'School', 'Historical ...",3.93,4839642,https://www.goodreads.com/book/show/4671.The_G...,alternate cover edition isbn: 0743273567 (isbn...,the great gatsby,f. scott fitzgerald
8,8,The Catcher in the Rye,J.D. Salinger,It's Christmas time and Holden Caulfield has j...,"['Classics', 'Fiction', 'Young Adult', 'Litera...",3.81,3315881,https://www.goodreads.com/book/show/5107.The_C...,it's christmas time and holden caulfield has j...,the catcher in the rye,j.d. salinger
9,9,The Lord of the Rings,J.R.R. Tolkien,"One Ring to rule them all, One Ring to find th...","['Fantasy', 'Classics', 'Fiction', 'Adventure'...",4.52,644766,https://www.goodreads.com/book/show/33.The_Lor...,"one ring to rule them all, one ring to find th...",the lord of the rings,j.r.r. tolkien


## Plantilla de prompt y generación de la sinopsis estandarizada
La sinopsis generada debe tener entre 200 y 250 caracteres en inglés y respetar el orden: Categoría, época, lugar geográfico, personajes principales (breve).

In [64]:
# Plantilla de prompt (ajusta si quieres más o menos detalle)
PROMPT_TEMPLATE = '''
You are a professional synopsis writer. Given the following description and metadata of a book, generate an attractive and uniform synopsis between 200 and 250 characters, in a single paragraph. The synopsis must always present the information in this order:
1) Book category (genre)
2) Era in which it is set (e.g. "19th century", "contemporary era", "Middle Ages"),
3) Geographic location where the plot takes place (city/country/region),
4) Minimal description of the main characters (1-2 very brief sentences).
Use attractive and direct language for the reader. Keep the essential information from the original description. If any metadata is missing, infer the most likely without inventing concrete facts about the plot (maintain neutrality).

Metadata:
Title: {title}
Category/genre: {category}
Era: {era}
Place: {place}
Characters (brief): {characters}
Original description (cleaned): {description}

Synopsis (response in English, 200-250 characters):
'''


def make_prompt(row):
    """Construye el prompt a partir de un registro (dict o pandas.Series)."""
    # Extraer título con búsqueda case-insensitive
    title = ''
    if isinstance(row, dict):
        # buscar en dict case-insensitive
        for k in row:
            if k.lower() in ['title', 'book', 'name', 'titulo']:
                title = str(row[k]) if pd.notna(row.get(k)) else ''
                break
    else:
        # buscar en Series case-insensitive
        title_candidates = ['title', 'book', 'name', 'titulo']
        for cand in title_candidates:
            for col in row.index:
                if col.lower() == cand:
                    title = str(row[col]) if pd.notna(row[col]) else ''
                    break
            if title:
                break
    
    category = ''
    era = ''
    place = ''
    characters = ''

    # Búsqueda case-insensitive para cada campo
    category_candidates = ['genre', 'category', 'genero', 'género', 'type', 'genres']
    era_candidates = ['era', 'period', 'epoca', 'época', 'time']
    place_candidates = ['place', 'location', 'lugar', 'localidad', 'setting']
    characters_candidates = ['characters', 'personajes', 'main_characters', 'protagonists']

    def find_value(row, candidates):
        """Helper para buscar valor en row con lista de candidatos (case-insensitive)."""
        if isinstance(row, dict):
            for cand in candidates:
                for k in row:
                    if k.lower() == cand:
                        val = row[k]
                        if pd.notna(val):
                            return str(val)
        else:
            for cand in candidates:
                for col in row.index:
                    if col.lower() == cand:
                        val = row[col]
                        if pd.notna(val):
                            return str(val)
        return ''

    category = find_value(row, category_candidates)
    era = find_value(row, era_candidates)
    place = find_value(row, place_candidates)
    characters = find_value(row, characters_candidates)

    # Extraer descripción limpia
    if isinstance(row, dict):
        desc = row.get('description_clean', '')
    else:
        desc = row.description_clean if 'description_clean' in row.index else ''

    return PROMPT_TEMPLATE.format(title=title, category=category, era=era, place=place, characters=characters, description=desc)


def generate_standardized_description(row, **gen_kwargs):
    """Genera la sinopsis estandarizada usando el LLM y hace un post-procesado ligero."""
    prompt = make_prompt(row)
    try:
        text = generate_text(prompt, **gen_kwargs)
        text = re.sub(r'\s+', ' ', text).strip()
        if len(text) > 250:
            # intentar cortar en punto final cercano antes de 250
            cut = text[:250].rfind('.')
            if cut > 50:
                text = text[:cut+1]
            else:
                text = text[:247] + '...'
        return text
    except Exception as e:
        print('Error al generar con LLM:', e)
        return ''


## 📝 Generar descripciones estandarizadas (ejemplo)

Vamos a generar descripciones mejoradas para un subset de libros como prueba. Esto consume llamadas al LLM, así que empezamos con pocos registros.

In [65]:
# Validar que tenemos acceso al LLM antes de procesar
if not API_KEY:
    raise EnvironmentError('❌ No hay API_KEY configurada. No se puede continuar sin acceso al LLM.')

# Generar descripciones mejoradas para los primeros N libros (ajusta N según tu presupuesto de API)
N_SAMPLES = 5  # Empezar con 5 libros como prueba

# Filtrar filas que tengan descripción limpia no vacía
df_sample = df[df['description_clean'].str.len() > 10].head(N_SAMPLES).copy()

print(f'Generando descripciones estandarizadas para {len(df_sample)} libros...')
print('Esto puede tardar unos segundos por cada libro.')
print()

# Generar descripciones con barra de progreso
standardized_descriptions = []
errors_count = 0

for idx, row in tqdm(df_sample.iterrows(), total=len(df_sample), desc='Generando'):
    try:
        std_desc = generate_standardized_description(row, max_tokens=250, temperature=0.7)
        if not std_desc:
            # Si generate_standardized_description devuelve string vacío, hubo un error
            errors_count += 1
            print(f'\n⚠️  No se pudo generar descripción para fila {idx}')
        standardized_descriptions.append(std_desc)
        time.sleep(1)  # Pausar 1 segundo entre llamadas para no saturar la API
    except Exception as e:
        errors_count += 1
        print(f'\n❌ Error crítico en fila {idx}: {e}')
        standardized_descriptions.append('')
        # Si hay demasiados errores consecutivos, detener el proceso
        if errors_count >= 3:
            print('\n🛑 PROCESO DETENIDO: Demasiados errores consecutivos.')
            print('   Verifica la configuración de la API key y la conectividad.')
            break

# Agregar las descripciones generadas al dataframe de muestra
df_sample['description_standardized'] = standardized_descriptions

print()
if errors_count == 0:
    print('✅ Generación completada exitosamente')
else:
    print(f'⚠️  Generación completada con {errors_count} error(es)')
    print(f'   Descripciones generadas: {len([d for d in standardized_descriptions if d])}/{len(df_sample)}')

Generando descripciones estandarizadas para 5 libros...
Esto puede tardar unos segundos por cada libro.



Generando: 100%|█████████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.52s/it]


✅ Generación completada exitosamente





## 📊 Comparar descripciones originales vs estandarizadas

Mostramos el título del libro, la descripción original y la descripción mejorada lado a lado.

In [66]:
# Mostrar título, descripción original y descripción estandarizada
# Detectar columna de título (case-insensitive)
cols = list(df_sample.columns)
lower_map = {c.lower(): c for c in cols}

title_col = None
for cand in ['title', 'book', 'name', 'titulo', 'book_title']:
    if cand in lower_map:
        title_col = lower_map[cand]
        break

# Si no encontramos, usar book_col detectado anteriormente
if title_col is None and book_col is not None:
    title_col = book_col

# Preparar columnas a mostrar
columns_to_show = []
if title_col and title_col in df_sample.columns:
    columns_to_show.append(title_col)
elif 'book_clean' in df_sample.columns:
    columns_to_show.append('book_clean')

if desc_col and desc_col in df_sample.columns:
    columns_to_show.append(desc_col)
elif 'description_clean' in df_sample.columns:
    columns_to_show.append('description_clean')

columns_to_show.append('description_standardized')

# Mostrar en formato de tabla
print('=' * 120)
print('COMPARACIÓN: DESCRIPCIÓN ORIGINAL vs ESTANDARIZADA')
print('=' * 120)
print()

for idx, row in df_sample.iterrows():
    # Extraer título
    if title_col and title_col in row.index:
        title = row[title_col]
    elif 'book_clean' in row.index:
        title = row['book_clean']
    else:
        title = 'Sin título'
    
    # Extraer descripción original
    if desc_col and desc_col in row.index:
        original_desc = str(row[desc_col])[:200] + '...' if len(str(row[desc_col])) > 200 else str(row[desc_col])
    elif 'description_clean' in row.index:
        original_desc = str(row['description_clean'])[:200] + '...' if len(str(row['description_clean'])) > 200 else str(row['description_clean'])
    else:
        original_desc = 'N/A'
    
    # Extraer descripción estandarizada
    std_desc = row.get('description_standardized', 'No generada')
    
    print(f"📚 TÍTULO: {title}")
    print(f"   Original: {original_desc}")
    print(f"   Mejorada: {std_desc}")
    print(f"   Longitud mejorada: {len(std_desc)} caracteres")
    print('-' * 120)
    print()

print('=' * 120)

COMPARACIÓN: DESCRIPCIÓN ORIGINAL vs ESTANDARIZADA

📚 TÍTULO: To Kill a Mockingbird
   Original: The unforgettable novel of a childhood in a sleepy Southern town and the crisis of conscience that rocked it. "To Kill A Mockingbird" became both an instant bestseller and a critical success when it w...
   Mejorada: Historical Fiction. In the American South, a childhood is shaken by injustice. A young girl and her brother learn crucial lessons about prejudice and compassion.
   Longitud mejorada: 161 caracteres
------------------------------------------------------------------------------------------------------------------------

📚 TÍTULO: Harry Potter and the Philosopher’s Stone (Harry Potter, #1)
   Original: Harry Potter thinks he is an ordinary boy - until he is rescued by an owl, taken to Hogwarts School of Witchcraft and Wizardry, learns to play Quidditch and does battle in a deadly duel. The Reason .....
   Mejorada: Fantasy. An ordinary boy discovers he's a wizard and is whisked a

### Vista en tabla

Visualización en formato DataFrame para fácil comparación:

In [67]:
# Crear dataframe de comparación para visualizar fácilmente
comparison_data = []

for idx, row in df_sample.iterrows():
    # Extraer título
    if title_col and title_col in row.index:
        title = row[title_col]
    elif 'book_clean' in row.index:
        title = row['book_clean']
    else:
        title = 'Sin título'
    
    # Extraer descripción original (truncada)
    if desc_col and desc_col in row.index:
        original = str(row[desc_col])[:150] + '...' if len(str(row[desc_col])) > 150 else str(row[desc_col])
    else:
        original = 'N/A'
    
    # Descripción estandarizada
    standardized = row.get('description_standardized', 'No generada')
    
    comparison_data.append({
        'Título': title,
        'Descripción Original': original,
        'Descripción Estandarizada': standardized,
        'Longitud': len(standardized)
    })

df_comparison = pd.DataFrame(comparison_data)

# Configurar pandas para mostrar todo el contenido
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

# Mostrar tabla
try:
    display(df_comparison)
except:
    print(df_comparison.to_string())

# Restablecer opciones de pandas
pd.reset_option('display.max_colwidth')
pd.reset_option('display.max_rows')

Unnamed: 0,Título,Descripción Original,Descripción Estandarizada,Longitud
0,To Kill a Mockingbird,"The unforgettable novel of a childhood in a sleepy Southern town and the crisis of conscience that rocked it. ""To Kill A Mockingbird"" became both an i...","Historical Fiction. In the American South, a childhood is shaken by injustice. A young girl and her brother learn crucial lessons about prejudice and compassion.",161
1,"Harry Potter and the Philosopher’s Stone (Harry Potter, #1)","Harry Potter thinks he is an ordinary boy - until he is rescued by an owl, taken to Hogwarts School of Witchcraft and Wizardry, learns to play Quiddit...","Fantasy. An ordinary boy discovers he's a wizard and is whisked away to Hogwarts. There, Harry learns magic, makes friends, and faces deadly challenges.",152
2,Pride and Prejudice,"Since its immediate success in 1813, Pride and Prejudice has remained one of the most popular novels in the English language. Jane Austen called this ...","Historical Fiction. In Regency England, Elizabeth Bennet clashes with the proud Mr. Darcy in a dance of wit, flirtation and intrigue. A superb comedy of manners!",161
3,The Diary of a Young Girl,"Discovered in the attic in which she spent the last years of her life, Anne Frank’s remarkable diary has become a world classic—a powerful reminder of...","Classic memoir. In Nazi-occupied Amsterdam, a young Jewish girl and her family hide from the Gestapo. Anne Frank's diary reveals the realities of their confinement with courage and spirit.",188
4,Animal Farm,"Librarian's note: There is an Alternate Cover Edition for this edition of this book here.A farm is taken over by its overworked, mistreated animals. W...","Classic dystopian fiction. Overworked animals in an unspecified location revolt, dreaming of equality. But power corrupts, and their utopia devolves into tyranny.",162


## 💾 Guardar resultados

Guardar las descripciones estandarizadas en un archivo CSV para uso posterior.

In [68]:
# Guardar los resultados en CSV
from datetime import datetime

timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
output_filename = f'goodreads_estandarizado_{timestamp}.csv'

# Guardar el dataframe completo de muestra con las descripciones estandarizadas
df_sample.to_csv(output_filename, index=False, encoding='utf-8')

print(f'✅ Resultados guardados en: {output_filename}')
print(f'   Total de libros procesados: {len(df_sample)}')
print(f'   Columnas incluidas: {list(df_sample.columns)}')
print()
print('💡 Para procesar el dataset completo:')
print('   1. Ajusta N_SAMPLES a un número mayor (o usa len(df))')
print('   2. Considera agregar control de errores y reintentos')
print('   3. Monitorea el uso de la API para evitar límites de rate')

✅ Resultados guardados en: goodreads_estandarizado_20251101_004622.csv
   Total de libros procesados: 5
   Columnas incluidas: ['Unnamed: 0', 'Book', 'Author', 'Description', 'Genres', 'Avg_Rating', 'Num_Ratings', 'URL', 'description_clean', 'book_clean', 'author_clean', 'description_standardized']

💡 Para procesar el dataset completo:
   1. Ajusta N_SAMPLES a un número mayor (o usa len(df))
   2. Considera agregar control de errores y reintentos
   3. Monitorea el uso de la API para evitar límites de rate
