# Aqui inicia mi sufrimiento :(

# PROYECTO FINAL


## Sistemas Distribuidos con PySpark

Este proyecto implementa lo que se ha visto en clases en una serie de ejercicios a las cuales llamo un **sistema de recomendaci√≥n de libros** utilizando:
- **100 libros** m√°s descargados de Project Gutenberg (Omitiendo 2 ya que estos denegaban el acceso...)
- **PySpark** para procesamiento distribuido
- **TF-IDF** para an√°lisis de texto
- **Similitud coseno** para encontrar libros similares
- Y las ense√±anzas del profe

## CELDA 1: Configuraci√≥n de Rutas

**¬øQu√© hace?**
Configura las rutas del proyecto para que Python pueda encontrar nuestros archivos de utilidades (`src/utils.py`).

**Explicaci√≥n t√©cnica:**
- `sys.path.append()` a√±ade directorios donde Python buscar√° m√≥dulos <details> <summary> ¬øPor que? </summary> (Antes tuvimos problemas con que el programa que no encontraba la ruta de SRC)</details>


- `..` = directorio padre (ra√≠z del proyecto)
- `../src` = carpeta de c√≥digo fuente<details>
    <summary> ¬øQue hay ahi? </summary> 
    Ahi adentro se encuentran los archivos python donde uno descarga los libros (download_books.py) y otro donde se encarga de limpiar estos mismos como quitar los headers o footers para que no extorben en el analisis (utils.py)
</details>


In [1]:
import sys
import os

# Agregar rutas del proyecto
sys.path.append(os.path.abspath(".."))  # ra√≠z del proyecto
sys.path.append(os.path.abspath("../src"))  # carpeta src

# Verificar rutas
print("Rutas configuradas:")
for path in sys.path[-3:]:
    print(f"  - {path}")

Rutas configuradas:
  - /home/arturoallen/proyecto_52_sistemas/lib/python3.12/site-packages
  - /home/arturoallen/proyecto_52_sistemas/proyecto_sistemas
  - /home/arturoallen/proyecto_52_sistemas/proyecto_sistemas/src


## CELDA 2: Descargar Recursos de NLTK

**¬øQu√© hace?**
Descarga las herramientas necesarias de NLTK para procesar texto en ingl√©s.

**Lo que descarga:**
- `punkt` y `punkt_tab` ‚Üí Separa texto en palabras (tokenizaci√≥n)<details><summary>En otras palabras</summary>Esto divide un texto grande en piezas m√°s peque√±as llamadas tokens.</details>

- `stopwords` ‚Üí Lista de palabras comunes que no aportan significado ("the", "a", "is") <details>
  <summary> ¬øDe donde sacamos esta herramienta? </summary>
  Esta herramienta o mas bien libreria fue recomendada por el profesor para facilitarnos la detecci√≤n de stopwords
</details>

In [2]:
import nltk

print("Descargando recursos de NLTK...")
nltk.download('punkt_tab', quiet=True)
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
print("‚úì NLTK configurado")

Descargando recursos de NLTK...
‚úì NLTK configurado


## CELDA 3: Inicializar Apache Spark

**¬øQu√© hace?**
Arranca el motor de Spark que procesar√° nuestros datos de forma distribuida.

**Configuraci√≥n:**
- `driver.memory: 6g` ‚Üí Memoria del coordinador (6 GB)<details><summary>Mas detalles</summary>Memoria para el driver.
    - Este driver.memory recibe las instrucciones, reparte el trabajo y al final recoge los resultados.
    - Los 6 GB significa que la m√°quina virtual va a reservar 6 GB solo para este coordinador.
    - Esto procesara los 100 libros
</details>

- `executor.memory: 4g` ‚Üí Memoria de los trabajadores (4 GB)
- `local[*]` ‚Üí Usa todos los cores de tu CPU

\
**¬øPor qu√© Spark?**
- Para procesar 100 libros (~75 MB) de forma eficiente y paralela.<details>
    <summary> Y... </summary> 
    ...porque el profe nos lo pidio
</details>


In [3]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ProyectoFinal_RecomendacionLibros") \
    .master("local[2]") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .config("spark.sql.shuffle.partitions", "4") \
    .getOrCreate()

# Reducir logs
spark.sparkContext.setLogLevel("WARN")

print("‚úì Spark inicializado")
print(f"  Version: {spark.version}")
print(f"  Master: {spark.sparkContext.master}")

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/12/10 19:01:22 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/12/10 19:01:23 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


‚úì Spark inicializado
  Version: 4.0.1
  Master: local[2]


## CELDA 4: Importar Funciones de Utilidad



**¬øQu√© hace?**\
Carga las funciones que creamos para procesar los libros desde la carpeta src al archivo utils.py

**Funciones importadas:**
- `read_txt()` ‚Üí Lee un archivo .txt sin importar el tipo de encoding, evitando errores por acentos o caracteres raros.
- `strip_gutenberg_headers()` ‚Üí Quita las licencias, advertencias y texto extra que agregan los libros.
- `preprocess_text()` ‚Üí Limpia el texto aplicando estos filtros:
    - min√∫sculas
    - tokenizar
    - quitar stopwords
    - quitar puntuaci√≥n<br>
- `load_all_books()` ‚Üí Busca todos los .txt de la carpeta y:\
  Es la funci√≥n que carga todos los libros del proyecto.
    - los lee
    - los limpia
    - los convierte en una lista/diccionario de libros procesados

In [4]:
from src.utils import (
    read_txt,
    strip_gutenberg_headers,
    preprocess_text,
    load_all_books
)

print("‚úì Utilidades importadas")

‚úì Utilidades importadas


## CELDA 5 y 6: Cargar 100 Libros

**¬øQu√© hace?**
Lee los 100 lirbos .txt desde la carpeta `data/` y los preprocesa.

**¬øEn que consiste el proceso?**
1. Lee el archivo
2. Elimina headers/footers
3. Convierte a min√∫sculas
4. Separa en palabras (tokens)
5. Elimina stopwords ("the", "a", etc.)
6. Elimina puntuaci√≥n y n√∫meros

**Resultado:**
Una lista con 100 libros, cada uno con:
- ID del libro (usando los ID originales de la pagina)
- Nombre del archivo
- Texto completo
- Lista de palabras limpias (tokens)

In [5]:
# Desmarcar el comentario en caso de extrema emergencia (No tener los libros)
#!python3 ../src/download_books.py

In [6]:
data_dir = "../data"
books = load_all_books(data_dir, max_books=100)

print(f"\n Resumen de carga:")
print(f"   Total de libros: {len(books)}")
if books:
    ejemplo = books[0]
    print(f"   Ejemplo - ID: {ejemplo[0]}, Tokens: {len(ejemplo[3])}")


üìö Cargando 100 libros desde ../data/
  ‚úì Procesados 10/100 libros
  ‚úì Procesados 20/100 libros
  ‚úì Procesados 30/100 libros
  ‚úì Procesados 40/100 libros
  ‚úì Procesados 50/100 libros
  ‚úì Procesados 60/100 libros
  ‚úì Procesados 70/100 libros
  ‚úì Procesados 80/100 libros
  ‚úì Procesados 90/100 libros
  ‚úì Procesados 100/100 libros
‚úÖ Total de libros cargados exitosamente: 100


 Resumen de carga:
   Total de libros: 100
   Ejemplo - ID: A Christmas Carol - Charles Dickens, Tokens: 13396


## CELDA 7: Crear DataFrame de Spark


**¬øQu√© hace?**
Convierte nuestra lista de libros en un **DataFrame de Spark** (como una especie de tabla de Excel gigante).

**Columnas del DataFrame:**
- `book_id` ‚Üí ID √∫nico del libro (ej: "84", "1342")
- `title` ‚Üí Nombre del archivo (ej: "84.txt")
- `text` ‚Üí Texto completo del libro
- `tokens` ‚Üí Lista de palabras procesadas

**¬øPor qu√© un DataFrame?**
Spark puede procesar DataFrames de forma paralela y distribuida.
<details><summary>Comentario</summary> Creemos que no se ve las columnas de "text" y "tokens" porque estamos usando una maquina virutal para correr este codigo y la verdad a este punto en el que estoy hubiera preferido instalar linux pero en la laptop, casi no la uso</details>
<br/>


In [None]:
from pyspark.sql.types import ArrayType, StringType
print("Creando DataFrame de Spark...")
df = spark.createDataFrame(
    [(b[0], b[1], b[3]) for b in books],
    schema=["book_id", "title", "tokens"]
)
print(f"‚úì DataFrame creado con {df.count()} documentos\n")
df.select("book_id", "title").show(5, truncate=False)

Creando DataFrame de Spark...


25/12/10 19:02:51 WARN TaskSetManager: Stage 0 contains a task of very large size (29816 KiB). The maximum recommended task size is 1000 KiB.
[Stage 0:>                                                          (0 + 2) / 2]

## CELDA 8: Crear Vocabulario (CountVectorizer)

**¬øQu√© hace?**\
Crea un **vocabulario** con las 2000 palabras m√°s importantes de todos los libros.

**Proceso:**
1. Cuenta cu√°ntas veces aparece cada palabra en cada libro
2. Selecciona las 2000 palabras m√°s frecuentes
3. Filtra palabras que aparecen en menos de 2 libros (muy raras)

**Resultado:**\
Cada libro se representa como un vector de 2000 n√∫meros (frecuencias de palabras).
<details>
  <summary>Detalles del codigo</summary>
  <p>Par√°metros:</p>
  <ul>
    <li>VOCAB_SIZE=2000: limita el vocabulario a las 2000 palabras m√°s frecuentes. Evita vectores enormes.</li>
    <li>MIN_DF=2: elimina palabras que aparecen en menos de 2 documentos (filtra ruido / typos).</li>
  </ul>
</details>





In [None]:
from pyspark.ml.feature import CountVectorizer

print("Creando vocabulario con CountVectorizer...")

VOCAB_SIZE = 2000
MIN_DF = 2

cv = CountVectorizer(
    inputCol="tokens",
    outputCol="raw_features",
    vocabSize=VOCAB_SIZE,
    minDF=MIN_DF
)

cv_model = cv.fit(df)
df = cv_model.transform(df)
df = df.drop("tokens")  

actual_vocab_size = len(cv_model.vocabulary)
print(f"‚úì Vocabulario creado")
print(f"  Tama√±o del vocabulario: {actual_vocab_size} palabras")
print(f"  Top 10 palabras: {cv_model.vocabulary[:10]}")

## CELDA 9: Calcular TF-IDF

**¬øQu√© hace?**\
Calcula **TF-IDF** (Term Frequency - Inverse Document Frequency) para cada palabra.

**¬øQu√© es TF-IDF?**\
Un n√∫mero que indica el **peso** o **importancia** en una palabra para un libro espec√≠fico.

**F√≥rmula simple:**
- **TF** (frecuencia): ¬øCu√°ntas veces aparece en ESTE libro?
- **IDF** (rareza): ¬øQu√© tan rara es en TODOS los libros?
- **TF-IDF** = TF √ó IDF

**Ejemplo:**
- "elizabeth" aparece mucho en Frankenstein ‚Üí TF alto
- "elizabeth" NO aparece en otros libros ‚Üí IDF alto
- **TF-IDF de "elizabeth"** = ALTO (palabra caracter√≠stica)

**¬øAl final que se obtiene de todo esto?:**\
Cada libro tiene un vector TF-IDF que representa su contenido √∫nico.


In [None]:
import numpy as np
import math

print("\nCalculando TF-IDF manualmente con la f√≥rmula...")
print("F√≥rmula: TF-IDF(d,t) = TF(d,t) √ó log(N / DF(t))")

# Recolectar datos de raw_features (salida de CountVectorizer)
rows = df.select("book_id", "raw_features").collect()

N = len(rows)  # Total de documentos (100)
vocab_size = len(cv_model.vocabulary)  # Tama√±o del vocabulario (2000)

print(f"  ‚Üí N = {N} documentos")
print(f"  ‚Üí Vocabulario = {vocab_size} palabras")

# ============================================================================
# PASO 1: Calcular DF (Document Frequency) para cada palabra
# ============================================================================
print("\n  PASO 1: Contando en cu√°ntos documentos aparece cada palabra...")

# df[i] = n√∫mero de documentos que contienen la palabra i
df_array = np.zeros(vocab_size)

for row in rows:
    vector = row["raw_features"]
    # Contar palabras √∫nicas en este documento
    for idx in vector.indices:
        df_array[idx] += 1

print(f"     ‚úì DF calculado para {vocab_size} palabras")

# ============================================================================
# PASO 2: Calcular IDF para cada palabra
# ============================================================================
print("\n  PASO 2: Calculando IDF = log(N / DF) para cada palabra...")

# idf[i] = log(N / df[i])
idf_array = np.zeros(vocab_size)

for i in range(vocab_size):
    if df_array[i] > 0:
        # F√≥rmula: IDF(t) = log(N / DF(t))
        idf_array[i] = math.log(N / df_array[i])
    else:
        idf_array[i] = 0.0

print(f"     ‚úì IDF calculado")
print(f"     ‚úì Rango IDF: [{idf_array.min():.4f}, {idf_array.max():.4f}]")

# Mostrar ejemplos
print("\n     Ejemplos de IDF:")
for i in range(min(5, len(cv_model.vocabulary))):
    word = cv_model.vocabulary[i]
    df_val = df_array[i]
    idf_val = idf_array[i]
    print(f"       '{word}': DF={int(df_val)} docs ‚Üí IDF = log({N}/{int(df_val)}) = {idf_val:.4f}")

# ============================================================================
# PASO 3: Calcular TF-IDF = TF √ó IDF para cada documento
# ============================================================================
print("\n  PASO 3: Multiplicando TF √ó IDF para cada documento...")

from pyspark.ml.linalg import Vectors
tfidf_results = []

for doc_idx, row in enumerate(rows):
    book_id = row["book_id"]
    tf_vector = row["raw_features"]
    
    # Calcular TF-IDF para palabras no-cero
    indices = []
    values = []
    
    for i, idx in enumerate(tf_vector.indices):
        tf_value = tf_vector.values[i]
        idf_value = idf_array[idx]
        
        # TF-IDF = TF √ó IDF
        tfidf_value = tf_value * idf_value
        
        indices.append(int(idx))
        values.append(float(tfidf_value))
    
    # Crear vector disperso
    tfidf_sparse = Vectors.sparse(vocab_size, indices, values)
    tfidf_results.append((book_id, tfidf_sparse))
    
    if (doc_idx + 1) % 20 == 0:
        print(f"     ‚Üí Procesados {doc_idx + 1}/{N} documentos...")

print(f"     ‚úì TF-IDF calculado para {N} documentos")

# ============================================================================
# PASO 4: Crear DataFrame con TF-IDF
# ============================================================================
print("\n  PASO 4: Creando DataFrame con vectores TF-IDF...")

from pyspark.sql import Row
tfidf_rows = [Row(book_id=r[0], tfidf=r[1]) for r in tfidf_results]
tfidf_df = spark.createDataFrame(tfidf_rows)

# Unir con DataFrame original
df = df.join(tfidf_df, on="book_id", how="inner")
df = df.drop("raw_features")

print("‚úì TF-IDF calculado con f√≥rmula expl√≠cita")

# ============================================================================
# VERIFICACI√ìN: Mostrar c√°lculo detallado para un libro
# ============================================================================
print("\n" + "="*80)
print("üîç VERIFICACI√ìN: C√°lculo detallado para el primer libro")
print("="*80)

ejemplo = rows[0]
ejemplo_id = ejemplo["book_id"]
ejemplo_tf = ejemplo["raw_features"]

print(f"\nLibro: {ejemplo_id}")
print(f"\nTop 5 palabras con mayor TF-IDF:\n")

# Calcular TF-IDF para este libro
palabra_tfidf = []
for i, idx in enumerate(ejemplo_tf.indices):
    word = cv_model.vocabulary[idx]
    tf = ejemplo_tf.values[i]
    idf = idf_array[idx]
    tfidf = tf * idf
    palabra_tfidf.append((word, tf, idf, tfidf))

# Ordenar por TF-IDF
palabra_tfidf.sort(key=lambda x: x[3], reverse=True)



#for i, (word, tf, idf, tfidf) in enumerate(palabra_tfidf[:5], 1):
#    print(f"{i}. '{word}':")
#    print(f"   TF = {tf:.0f} (apariciones en el libro)")
#    print(f"   IDF = {idf:.4f} (rareza en la colecci√≥n)")
#    print(f"   TF-IDF = {tf:.0f} √ó {idf:.4f} = {tfidf:.2f}\n")

## CELDA 10: Normalizar Vectores


**¬øQu√© hace?**\
Normaliza los vectores TF-IDF para que todos tengan la misma "longitud" matem√°tica.<details> <summary>Ejemplo</summary> Es como comparar la composici√≥n de dos bebidas sin importar el tama√±o del vaso.</details>

**¬øPor qu√© normalizar?**
- Libros largos tienen n√∫meros m√°s grandes
- Queremos comparar **proporcionalmente**, no por tama√±o
- Despu√©s de normalizar, los valores est√°n entre 0 y 1


**Resultado:**\
Vectores `tfidf_norm` con valores entre 0 y 1.


In [None]:
from pyspark.ml.feature import Normalizer

print("Normalizando vectores TF-IDF...")

normalizer = Normalizer(inputCol="tfidf", outputCol="tfidf_norm", p=2.0)
df = normalizer.transform(df)
df = df.drop("tfidf")

print("‚úì Vectores normalizados")
#print("\nDataFrame final:")
#df.select("book_id", "title").show(7, truncate=60)

## CELDA 11: Crear Matriz de Similitud

**¬øQu√© hace?**
Crea una **matriz 100√ó100** que compara cada libro con todos los dem√°s.

**Proceso:**
1. Convierte vectores de Spark a NumPy (arrays de Python)
2. Calcula el **producto punto** entre todos los pares de libros
3. El resultado es la **similitud coseno**


In [None]:
import numpy as np
print("Creando matriz de similitud...")

# Recolectar datos
rows = df.select("book_id", "title", "tfidf_norm").collect()

# Preparar estructuras de datos
book_ids = [r["book_id"] for r in rows]
id_to_title = {r["book_id"]: r["title"] for r in rows}

# Crear √≠ndices num√©ricos
numeric_id_to_original = {i+1: book_ids[i] for i in range(len(book_ids))}
original_to_numeric_id = {book_ids[i]: i+1 for i in range(len(book_ids))}

# Convertir vectores a numpy
print("  ‚Üí Convirtiendo vectores a numpy...")
vectors = np.array([r["tfidf_norm"].toArray() for r in rows])

# Calcular matriz de similitud CON LA F√ìRMULA COMPLETA DESDE CERO
print("  ‚Üí Calculando similitudes con f√≥rmula: cos(Œ∏) = (u¬∑v) / (||u|| √ó ||v||)")

n_books = vectors.shape[0]  # N√∫mero de libros
n_features = vectors.shape[1]  # Dimensiones del vector TF-IDF

sim_matrix = np.zeros((n_books, n_books))

for i in range(n_books):
    for j in range(n_books):
        # PASO 1: Calcular producto punto manualmente (u ¬∑ v)
        # u¬∑v = u‚ÇÅ√óv‚ÇÅ + u‚ÇÇ√óv‚ÇÇ + ... + u‚Çô√óv‚Çô
        dot_product = 0.0
        for k in range(n_features):
            dot_product += vectors[i][k] * vectors[j][k]
        
        # PASO 2: Calcular magnitud de u: ||u|| = ‚àö(u‚ÇÅ¬≤ + u‚ÇÇ¬≤ + ... + u‚Çô¬≤)
        norm_i = 0.0
        for k in range(n_features):
            norm_i += vectors[i][k] ** 2
        norm_i = np.sqrt(norm_i)
        
        # PASO 3: Calcular magnitud de v: ||v|| = ‚àö(v‚ÇÅ¬≤ + v‚ÇÇ¬≤ + ... + v‚Çô¬≤)
        norm_j = 0.0
        for k in range(n_features):
            norm_j += vectors[j][k] ** 2
        norm_j = np.sqrt(norm_j)
        
        # PASO 4: Similitud del coseno = (u¬∑v) / (||u|| √ó ||v||)
        if norm_i > 0 and norm_j > 0:  # Evitar divisi√≥n por cero
            sim_matrix[i][j] = dot_product / (norm_i * norm_j)
        else:
            sim_matrix[i][j] = 0.0
    
    # Mostrar progreso cada 100 libros
    if (i + 1) % 100 == 0:
        print(f"     Procesados {i + 1}/{n_books} libros...")

# Crear mapeos (mantener los originales tambi√©n)
index_to_id = {i: book_ids[i] for i in range(len(book_ids))}
id_to_index = {book_ids[i]: i for i in range(len(book_ids))}

print(f"‚úì Matriz de similitud creada: {sim_matrix.shape}")
print(f"  Rango de similitudes: [{sim_matrix.min():.4f}, {sim_matrix.max():.4f}]")
print(f"  üìä {len(numeric_id_to_original)} libros indexados num√©ricamente")

##  CELDA 12: Recomendar libros


**¬øQu√© hace?**\
Ingresamos un libro, seguido de ello se encuentra los N libros m√°s similares (Por default y para evitar que la memoria muera pusimos 5).

**Pasos:**
1. Busca el libro en la matriz de similitud
2. Obtiene sus similitudes con todos los dem√°s libros
3. Ordena de mayor a menor similitud
4. Retorna los top N


In [None]:
def recomendar_libros(libro_id, N=5):
    # Convertir a string para comparaci√≥n
    libro_id_str = str(libro_id)
    
    # Intentar con ID num√©rico primero
    if libro_id_str.isdigit():
        num_id = int(libro_id_str)
        if num_id in numeric_id_to_original:
            libro_id_str = numeric_id_to_original[num_id]
            print(f"üìñ Usando ID num√©rico {num_id} ‚Üí {libro_id_str}")
    
    # Validar que existe
    if libro_id_str not in id_to_index:
        raise ValueError(f"Libro '{libro_id}' no encontrado")
        
    idx = id_to_index[libro_id_str]
    similarities = sim_matrix[idx]

    pairs = [
        (index_to_id[i], float(similarities[i]))
        for i in range(len(similarities))
        if i != idx
    ]

    pairs_sorted = sorted(pairs, key=lambda x: x[1], reverse=True)
    
    # gregar ID num√©rico a los resultados
    results = [
        (original_to_numeric_id[bid], bid, id_to_title[bid], score)
        for bid, score in pairs_sorted[:N]
    ]
    
    return results

## CELDA 13: Funci√≥n Palabras Importantes (NORMALIZADA)


**¬øQu√© hace?**\
Encuentra las M palabras m√°s caracter√≠sticas de un libro.

**Proceso:**
1. Obtiene el vector TF-IDF normalizado del libro
2. Ordena las palabras por su score TF-IDF
3. Retorna las top M palabras

**¬øPor qu√© usa `tfidf_norm`?**
Los valores est√°n entre 0 y 1, m√°s f√°ciles de interpretar como porcentajes.

**Entrada:**
- `libro_id` = "84"
- `M` = 5

**Salida:**
```
elizabeth ‚Üí 0.64 (64% de importancia)
feelings  ‚Üí 0.15 (15% de importancia)
henry     ‚Üí 0.12 (12% de importancia)
```

In [None]:
from pyspark.sql.functions import col

def palabras_importantes(documento_id, M=10):
    
    doc_id_str = str(documento_id)
    
    # Convertir ID num√©rico a original
    if doc_id_str.isdigit():
        num_id = int(doc_id_str)
        if num_id in numeric_id_to_original:
            doc_id_str = numeric_id_to_original[num_id]
    
    # Buscar documento
    row = df.filter(col("book_id") == doc_id_str).select("tfidf_norm").collect()
    
    if not row:
        raise ValueError(f" Documento '{documento_id}' no encontrado")
    
    # Resto del c√≥digo igual...
    tfidf_vector = row[0]["tfidf_norm"]
    vocab = cv_model.vocabulary
    
    items = list(zip(tfidf_vector.indices, tfidf_vector.values))
    items_sorted = sorted(items, key=lambda x: x[1], reverse=True)
    
    top_words = [
        (vocab[idx], float(val))
        for idx, val in items_sorted[:M]
    ]
    
    return top_words


print("‚úì Funci√≥n palabras_importantes() definida (versi√≥n normalizada)")

## INPUTS

### CELDA 14: Cat√°logo Completo
Muestra los 100 libros disponibles con sus IDs.

In [None]:
print("\n" + "="*80)
print(" CAT√ÅLOGO COMPLETO DE LIBROS")
print("="*80)
print(f"\nTotal: {len(book_ids)} libros\n")

for num_id, original_id in numeric_id_to_original.items():
    print(f"{num_id:3}. [ID: {num_id:2}] {id_to_title[original_id]:40} (Original: {original_id})")

### CELDA 15: Recomendador con INPUT
El usuario ingresa:
- ID del libro
- Cu√°ntas recomendaciones quiere
‚Üí Sistema devuelve libros similares

In [None]:
libro_id = input("\nüìñ Ingresa el ID del libro (n√∫mero o nombre): ").strip()
n_recs = int(input("¬øCu√°ntas recomendaciones?: ") or "5")

try:
    print(f"\n{'='*80}")
    print(f"üìñ BUSCANDO LIBRO...")
    print(f"{'='*80}\n")
    
    recomendaciones = recomendar_libros(libro_id, N=n_recs)
    
    print(f" TOP {n_recs} RECOMENDACIONES:\n")
    for i, (num_id, orig_id, title, score) in enumerate(recomendaciones, 1):
        print(f"{i}. [ID: {num_id:2}] [{score:.4f}] {title}")
    
    print(f"\n‚úÖ {n_recs} recomendaciones generadas")
except ValueError as e:
    print(str(e))

### CELDA 16: Palabras Caracter√≠sticas con INPUT
El usuario ingresa:
- ID del libro
- Cu√°ntas palabras quiere
‚Üí Sistema muestra palabras clave con barras visuales

In [None]:
# CELDA 19: Palabras Caracter√≠sticas con INPUT (CORREGIDA)

libro_id = input("\n Ingresa el ID del libro (n√∫mero o nombre): ").strip()
m_palabras = int(input(" ¬øCu√°ntas palabras?: ") or "10")

try:
    # Convertir ID num√©rico si es necesario
    libro_id_str = str(libro_id)
    if libro_id_str.isdigit():
        num_id = int(libro_id_str)
        if num_id in numeric_id_to_original:
            libro_id_str = numeric_id_to_original[num_id]
            print(f"Usando ID num√©rico {num_id} ‚Üí {libro_id_str}")
    else:
        libro_id_str = libro_id
    
    # Validar que existe
    if libro_id_str not in id_to_title:
        print(f" Libro '{libro_id}' no encontrado")
    else:
        print(f"\n{'='*80}")
        print(f"LIBRO: {id_to_title[libro_id_str]}")
        print(f"{'='*80}\n")
        
        palabras = palabras_importantes(libro_id_str, M=m_palabras)
        
        for i, (palabra, score) in enumerate(palabras, 1):
            # Barra visual
            bar = "‚ñà" * int((score / palabras[0][1]) * 30)
            print(f"{i:2}. {palabra:20} ‚îÇ {score:7.2f} ‚îÇ {bar}")
        
        print(f"\n Top {m_palabras} palabras generadas")
        
except Exception as e:
    print(f" Error: {e}")