# Aqui inicia mi sufrimiento :(

# PROYECTO FINAL


## Sistemas Distribuidos con PySpark

Este proyecto implementa lo que se ha visto en clases en una serie de ejercicios a las cuales llamo un **sistema de recomendaci√≥n de libros** utilizando:
- **100 libros** m√°s descargados de Project Gutenberg (Omitiendo 2 ya que estos denegaban el acceso...)
- **PySpark** para procesamiento distribuido
- **TF-IDF** para an√°lisis de texto
- **Similitud coseno** para encontrar libros similares
- Y las ense√±anzas del profe

## CELDA 1: Configuraci√≥n de Rutas

**¬øQu√© hace?**
Configura las rutas del proyecto para que Python pueda encontrar nuestros archivos de utilidades (`src/utils.py`).

**Explicaci√≥n t√©cnica:**
- `sys.path.append()` a√±ade directorios donde Python buscar√° m√≥dulos <details> <summary> ¬øPor que? </summary> (Antes tuvimos problemas con que el programa que no encontraba la ruta de SRC)</details>


- `..` = directorio padre (ra√≠z del proyecto)
- `../src` = carpeta de c√≥digo fuente<details>
    <summary> ¬øQue hay ahi? </summary> 
    Ahi adentro se encuentran los archivos python donde uno descarga los libros (download_books.py) y otro donde se encarga de limpiar estos mismos como quitar los headers o footers para que no extorben en el analisis (utils.py)
</details>


In [1]:
import sys
import os

# Agregar rutas del proyecto
sys.path.append(os.path.abspath(".."))  # ra√≠z del proyecto
sys.path.append(os.path.abspath("../src"))  # carpeta src

# Verificar rutas
print("Rutas configuradas:")
for path in sys.path[-3:]:
    print(f"  - {path}")

Rutas configuradas:
  - /home/arturo/venv/lib/python3.12/site-packages
  - /home/arturo/project_gutenberg
  - /home/arturo/project_gutenberg/src


## CELDA 2: Descargar Recursos de NLTK

**¬øQu√© hace?**
Descarga las herramientas necesarias de NLTK para procesar texto en ingl√©s.

**Lo que descarga:**
- `punkt` y `punkt_tab` ‚Üí Separa texto en palabras (tokenizaci√≥n)<details><summary>En otras palabras</summary>Esto divide un texto grande en piezas m√°s peque√±as llamadas tokens.</details>

- `stopwords` ‚Üí Lista de palabras comunes que no aportan significado ("the", "a", "is") <details>
  <summary> ¬øDe donde sacamos esta herramienta? </summary>
  Esta herramienta o mas bien libreria fue recomendada por el profesor para facilitarnos la detecci√≤n de stopwords
</details>

In [2]:
import nltk

print("Descargando recursos de NLTK...")
nltk.download('punkt_tab', quiet=True)
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
print("‚úì NLTK configurado")

Descargando recursos de NLTK...
‚úì NLTK configurado


## CELDA 3: Inicializar Apache Spark

**¬øQu√© hace?**
Arranca el motor de Spark que procesar√° nuestros datos de forma distribuida.

**Configuraci√≥n:**
- `driver.memory: 6g` ‚Üí Memoria del coordinador (6 GB)<details><summary>Mas detalles</summary>Memoria para el driver.
    - Este driver.memory recibe las instrucciones, reparte el trabajo y al final recoge los resultados.
    - Los 6 GB significa que la m√°quina virtual va a reservar 6 GB solo para este coordinador.
    - Esto procesara los 100 libros
</details>

- `executor.memory: 4g` ‚Üí Memoria de los trabajadores (4 GB)
- `local[*]` ‚Üí Usa todos los cores de tu CPU

\
**¬øPor qu√© Spark?**
- Para procesar 100 libros (~75 MB) de forma eficiente y paralela.<details>
    <summary> Y... </summary> 
    ...porque el profe nos lo pidio
</details>


In [3]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ProyectoFinal_RecomendacionLibros") \
    .master("local[*]") \
    .config("spark.driver.memory", "6g") \
    .config("spark.executor.memory", "4g") \
    .getOrCreate()

# Reducir logs
spark.sparkContext.setLogLevel("WARN")

print("‚úì Spark inicializado")
print(f"  Version: {spark.version}")
print(f"  Master: {spark.sparkContext.master}")

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/12/07 23:28:24 WARN Utils: Your hostname, arturo-VirtualBox, resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
25/12/07 23:28:24 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/12/07 23:28:27 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


‚úì Spark inicializado
  Version: 4.0.1
  Master: local[*]


## CELDA 4: Importar Funciones de Utilidad



**¬øQu√© hace?**\
Carga las funciones que creamos para procesar los libros desde la carpeta src al archivo utils.py

**Funciones importadas:**
- `read_txt()` ‚Üí Lee un archivo .txt sin importar el tipo de encoding, evitando errores por acentos o caracteres raros.
- `strip_gutenberg_headers()` ‚Üí Quita las licencias, advertencias y texto extra que agregan los libros.
- `preprocess_text()` ‚Üí Limpia el texto aplicando estos filtros:
    - min√∫sculas
    - tokenizar
    - quitar stopwords
    - quitar puntuaci√≥n<br>
- `load_all_books()` ‚Üí Busca todos los .txt de la carpeta y:\
  Es la funci√≥n que carga todos los libros del proyecto.
    - los lee
    - los limpia
    - los convierte en una lista/diccionario de libros procesados

In [4]:
from src.utils import (
    read_txt,
    strip_gutenberg_headers,
    preprocess_text,
    load_all_books
)

print("‚úì Utilidades importadas")

‚úì Utilidades importadas


## CELDA 5 y 6: Cargar 100 Libros

**¬øQu√© hace?**
Lee los 100 lirbos .txt desde la carpeta `data/` y los preprocesa.

**¬øEn que consiste el proceso?**
1. Lee el archivo
2. Elimina headers/footers
3. Convierte a min√∫sculas
4. Separa en palabras (tokens)
5. Elimina stopwords ("the", "a", etc.)
6. Elimina puntuaci√≥n y n√∫meros

**Resultado:**
Una lista con 100 libros, cada uno con:
- ID del libro (usando los ID originales de la pagina)
- Nombre del archivo
- Texto completo
- Lista de palabras limpias (tokens)

In [5]:
# Desmarcar el comentario en caso de extrema emergencia (No tener los libros)
# python3 src/download_books.py

In [6]:
data_dir = "../data"
books = load_all_books(data_dir, max_books=100)

print(f"\nüìä Resumen de carga:")
print(f"   Total de libros: {len(books)}")
if books:
    ejemplo = books[0]
    print(f"   Ejemplo - ID: {ejemplo[0]}, Tokens: {len(ejemplo[3])}")


üìö Cargando 100 libros desde ../data/
  ‚úì Procesados 10/100 libros
  ‚úì Procesados 20/100 libros
  ‚úì Procesados 30/100 libros
  ‚úì Procesados 40/100 libros
  ‚úì Procesados 50/100 libros
  ‚úì Procesados 60/100 libros
  ‚úì Procesados 70/100 libros
  ‚úì Procesados 80/100 libros
  ‚úì Procesados 90/100 libros
  ‚úì Procesados 100/100 libros
‚úÖ Total de libros cargados exitosamente: 100


üìä Resumen de carga:
   Total de libros: 100
   Ejemplo - ID: 100, Tokens: 498519


## CELDA 7: Crear DataFrame de Spark


**¬øQu√© hace?**
Convierte nuestra lista de libros en un **DataFrame de Spark** (como una especie de tabla de Excel gigante).

**Columnas del DataFrame:**
- `book_id` ‚Üí ID √∫nico del libro (ej: "84", "1342")
- `title` ‚Üí Nombre del archivo (ej: "84.txt")
- `text` ‚Üí Texto completo del libro
- `tokens` ‚Üí Lista de palabras procesadas

**¬øPor qu√© un DataFrame?**
Spark puede procesar DataFrames de forma paralela y distribuida.
<details><summary>Comentario</summary> Creemos que no se ve las columnas de "text" y "tokens" porque estamos usando una maquina virutal para correr este codigo y la verdad a este punto en el que estoy hubiera preferido instalar linux pero en la laptop, casi no la uso</details>
<br/>


In [7]:
from pyspark.sql.types import ArrayType, StringType

print("Creando DataFrame de Spark...")

df = spark.createDataFrame(
    [(b[0], b[1], b[2], b[3]) for b in books],
    schema=["book_id", "title", "text", "tokens"]
)

print(f"‚úì DataFrame creado con {df.count()} documentos\n")
df.select("book_id", "title").show(5, truncate=False)


Creando DataFrame de Spark...


25/12/07 23:29:49 WARN TaskSetManager: Stage 0 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

‚úì DataFrame creado con 100 documentos



25/12/07 23:31:38 WARN TaskSetManager: Stage 3 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

+-------+---------+
|book_id|title    |
+-------+---------+
|100    |100.txt  |
|1023   |1023.txt |
|10554  |10554.txt|
|1080   |1080.txt |
|11     |11.txt   |
+-------+---------+
only showing top 5 rows


## CELDA 8: Renombrar Columna (IGNORAR)

**¬øQu√© hace?**\
Renombra la columna `tokens` a `tokens_clean` para claridad.

**¬øPor qu√©?**\
Al inicio lo dejamos para ver si nos daba los tokens y TODO el texto del libro pero al final lo dejamos asi porque nos dio miedo que se rompiera el codigo y tener que esperar otros 15 minutos a que corriera esto en la maquina virutal, asi que lo dejamos como algo para ignorar.


In [8]:
from pyspark.sql.functions import col

df = df.withColumnRenamed("tokens", "tokens_clean")

print("‚úì Tokens ya procesados (stopwords removidas con NLTK)")
print("\nEjemplo de tokens limpios:")
df.select("book_id", "tokens_clean").show(3, truncate=60)

‚úì Tokens ya procesados (stopwords removidas con NLTK)

Ejemplo de tokens limpios:


25/12/07 23:32:38 WARN TaskSetManager: Stage 4 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

+-------+------------------------------------------------------------+
|book_id|                                                tokens_clean|
+-------+------------------------------------------------------------+
|    100|[complete, works, william, shakespeare, william, shakespe...|
|   1023|[bleak, house, charles, dickens, contents, preface, chanc...|
|  10554|[right, ho, jeeves, wodehouse, raymond, needham, affectio...|
+-------+------------------------------------------------------------+
only showing top 3 rows


## CELDA 9: Crear Vocabulario (CountVectorizer)

**¬øQu√© hace?**\
Crea un **vocabulario** con las 2000 palabras m√°s importantes de todos los libros.

**Proceso:**
1. Cuenta cu√°ntas veces aparece cada palabra en cada libro
2. Selecciona las 2000 palabras m√°s frecuentes
3. Filtra palabras que aparecen en menos de 2 libros (muy raras)

**Resultado:**\
Cada libro se representa como un vector de 2000 n√∫meros (frecuencias de palabras).
<details>
  <summary>Detalles del codigo</summary>
  <p>Par√°metros:</p>
  <ul>
    <li>VOCAB_SIZE=2000: limita el vocabulario a las 2000 palabras m√°s frecuentes. Evita vectores enormes.</li>
    <li>MIN_DF=2: elimina palabras que aparecen en menos de 2 documentos (filtra ruido / typos).</li>
  </ul>
</details>





In [9]:
from pyspark.ml.feature import CountVectorizer

print("Creando vocabulario con CountVectorizer...")

VOCAB_SIZE = 2000
MIN_DF = 2  # Palabra que debe aparecer en al menos 2 documentos

cv = CountVectorizer(
    inputCol="tokens_clean",
    outputCol="raw_features",
    vocabSize=VOCAB_SIZE,
    minDF=MIN_DF
)

cv_model = cv.fit(df)
df = cv_model.transform(df)

actual_vocab_size = len(cv_model.vocabulary)
print(f"‚úì Vocabulario creado")
print(f"  Tama√±o del vocabulario: {actual_vocab_size} palabras")
print(f"  Top 10 palabras: {cv_model.vocabulary[:10]}")

Creando vocabulario con CountVectorizer...


25/12/07 23:33:44 WARN TaskSetManager: Stage 5 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

‚úì Vocabulario creado
  Tama√±o del vocabulario: 2000 palabras
  Top 10 palabras: ['one', 'said', 'would', 'man', 'could', 'upon', 'time', 'good', 'like', 'well']


## CELDA 10: Calcular TF-IDF

**¬øQu√© hace?**\
Calcula **TF-IDF** (Term Frequency - Inverse Document Frequency) para cada palabra.

**¬øQu√© es TF-IDF?**\
Un n√∫mero que indica el **peso** o **importancia** en una palabra para un libro espec√≠fico.

**F√≥rmula simple:**
- **TF** (frecuencia): ¬øCu√°ntas veces aparece en ESTE libro?
- **IDF** (rareza): ¬øQu√© tan rara es en TODOS los libros?
- **TF-IDF** = TF √ó IDF

**Ejemplo:**
- "elizabeth" aparece mucho en Frankenstein ‚Üí TF alto
- "elizabeth" NO aparece en otros libros ‚Üí IDF alto
- **TF-IDF de "elizabeth"** = ALTO (palabra caracter√≠stica)

**¬øAl final que se obtiene de todo esto?:**\
Cada libro tiene un vector TF-IDF que representa su contenido √∫nico.


In [10]:
from pyspark.ml.feature import IDF

print("\nCalculando TF-IDF...")

idf = IDF(inputCol="raw_features", outputCol="tfidf")
idf_model = idf.fit(df)
df = idf_model.transform(df)

print("‚úì TF-IDF calculado")


Calculando TF-IDF...


25/12/07 23:35:31 WARN TaskSetManager: Stage 9 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

‚úì TF-IDF calculado


## CELDA 11: Normalizar Vectores


**¬øQu√© hace?**\
Normaliza los vectores TF-IDF para que todos tengan la misma "longitud" matem√°tica.<details> <summary>Ejemplo</summary> Es como comparar la composici√≥n de dos bebidas sin importar el tama√±o del vaso.</details>

**¬øPor qu√© normalizar?**
- Libros largos tienen n√∫meros m√°s grandes
- Queremos comparar **proporcionalmente**, no por tama√±o
- Despu√©s de normalizar, los valores est√°n entre 0 y 1


**Resultado:**\
Vectores `tfidf_norm` con valores entre 0 y 1.


In [11]:
from pyspark.ml.feature import Normalizer

print("Normalizando vectores TF-IDF...")

normalizer = Normalizer(inputCol="tfidf", outputCol="tfidf_norm", p=2.0)
df = normalizer.transform(df)

print("‚úì Vectores normalizados")
print("\nDataFrame final:")
df.select("book_id", "title", "tfidf_norm").show(4, truncate=60)

Normalizando vectores TF-IDF...
‚úì Vectores normalizados

DataFrame final:


25/12/07 23:38:29 WARN TaskSetManager: Stage 10 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

+-------+---------+------------------------------------------------------------+
|book_id|    title|                                                  tfidf_norm|
+-------+---------+------------------------------------------------------------+
|    100|  100.txt|(2000,[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,...|
|   1023| 1023.txt|(2000,[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,...|
|  10554|10554.txt|(2000,[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,...|
|   1080| 1080.txt|(2000,[0,1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,17,18,19,20,...|
+-------+---------+------------------------------------------------------------+
only showing top 4 rows


## CELDA 12: Crear Matriz de Similitud

**¬øQu√© hace?**
Crea una **matriz 100√ó100** que compara cada libro con todos los dem√°s.

**Proceso:**
1. Convierte vectores de Spark a NumPy (arrays de Python)
2. Calcula el **producto punto** entre todos los pares de libros
3. El resultado es la **similitud coseno**


In [12]:
import numpy as np

print("Creando matriz de similitud...")

# Recolectar datos
rows = df.select("book_id", "title", "tfidf_norm").collect()

# Preparar estructuras de datos
book_ids = [r["book_id"] for r in rows]
id_to_title = {r["book_id"]: r["title"] for r in rows}

# Convertir vectores a numpy
print("  ‚Üí Convirtiendo vectores a numpy...")
vectors = np.array([r["tfidf_norm"].toArray() for r in rows])

# Calcular matriz de similitud (producto punto = cosine similarity)
print("  ‚Üí Calculando similitudes...")
sim_matrix = np.dot(vectors, vectors.T)

# Crear mapeos
index_to_id = {i: book_ids[i] for i in range(len(book_ids))}
id_to_index = {book_ids[i]: i for i in range(len(book_ids))}

print(f"‚úì Matriz de similitud creada: {sim_matrix.shape}")
print(f"  Rango de similitudes: [{sim_matrix.min():.4f}, {sim_matrix.max():.4f}]")


Creando matriz de similitud...


25/12/07 23:39:22 WARN TaskSetManager: Stage 11 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

  ‚Üí Convirtiendo vectores a numpy...
  ‚Üí Calculando similitudes...
‚úì Matriz de similitud creada: (100, 100)
  Rango de similitudes: [0.0000, 1.0000]


##  CELDA 13 y 14: Recomendar libros



**¬øQu√© hace?**\
Ingresamos un libro, seguido de ello se encuentra los N libros m√°s similares (Por default y para evitar que la memoria muera pusimos 5).

**Pasos:**
1. Busca el libro en la matriz de similitud
2. Obtiene sus similitudes con todos los dem√°s libros
3. Ordena de mayor a menor similitud
4. Retorna los top N


In [13]:
def recomendar_libros(libro_id, N=5):
    libro_id = str(libro_id)
    
    if libro_id not in id_to_index:
        raise ValueError(f"‚ùå Libro '{libro_id}' no encontrado")
    
    idx = id_to_index[libro_id]
    similarities = sim_matrix[idx]

    pairs = [
        (index_to_id[i], float(similarities[i]))
        for i in range(len(similarities))
        if i != idx
    ]

    pairs_sorted = sorted(pairs, key=lambda x: x[1], reverse=True)
    
    results = [
        (bid, id_to_title[bid], score)
        for bid, score in pairs_sorted[:N]
    ]
    
    return results


In [14]:
recomendar_libros(100, N=5)

[('8800', '8800.txt', 0.7089103711909744),
 ('26', '26.txt', 0.6649206732336214),
 ('779', '779.txt', 0.6484633338043468),
 ('3296', '3296.txt', 0.6249226014288817),
 ('2680', '2680.txt', 0.5586967707233)]

## CELDA 15 y 16: Funci√≥n Palabras Importantes (NORMALIZADA)


**¬øQu√© hace?**\
Encuentra las M palabras m√°s caracter√≠sticas de un libro.

**Proceso:**
1. Obtiene el vector TF-IDF normalizado del libro
2. Ordena las palabras por su score TF-IDF
3. Retorna las top M palabras

**¬øPor qu√© usa `tfidf_norm`?**
Los valores est√°n entre 0 y 1, m√°s f√°ciles de interpretar como porcentajes.

**Entrada:**
- `libro_id` = "84"
- `M` = 5

**Salida:**
```
elizabeth ‚Üí 0.64 (64% de importancia)
feelings  ‚Üí 0.15 (15% de importancia)
henry     ‚Üí 0.12 (12% de importancia)
```

In [15]:
from pyspark.sql.functions import col

def palabras_importantes(documento_id, M=10):
    """
    üéØ FUNCI√ìN PRINCIPAL #2 (VERSI√ìN NORMALIZADA)
    
    Regresa M palabras que describen un documento.
    Usa vectores normalizados (valores entre 0 y 1).
    
    Par√°metros:
        documento_id: ID del documento (book_id)
        M: N√∫mero de palabras a retornar
    
    Retorna:
        Lista de tuplas (palabra, score_normalizado)
    """
    # Buscar documento - CAMBIO AQU√ç: tfidf_norm en lugar de tfidf
    row = df.filter(col("book_id") == documento_id).select("tfidf_norm").collect()
    
    if not row:
        raise ValueError(f"‚ùå Documento '{documento_id}' no encontrado")
    
    # Obtener vector TF-IDF normalizado
    tfidf_vector = row[0]["tfidf_norm"]
    vocab = cv_model.vocabulary
    
    # Ordenar por score
    items = list(zip(tfidf_vector.indices, tfidf_vector.values))
    items_sorted = sorted(items, key=lambda x: x[1], reverse=True)
    
    # Convertir a palabras
    top_words = [
        (vocab[idx], float(val))
        for idx, val in items_sorted[:M]
    ]
    
    return top_words


print("‚úì Funci√≥n palabras_importantes() definida (versi√≥n normalizada)")

‚úì Funci√≥n palabras_importantes() definida (versi√≥n normalizada)


In [16]:
palabras_importantes(84, M=5)

25/12/07 23:42:40 WARN TaskSetManager: Stage 12 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

[('elizabeth', 0.6382942221796127),
 ('feelings', 0.14750844941878943),
 ('henry', 0.12106935995588752),
 ('misery', 0.11192872548646718),
 ('william', 0.10978409395308954)]

## INPUTS

### CELDA 17: Cat√°logo Completo
Muestra los 100 libros disponibles con sus IDs.

In [17]:
# CELDA RESULTADOS 1: Mostrar cat√°logo completo
print("\n" + "="*80)
print(" CAT√ÅLOGO COMPLETO DE LIBROS")
print("="*80)
print(f"\nTotal: {len(book_ids)} libros\n")

for i, bid in enumerate(book_ids, 1):
    print(f"{i:3}. ID: {bid:6} ‚Üí {id_to_title[bid]}")

print("\nüí° Copia el ID del libro que te interese para las siguientes celdas")



 CAT√ÅLOGO COMPLETO DE LIBROS

Total: 100 libros

  1. ID: 100    ‚Üí 100.txt
  2. ID: 1023   ‚Üí 1023.txt
  3. ID: 10554  ‚Üí 10554.txt
  4. ID: 1080   ‚Üí 1080.txt
  5. ID: 11     ‚Üí 11.txt
  6. ID: 110    ‚Üí 110.txt
  7. ID: 1184   ‚Üí 1184.txt
  8. ID: 120    ‚Üí 120.txt
  9. ID: 1232   ‚Üí 1232.txt
 10. ID: 1259   ‚Üí 1259.txt
 11. ID: 1260   ‚Üí 1260.txt
 12. ID: 1342   ‚Üí 1342.txt
 13. ID: 135    ‚Üí 135.txt
 14. ID: 1399   ‚Üí 1399.txt
 15. ID: 1400   ‚Üí 1400.txt
 16. ID: 145    ‚Üí 145.txt
 17. ID: 1497   ‚Üí 1497.txt
 18. ID: 1513   ‚Üí 1513.txt
 19. ID: 161    ‚Üí 161.txt
 20. ID: 16119  ‚Üí 16119.txt
 21. ID: 16328  ‚Üí 16328.txt
 22. ID: 16389  ‚Üí 16389.txt
 23. ID: 1661   ‚Üí 1661.txt
 24. ID: 17135  ‚Üí 17135.txt
 25. ID: 17199  ‚Üí 17199.txt
 26. ID: 1727   ‚Üí 1727.txt
 27. ID: 174    ‚Üí 174.txt
 28. ID: 17450  ‚Üí 17450.txt
 29. ID: 18035  ‚Üí 18035.txt
 30. ID: 1952   ‚Üí 1952.txt
 31. ID: 1998   ‚Üí 1998.txt
 32. ID: 205    ‚Üí 205.txt
 33. ID: 2160   ‚Üí 216

### CELDA 18: Recomendador con INPUT
El usuario ingresa:
- ID del libro
- Cu√°ntas recomendaciones quiere
‚Üí Sistema devuelve libros similares

In [18]:
libro_id = input("\nüìñ Ingresa el ID del libro: ").strip()
n_recs = int(input("üî¢ ¬øCu√°ntas recomendaciones?: ") or "5")

if libro_id in id_to_title:
    print(f"\n{'='*80}")
    print(f"üìñ LIBRO BASE: {id_to_title[libro_id]}")
    print(f"{'='*80}\n")
    
    recomendaciones = recomendar_libros(libro_id, N=n_recs)
    
    for i, (bid, title, score) in enumerate(recomendaciones, 1):
        print(f"{i}. [{score:.4f}] {title} (ID: {bid})")
    
    print(f"\n‚úÖ {n_recs} recomendaciones generadas")
else:
    print(f"‚ùå Libro '{libro_id}' no encontrado")



üìñ Ingresa el ID del libro:  84
üî¢ ¬øCu√°ntas recomendaciones?:  6



üìñ LIBRO BASE: 84.txt

1. [0.5918] 1342.txt (ID: 1342)
2. [0.3883] 36965.txt (ID: 36965)
3. [0.3776] 4085.txt (ID: 4085)
4. [0.3518] 205.txt (ID: 205)
5. [0.3493] 36034.txt (ID: 36034)
6. [0.3236] 5197.txt (ID: 5197)

‚úÖ 6 recomendaciones generadas


### CELDA 19: Palabras Caracter√≠sticas con INPUT
El usuario ingresa:
- ID del libro
- Cu√°ntas palabras quiere
‚Üí Sistema muestra palabras clave con barras visuales

In [19]:
libro_id = input("\nüìñ Ingresa el ID del libro: ").strip()
m_palabras = int(input("üî¢ ¬øCu√°ntas palabras?: ") or "10")

if libro_id in id_to_title:
    print(f"\n{'='*80}")
    print(f"üìñ LIBRO: {id_to_title[libro_id]}")
    print(f"{'='*80}\n")
    
    palabras = palabras_importantes(libro_id, M=m_palabras)
    
    for i, (palabra, score) in enumerate(palabras, 1):
        # Barra visual
        bar = "‚ñà" * int((score / palabras[0][1]) * 30)
        print(f"{i:2}. {palabra:20} ‚îÇ {score:7.2f} ‚îÇ {bar}")
    
    print(f"\n‚úÖ Top {m_palabras} palabras generadas")
else:
    print(f"‚ùå Libro '{libro_id}' no encontrado")


üìñ Ingresa el ID del libro:  84
üî¢ ¬øCu√°ntas palabras?:  8



üìñ LIBRO: 84.txt



25/12/07 23:46:23 WARN TaskSetManager: Stage 13 contains a task of very large size (74586 KiB). The maximum recommended task size is 1000 KiB.
                                                                                

 1. elizabeth            ‚îÇ    0.64 ‚îÇ ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
 2. feelings             ‚îÇ    0.15 ‚îÇ ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
 3. henry                ‚îÇ    0.12 ‚îÇ ‚ñà‚ñà‚ñà‚ñà‚ñà
 4. misery               ‚îÇ    0.11 ‚îÇ ‚ñà‚ñà‚ñà‚ñà‚ñà
 5. william              ‚îÇ    0.11 ‚îÇ ‚ñà‚ñà‚ñà‚ñà‚ñà
 6. miserable            ‚îÇ    0.10 ‚îÇ ‚ñà‚ñà‚ñà‚ñà
 7. horror               ‚îÇ    0.10 ‚îÇ ‚ñà‚ñà‚ñà‚ñà
 8. beheld               ‚îÇ    0.10 ‚îÇ ‚ñà‚ñà‚ñà‚ñà

‚úÖ Top 8 palabras generadas


### CELDA 20: An√°lisis Completo con INPUT
El usuario ingresa:
- ID del libro
- N√∫mero de recomendaciones
- N√∫mero de palabras
‚Üí Sistema hace an√°lisis completo

In [20]:

libro_id = input("\nüìñ ID del libro: ").strip()
n_recs = int(input("üî¢ Recomendaciones (default 5): ") or "5")
m_palabras = int(input("üî¢ Palabras clave (default 10): ") or "10")

if libro_id in id_to_title:
    analizar_libro(libro_id, n_recomendaciones=n_recs, m_palabras=m_palabras)
else:
    print(f"‚ùå Libro '{libro_id}' no encontrado")


üìñ ID del libro:  84
üî¢ Recomendaciones (default 5):  
üî¢ Palabras clave (default 10):  


NameError: name 'analizar_libro' is not defined