# Proyecto final de Bases de Datos Avanzadas
## 30 de abril de 2025
### Alfredo Nader, Patricio Fernández, Emilio Cruz
---

#### Creación y estructura de la base de datos y del documento

Iniciamos un entorno virtual de python y bajamos las dependencias necesarias con pip: instalamos pandas para poder usar los datos y alchemy para poder conectar al sql desde python

In [6]:
pip install pandas sqlalchemy

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


y las agregamos al inicio del archivo de python con pd que nos ayuda a manipular los datos en estructuras de tipo DataFrame

In [7]:
import json
from pymongo import MongoClient
import datetime
import pandas as pd
from sqlalchemy import create_engine, text

Cargamos los datos del archivo books.json. Dado que es un archivo JSON donde cada línea es un documento separado, usamos pandas.read_json con lines=True.

In [None]:
df = pd.read_json('books.json', lines=True)

Convertimos el DataFrame a una lista de diccionarios, que es un formato ideal para insertar en MongoDB.

In [4]:
data = df.where(pd.notna(df), None).to_dict('records')

Conectando a SQL:

In [3]:
#Conexión con sql
engine = create_engine('mysql+pymysql://root:millo1812/proyecto_final')

ValueError: invalid literal for int() with base 10: 'millo1812'

Creando las tablas usando engine.connect directamente a sql

In [9]:
with engine.connect() as conn:
    conn.execute(text("""
    DROP TABLE IF EXISTS Estados, Categorias, Autores, Libros;
    """))
    conn.execute(text("""
    CREATE TABLE Libros (
        id VARCHAR(24) PRIMARY KEY,
        titulo TEXT,
        isbn TEXT,
        numero_paginas INT,
        fecha_publicacion TEXT,
        url_miniatura TEXT,
        descripcion_corta TEXT,
        descripcion_larga TEXT
    );
    """))
    conn.execute(text("""
    CREATE TABLE Autores (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        autor TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))
    conn.execute(text("""
    CREATE TABLE Categorias (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        categoria TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))
    conn.execute(text("""
    CREATE TABLE Estados (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        estado TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))

Insertar valores en la tabla con el mismo metodo

In [10]:
with engine.begin() as conn:
    for _, row in df.iterrows():
        pub = row.get('publishedDate')
        fecha = pub.get('$date') if isinstance(pub, dict) else pub

        page_count = row.get('pageCount')
        if page_count is not None:
            try:
                page_count = int(page_count)
            except (ValueError, TypeError):
                page_count = None

        conn.execute(text("""
            INSERT INTO Libros (id, titulo, isbn, numero_paginas, fecha_publicacion, 
                              url_miniatura, descripcion_corta, descripcion_larga)
            VALUES (:id, :titulo, :isbn, :numero_paginas, :fecha_publicacion, 
                   :url_miniatura, :descripcion_corta, :descripcion_larga);
        """), {
            'id': str(row['_id']),
            'titulo': row.get('title'),
            'isbn': row.get('isbn'),
            'numero_paginas': page_count,
            'fecha_publicacion': fecha,
            'url_miniatura': row.get('thumbnailUrl'),
            'descripcion_corta': row.get('shortDescription'),
            'descripcion_larga': row.get('longDescription')
        })
        
        for autor in row.get('authors') or []:
            if autor: 
                conn.execute(text("""
                    INSERT INTO Autores (libro_id, autor) VALUES (:libro_id, :autor);
                """), {'libro_id': str(row['_id']), 'autor': autor})

        for cat in row.get('categories') or []:
            if cat:
                conn.execute(text("""
                    INSERT INTO Categorias (libro_id, categoria) VALUES (:libro_id, :categoria);
                """), {'libro_id': str(row['_id']), 'categoria': cat})

        estados = row.get('status')
        if isinstance(estados, str):
            estados = [estados]
        for est in estados or []:
            if est: 
                conn.execute(text("""
                    INSERT INTO Estados (libro_id, estado) VALUES (:libro_id, :estado);
                """), {'libro_id': str(row['_id']), 'estado': est})

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
import numpy as np

# Connect to MySQL
engine = create_engine('mysql+pymysql://root:warmachinerox2005@127.0.0.1:3306/proyecto_final')


sql_commands = [
    # 1. Transformación de Categorías
    "ALTER TABLE Categorias RENAME TO Categories_old",
    """CREATE TABLE IF NOT EXISTS Categorias (
        id INTEGER PRIMARY KEY AUTO_INCREMENT,
        nombre TEXT
    )""",
    "INSERT INTO Categorias (nombre) SELECT DISTINCT categoria FROM Categories_old",
    
    # 2. Creación de LibroCategoria
    """CREATE TABLE IF NOT EXISTS LibroCategoria (
        libro_id VARCHAR(24) NOT NULL,
        categoria_id INTEGER NOT NULL,
        PRIMARY KEY (libro_id, categoria_id),
        FOREIGN KEY (libro_id) REFERENCES Libros(id),
        FOREIGN KEY (categoria_id) REFERENCES Categorias(id)
    )""",
    """INSERT INTO LibroCategoria (libro_id, categoria_id)
    SELECT co.libro_id, c.id
    FROM Categories_old co
    JOIN Categorias c ON co.categoria = c.nombre""",
    
    # 3. Normalización de Autores
    """CREATE TABLE IF NOT EXISTS AutoresNormalizados (
        id INT AUTO_INCREMENT PRIMARY KEY,
        nombre VARCHAR(100) NOT NULL UNIQUE
    )""",
    "INSERT IGNORE INTO AutoresNormalizados (nombre) SELECT DISTINCT autor FROM Autores",
    
    # 4. Creación de LibroAutor
    """CREATE TABLE IF NOT EXISTS LibroAutor (
        libro_id VARCHAR(24) NOT NULL,
        autor_id INT NOT NULL,
        PRIMARY KEY (libro_id, autor_id),
        FOREIGN KEY (libro_id) REFERENCES Libros(id),
        FOREIGN KEY (autor_id) REFERENCES Autores(id)
    )""",
    """INSERT INTO LibroAutor (libro_id, autor_id)
    SELECT a.libro_id, an.id
    FROM Autores a
    JOIN AutoresNormalizados an ON a.autor = an.nombre""",
    
    # 5. Renombrar tablas (ejecutar solo si todo lo anterior funciona)
    "RENAME TABLE Autores TO Autores_Backup",
    "ALTER TABLE AutoresNormalizados RENAME TO Autores",
    
    # 6. Eliminar tabla backup 
    "ALTER TABLE LibroAutor DROP FOREIGN KEY LibroAutor_ibfk_2",
    "DROP TABLE Autores_Backup"
]

# Ejecutar cada comando por separado
with engine.connect() as conn:
    for cmd in sql_commands:
        try:
            conn.execute(text(cmd))
            conn.commit()  
        except Exception as e:
            print(f"Error al ejecutar: {cmd[:50]}...")
            print(f"Error detallado: {str(e)}")
            conn.rollback()  # Revertir en caso de error
            break  # Detener la ejecución si hay un error

Verificar que se haya insertado correctamente, imprimiendo los registros y una muestra de las tablas

In [15]:
with engine.connect() as conn:
    print("\nCounts in each table:")
    for tabla in ['Libros', 'Autores', 'Categorias', 'Estados']:
        count = conn.execute(text(f"SELECT COUNT(*) FROM {tabla}")).fetchone()[0]
        print(f"{tabla}: {count} registros")

    print("\nFirst 5 books:")
    result = conn.execute(text("SELECT id, titulo, isbn FROM Libros LIMIT 5;"))
    for row in result:
        print(row)


Counts in each table:
Libros: 431 registros
Autores: 726 registros
Categorias: 321 registros
Estados: 431 registros

First 5 books:
('1', 'Unlocking Android', '1933988673')
('10', 'OSGi in Depth', '193518217X')
('11', 'Flexible Rails', '1933988509')
('117', 'Managing Components with Modeler', '1932394524k-e')
('118', 'Command-line Processing with CLI', '1932394524l-e')


#### Consultas

1. **Consulta por título:** Buscar libros por su título.

In [19]:
conn = engine.connect()

try:
    titulo = "Android"
    df_titulo = pd.read_sql_query(
        "SELECT * FROM Libros WHERE titulo LIKE %s", 
        conn, 
        params=(f"%{titulo}%",)
    )
    print(df_titulo)
finally:
    conn.close() 

    id                             titulo           isbn  numero_paginas  \
0    1                  Unlocking Android     1933988673             416   
1  165                Android in Practice  9781935182924               0   
2    2  Android in Action, Second Edition     1935182722             592   
3  514   Android in Action, Third Edition     1617290505               0   
4   54                Android in Practice     1935182927             500   
5  580                   50 Android Hacks     1617290564               0   

              fecha_publicacion  \
0  2009-04-01T00:00:00.000-0700   
1                          None   
2  2011-01-14T00:00:00.000-0800   
3  2011-11-15T00:00:00.000-0800   
4  2011-09-30T00:00:00.000-0700   
5  2013-06-03T00:00:00.000-0700   

                                       url_miniatura  \
0  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   
1  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   
2  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ.... 

2. **Consulta por ISBN:** Buscar un libro específico mediante su número ISBN.

In [20]:
with engine.connect() as conn:
    isbn = "1933988673"
    df_isbn = pd.read_sql_query(
        "SELECT * FROM Libros WHERE isbn = %s",
        conn,
        params=(isbn,)
    )
    print(df_isbn)

  id             titulo        isbn  numero_paginas  \
0  1  Unlocking Android  1933988673             416   

              fecha_publicacion  \
0  2009-04-01T00:00:00.000-0700   

                                       url_miniatura  \
0  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   

                                   descripcion_corta  \
0  Unlocking Android: A Developer's Guide provide...   

                                   descripcion_larga  
0  Android is an open source mobile phone platfor...  


3. **Consulta por autor:** Obtener todos los libros escritos por un autor en particular.

In [23]:
with engine.connect() as conn:
    autor = "W. Frank Ableson"
    df_autor = pd.read_sql_query(
        """
        SELECT L.* 
        FROM Libros L
        JOIN Autores A ON L.id = A.libro_id
        WHERE A.autor = %s
        """, 
        conn, 
        params=(autor.strip(),)  
    )
    print(df_autor)

    id                             titulo        isbn  numero_paginas  \
0    1                  Unlocking Android  1933988673             416   
1    2  Android in Action, Second Edition  1935182722             592   
2  514   Android in Action, Third Edition  1617290505               0   

              fecha_publicacion  \
0  2009-04-01T00:00:00.000-0700   
1  2011-01-14T00:00:00.000-0800   
2  2011-11-15T00:00:00.000-0800   

                                       url_miniatura  \
0  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   
1  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   
2  https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ....   

                                   descripcion_corta  \
0  Unlocking Android: A Developer's Guide provide...   
1  Android in Action, Second Edition is a compreh...   
2                                               None   

                                   descripcion_larga  
0  Android is an open source mobile phone platfor...  
1  Whe

4. **Consulta por categoría:** Listar libros que pertenecen a una categoría específica.

In [25]:
with engine.connect() as conn:
    categoria = "Java"
    df_categoria = pd.read_sql_query(
        """
        SELECT L.* 
        FROM Libros L
        JOIN Categorias C ON L.id = C.libro_id
        WHERE C.categoria = %s
        """, 
        conn, 
        params=(categoria.strip(),)  # strip() para limpiar espacios
    )
    print(df_categoria)

     id                             titulo        isbn  numero_paginas  \
0     2  Android in Action, Second Edition  1935182722             592   
1     9                  Griffon in Action  1935182234             375   
2    10                      OSGi in Depth  193518217X             325   
3    21    3D User Interfaces with Java 3D  1884777902             520   
4    22                Hibernate in Action  193239415X             400   
..  ...                                ...         ...             ...   
92  320   Spring in Action, Second Edition  1933988134             768   
93  321    Spring in Action, Third Edition  1935182358             424   
94  325                 Spring in Practice  1935182056             600   
95  327               Java 2 Micro Edition  1930110332             504   
96  331           Java Servlets by Example  188477766X             550   

               fecha_publicacion  \
0   2011-01-14T00:00:00.000-0800   
1   2012-06-04T00:00:00.000-0700   
2  

5. **Consulta por estado:** Filtrar libros según su estado.

In [27]:
with engine.connect() as conn:
    estado = "PUBLISH"
    df_estado = pd.read_sql_query(
        """
        SELECT DISTINCT L.* 
        FROM Libros L
        JOIN Estados E ON L.id = E.libro_id
        WHERE E.estado = %s
        """,
        conn,
        params=(estado.strip(),)
    )
    print(f"Libros con estado '{estado}': {len(df_estado)} encontrados")
  
    print(df_estado[['id', 'titulo', 'isbn']].to_string(index=False))

Libros con estado 'PUBLISH': 363 encontrados
 id                                                         titulo          isbn
  1                                              Unlocking Android    1933988673
  2                              Android in Action, Second Edition    1935182722
  3                                       Specification by Example    1617290084
  4                                               Flex 3 in Action    1933988746
  5                                               Flex 4 in Action    1935182420
  6                              Collective Intelligence in Action    1933988312
  7                                       Zend Framework in Action    1933988320
  8                                                   Flex on Java    1933988797
  9                                              Griffon in Action    1935182234
 10                                                  OSGi in Depth    193518217X
 11                                                 Flexible Rai

6. **Número total de libros:** Contar el total de libros almacenados en la colección.

In [28]:
with engine.connect() as conn:
    df_total = pd.read_sql_query("SELECT COUNT(*) AS total_libros FROM Libros", conn)
    print(df_total)

   total_libros
0           431


In [29]:
import pandas as pd
from sqlalchemy import create_engine


engine = create_engine('mysql+pymysql://root:warmachinerox2005@127.0.0.1:3306/proyecto_final')

with engine.connect() as conn:
    # Consulta 7: Libros después de fecha corte
    fecha_corte = '2010-01-01'
    res7 = pd.read_sql_query(
        "SELECT titulo, fecha_publicacion FROM Libros WHERE fecha_publicacion > %s", 
        conn, 
        params=(fecha_corte,)
    )
    print("\n7. Libros después de", fecha_corte)
    print(res7.to_string(index=False))

    # Consulta 8: Autores con más de N libros
    n_libros = 2
    res8 = pd.read_sql_query(
        """SELECT autor, COUNT(*) as num_libros 
           FROM Autores 
           GROUP BY autor 
           HAVING COUNT(*) > %s""",
        conn,
        params=(n_libros,)
    )
    print("\n8. Autores con más de", n_libros, "libros")
    print(res8.to_string(index=False))

    # Consulta 9: Libros sin descripción corta
    res9 = pd.read_sql_query(
        "SELECT titulo FROM Libros WHERE descripcion_corta IS NULL",
        conn
    )
    print("\n9. Libros sin descripción corta")
    print(res9.to_string(index=False))

    # Consulta 10: Conteo por estado
    res10 = pd.read_sql_query(
        "SELECT estado, COUNT(*) as count FROM Estados GROUP BY estado",
        conn
    )
    print("\n10. Conteo por estado")
    print(res10.to_string(index=False))


7. Libros después de 2010-01-01
                                                        titulo            fecha_publicacion
                                                 OSGi in Depth 2011-12-12T00:00:00.000-0800
                                                OSGi in Action 2011-04-06T00:00:00.000-0700
                           SharePoint 2010 Site Owner's Manual 2012-02-13T00:00:00.000-0800
                              Lucene in Action, Second Edition 2010-07-09T00:00:00.000-0700
                                               Azure in Action 2010-10-22T00:00:00.000-0700
                                       Metaprogramming in .NET 2012-12-31T00:00:00.000-0800
                                                     Agile ALM 2011-08-20T00:00:00.000-0700
                                               Camel in Action 2011-01-04T00:00:00.000-0800
                                                   Taming Text 2012-12-31T00:00:00.000-0800
                    Brownfield Application Deve

In [None]:
#Conexión a MongoDB e Inserción de Datos
#Establecemos la conexión con el servidor de Mongo.

In [None]:
MONGO_URI = 'mongodb://localhost:27017/' 
DATABASE_NAME = 'proyecto_final'
COLLECTION_NAME = 'books'

try:
    client = MongoClient(MONGO_URI)
    db = client[DATABASE_NAME]
    collection = db[COLLECTION_NAME]
    
    client.admin.command('ping')
    print(f"Conexión a MongoDB exitosa. Usando base de datos '{DATABASE_NAME}'.")

except Exception as e:
    print(f"Error al conectar a MongoDB: {e}")
    client = None

In [None]:
#Antes de insertar, limpiamos la colección para evitar duplicados si ejecutamos el notebook varias veces. Luego insertamos todos los documentos cargados del JSON.

In [None]:
if client: 
    try:

        delete_result = collection.delete_many({})
        print(f"Documentos existentes eliminados: {delete_result.deleted_count}")

        if data:
            insert_result = collection.insert_many(data)
            print(f"Documentos insertados: {len(insert_result.inserted_ids)}")
        else:
            print("No hay datos para insertar.")

    except Exception as e:
        print(f"Error durante la inserción de datos: {e}")
else:
    print("No se pudo establecer conexión con MongoDB. Saltando inserción.")

In [None]:
#Verificación

In [None]:
if client:
    try:
        count = collection.count_documents({})
        print(f"Total de documentos en la colección '{COLLECTION_NAME}': {count}")
        
        print("\nPrimeros 5 documentos en la colección:")
        # Usamos projection para mostrar solo algunos campos para brevedad
        sample_docs = list(collection.find({}, {'_id': 1, 'title': 1, 'isbn': 1}).limit(5))
        for doc in sample_docs:
            print(doc)
            
    except Exception as e:
        print(f"Error durante la verificación de documentos: {e}")
else:
    print("Conexión a MongoDB no establecida. Saltando verificación.")

In [None]:
#Consultas en Mongo

In [None]:
#1. Consulta por título: Buscar libros por su título.

In [None]:
if client:
    search_title = "Action"
    # Usamos $regex para buscar títulos que contengan la palabra, i para case-insensitive
    query = {"title": {"$regex": search_title, "$options": "i"}}
    
    print(f"Buscando libros con '{{search_title}}' en el título...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'authors': 1}).limit(10)) # Limitar resultados para mostrar

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results) # Usar display para mostrar DataFrame en Jupyter

In [None]:
#2. Consulta por ISBN: Buscar un libro específico mediante su número ISBN.

In [None]:
if client:
    search_isbn = "1933988673"
    query = {"isbn": search_isbn}
    
    print(f"Buscando libro con ISBN '{search_isbn}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'isbn': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

In [None]:
#3. Consulta por autor: Obtener todos los libros escritos por un autor en particular.

In [None]:
if client:
    search_author = "W. Frank Ableson"
    # Buscamos documentos donde el array 'authors' contenga el nombre del autor
    query = {"authors": search_author}
    
    print(f"Buscando libros del autor '{search_author}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'authors': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

In [None]:
#4. Consulta por categoría: Listar libros que pertenecen a una categoría específica.

In [None]:
if client:
    search_category = "Java"
    # Buscamos documentos donde el array 'categories' contenga la categoría
    query = {"categories": search_category}
    
    print(f"Buscando libros en la categoría '{search_category}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'categories': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

In [None]:
#5. Consulta por estado: Filtrar libros según su estado.

In [None]:
if client:
    search_status = "PUBLISH"
    # Basado en la estructura del JSON de ejemplo, 'status' parece ser un string, no un arreglo
    query = {"status": search_status}
    
    print(f"Buscando libros con estado '{search_status}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'status': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

In [None]:
#7. Buscar libros publicados después de una fecha específica

In [None]:
if client:
    # Convertir la fecha a un objeto datetime para la consulta
    search_date = datetime.datetime(2010, 1, 1)
    # Usamos $gte (greater than or equal) para encontrar fechas posteriores o iguales
    # La estructura de fecha en el JSON original es un objeto con '$date'
    query = {"publishedDate": {"$gte": search_date}}
    
    print(f"Buscando libros publicados después de {search_date.date()}...")
    # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'publishedDate': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

In [None]:
#8. Encontrar libros con un número de páginas dentro de un rango

In [None]:
if client:
    min_pages = 400
    max_pages = 600
    # Usamos $gte (greater than or equal) y $lte (less than or equal) para el rango
    query = {"pageCount": {"$gte": min_pages, "$lte": max_pages}}
    
    print(f"Buscando libros con un número de páginas entre {min_pages} y {max_pages}...")
     # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'pageCount': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

In [None]:
#9. Listar autores distintos presentes en la base de datos

In [None]:
if client:
    # Usamos distinct para obtener los valores únicos del campo 'authors'
    # Dado que 'authors' es un array, distinct nos dará cada nombre de autor único en todos los arrays.
    try:
        distinct_authors = collection.distinct("authors")
        
        print(f"Total de autores distintos encontrados: {len(distinct_authors)}")
        print("\nPrimeros 20 autores distintos:")
        # Mostrar solo los primeros 20 para brevedad
        for i, author in enumerate(distinct_authors[:20]):
            print(f"- {author}")
    except Exception as e:
        print(f"Error al obtener autores distintos: {e}")

In [1]:
#10. Contar libros por estado

In [None]:
if client:
    # Usamos el framework de agregación para agrupar por estado y contar
    pipeline = [
        {"$group": {"_id": "$status", "count": {"$sum": 1}}}
    ]
    
    print("Contando libros por estado...")
    results = list(collection.aggregate(pipeline))

    df_results = pd.DataFrame(results)
    # Renombrar columnas para claridad
    df_results.rename(columns={'_id': 'estado', 'count': 'cantidad'}, inplace=True)
    display(df_results)

In [None]:
#11. Encontrar libros que tienen una descripción corta pero no una larga

In [None]:
if client:
    # Buscamos documentos donde shortDescription exista y longDescription sea null o no exista
    # $exists: True -> el campo existe
    # $exists: False -> el campo no existe
    # O podemos usar $in: [None] para buscar null (si es el caso)
    # O verificar si es null usando {"$type": 10} para null BSON type
    # Basado en el JSON, la ausencia del campo o su valor None son posibilidades
    # Usaremos $exists y un check para None/null

    # Consulta para documentos con shortDescription que existe Y longDescription que es null O no existe
    query = {
        "shortDescription": {"$exists": True, "$ne": None}, # Aseguramos que shortDescription existe y no es null
        "$or": [
            {"longDescription": None}, # longDescription es explicitamente null
            {"longDescription": {"$exists": False}} # longDescription no existe
        ]
    }
    
    print("Buscando libros con descripción corta pero sin descripción larga...")
    # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'shortDescription': 1, 'longDescription': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

In [None]:
#Vemos qué libros ha escrito "Robi Sen":

In [None]:
author = "Robi Sen"

# La consulta busca documentos donde el array 'authors' contenga el valor 'author'
query = {"authors": author}

print(f"Buscando libros escritos por '{author}'...")

# Ejecutamos la consulta y seleccionamos solo los campos _id, title, y authors para mostrar
results_cursor = collection.find(query, {'_id': 1, 'title': 1, 'authors': 1})

# Convertir el cursor a una lista y luego a DataFrame para visualización
results_list = list(results_cursor)
df_results = pd.DataFrame(results_list)

print(f"Encontrados {len(results_list)} resultados:")
display(df_results)