# Proyecto final de Bases de Datos Avanzadas
## Implementación y Consultas en MongoDB
### 30 de abril de 2025
---

#### Configuración y Carga de Datos

Iniciamos un entorno virtual de python y bajamos las dependencias necesarias (`pymongo` para interactuar con MongoDB y `pandas` para facilitar la lectura del JSON):

In [20]:
# Si ya tienes las dependencias instaladas, puedes omitir esta celda
# !pip install pymongo pandas
import sys
!{sys.executable} -m pip install pymongo pandas



Importamos las librerías necesarias:

In [21]:
import json
from pymongo import MongoClient
import pandas as pd
import datetime

Cargamos los datos del archivo `act-2-books.json`. Dado que es un archivo JSON donde cada línea es un documento separado, usamos `pandas.read_json` con `lines=True`.

In [22]:
# Cargar el JSON línea por línea
# df = pd.read_json('act-2-books.json', lines=True)
df = pd.read_json('act-2-books.json', lines=True)

Convertimos el DataFrame a una lista de diccionarios, que es un formato ideal para insertar en MongoDB.

In [None]:
# Convertir DataFrame a lista de diccionarios para pymongo
# Aseguramos que los valores NaN se manejen correctamente
data = df.where(pd.notna(df), None).to_dict('records')

Verificamos que se hayan cargado los docuemntos del archivo JSON y mostramos un ejemplo.

In [24]:
print(f"Se cargaron {len(data)} documentos del archivo JSON.")
# Mostrar un ejemplo de la estructura del primer documento cargado
if data:
    import pprint
    print("\nEjemplo de un documento cargado:")
    pprint.pprint(data[0])

Se cargaron 431 documentos del archivo JSON.

Ejemplo de un documento cargado:
{'_id': 1,
 'authors': ['W. Frank Ableson', 'Charlie Collins', 'Robi Sen'],
 'categories': ['Open Source', 'Mobile'],
 'isbn': '1933988673',
 'longDescription': 'Android is an open source mobile phone platform based on '
                    'the Linux operating system and developed by the Open '
                    'Handset Alliance, a consortium of over 30 hardware, '
                    'software and telecom companies that focus on open '
                    'standards for mobile devices. Led by search giant, '
                    'Google, Android is designed to deliver a better and more '
                    'open and cost effective mobile experience.    Unlocking '
                    "Android: A Developer's Guide provides concise, hands-on "
                    'instruction for the Android operating system and '
                    'development tools. This book teaches important '
                    'a

#### Conexión a MongoDB e Inserción de Datos

Establecemos la conexión con el servidor de MongoDB (asegúrate de que tu servidor esté corriendo en `localhost:27017` o ajusta la URI de conexión según sea necesario). Nos conectamos a la base de datos `proyecto_final` y seleccionamos la colección `act-2-books`.

In [None]:
MONGO_URI = 'mongodb://localhost:27017/' 
DATABASE_NAME = 'proyecto_final'
COLLECTION_NAME = 'act-2-books'

try:
    client = MongoClient(MONGO_URI)
    db = client[DATABASE_NAME]
    collection = db[COLLECTION_NAME]
    
    # Verificar conexión (opcional)
    client.admin.command('ping')
    print(f"Conexión a MongoDB exitosa. Usando base de datos '{DATABASE_NAME}'.")

except Exception as e:
    print(f"Error al conectar a MongoDB: {e}")
    client = None # Asegurarse de que client sea None si la conexión falla

Conexión a MongoDB exitosa. Usando base de datos 'proyecto_final'.


Antes de insertar, limpiamos la colección para evitar duplicados si ejecutamos el notebook varias veces. Luego insertamos todos los documentos cargados del JSON.

In [26]:
if client: # Procede solo si la conexión fue exitosa
    try:
        # Eliminar documentos existentes en la colección
        delete_result = collection.delete_many({})
        print(f"Documentos existentes eliminados: {delete_result.deleted_count}")

        # Insertar los nuevos documentos
        # pymongo maneja automáticamente los tipos de datos como fechas, arrays, etc.
        if data:
            insert_result = collection.insert_many(data)
            print(f"Documentos insertados: {len(insert_result.inserted_ids)}")
        else:
            print("No hay datos para insertar.")

    except Exception as e:
        print(f"Error durante la inserción de datos: {e}")
else:
    print("No se pudo establecer conexión con MongoDB. Saltando inserción.")

Documentos existentes eliminados: 0
Documentos insertados: 431


Verificamos la cantidad de documentos insertados en la colección `act-2-books`.

In [27]:
if client:
    try:
        count = collection.count_documents({})
        print(f"Total de documentos en la colección '{COLLECTION_NAME}': {count}")
        
        print("\nPrimeros 5 documentos en la colección:")
        # Usamos projection para mostrar solo algunos campos para brevedad
        sample_docs = list(collection.find({}, {'_id': 1, 'title': 1, 'isbn': 1}).limit(5))
        for doc in sample_docs:
            print(doc)
            
    except Exception as e:
        print(f"Error durante la verificación de documentos: {e}")
else:
    print("Conexión a MongoDB no establecida. Saltando verificación.")

Total de documentos en la colección 'act-2-books': 431

Primeros 5 documentos en la colección:
{'_id': 1, 'title': 'Unlocking Android', 'isbn': '1933988673'}
{'_id': 2, 'title': 'Android in Action, Second Edition', 'isbn': '1935182722'}
{'_id': 3, 'title': 'Specification by Example', 'isbn': '1617290084'}
{'_id': 4, 'title': 'Flex 3 in Action', 'isbn': '1933988746'}
{'_id': 5, 'title': 'Flex 4 in Action', 'isbn': '1935182420'}


#### Consultas a la Colección

##### 1. Consulta por título: Buscar libros por su título.

In [28]:
if client:
    search_title = "Action"
    # Usamos $regex para buscar títulos que contengan la palabra, i para case-insensitive
    query = {"title": {"$regex": search_title, "$options": "i"}}
    
    print(f"Buscando libros con '{{search_title}}' en el título...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'authors': 1}).limit(10)) # Limitar resultados para mostrar

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results) # Usar display para mostrar DataFrame en Jupyter

Buscando libros con '{search_title}' en el título...
Encontrados 10 resultados (mostrando los primeros 10):


Unnamed: 0,_id,title,authors
0,2,"Android in Action, Second Edition","[W. Frank Ableson, Robi Sen]"
1,4,Flex 3 in Action,"[Tariq Ahmed with Jon Hirschi, Faisal Abid]"
2,5,Flex 4 in Action,"[Tariq Ahmed, Dan Orlando, John C. Bland II, J..."
3,6,Collective Intelligence in Action,[Satnam Alag]
4,7,Zend Framework in Action,"[Rob Allen, Nick Lo, Steven Brown]"
5,9,Griffon in Action,"[Andres Almiray, Danno Ferrin, , James Shingler]"
6,15,Team Foundation Server 2008 in Action,[Jamil Azher]
7,17,MongoDB in Action,[Kyle Banker]
8,22,Hibernate in Action,"[Christian Bauer, Gavin King]"
9,23,Hibernate in Action (Chinese Edition),"[Christian Bauer, Gavin King]"


##### 2. Consulta por ISBN: Buscar un libro específico mediante su número ISBN.

In [29]:
if client:
    search_isbn = "1933988673"
    query = {"isbn": search_isbn}
    
    print(f"Buscando libro con ISBN '{search_isbn}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'isbn': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

Buscando libro con ISBN '1933988673'...
Encontrados 1 resultados:


Unnamed: 0,_id,title,isbn
0,1,Unlocking Android,1933988673


##### 3. Consulta por autor: Obtener todos los libros escritos por un autor en particular.

In [30]:
if client:
    search_author = "W. Frank Ableson"
    # Buscamos documentos donde el array 'authors' contenga el nombre del autor
    query = {"authors": search_author}
    
    print(f"Buscando libros del autor '{search_author}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'authors': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

Buscando libros del autor 'W. Frank Ableson'...
Encontrados 3 resultados:


Unnamed: 0,_id,title,authors
0,1,Unlocking Android,"[W. Frank Ableson, Charlie Collins, Robi Sen]"
1,2,"Android in Action, Second Edition","[W. Frank Ableson, Robi Sen]"
2,514,"Android in Action, Third Edition","[W. Frank Ableson, Robi Sen, Chris King, C. En..."


##### 4. Consulta por categoría: Listar libros que pertenecen a una categoría específica.

In [31]:
if client:
    search_category = "Java"
    # Buscamos documentos donde el array 'categories' contenga la categoría
    query = {"categories": search_category}
    
    print(f"Buscando libros en la categoría '{search_category}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'categories': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

Buscando libros en la categoría 'Java'...
Encontrados 96 resultados:


Unnamed: 0,_id,title,categories
0,2,"Android in Action, Second Edition",[Java]
1,9,Griffon in Action,[Java]
2,10,OSGi in Depth,[Java]
3,21,3D User Interfaces with Java 3D,"[Java, Computer Graphics]"
4,22,Hibernate in Action,[Java]
...,...,...,...
91,320,"Spring in Action, Second Edition",[Java]
92,321,"Spring in Action, Third Edition",[Java]
93,325,Spring in Practice,"[Java, Software Development]"
94,327,Java 2 Micro Edition,"[Java, Internet]"


##### 5. Consulta por estado: Filtrar libros según su estado.

In [32]:
if client:
    search_status = "PUBLISH"
    # Basado en la estructura del JSON de ejemplo, 'status' parece ser un string, no un arreglo
    query = {"status": search_status}
    
    print(f"Buscando libros con estado '{search_status}'...")
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'status': 1}))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados:")
    display(df_results)

Buscando libros con estado 'PUBLISH'...
Encontrados 363 resultados:


Unnamed: 0,_id,title,status
0,1,Unlocking Android,PUBLISH
1,2,"Android in Action, Second Edition",PUBLISH
2,3,Specification by Example,PUBLISH
3,4,Flex 3 in Action,PUBLISH
4,5,Flex 4 in Action,PUBLISH
...,...,...,...
358,824,DSLs in Action,PUBLISH
359,825,Database Programming for Handheld Devices,PUBLISH
360,826,Jakarta Commons Online Bookshelf,PUBLISH
361,827,Browsing with HttpClient,PUBLISH


##### 6. Número total de libros: Contar el total de libros almacenados en la colección.

In [33]:
if client:
    count = collection.count_documents({})
    print(f"El número total de libros en la colección es: {count}")

El número total de libros en la colección es: 431


##### 7. Buscar libros publicados después de una fecha específica

In [34]:
if client:
    # Convertir la fecha a un objeto datetime para la consulta
    search_date = datetime.datetime(2010, 1, 1)
    # Usamos $gte (greater than or equal) para encontrar fechas posteriores o iguales
    # La estructura de fecha en el JSON original es un objeto con '$date'
    query = {"publishedDate": {"$gte": search_date}}
    
    print(f"Buscando libros publicados después de {search_date.date()}...")
    # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'publishedDate': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

Buscando libros publicados después de 2010-01-01...
Encontrados 0 resultados (mostrando los primeros 10):


##### 8. Encontrar libros con un número de páginas dentro de un rango

In [35]:
if client:
    min_pages = 400
    max_pages = 600
    # Usamos $gte (greater than or equal) y $lte (less than or equal) para el rango
    query = {"pageCount": {"$gte": min_pages, "$lte": max_pages}}
    
    print(f"Buscando libros con un número de páginas entre {min_pages} y {max_pages}...")
     # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'pageCount': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

Buscando libros con un número de páginas entre 400 y 600...
Encontrados 10 resultados (mostrando los primeros 10):


Unnamed: 0,_id,title,pageCount
0,1,Unlocking Android,416
1,2,"Android in Action, Second Edition",592
2,4,Flex 3 in Action,576
3,5,Flex 4 in Action,600
4,6,Collective Intelligence in Action,425
5,7,Zend Framework in Action,432
6,11,Flexible Rails,592
7,16,Brownfield Application Development in .NET,550
8,18,Distributed Application Development with Power...,504
9,19,Jaguar Development with PowerBuilder 7,550


##### 9. Listar autores distintos presentes en la base de datos

In [36]:
if client:
    # Usamos distinct para obtener los valores únicos del campo 'authors'
    # Dado que 'authors' es un array, distinct nos dará cada nombre de autor único en todos los arrays.
    try:
        distinct_authors = collection.distinct("authors")
        
        print(f"Total de autores distintos encontrados: {len(distinct_authors)}")
        print("\nPrimeros 20 autores distintos:")
        # Mostrar solo los primeros 20 para brevedad
        for i, author in enumerate(distinct_authors[:20]):
            print(f"- {author}")
    except Exception as e:
        print(f"Error al obtener autores distintos: {e}")

Total de autores distintos encontrados: 579

Primeros 20 autores distintos:
- 
- Adam Benoit
- Adam Chace
- Adam Machanic
- Adam Tacy
- Adele Goldberg
- Ahmed Sidky
- Ajamu A. Wesley
- Ajay Kapur
- Alan Dennis
- Alan Mycroft
- Alan R. Williamson
- Aleksa Vukotic
- Aleksandar Nikolic
- Alex Benton
- Alex Holmes
- Alex Young
- Alexandre de Castro Alves
- Alvaro Videla
- Amanda Laucher


##### 10. Contar libros por estado

In [37]:
if client:
    # Usamos el framework de agregación para agrupar por estado y contar
    pipeline = [
        {"$group": {"_id": "$status", "count": {"$sum": 1}}}
    ]
    
    print("Contando libros por estado...")
    results = list(collection.aggregate(pipeline))

    df_results = pd.DataFrame(results)
    # Renombrar columnas para claridad
    df_results.rename(columns={'_id': 'estado', 'count': 'cantidad'}, inplace=True)
    display(df_results)

Contando libros por estado...


Unnamed: 0,estado,cantidad
0,PUBLISH,363
1,MEAP,68


##### 11. Encontrar libros que tienen una descripción corta pero no una larga

In [38]:
if client:
    # Buscamos documentos donde shortDescription exista y longDescription sea null o no exista
    # $exists: True -> el campo existe
    # $exists: False -> el campo no existe
    # O podemos usar $in: [None] para buscar null (si es el caso)
    # O verificar si es null usando {"$type": 10} para null BSON type
    # Basado en el JSON, la ausencia del campo o su valor None son posibilidades
    # Usaremos $exists y un check para None/null

    # Consulta para documentos con shortDescription que existe Y longDescription que es null O no existe
    query = {
        "shortDescription": {"$exists": True, "$ne": None}, # Aseguramos que shortDescription existe y no es null
        "$or": [
            {"longDescription": None}, # longDescription es explicitamente null
            {"longDescription": {"$exists": False}} # longDescription no existe
        ]
    }
    
    print("Buscando libros con descripción corta pero sin descripción larga...")
    # Limitar resultados para mostrar
    results = list(collection.find(query, {'_id': 1, 'title': 1, 'shortDescription': 1, 'longDescription': 1}).limit(10))

    df_results = pd.DataFrame(results)
    print(f"Encontrados {len(results)} resultados (mostrando los primeros 10):")
    display(df_results)

Buscando libros con descripción corta pero sin descripción larga...
Encontrados 1 resultados (mostrando los primeros 10):


Unnamed: 0,_id,title,shortDescription,longDescription
0,827,Browsing with HttpClient,Written for developers and architects with rea...,


Vemos qué libros ha escrito "Robi Sen":

In [39]:
author = "Robi Sen"

# La consulta busca documentos donde el array 'authors' contenga el valor 'author'
query = {"authors": author}

print(f"Buscando libros escritos por '{author}'...")

# Ejecutamos la consulta y seleccionamos solo los campos _id, title, y authors para mostrar
results_cursor = collection.find(query, {'_id': 1, 'title': 1, 'authors': 1})

# Convertir el cursor a una lista y luego a DataFrame para visualización
results_list = list(results_cursor)
df_results = pd.DataFrame(results_list)

print(f"Encontrados {len(results_list)} resultados:")
display(df_results)

Buscando libros escritos por 'Robi Sen'...
Encontrados 3 resultados:


Unnamed: 0,_id,title,authors
0,1,Unlocking Android,"[W. Frank Ableson, Charlie Collins, Robi Sen]"
1,2,"Android in Action, Second Edition","[W. Frank Ableson, Robi Sen]"
2,514,"Android in Action, Third Edition","[W. Frank Ableson, Robi Sen, Chris King, C. En..."
