# MongoDB Quickstart 

Conexión y operaciones básicas sobre MongoDB usando `pymongo` y `pandas`.  
Modelo de datos :  
- Colección `authors`
- Colección `genres`
- Colección `books` (con referencias por ObjectId a autores y géneros)

**Credenciales Docker (según compose.yaml):**
- Host: `127.0.0.1:27017`
- User: `mongo_user`
- Password: `mongo_password`
- Base de datos: `books_db`

---


## ✅ Conexión inicial

In [1]:
from pymongo import MongoClient
import pandas as pd

client = MongoClient('mongodb://mongo_user:mongo_password@127.0.0.1:27017')
db = client['books_db']
print("✅ Conectado a MongoDB")


✅ Conectado a MongoDB


## ✅ ver conexiones existentes

In [None]:
# Listar todas las colecciones dentro de la base de datos
db.list_collection_names()


['books', 'genres', 'authors']

## ✅ Ver libros existentes

In [13]:
# Leer todos los libros, seleccionando solo algunos campos
df_books = pd.DataFrame(
    list(
        db.books.find({}, {"_id": 0, "title": 1, "year": 1, "price": 1})
    )
)
df_books


Unnamed: 0,title,year,price
0,Clean Code,2008,35.5
1,Fluent Python,2015,42.0
2,Python Tricks,2017,25.0
3,Effective Python,2015,30.0
4,Learning SQL,2009,22.5
5,The Pragmatic Programmer,1999,40.0
6,Harry Potter y la piedra filosofal,1997,19.99
7,Harry Potter y la cámara secreta,1998,21.5
8,Harry Potter y el prisionero de Azkaban,1999,23.0


## ✅ Ejemplo: Mostrar cada libro con su autor (JOIN usando `$lookup`)


In [16]:
# MongoDB NO tiene JOINs como en SQL, pero podemos emularlos usando $lookup.
# $lookup crea un array con los documentos relacionados.

pipeline = [
    {
        "$lookup": {
            "from": "authors",              # Nombre de la colección destino
            "localField": "author_id",      # Campo en books que apunta al _id en authors
            "foreignField": "_id",          # Campo destino (clave primaria de authors)
            "as": "author_info"             # Resultado: array que contiene el autor relacionado
        }
    },
    {"$unwind": "$author_info"},             # IMPORTANTE: convierte el array 'author_info' en un objeto plano
    # Si no hiciéramos unwind, MongoDB devolvería cada libro con un array de autores, incluso si hay solo uno
    {
        "$project": {                        # Seleccionamos solo los campos que queremos mostrar 1 indica que queremos el campo, 0 indica que no lo queremos
            "_id": 0,
            "title": 1,
            "year": 1,
            "author": "$author_info.name"    # Extraemos el campo 'name' del objeto autor
        }
    }
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,title,year,author
0,Clean Code,2008,Robert C. Martin
1,Fluent Python,2015,Luciano Ramalho
2,Python Tricks,2017,Dan Bader
3,Effective Python,2015,Brett Slatkin
4,Learning SQL,2009,Alan Beaulieu
5,The Pragmatic Programmer,1999,Andy Hunt
6,Harry Potter y la piedra filosofal,1997,J.K. Rowling
7,Harry Potter y la cámara secreta,1998,J.K. Rowling
8,Harry Potter y el prisionero de Azkaban,1999,J.K. Rowling


$unwind es una etapa del aggregation pipeline de MongoDB que descompone un array de documentos en documentos individuales.

## ✅ Ejemplo: Libros y todos sus géneros (multi-$lookup)


In [17]:
# Aquí encadenamos dos $lookup: uno para authors y otro para genres
pipeline = [
    {
        "$lookup": {
            "from": "genres",
            "localField": "genre_ids",       # 'genre_ids' es un array de ObjectId en cada libro
            "foreignField": "_id",
            "as": "genres_info"              # Resultado: array con todos los géneros del libro
        }
    },
    {
        "$lookup": {
            "from": "authors",
            "localField": "author_id",
            "foreignField": "_id",
            "as": "author_info"
        }
    },
    {"$unwind": "$author_info"},              # Aplanamos el autor para poder acceder a sus campos
    {
        "$project": {
            "_id": 0,
            "title": 1,
            "author": "$author_info.name",    # Nombre del autor
            "genres": "$genres_info.name"     # Array con los nombres de géneros
        }
    }
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,title,author,genres
0,Clean Code,Robert C. Martin,[Programming]
1,Fluent Python,Luciano Ramalho,"[Python, Programming]"
2,Python Tricks,Dan Bader,[Python]
3,Effective Python,Brett Slatkin,[Python]
4,Learning SQL,Alan Beaulieu,[Databases]
5,The Pragmatic Programmer,Andy Hunt,[Programming]
6,Harry Potter y la piedra filosofal,J.K. Rowling,[Fantasy]
7,Harry Potter y la cámara secreta,J.K. Rowling,[Fantasy]
8,Harry Potter y el prisionero de Azkaban,J.K. Rowling,[Fantasy]


## 📝 Ejercicio 1: Número de libros por autor

**Pregunta:** ¿Cuántos libros ha escrito cada autor?


In [18]:
# Agrupamos por el campo 'author_id' (clave foránea)
# Contamos cuántos libros tiene cada autor
pipeline = [
    {
        "$group": {
            "_id": "$author_id",                  # Agrupación por autor_id
            "num_libros": {"$sum": 1}             # Contador de libros por autor
        }
    },
    {
        "$lookup": {                              # JOIN para obtener el nombre del autor
            "from": "authors",
            "localField": "_id",
            "foreignField": "_id",
            "as": "author_info"
        }
    },
    {"$unwind": "$author_info"},                  # Devolvemos el nombre del autor como campo plano
    {
        "$project": {
            "autor": "$author_info.name",         # Alias para mayor legibilidad
            "num_libros": 1,
            "_id": 0
        }
    },
    {"$sort": {"num_libros": -1}}                 # Orden descendente por nº de libros
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,num_libros,autor
0,3,J.K. Rowling
1,1,Alan Beaulieu
2,1,Dan Bader
3,1,Andy Hunt
4,1,Luciano Ramalho
5,1,Robert C. Martin
6,1,Brett Slatkin


## 📝 Ejercicio 2: Precio medio de los libros por año


In [19]:
# Agrupación por año de publicación
# Calculamos la media de precios usando $avg
pipeline = [
    {
        "$group": {
            "_id": "$year",
            "precio_medio": {"$avg": "$price"}
        }
    },
    {"$sort": {"_id": 1}}                         # Orden cronológico ascendente por año
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df.rename(columns={"_id": "year"}, inplace=True)
df


Unnamed: 0,year,precio_medio
0,1997,19.99
1,1998,21.5
2,1999,31.5
3,2008,35.5
4,2009,22.5
5,2015,36.0
6,2017,25.0


## 📝 Ejercicio 3: Libros del género "Python"


In [20]:
# Buscamos primero el ObjectId asociado al género "Python"
python_genre = db.genres.find_one({"name": "Python"})
genre_id = python_genre["_id"]

# Filtramos solo libros cuyo array 'genre_ids' contenga ese id
pipeline = [
    {"$match": {"genre_ids": genre_id}},          # Filtrado directo en el array
    {
        "$project": {
            "_id": 0,
            "title": 1,
            "year": 1,
            "price": 1
        }
    }
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,title,year,price
0,Fluent Python,2015,42.0
1,Python Tricks,2017,25.0
2,Effective Python,2015,30.0


## 📝 Ejercicio 4: Listar libros que pertenecen a más de un género


In [21]:
# Filtramos aquellos documentos donde 'genre_ids' tiene más de un elemento
pipeline = [
    {"$match": {"$expr": {"$gt": [{"$size": "$genre_ids"}, 1]}}},
    {
        "$project": {
            "_id": 0,
            "title": 1,
            "year": 1,
            "num_genres": {"$size": "$genre_ids"}  # Contamos cuántos géneros tiene cada libro
        }
    }
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,title,year,num_genres
0,Fluent Python,2015,2


## ✅ BONUS: Número de libros por género (usando `$unwind` + `$group` + `$lookup`)


In [22]:
# Aquí usamos $unwind para transformar el array de géneros en múltiples documentos
# Así cada libro con varios géneros se cuenta varias veces (uno por género)

pipeline = [
    {"$unwind": "$genre_ids"},                     # Desdoblamos cada libro en uno por género
    {
        "$group": {
            "_id": "$genre_ids",                   # Agrupamos por cada género individual
            "num_libros": {"$sum": 1}
        }
    },
    {
        "$lookup": {                               # JOIN para obtener el nombre del género
            "from": "genres",
            "localField": "_id",
            "foreignField": "_id",
            "as": "genre_info"
        }
    },
    {"$unwind": "$genre_info"},
    {
        "$project": {
            "_id": 0,
            "genre": "$genre_info.name",           # Nombre del género
            "num_libros": 1
        }
    },
    {"$sort": {"num_libros": -1}}                  # Orden descendente por número de libros
]

df = pd.DataFrame(list(db.books.aggregate(pipeline)))
df


Unnamed: 0,num_libros,genre
0,3,Python
1,3,Programming
2,3,Fantasy
3,1,Databases


## ✅ Conclusiones

- MongoDB permite relaciones entre colecciones, pero las **joins son más costosas** y menos intuitivas que en SQL.
- Para relaciones simples, **embeder arrays** suele ser más eficiente.
- Para relaciones M:N o entidades reutilizables (**autores**, **géneros**), usar colecciones aparte con `$lookup` es válido pero menos performante en lecturas masivas.

---
