
### Equipo de trabajo

- Marcela Vásquez
- Omar Avendaño
- Duván Robayo

# **Electiva: Analítica de Datos en la Nube**
---

En este notebook mostraremos cómo realizar una conexión a una base de datos en _MongoDB_ desde _Python_ y como realizar consultas básicas en el lenguaje de esta base de datos.

## **1. ¿Qué es MongoDB?**
---

<img src="https://upload.wikimedia.org/wikipedia/commons/0/00/Mongodb.png" width="50%"></img>

* Es una base de datos documental NoSQL distribuida que usa un modelo de datos basado en estructuras de árbol como el formato JSON.
* Internamente almacena la información en formato BSON. Un formato muy parecido a JSON pero que se almacena de forma binaria, lo cual da una mayor velocidad de lectura, escritura y un menor tamaño de almacenamiento.
* Fue creado en el año 2009 por Mongo Inc, hoy día es un proyecto de software libre con una versión _community_ con constantes actualizaciones.

## **2. Creación de la Base de Datos**
---

Para los talleres de esta guía deberá crear una base de datos en la nube con el servicio gratuito [atlas](https://www.mongodb.com/cloud/atlas/register). Puede crear la cuenta con su correo personal o una cuenta de google o una de github. Debe llenar los siguientes campos antes de iniciar con el servicio:

<img src="https://github.com/luiscobo/poo/blob/main/MongoImg01.png?raw=true" width="25%">

Ahora, debe seleccionar el tipo de clúster para la base de datos que vamos a crear. En estos talleres usaremos la base de datos gratuita que ofrece el servicio de atlas.

En la creación de la base de datos se le pedirá seleccionar un proveedor cloud y una región, le recomendamos seleccionar el servicio de _Google Cloud Platform_ en la region de Sao Paulo:

<img src="https://github.com/luiscobo/poo/blob/main/MongoImg02.png?raw=true" width="40%">


Finalmente, se recomienda que cambie el nombre del cluster por **eleanub**, luego de esto puede crear el clúster para la base de datos. Para la conexión debe crear un usuario y una contraseña, es importante  que guarde esta información porque más adelante usaremos estos valores para la conexión:

<img src="https://github.com/luiscobo/poo/blob/main/MongoImg03.png?raw=true" width="40%">

Después de crear su clúster, es buenaidea agregar la ip `0.0.0.0` (acceso desde cualquier lugar) al clúster:

<img src="https://github.com/luiscobo/poo/blob/main/MongoImg04.png?raw=true" width="40%">

Para conectarse, debe dar click en el botón **connect** y seleccionar la opción de **Drivers**:

<img src="https://github.com/luiscobo/poo/blob/main/MongoImg05.png?raw=true" width="40%">

Por último, debe seleccionar el lenguaje de programación _Python_ y la versión más reciente del driver. Es importante que copie el texto resaltado para realizar la conexión desde Python.

Con esto, podemos realizar la conexión con _MongoDB_ desde _Python_. En la variable `connection_str` deberá pegar el texto anterior, reemplazando el valor `<password>` por la contraseña del usuario que creó.

In [None]:
# agregue su string de conexión
connection_str = "mongodb+srv://marce50233:rO96wGErDSNB2o7d@eleanub.06rgz4y.mongodb.net/?retryWrites=true&w=majority&appName=eleanub"

## **3. Conexión a la Base de Datos**
---

La conexión a la base de datos se da por medio de la librería `pymongo`, la puede instalar con el siguiente comando:

In [None]:
!pip install pymongo[srv]

Finalmente, importamos las librerías necesarias para la conexión:

In [None]:
from pymongo import MongoClient

La conexión a la base de datos se realiza por medio de la clase `MongoCLient` y el string de conexión:

In [None]:
client = MongoClient(connection_str)

## **4. Ejecución de la Consulta**
---

Veamos como ejecutar un comando en la base de datos, primero definimos la base de datos y la colección (encontrará más detalles sobre estos elementos en el notebook `M3U2NB2_conceptos_mongo.ipynb`).

In [None]:
db = client["eleanub"]
collection = db["test"]

Con esto, podemos insertar valores:

In [None]:
collection.insert_one({"hello": "world"})

También podemos leerlos:

In [None]:
collection.find_one({})

No olvide eliminar la colección creada para este ejemplo

In [None]:
db.drop_collection("test")

## **5. Conceptos de MongoDB**
---

MongoDB maneja un nivel de jerarquía de datos basado en bases de datos y colecciones. Se puede ver de forma análoga a _SQL_ de la siguiente forma:

| SQL | MongoDB |
| --- | --- |
| Base de datos | Base de datos |
| Tabla | Colección |
| Filas | Documento |
| Columna | Campos |

Vamos a ver algunos conceptos generales de _MongoDB_:

## **6. Estructura de Documentos**
---

_MongoDB_ se caracteriza por ser una base de datos documental donde se puede guardar información que no necesariamente está estructurada (no tenemos columnas o campos fijos). Esto se consigue por medio de una estructura de datos conocida como **documento** o **diccionario**.

En _Python_ poseemos esta estructura de datos como el tipo `dict`, por ejemplo:

In [None]:
persona = {
    "nombre": "Pedro",
    "apellido": "Torres",
    "edad": 26,
    "contacto": {
        "celulares": [123456, 654321],
        "email": ["ptorres@gmail.com", "pedro.torres@universia.edu.co"]
    }
}

Esta estructura de datos, se puede interpretar como un árbol.

Generalmente, los documentos contienen los siguientes tipos de datos:

| Tipo | Notación |
| --- | --- |
| Objeto | `{}` |
| Lista | `[]` |
| Texto | `"valor"` |
| Número | `3.5` |
| Booleano | `true`, `false` |

Los documentos se caracterizan por ser elementos que se almacenan bajo la estructura de clave-valor. En _MongoDB_ las claves siempre son strings mientras que los valores son los que pueden tomar los tipos de la tabla anterior.


# **7. Tareas a Realizar**
---

Su misión ahora es desarrollas las operaciones CRUD con _MongoDB_:

## 7.1 Creación

---

Su primera tarea consiste en crear una colección llamada **estudiantes** dentro de la base de datos **eleanub** que ya habíamos creado previamente.

In [None]:
# Vamos a crear la colección estudiantes usando una función.
def crearColeccion(db, nombre:str):
    if nombre not in db.list_collection_names():
        db.create_collection(nombre)
        print(f"La colección {nombre} se ha creado exitosamente. Las colecciones actuales de la base de datos son:")
        print(db.list_collection_names())
    else:
        print(f"La colección {nombre} ya existe en la base de datos, por lo tanto no se ha creado.")


In [None]:
# Creamos la colección.
crearColeccion(db, "estudiantes")

En esta colección tendremos documentos que guardan información de estudiante. Un estudiante debe tener campos que permitan almacenar datos como: cédula, apellidos, nombres, edad, género, correo, carrera y materias que ha visto (para cada una de las materias guarde el código de la materia, el nombre de la materia, la nota definitiva en la materia y el año y semestre en que cursó la materia).

Vamos a guardar documentos con la información de los estudiantes en la colección que tenemos. Para insertar documentos a la colección tenemos dos opciones:

* **Inserción individual**: permite insertar un único documento en la colección se realiz por medio del método `insert_one`. Escriba el código que guarde un documento con la información de un estudiante.

In [None]:
# Creamos un diccionario con los datos a ingresar
documento_estudiante = {
    "cedula": "1234567890",
    "apellidos": "Rodriguez Sierra",
    "nombres": "Karen",
    "edad": 22,
    "genero": "Femenino",
    "correo": "krodriguez@gmail.com",
    "carrera": "Ingeniería de Sistemas",
    "materias": [
        {
            "codigo": "012024",
            "nombre": "Matemáticas I",
            "nota_definitiva": 4.5,
            "año": 2023,
            "semestre": 1
        },
        {
            "codigo": "354555",
            "nombre": "Programación I",
            "nota_definitiva": 4.8,
            "año": 2023,
            "semestre": 1
        },
        {
            "codigo": "552575",
            "nombre": "Física I",
            "nota_definitiva": 4.2,
            "año": 2023,
            "semestre": 1
        }
    ]
}

# Insertamos el documento
resultado = collection.insert_one(documento_estudiante)
print(f"Documento insertado con el ID: {resultado.inserted_id}")


* **Inserción en lote**: permite insertar varios documentos a la colección, se realiza por medio del método `insert_many`. A continuación arme una lista de estudiantes y almacene todos los datos de esos estudiantes con el método anteriormente mencionado:

In [None]:
# Lista de estudiantes a insertar
lista_estudiantes = [
    {
        "cedula": "1234567890",
        "apellidos": "Rodriguez Sierra",
        "nombres": "Karen",
        "edad": 22,
        "genero": "Femenino",
        "correo": "krodriguez@gmail.com",
        "carrera": "Ingeniería de Sistemas",
        "materias": [
            {
                "codigo": "012024",
                "nombre": "Matemáticas I",
                "nota_definitiva": 4.5,
                "año": 2023,
                "semestre": 1
            },
            {
                "codigo": "35455",
                "nombre": "Programación I",
                "nota_definitiva": 4.8,
                "año": 2023,
                "semestre": 1
            },
            {
                "codigo": "552575",
                "nombre": "Física I",
                "nota_definitiva": 4.2,
                "año": 2023,
                "semestre": 1
            }
        ]
    },
    {
        "cedula": "987654321",
        "apellidos": "Arias Velez",
        "nombres": "María",
        "edad": 22,
        "genero": "Femenino",
        "correo": "Marias@gmail.com",
        "carrera": "Ingeniería Industrial",
        "materias": [
            {
                "codigo": "996633",
                "nombre": "Administración I",
                "nota_definitiva": 4.5,
                "año": 2022,
                "semestre": 2
            },
            {
                "codigo": "447711",
                "nombre": "Contabilidad I",
                "nota_definitiva": 4.2,
                "año": 2022,
                "semestre": 2
            }
        ]
    },
    {
        "cedula": "456123789",
        "apellidos": "Martínez Rodríguez",
        "nombres": "Andres",
        "edad": 19,
        "genero": "Masculino",
        "correo": "amartinez@gmail.com",
        "carrera": "Ingeniería de Sistemas",
        "materias": [
            {
                "codigo": "558822",
                "nombre": "Física I",
                "nota_definitiva": 3.9,
                "año": 2024,
                "semestre": 1
            },
            {
                "codigo": "774411",
                "nombre": "Álgebra Lineal",
                "nota_definitiva": 4.2,
                "año": 2024,
                "semestre": 1
            }
        ]
    },
    {
        "cedula": "321654987",
        "apellidos": "Sanchez Araujo",
        "nombres": "Camila",
        "edad": 20,
        "genero": "Femenino",
        "correo": "Csanchez@gmail.com",
        "carrera": "Ingeniería Industrial",
        "materias": [
            {
                "codigo": "225588",
                "nombre": "Economía I",
                "nota_definitiva": 4.3,
                "año": 2022,
                "semestre": 2
            },
            {
                "codigo": "7755533",
                "nombre": "Administración II",
                "nota_definitiva": 4.6,
                "año": 2022,
                "semestre": 2
            }
        ]
    },
    {
        "cedula": "369852147",
        "apellidos": "Pinzon Beltran",
        "nombres": "Daniela",
        "edad": 19,
        "genero": "Femenino",
        "correo": "Dpinzon@gmail.com",
        "carrera": "Ingeniería de Sistemas",
        "materias": [
            {
                "codigo": "665544",
                "nombre": "Calculo",
                "nota_definitiva": 4.5,
                "año": 2024,
                "semestre": 1
            },
            {
                "codigo": "778899",
                "nombre": "Fisica I",
                "nota_definitiva": 4.4,
                "año": 2024,
                "semestre": 1
            }
        ]
    }
]

# Insertamos varios documentos en la colección
result = collection.insert_many(lista_estudiantes)

# Imprimimos los IDs de los documentos insertados
print("Documentos insertados con los siguientes IDs:")
for id in result.inserted_ids:
    print(id)

## **7.2 Lectura**
---

Al igual que en el ejemplo de inserción, la lectura puede realizarse individualmente o en lote:

* **Lectura individual**: permite extraer un documento de la colección, se realiza por medio del método `find_one`. Ahora, usando este método, obtenga un estudiante con una cédula dada.

In [None]:
# Creamos una función para hacer las operaciones de busqueda y lectura.
def buscarEstudiante(numeroCedula):
    consulta = collection.find_one({"cedula": numeroCedula})
    if consulta:
        print(f"El estudiante encontrado es: {consulta}")
    else:
        print(f"No se encontró ningún estudiante con la cedula: {numeroCedula}")

In [None]:
buscarEstudiante("321654987")

Como puede evidenciar, obtuvimos un solo registro. La única diferencia es que _MongoDB_ agrega un campo `_id` como identificador único del documento creado.

* **Lectura en lote**: permite extraer varios documentos de la colección, se realiza por medio del método `find`. Ahora escriba un código en Python que muestre los documentos que tienen estudiantes que pertenecen a una carrera determinada.

In [None]:
# Definimos la función que nos permite buscar por carrera
def buscarXCarrera(carrera):
    consulta = collection.find({"carrera": carrera})
    if consulta:
        print("Los estudiantes que pertenecen a la carrera buscada son:")
        for e in consulta:
            print(e)
    else:
        print("No se encontró ningún estudiante perteneciente a la carrera cosultada")

In [None]:
buscarXCarrera("Ingeniería de Sistemas")

Como pudimos ver en los ejemplos anteriores, los filtros se realizan especificando una consulta como un documento o diccionario.

De forma general, el diseño de una consulta en _MongoDB_ consiste en crear una especie de patrón o template en cuanto a cómo podrían ser los documentos esperados.

Los métodos `find_one` y `find` tienen los mismos parámetros, la única diferencia es que el primero solo recupera un documento mientras que el segundo todos los que coinciden con la consulta.

Si queremos obtener toda una colección, podemos hacer una consulta sin ningún filtro. Usando este esquema, presente todos los documentos en la colección de estudiantes:


In [None]:
# Obtenemos todos los documentos en la colección de estudiantes
todos_los_estudiantes = collection.find()

# Imprimimos todos los documentos
print("Todos los estudiantes en la colección:")
for estudiante in todos_los_estudiantes:
    print(estudiante)


## **7.3 Actualización**
---

Al igual que las operaciones anteriores, podemos actualizar valores de forma individual o por lotes:

* **Actualización individual**: permite actualizar un único documento en la colección, se realiza por medio del método `update_one`. Para actualizar valores en _MongoDB_ usamos el operador `$set`. En la siguiente celda, cambie el correo electrónico de un estudiante que tenga una cédula dada.

In [None]:
# Creamos una función para actualizar los correos
def actualizarCorreo(cedula, nuevoCorreo):
    consulta = collection.find_one({"cedula": cedula})
    if consulta:
        update = collection.update_one(
            {"cedula": cedula},
            {"$set": {"correo": nuevoCorreo}}
        )
        print(f"El correo electrónico del estudiante con cédula {cedula}, fue actualizado correctamente.")
    else:
        print(f"No se encontró ningún estudiante con la cedula: {cedula}")


In [None]:
actualizarCorreo("369852147", "Daniela.Pinzon@gmail.com")

Ahora muestre la información del estudiante, para corroborar que se realizó la actualización.

In [None]:
buscarEstudiante("369852147")


* **Actualización en lote**: permite actualizar todos los documentos en la colección si cumplen alguna condición, se realiza por medio del método `update_many`. Ahora, usando este método, cambie la carrera de todos los estudiante que pertenecen a una carrera dada.

In [None]:
# Definimos la carrera actual y la carrera nueva
carrera_actual = "Ingeniería de Sistemas"
carrera_nueva = "Contaduria"

# Actualizamos todos los documentos en la colección que pertenecen a la carrera dada
result = collection.update_many({"carrera": carrera_actual}, {"$set": {"carrera": carrera_nueva}})

# Imprimimos el número de documentos actualizados
print(f"Se actualizaron {result.modified_count} documentos.")

Presente aquí la información de todos los estudiantes para comprobar que se llevó a cabo el cambio correspondiente.

In [None]:
# Obtener todos los estudiantes de la colección
estudiantes = collection.find()

# Imprimir la información de todos los estudiantes
for estudiante in estudiantes:
    print(estudiante)


## **7.4 Borrado**

Las operaciones de borrado también aplican a nivel individal y por lote:

* **Borrado individual**: permite borrar un único documento que cumpla una condición, para ello usamos el método `delete_one`. Borre el documento en la colección que pertenece a un estudiante con una cédula dada.

In [None]:
# Creamos una función para borrar por cedula.
def borrarXCedula(cedula):
    consulta = collection.find_one({"cedula": cedula})
    if consulta:
        collection.delete_one({"cedula": cedula})
        print(f"Se ha borrado exitosamente el documento del estudiante con cédula {cedula}.")
    else:
        print(f"No se encontró ningún estudiante con la cedula: {cedula}, por lo tanto no se eliminó ningún registro.")

In [None]:
borrarXCedula("456123789")

Verifique que el estudiante con la cédula dada ya no existe en la colección.

In [None]:
buscarEstudiante("456123789")

* **Borrado en lote**: permite borrar varios documentos que cumplan una condición, para ello usamos el método `delete_many`. Ahora elimine todos los estudiantes que pertenecen a una carrera dada.


In [None]:
# Definimos la carrera de los estudiantes que queremos eliminar
carrera_dada = "Contaduria"

# Eliminamos todos los estudiantes que pertenecen a la carrera dada
resultado = collection.delete_many({"carrera": carrera_dada})

# Imprimimos el resultado de la operación de borrado
print(f"Se han eliminado {resultado.deleted_count} estudiantes de la carrera '{carrera_dada}'.")


Verifique que los estudiantes de la carrera determinada ya no están en la colección.


In [None]:
# Definimos la carrera de los estudiantes que queremos verificar que no están en la colección
carrera_dada = "Contaduria"

# Buscamos a los estudiantes con la carrera dada
estudiantes_carrera = collection.find({"carrera": carrera_dada})

# Contamos el número de estudiantes encontrados
num_estudiantes_carrera = len(list(estudiantes_carrera))

# Imprimimos el resultado de la búsqueda
if num_estudiantes_carrera > 0:
    print(f"Los estudiantes de la carrera '{carrera_dada}' todavía están en la colección.")
else:
    print(f"No se encontraron estudiantes de la carrera '{carrera_dada}' en la colección.")


# **8. Recursos Adicionales**
---

* [MongoDB atlas](https://www.mongodb.com/cloud/atlas).
* [Pymongo](https://pymongo.readthedocs.io/en/stable/).