# Fase 5 – Carga en MongoDB

En esta fase se realiza la carga del archivo limpio `pacientes_clean.csv`  
en una base de datos NoSQL **MongoDB**, llamada **SaludDigital_2025**,  
dentro de la colección **pacientes**.

Se usa la librería `pymongo` para la conexión y carga de los datos.

In [1]:
# ==========================================
# Conexión a MongoDB
# ==========================================

# Si no tienes pymongo instalado, descomenta la siguiente línea:
# !pip install pymongo

import pandas as pd
from pymongo import MongoClient

# Conexión al servidor MongoDB local
client = MongoClient("mongodb://localhost:27017/")

# Crear base de datos y colección
db = client["SaludDigital_2025"]
collection = db["pacientes"]

print("Conectado correctamente a MongoDB.")
print("Base de datos creada:", db.name)
print("Colección activa:", collection.name)

Conectado correctamente a MongoDB.
Base de datos creada: SaludDigital_2025
Colección activa: pacientes


### 📥 Cargar los datos limpios desde el CSV
Se cargará el archivo `pacientes_clean.csv` y se insertarán sus registros en la colección **pacientes**.

In [2]:
# Leer archivo limpio
df = pd.read_csv("../database/pacientes_clean.csv")

# Convertir el DataFrame a una lista de diccionarios
data = df.to_dict(orient="records")

# Insertar los datos en la colección
collection.insert_many(data)

print(f"{len(data)} registros insertados correctamente en MongoDB.")

3000 registros insertados correctamente en MongoDB.


## 🔍 Consultas básicas en MongoDB
A continuación, se realizan distintas consultas para verificar la inserción y explorar los datos.

In [3]:
print("Mostrando los primeros documentos de la colección:")
for doc in collection.find().limit(5):  # limitamos para no saturar
    print(doc)

Mostrando los primeros documentos de la colección:
{'_id': ObjectId('68f27592d6c1ef26bd8062fe'), 'id_paciente': 'P0001', 'nombre': 'Carlos', 'edad': 61.0, 'sexo': 'M', 'distrito': 'Los Olivos', 'servicio': 'Cardiología', 'fecha_atencion': '2023-08-24', 'monto': 654.38}
{'_id': ObjectId('68f27592d6c1ef26bd8062ff'), 'id_paciente': 'P0002', 'nombre': 'Pedro', 'edad': 73.0, 'sexo': 'No especificado', 'distrito': 'Comas', 'servicio': 'Pediatría', 'fecha_atencion': '2025-08-19', 'monto': 0.0}
{'_id': ObjectId('68f27592d6c1ef26bd806300'), 'id_paciente': 'P0003', 'nombre': 'Pedro', 'edad': 71.0, 'sexo': 'M', 'distrito': 'San Isidro', 'servicio': 'Emergencia', 'fecha_atencion': '2021-08-07', 'monto': 0.0}
{'_id': ObjectId('68f27592d6c1ef26bd806301'), 'id_paciente': 'P0004', 'nombre': 'Luis', 'edad': 52.0, 'sexo': 'No especificado', 'distrito': 'Miraflores', 'servicio': 'Pediatría', 'fecha_atencion': '2022-11-19', 'monto': 0.0}
{'_id': ObjectId('68f27592d6c1ef26bd806302'), 'id_paciente': 'P0005'

In [4]:
print("Mostrar solo id_paciente y monto:")
for doc in collection.find({}, {"_id": 0, "id_paciente": 1, "monto": 1}).limit(10):
    print(doc)

Mostrar solo id_paciente y monto:
{'id_paciente': 'P0001', 'monto': 654.38}
{'id_paciente': 'P0002', 'monto': 0.0}
{'id_paciente': 'P0003', 'monto': 0.0}
{'id_paciente': 'P0004', 'monto': 0.0}
{'id_paciente': 'P0005', 'monto': 0.0}
{'id_paciente': 'P0006', 'monto': 1923.01}
{'id_paciente': 'P0007', 'monto': 0.0}
{'id_paciente': 'P0008', 'monto': 0.0}
{'id_paciente': 'P0009', 'monto': 0.0}
{'id_paciente': 'P0010', 'monto': 0.0}


In [5]:
# Mostrar pacientes con monto mayor a 1000
consulta = {"monto": {"$gt": 1000}}
print("Pacientes con monto mayor a 1000:")
for doc in collection.find(consulta, {"_id": 0, "id_paciente": 1, "monto": 1}).limit(10):
    print(doc)

Pacientes con monto mayor a 1000:
{'id_paciente': 'P0006', 'monto': 1923.01}
{'id_paciente': 'P0029', 'monto': 1933.66}
{'id_paciente': 'P0051', 'monto': 1888.53}
{'id_paciente': 'P0059', 'monto': 1721.73}
{'id_paciente': 'P0063', 'monto': 1838.95}
{'id_paciente': 'P0076', 'monto': 1127.62}
{'id_paciente': 'P0090', 'monto': 1640.19}
{'id_paciente': 'P0105', 'monto': 1514.27}
{'id_paciente': 'P0117', 'monto': 1176.96}
{'id_paciente': 'P0119', 'monto': 1488.29}


In [6]:
consulta = {"distrito": "Lima"}
print("Pacientes atendidos en Lima:")
for doc in collection.find(consulta, {"_id": 0, "nombre": 1, "distrito": 1, "servicio": 1}).limit(10):
    print(doc)

Pacientes atendidos en Lima:
{'nombre': 'Ana', 'distrito': 'Lima', 'servicio': 'Traumatología'}
{'nombre': 'Rosa', 'distrito': 'Lima', 'servicio': 'Pediatría'}
{'nombre': 'Luis', 'distrito': 'Lima', 'servicio': 'Ginecología'}
{'nombre': 'Jorge', 'distrito': 'Lima', 'servicio': 'Pediatría'}
{'nombre': 'Ana', 'distrito': 'Lima', 'servicio': 'Ginecología'}
{'nombre': 'Rosa', 'distrito': 'Lima', 'servicio': 'Odontología'}
{'nombre': 'Fernando', 'distrito': 'Lima', 'servicio': 'Consulta General'}
{'nombre': 'Jorge', 'distrito': 'Lima', 'servicio': 'Ginecología'}
{'nombre': 'Pedro', 'distrito': 'Lima', 'servicio': 'Cardiología'}
{'nombre': 'Patricia', 'distrito': 'Lima', 'servicio': 'Ginecología'}


In [7]:
consulta = {"servicio": "Emergencia"}
print("Pacientes atendidos en el servicio de Emergencia:")
for doc in collection.find(consulta, {"_id": 0, "id_paciente": 1, "servicio": 1, "monto": 1}).limit(10):
    print(doc)

Pacientes atendidos en el servicio de Emergencia:
{'id_paciente': 'P0003', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0006', 'servicio': 'Emergencia', 'monto': 1923.01}
{'id_paciente': 'P0022', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0024', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0029', 'servicio': 'Emergencia', 'monto': 1933.66}
{'id_paciente': 'P0032', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0039', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0058', 'servicio': 'Emergencia', 'monto': 0.0}
{'id_paciente': 'P0065', 'servicio': 'Emergencia', 'monto': 140.22}
{'id_paciente': 'P0066', 'servicio': 'Emergencia', 'monto': 203.93}


In [8]:
total = collection.count_documents({})
print(f"Total de documentos en la colección: {total}")

Total de documentos en la colección: 6000
