In [3]:
from pymongo import MongoClient
import json
from pathlib import Path

# Connection string directo
MONGODB_URI = "mongodb+srv://admin_user:camushi1@healthcare-cluster.ygij2hu.mongodb.net/?appName=healthcare-cluster"
DATABASE_NAME = "healthcare_db"
COLLECTION_NAME = "patient_readmissions"

# Conectar a MongoDB Atlas
print("Conectando a MongoDB Atlas...")
try:
    client = MongoClient(MONGODB_URI, serverSelectionTimeoutMS=5000)
    
    # Probar conexión
    client.admin.command('ping')
    
    # Seleccionar base de datos y colección
    db = client[DATABASE_NAME]
    collection = db[COLLECTION_NAME]
    
    print("Conexión exitosa")
    print(f"Base de datos: {DATABASE_NAME}")
    print(f"Colección: {COLLECTION_NAME}")
    
except Exception as e:
    print(f"Error de conexión: {e}")

Conectando a MongoDB Atlas...
Conexión exitosa
Base de datos: healthcare_db
Colección: patient_readmissions


In [5]:
# Ruta al archivo JSON
json_path = Path(r"C:\Users\davfl\OneDrive\Desktop\Maestria en Analitica de Datos\Big Data\healthcare-readmission-project\data\processed\hospital_readmission.json")

print("Cargando documentos desde JSON...")
documents = []

with open(json_path, 'r') as f:
    for line in f:
        doc = json.loads(line)
        documents.append(doc)

print(f"Documentos cargados: {len(documents)}")

Cargando documentos desde JSON...
Documentos cargados: 101766


In [6]:
# Verificar si la colección ya tiene datos
existing_count = collection.count_documents({})
print(f"Documentos existentes en la colección: {existing_count}")

if existing_count > 0:
    print("\nLa colección ya tiene datos.")
    print(f"Total de documentos: {existing_count}")
else:
    print("\nInsertando documentos en MongoDB Atlas...")
    print("Esto puede tomar varios minutos...")
    
    # Insertar en lotes de 1000 documentos
    batch_size = 1000
    total_inserted = 0
    
    for i in range(0, len(documents), batch_size):
        batch = documents[i:i+batch_size]
        result = collection.insert_many(batch)
        total_inserted += len(result.inserted_ids)
        print(f"Insertados: {total_inserted}/{len(documents)}")
    
    print("\nImportación completada")
    final_count = collection.count_documents({})
    print(f"Total de documentos en la base de datos: {final_count}")

Documentos existentes en la colección: 0

Insertando documentos en MongoDB Atlas...
Esto puede tomar varios minutos...
Insertados: 1000/101766
Insertados: 2000/101766
Insertados: 3000/101766
Insertados: 4000/101766
Insertados: 5000/101766
Insertados: 6000/101766
Insertados: 7000/101766
Insertados: 8000/101766
Insertados: 9000/101766
Insertados: 10000/101766
Insertados: 11000/101766
Insertados: 12000/101766
Insertados: 13000/101766
Insertados: 14000/101766
Insertados: 15000/101766
Insertados: 16000/101766
Insertados: 17000/101766
Insertados: 18000/101766
Insertados: 19000/101766
Insertados: 20000/101766
Insertados: 21000/101766
Insertados: 22000/101766
Insertados: 23000/101766
Insertados: 24000/101766
Insertados: 25000/101766
Insertados: 26000/101766
Insertados: 27000/101766
Insertados: 28000/101766
Insertados: 29000/101766
Insertados: 30000/101766
Insertados: 31000/101766
Insertados: 32000/101766
Insertados: 33000/101766
Insertados: 34000/101766
Insertados: 35000/101766
Insertados: 360

In [7]:
# Ver un documento de ejemplo de la base de datos
print("Documento de ejemplo desde MongoDB Atlas:")
print("="*60)
sample_doc = collection.find_one()

import pprint
pprint.pprint(sample_doc)

print("\n" + "="*60)
print("Estadísticas de la colección:")
print(f"Total documentos: {collection.count_documents({})}")
print(f"Pacientes con readmisión <30 días: {collection.count_documents({'outcome.readmitted_30days': 1})}")
print(f"Pacientes sin readmisión <30 días: {collection.count_documents({'outcome.readmitted_30days': 0})}")

Documento de ejemplo desde MongoDB Atlas:
{'_id': ObjectId('691a6b75fd2a482c26d1ce19'),
 'admission': {'discharge_disposition_id': 25,
               'source_id': 1,
               'time_in_hospital': 1,
               'type_id': 6},
 'clinical': {'num_lab_procedures': 41,
              'num_medications': 1,
              'num_procedures': 0,
              'number_diagnoses': 1},
 'demographics': {'age': '[0-10)', 'gender': 'Female', 'race': 'Caucasian'},
 'diabetes_medications': {'glimepiride': 'No',
                          'glipizide': 'No',
                          'glyburide': 'No',
                          'insulin': 'No',
                          'metformin': 'No',
                          'pioglitazone': 'No',
                          'rosiglitazone': 'No'},
 'diagnoses': {'additional': 'Unknown',
               'primary': 'Diabetes',
               'secondary': 'Unknown'},
 'outcome': {'readmitted_30days': 0, 'readmitted_30days_label': 'No'},
 'treatment': {'change_in_me