In [12]:
import pandas as pd
from pymongo import MongoClient
from urllib.parse import quote_plus
from dotenv import load_dotenv
import os
from pandas import json_normalize

# Cargar variables del archivo .env
load_dotenv()

# Configuración de MongoDB
username = os.getenv("MONGO_USER")
password = os.getenv("MONGO_PASSWORD")
cluster = os.getenv("MONGO_CLUSTER")
database_name = os.getenv("MONGO_DB")
collection_name = os.getenv("MONGO_COLLECTION")


# Construcción de la URI segura de MongoDB
MONGO_URI = f"mongodb+srv://{username}:{password}@cluster0.kdeu0.mongodb.net/?retryWrites=true&w=majority&appName={cluster}"

# Configuración de exportación
EXPORT_PATH = os.getenv("EXPORT_PATH", "./exports")  # Directorio de exportación
os.makedirs(EXPORT_PATH, exist_ok=True)  # Crear la carpeta si no existe

# Campos específicos a exportar
EXPORT_FIELDS = [
    "data._id", "data.name", "data.timestamp", "data.free_bikes", "data,empty_slots", "data.extra.uid", 
    "data.extra.last_updated", "data.extra.slots", "data.extra.normal_bikes", "data.extra.ebikes"
]

def connect_to_mongodb():
    """
    Conecta a MongoDB Atlas y devuelve la colección.
    """
    try:
        client = MongoClient(MONGO_URI)
        db = client[database_name]
        collection = db[collection_name]
        print("✅ Conexión exitosa a MongoDB Atlas")
        return collection
    except Exception as e:
        print(f"❌ Error al conectar a MongoDB: {e}")
        exit()

def fetch_data_from_mongo(collection):
    """
    Lee todos los documentos de la base de datos y devuelve una lista de datos.
    """
    print(collection)
    try:
        # Recuperar todos los documentos de la colección
        documents = list(collection.find({}, {field: 1 for field in EXPORT_FIELDS}))  # Seleccionar campos
        print(f"✅ Se obtuvieron {len(documents)} documentos de MongoDB")

        df = json_normalize(documents)

        # Renombrar columnas para quitar el prefijo 'data.'
        df.columns = [col.replace("data.", "").replace("data.extra.", "") for col in df.columns]
        return df
    except Exception as e:
        print(f"❌ Error al leer los datos de MongoDB: {e}")
        exit()

def export_to_csv(dataframe, path):
    """
    Exporta el DataFrame a formato CSV.
    """
    csv_path = os.path.join(path, "exported_data.csv")
    dataframe.to_csv(csv_path, index=False, encoding='utf-8-sig')
    print(f"✅ Datos exportados a CSV: {csv_path}")

def export_to_parquet(dataframe, path):
    """
    Exporta el DataFrame a formato Parquet.
    """
    parquet_path = os.path.join(path, "exported_data.parquet")
    dataframe.to_parquet(parquet_path, index=False, engine="pyarrow")
    print(f"✅ Datos exportados a Parquet: {parquet_path}")

def main():
    """
    Ejecuta el script para leer datos de MongoDB y exportarlos.
    """
    print("🚀 Iniciando la exportación de datos...")
    collection = connect_to_mongodb()

    # Obtener datos de MongoDB
    documents = fetch_data_from_mongo(collection)

    # Convertir los datos a un DataFrame de pandas
    df = pd.DataFrame(documents)

    # Reemplazar el campo '_id' con su representación en string (para CSV/Parquet)
    if "_id" in df.columns:
        df["_id"] = df["_id"].astype(str)

    print("✅ Datos convertidos a DataFrame de pandas")

    # Exportar a CSV y Parquet
    export_to_csv(df, EXPORT_PATH)
    export_to_parquet(df, EXPORT_PATH)

if __name__ == "__main__":
    main()


🚀 Iniciando la exportación de datos...
✅ Conexión exitosa a MongoDB Atlas
Collection(Database(MongoClient(host=['cluster0-shard-00-00.kdeu0.mongodb.net:27017', 'cluster0-shard-00-02.kdeu0.mongodb.net:27017', 'cluster0-shard-00-01.kdeu0.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', appname='Cluster0', authsource='admin', replicaset='atlas-3y5tqo-shard-0', ssl=True), 'api_data'), 'data_collection')
✅ Se obtuvieron 119 documentos de MongoDB
✅ Datos convertidos a DataFrame de pandas
✅ Datos exportados a CSV: ./exports/exported_data.csv
✅ Datos exportados a Parquet: ./exports/exported_data.parquet
