In [None]:
import pandas as pd
import pymongo
import json

# --- 1. Cargar el CSV de GitHub ---
try:
    df_github = pd.read_csv('lenguajesGithub.csv')
    print(f"Dataset de GitHub cargado con {len(df_github)} filas.")
except FileNotFoundError:
    print("Error: Revisa el nombre del archivo CSV de GitHub.")
    

# --- 2. Limpieza y Ajuste de Tamaño ---
# Por ahora, nos aseguramos de no tener duplicados.
df_github.drop_duplicates(inplace=True)

# Ajustamos al tamaño final de 90,000 registros
tamano_objetivo_github = 90000
if len(df_github) > tamano_objetivo_github:
    df_github_final = df_github.sample(n=tamano_objetivo_github, random_state=42)
else:
    df_github_final = df_github
print(f"DataFrame ajustado a {len(df_github_final)} filas.")


# --- 3. Evidenciar la Conversión (DataFrame -> JSON) ---
# Guardamos el DataFrame limpio como un archivo JSON
df_github_final.to_json('github_data_limpio.json', orient='records', indent=4)
print("Datos guardados como 'github_data_limpio.json'.")


# --- 4. Cargar a MongoDB Atlas ---
# Reemplaza <tu_contraseña> con tu contraseña real
MONGO_URI = "mongodb+srv://juan:<tu_contraseña>@cluster0.agcdm8h.mongodb.net/"

try:
    client = pymongo.MongoClient(MONGO_URI)
    client.admin.command('ping')
    print("¡Conexión a MongoDB Atlas exitosa!")

    db = client['proyecto_futbol'] # Usamos la misma base de datos
    collection = db['repositorios_github'] # ¡PERO UNA NUEVA COLECCIÓN!

    # Convertimos el DataFrame a un formato compatible con Mongo
    datos_para_mongo = df_github_final.to_dict(orient='records')
    
    print(f"Limpiando la colección '{collection.name}'...")
    collection.delete_many({})

    # Insertamos los datos en lotes (la forma segura que ya conocemos)
    batch_size = 10000
    print(f"Insertando {len(datos_para_mongo)} documentos en la nueva colección...")
    for i in range(0, len(datos_para_mongo), batch_size):
        batch = datos_para_mongo[i:i + batch_size]
        collection.insert_many(batch)
        print(f"  -> Lote {i//batch_size + 1} insertado.")

    print("¡Carga de datos de GitHub completada!")

except Exception as e:
    print(f"Error durante el proceso de carga a MongoDB: {e}")

finally:
    if 'client' in locals():
        client.close()

In [1]:
import pandas as pd
import pymongo
import json

# --- 1. Cargar el CSV de GitHub ---
try:
    df_github = pd.read_csv('lenguajesGithub.csv')
    print(f"Dataset de GitHub cargado con {len(df_github)} filas.")
except FileNotFoundError:
    print("Error: Revisa el nombre del archivo CSV de GitHub.")
    

Dataset de GitHub cargado con 90000 filas.


In [2]:
# --- 2. Limpieza y Ajuste de Tamaño ---
# Por ahora, nos aseguramos de no tener duplicados.
df_github.drop_duplicates(inplace=True)

# Ajustamos al tamaño final de 90,000 registros
tamano_objetivo_github = 90000
if len(df_github) > tamano_objetivo_github:
    df_github_final = df_github.sample(n=tamano_objetivo_github, random_state=42)
else:
    df_github_final = df_github
print(f"DataFrame ajustado a {len(df_github_final)} filas.")

DataFrame ajustado a 90000 filas.


In [3]:
# --- 3. Evidenciar la Conversión  ---
# Guardamos el DataFrame limpio como un archivo JSON
df_github_final.to_json('github_data_limpio.json', orient='records', indent=4)
print("Datos guardados como 'github_data_limpio.json'.")

Datos guardados como 'github_data_limpio.json'.


In [4]:
# --- 4. Cargar a MongoDB Atlas ---

MONGO_URI = "mongodb+srv://juan:12345@cluster0.agcdm8h.mongodb.net/"

try:
    client = pymongo.MongoClient(MONGO_URI)
    client.admin.command('ping')
    print("¡Conexión a MongoDB Atlas exitosa!")

    db = client['proyecto_futbol'] 
    collection = db['repositorios_github'] # creacmos una nueva coleccion

    # Convertimos el DataFrame a un formato compatible con Mongo
    datos_para_mongo = df_github_final.to_dict(orient='records')
    
    print(f"Limpiando la colección '{collection.name}'...")
    collection.delete_many({})

    # Insertamos los datos en lotes 
    batch_size = 10000
    print(f"Insertando {len(datos_para_mongo)} documentos en la nueva colección...")
    for i in range(0, len(datos_para_mongo), batch_size):
        batch = datos_para_mongo[i:i + batch_size]
        collection.insert_many(batch)
        print(f"  -> Lote {i//batch_size + 1} insertado.")

    print("¡Carga de datos de GitHub completada!")

except Exception as e:
    print(f"Error durante el proceso de carga a MongoDB: {e}")

finally:
    if 'client' in locals():
        client.close()

¡Conexión a MongoDB Atlas exitosa!
Limpiando la colección 'repositorios_github'...
Insertando 90000 documentos en la nueva colección...
  -> Lote 1 insertado.
  -> Lote 2 insertado.
  -> Lote 3 insertado.
  -> Lote 4 insertado.
  -> Lote 5 insertado.
  -> Lote 6 insertado.
  -> Lote 7 insertado.
  -> Lote 8 insertado.
  -> Lote 9 insertado.
¡Carga de datos de GitHub completada!
