In [None]:
# 📦 Carga de librerías
import os
import pandas as pd

# ⚙️ Función para cargar archivos .json.gz
def load_json_gz_to_dataframe(input_dir, max_files=1):
    """
    Carga hasta 'max_files' archivos .json.gz desde 'input_dir' en un solo DataFrame.
    """
    dataframes = []
    count = 0

    for root, _, files in os.walk(input_dir):
        for file_name in sorted(files):  # ordena para consistencia
            if file_name.endswith('.json.gz'):
                file_path = os.path.join(root, file_name)
                try:
                    df = pd.read_json(file_path, lines=True, compression='gzip')
                    dataframes.append(df)
                    count += 1
                    print(f"✅ Cargado: {file_path} ({len(df)} filas)")
                    if count >= max_files:
                        break
                except Exception as e:
                    print(f"❌ Error leyendo {file_path}: {e}")
        if count >= max_files:
            break

    if dataframes:
        combined_df = pd.concat(dataframes, ignore_index=True)
        print(f"\n🔢 DataFrame combinado: {combined_df.shape[0]} filas, {combined_df.shape[1]} columnas")
        return combined_df
    else:
        print("⚠️ No se encontraron archivos válidos.")
        return None
    
    # 📁 Directorio de entrada (ajústalo si es necesario)
input_dir = "gharchive_data"  # carpeta donde guardaste los .json.gz

# 📌 Cargar máximo 1 archivo por defecto
df = load_json_gz_to_dataframe(input_dir, max_files=1)


In [None]:
# 🔍 Vista rápida de las columnas disponibles
if df is not None:
    df.info()
    df.head()