In [None]:
import pandas as pd
import json
import pyarrow

# Nota: Se debe especificar la ruta del archivo Parquet
parquet_archivo = 'Ruta/del/archivo/business.parquet'

# Cargar el archivo Parquet a un dataframe
df = pd.read_parquet(parquet_archivo, engine='pyarrow')

# Muestra aleatoria de 5 filas del DataFrame 
df.sample(5)

In [None]:
#Mostrar resumen útil de la estructura de los datos después de cargarlos con los nombres de las columnas
df.info()

In [None]:
#  Seleccionar columnas necesarias
columnas_necesarias = [
    'ID_CLIENTE', 'ANTIGUEDAD_MESES', 'TIPO_TARJETA', 
    'LINEA_CREDITO', 'RNG_LINEA', 'DEUDA_TARJETA', 
    'SEGMENTO_BANCO', 'AMBITO', 'ZONA', 'EDAD', 
    'SEXO', 'ECIVIL', 'Total_facturacion', 'Num_compras'
]

if all(col in df.columns for col in columnas_necesarias):
    df_transformado = df[columnas_necesarias]
else:
    print(f'Las columnas necesarias {columnas_necesarias} no están presentes en el archivo Parquet.')
    df_transformado = df

# Agrupar por ID_CLIENTE excluyendo la columna de agrupación en el resultado de apply
agrupar_data = df_transformado.groupby('ID_CLIENTE', group_keys=False).apply(lambda x: x.to_dict(orient='records'), include_groups=False).to_dict()

# Exportar a JSON con una estructura coherente
#Nota: se debe ingresar su ruta para guardas el archivo .json
json_salida = 'Ruta/del/archivo/business2.json'
with open(json_salida, 'w', encoding='utf-8') as file:
    json.dump(agrupar_data, file, indent=4, ensure_ascii=False)

print(f'Data transformada y agrupada exportada a {json_salida}')


In [None]:
# Ahora se puede mostrar el archivo exportado a Json 

#Leer el archivo JSON para verificar la estructura
with open(json_salida, 'r', encoding='utf-8') as file:
    df_json = json.load(file)

# Imprimir ID_CLIENTE y registros asociados 
for cliente_id, registros in df_json.items():
    print(f"ID_CLIENTE: {cliente_id}")
    for registro in registros:
        registro_sin_id = {k: v for k, v in registro.items() if k != 'ID_CLIENTE'}
        print(json.dumps(registro_sin_id, indent=4, ensure_ascii=False))
    print("\n")  # Añadir una línea en blanco entre clientes para mayor claridad

# Mostrar algunas filas del DataFrame original
print(df_transformado.head())

# Mostrar información general del DataFrame original
print(df_transformado.info())


