In [16]:
import json
import pandas as pd
import os

def cargar_jsons(carpeta):
    json_files = [pos_json for pos_json in os.listdir(carpeta) if pos_json.endswith('.json')]
    data_frames = []
    for json_file in json_files:
        print(f"Cargando archivo: {json_file}")
        try:
            with open(os.path.join(carpeta, json_file), 'r', encoding='utf-8') as f:
                data = json.load(f)
                if isinstance(data, list):
                    df = pd.json_normalize(data)  # Utiliza json_normalize para aplanar los datos
                    data_frames.append(df)
                else:
                    print(f"El archivo {json_file} no contiene una lista JSON.")
        except json.JSONDecodeError as e:
            print(f"Error al decodificar JSON en el archivo {json_file}: {e}")
    if data_frames:
        result = pd.concat(data_frames, ignore_index=True)
        print(f"Concatenación completa: {result.shape[0]} filas")
        return result
    else:
        print("No se encontraron datos válidos.")
        return pd.DataFrame()  # Retornar un DataFrame vacío si no se encontraron datos válidos

def buscar_servidor_sancionado(df, nombre=None, primer_apellido=None, segundo_apellido=None):
    # Verificación de columnas
    required_columns = ['servidorPublicoSancionado.nombres', 'servidorPublicoSancionado.primerApellido', 'servidorPublicoSancionado.segundoApellido']
    for column in required_columns:
        if column not in df.columns:
            return f"Error: La columna '{column}' no existe en el DataFrame."
    
    # Filtro inicial con el DataFrame completo
    resultado = df

    if nombre:
        resultado = resultado[resultado['servidorPublicoSancionado.nombres'].str.contains(nombre, case=False, na=False)]
    if primer_apellido:
        resultado = resultado[resultado['servidorPublicoSancionado.primerApellido'].str.contains(primer_apellido, case=False, na=False)]
    if segundo_apellido:
        resultado = resultado[resultado['servidorPublicoSancionado.segundoApellido'].str.contains(segundo_apellido, case=False, na=False)]
    
    # Verifica si se encontró algún registro
    if not resultado.empty:
        return resultado
    else:
        return "No se encontraron sanciones para el servidor público con los datos proporcionados."
    
# Especifica la carpeta que contiene los archivos JSON
#carpeta_sistema1 = 'DataSet/sistema1/'
#carpeta_sistema2 = 'DataSet/sistema2/'
carpeta_sistema3 = 'DataSet/sistema3/'
#carpeta_sistema6 = 'DataSet/sistema6/'


#Cargar los archivos JSON de cada sistema
#print("Carga de JSON del Sistema 1")
#df_sistema1 = cargar_jsons(carpeta_sistema1)
#print("Carga de JSON del Sistema 2")
#df_sistema2 = cargar_jsons(carpeta_sistema2)
print("Carga de JSON del Sistema 3")
df_sistema3 = cargar_jsons(carpeta_sistema3)
#print("Carga de JSON del Sistema 6")
#df_sistema6 = cargar_jsons(carpeta_sistema6)

# Mostrar las primeras filas del DataFrame resultante para verificar
#print("primeras filas del DataFrame Sistema 1")
#print(df_sistema1.head())
#print("primeras filas del DataFrame Sistema 2")
#print(df_sistema2.head())
#print("primeras filas del DataFrame Sistema 3")
#print(df_sistema3.head())
#print("primeras filas del DataFrame Sistema 6")
#print(df_sistema6.head())
# Ejemplo de uso de la función de búsqueda
# Especifica la carpeta que contiene los archivos JSON
print("Nombres de las columnas del DataFrame Sistema 3")
print(df_sistema3.columns)

#print("Primeras filas del DataFrame Sistema 3")
#print(df_sistema3.head())

# Ejemplo de uso de la función de búsqueda
nombre = "ANDRES"
primer_apellido = "REYES"
segundo_apellido = "ENRIQUEZ"
columnas = ['id', 'fechaCaptura', 'expediente', 'servidorPublicoSancionado.nombres', 'servidorPublicoSancionado.primerApellido', 'servidorPublicoSancionado.segundoApellido', 'tipoSancion']
print("Resultado de la búsqueda:")
resultado = buscar_servidor_sancionado(df_sistema3, nombre, primer_apellido, segundo_apellido)
print(resultado)



Carga de JSON del Sistema 3
Cargando archivo: Cdata-0000000001.json
Concatenación completa: 27 filas
Nombres de las columnas del DataFrame Sistema 3
Index(['id', 'fechaCaptura', 'expediente', 'autoridadSancionadora',
       'tipoSancion', 'causaMotivoHechos', 'institucionDependencia.nombre',
       'institucionDependencia.siglas', 'institucionDependencia.clave',
       'servidorPublicoSancionado.nombres',
       'servidorPublicoSancionado.primerApellido',
       'servidorPublicoSancionado.segundoApellido',
       'servidorPublicoSancionado.puesto', 'servidorPublicoSancionado.nivel',
       'tipoFalta.clave', 'tipoFalta.valor', 'resolucion.url',
       'resolucion.fechaResolucion', 'multa.monto', 'multa.moneda.clave',
       'multa.moneda.valor', 'inhabilitacion.plazo',
       'inhabilitacion.fechaInicial', 'inhabilitacion.fechaFinal'],
      dtype='object')
Resultado de la búsqueda:
                                     id          fechaCaptura   expediente  \
0  b411f02b-5ea7-489e-93e5