In [23]:
import csv
import json
import sys

In [24]:
# Puedes cambiar estas rutas según tus archivos
csv_file_path = r"c:\Users\Adrian\Downloads\datos_ines - Hoja 1.csv"  # Cambia por la ruta de tu archivo CSV
json_file_path = r"C:\Users\Adrian\Desktop\reyi\inesdataset_final\data\ground_truth_ine.jsonl"

In [25]:
def csv_to_json_ground_truth(csv_file_path, jsonl_file_path):
    """
    Convierte un archivo CSV con datos de INE a formato JSONL para ground truth.
    
    Args:
        csv_file_path (str): Ruta al archivo CSV de entrada
        jsonl_file_path (str): Ruta al archivo JSONL de salida
    """
    
    try:
        with open(csv_file_path, 'r', encoding='utf-8') as csv_file:
            # Leer el CSV
            csv_reader = csv.DictReader(csv_file)
            
            # Abrir archivo JSON para escribir
            with open(jsonl_file_path, 'w', encoding='utf-8') as jsonl_file:
                
                for row in csv_reader:
                    # Crear la estructura gt_parse
                    gt_parse = {
                        "nombre": row.get('nombre', '').strip(),
                        "segundo_nombre": row.get('segundo_nombre', '').strip(),
                        "apellido_paterno": row.get('apellido_paterno', '').strip(),
                        "apellido_materno": row.get('apellido_materno', '').strip(),
                        "direccion1": row.get('direccion1', '').strip(),
                        "direccion2": row.get('direccion2', '').strip(),
                        "direccion3": row.get('direccion3', '').strip(),
                        "calle": row.get('calle', '').strip(),
                        "numero_ext": row.get('numero_ext', '').strip(),
                        "numero_int": row.get('numero_int', '').strip(),
                        "colonia": row.get('colonia', '').strip(),
                        "codigo_postal": row.get('codigo_postal', '').strip(),
                        "municipio": row.get('municipio', '').strip(),
                        "estado": row.get('estado', '').strip()
                    }
                    
                    # Crear el objeto ground_truth
                    ground_truth_obj = {
                        "gt_parse": gt_parse
                    }
                    
                    # Convertir ground_truth_obj a string JSON (con espacios después de : y ,)
                    ground_truth_str = json.dumps(ground_truth_obj, ensure_ascii=False, separators=(', ', ': '))
                    
                    # Crear el objeto final
                    final_obj = {
                        "file_name": row.get('file_name', '').strip(),
                        "ground_truth": ground_truth_str
                    }
                    
                    # Escribir cada línea como un JSON independiente (JSONL format) con espacios
                    json_line = json.dumps(final_obj, ensure_ascii=False, separators=(', ', ': '))
                    jsonl_file.write(json_line + '\n')
                
        print(f"✅ Conversión exitosa!")
        print(f"📁 Archivo CSV: {csv_file_path}")
        print(f"📄 Archivo JSONL: {json_file_path}")
                
    except FileNotFoundError:
        print(f"❌ Error: No se encontró el archivo {csv_file_path}")
        sys.exit(1)
    except Exception as e:
        print(f"❌ Error durante la conversión: {str(e)}")
        sys.exit(1)

In [26]:
def main():
    """Función principal para ejecutar el conversor"""
    
    print("🔄 Iniciando conversión de CSV a JSONL...")
    print(f"📥 Archivo CSV: {csv_file_path}")
    print(f"📤 Archivo JSONL: {json_file_path}")
    print("-" * 50)
    
    # Ejecutar la conversión
    csv_to_json_ground_truth(csv_file_path, json_file_path)

In [27]:
if __name__ == "__main__":
    main()

🔄 Iniciando conversión de CSV a JSONL...
📥 Archivo CSV: c:\Users\Adrian\Downloads\datos_ines - Hoja 1.csv
📤 Archivo JSONL: C:\Users\Adrian\Desktop\reyi\inesdataset_final\data\ground_truth_ine.jsonl
--------------------------------------------------
✅ Conversión exitosa!
📁 Archivo CSV: c:\Users\Adrian\Downloads\datos_ines - Hoja 1.csv
📄 Archivo JSONL: C:\Users\Adrian\Desktop\reyi\inesdataset_final\data\ground_truth_ine.jsonl
