In [1]:
import pandas as pd
import re

def procesar_datos(contenido):
    registros = re.split(r'¬-\*-¬DATA', contenido)
    
    datos_procesados = []
    for registro in registros:
        if registro.strip():
            lineas = registro.strip().split('\n')
            datos_registro = {}
            datos_registro['tipo_doc_num'] = None
            datos_registro['marca_sin_informacion'] = 0
            
            for linea in lineas:
                if linea.startswith('5|') or linea.startswith('4|'):
                    partes = linea.split(';')
                    if len(partes) >= 3:
                        tipo_doc = partes[0].split('|')[1]
                        num_doc = partes[1]
                        
                        if 'La consulta no fue exitosa' in linea:
                            nuevo_registro = {'tipo_doc_num': f"{tipo_doc}{num_doc}", 'marca_sin_informacion': 1}
                            datos_procesados.append(nuevo_registro)
                            continue
                        
                        if datos_registro['tipo_doc_num'] is None:
                            datos_registro['tipo_doc_num'] = f"{tipo_doc}{num_doc}"
                        
                        if len(partes) >= 5:
                            seccion = partes[2].strip()
                            campo = partes[3].strip()
                            valor = partes[4].strip()
                            
                        if campo is not None and campo != '':
                            nombre_campo = f"{seccion.lower().replace(' ', '_')}_{campo.lower().replace(' ', '_').replace('|', '_')}"
                            datos_registro[nombre_campo] = valor

            if datos_registro['tipo_doc_num'] is not None:
                datos_procesados.append(datos_registro)
    
    return datos_procesados

def crear_dataframe(datos_procesados):
    df = pd.DataFrame(datos_procesados)
    columnas = ['tipo_doc_num'] + [col for col in df.columns if col != 'tipo_doc_num' and col != 'marca_sin_informacion'] + ['marca_sin_informacion']
    return df[columnas]

# Uso de las funciones
ruta_archivo = 'C:/Users/jpperez/Documents/Prueba_Practica_nlp/Prueba practica/files/RUAF.csv'
with open(ruta_archivo, 'r', encoding='ISO-8859-1') as file:
    contenido = file.read()

datos_procesados = procesar_datos(contenido)
df_final = crear_dataframe(datos_procesados)

# Guardar el resultado en un archivo CSV
df_final.to_csv('C:/Users/jpperez/Documents/Prueba_Practica_nlp/Prueba practica/files/resultado_ruaf.csv', index=False, encoding='utf-8')

print("Proceso completado. El resultado se ha guardado en 'resultado_ruaf.csv'.")

Proceso completado. El resultado se ha guardado en 'resultado_ruaf.csv'.


In [2]:
df_final

Unnamed: 0,tipo_doc_num,información_basica_segundo_apellido,información_basica_primer_apellido,información_basica_segundo_nombre,información_basica_primer_nombre,información_basica_número_de_identificación,afiliación_a_salud_departamento_->_municipio,afiliación_a_salud_tipo_de_afiliado,afiliación_a_salud_estado_de_afiliación,afiliación_a_salud_fecha_afiliacion,...,pensionados_entidad_que_reconoce_la_pensión,vinculación_a_programas_de__asistencia_social_ubicación_de_entrega_del_beneficio,vinculación_a_programas_de__asistencia_social_fecha_ultimo_beneficio,vinculación_a_programas_de__asistencia_social_estado_del_beneficio,vinculación_a_programas_de__asistencia_social_estado_de_la_vinculación,vinculación_a_programas_de__asistencia_social_fecha_de_vinculación,vinculación_a_programas_de__asistencia_social_programa,vinculación_a_programas_de__asistencia_social_administradora,afiliación_a_salud_fecha_de_afiliación,marca_sin_informacion
0,CC1116912531,M,BEDOYA,MEJIA,MAURICIO,CC 1116912531,FLORENCIA,COTIZANTE,Activo,31/12/2020,...,,,,,,,,,,0
1,CC1007273176,ARIAS,GOMEZ,ANDRES,DAIRO,CC 1007273176,MEDELLIN,COTIZANTE,Activo,01/09/2018,...,,,,,,,,,,0
2,CC1022385813,LEON,OLAYA,DAVID,CRISTIAM,CC 1022385813,BOGOTA D.C.,COTIZANTE,Activo por emergencia,01/10/2015,...,,,,,,,,,,0
3,CC16616853,GODOY,SOLANO,GERARDO,LUIS,CC 16616853,BOGOTA D.C.,BENEFICIARIO,Activo,01/10/2017,...,,,,,,,,,,0
4,CC1035912005,URIBE,NARANJO,CRISTINA,ISABEL,CC 1035912005,BELLO,COTIZANTE,Activo,01/04/2010,...,,,,,,,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
931,CC1062301821,F,ROJAS,BURBANO,DANIELA,CC 1062301821,SANTANDER DE QUILICHAO,COTIZANTE,Activo,02/05/2013,...,FONDO PENSIONES OBLIGATORIAS COLFONDOS,,,,,,,,,0
932,CC1056994241,M,SEPULVEDA,GALVIS,HILDEBRANDO,CC 1056994241,MADRID,COTIZANTE,Activo,12/01/2007,...,,,,,,,,,,0
933,CC1112965720,,,,,,,,,,...,,,,,,,,,,1
934,CC1023035167,,,,,,,,,,...,,,,,,,,,,1
