# 1. MODULO

In [None]:
# Importa el módulo 'os' para interactuar con el sistema de archivos y rutas del sistema operativo
import os

# Importa 'pandas' como 'pd', una biblioteca potente para manipulación y análisis de datos mediante DataFrames
import pandas as pd

# Importa el módulo 'datetime' para trabajar con fechas y horas de manera eficiente
import datetime

# 2. Rutas Y variables

In [None]:
R_S4 = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\S4\S4_consolidado_total.txt"
R_R4 = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\R4\R4_consolidado_total.txt"
R_S5 = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\S5\S5 TXT\S5_consolidado.txt"
R_S1_AUTO = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\Automatico-S1\All-AUTO-S1.txt"
R_MS = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\MS\MS Validados\All_MS_VAL.TXT"
R_NS = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS validado\all-NS-VAL.txt"
R_NS_Municipios = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Novedades municipios\all-NS-VAL.txt"
R_Maestro_ADRES = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Maestro\MS\MS_Unif_Maximo.txt"

ano = 2025
Regimen = "EPS025"
#Regimen = "EPSC25"

# 3. Dataframes

In [None]:
# Leer el archivo .TXT con pandas
df_S4 = pd.read_csv(R_S4, sep=',', encoding='utf-8',dtype=str)
df_R4 = pd.read_csv(R_R4, sep=',', encoding='utf-8',dtype=str)
df_S5 = pd.read_csv(R_S5, sep=',', encoding='utf-8',dtype=str)
df_S1_AUTO = pd.read_csv(R_S1_AUTO, sep=',', encoding='ansi',dtype=str)
df_MS = pd.read_csv(R_MS, sep=',', encoding='ansi',dtype=str)
df_NS = pd.read_csv(R_NS, sep=',', encoding='ansi',dtype=str)
df_NS_Municipios = pd.read_csv(R_NS_Municipios, sep=',', encoding='ansi',dtype=str)


## 3.1. Unificación de dataframes

In [None]:
# Verificar estado inicial
print("=== ESTADO INICIAL ===")
print(f"df_NS: {df_NS.shape[0]} registros")
print(f"df_NS_Municipios: {df_NS_Municipios.shape[0]} registros")
print(f"Total esperado: {df_NS.shape[0] + df_NS_Municipios.shape[0]} registros")

# Verificar que tengan las mismas columnas
print(f"\ndf_NS tiene {df_NS.shape[1]} columnas")
print(f"df_NS_Municipios tiene {df_NS_Municipios.shape[1]} columnas")

# Verificar si las columnas son exactamente las mismas
columnas_iguales = list(df_NS.columns) == list(df_NS_Municipios.columns)
print(f"¿Columnas idénticas?: {columnas_iguales}")

if not columnas_iguales:
    print("⚠️ ADVERTENCIA: Las columnas no son idénticas")
    print("Columnas en df_NS:", list(df_NS.columns))
    print("Columnas en df_NS_Municipios:", list(df_NS_Municipios.columns))
    
    # Mostrar diferencias
    cols_df_NS = set(df_NS.columns)
    cols_df_NS_Municipios = set(df_NS_Municipios.columns)
    
    if cols_df_NS != cols_df_NS_Municipios:
        print("Columnas solo en df_NS:", cols_df_NS - cols_df_NS_Municipios)
        print("Columnas solo en df_NS_Municipios:", cols_df_NS_Municipios - cols_df_NS)

# Concatenar los DataFrames
print("\n=== CONCATENANDO DATAFRAMES ===")
df_NS_unificado = pd.concat([df_NS, df_NS_Municipios], ignore_index=True)

# Verificar resultado
print("=== RESULTADO ===")
print(f"DataFrame unificado: {df_NS_unificado.shape[0]} registros")
print(f"Columnas en resultado: {df_NS_unificado.shape[1]}")

# Validación de integridad
registros_originales = df_NS.shape[0] + df_NS_Municipios.shape[0]
registros_resultado = df_NS_unificado.shape[0]

print(f"\n=== VALIDACIÓN ===")
print(f"Registros originales (suma): {registros_originales}")
print(f"Registros en resultado: {registros_resultado}")
print(f"Diferencia: {registros_resultado - registros_originales}")

if registros_originales == registros_resultado:
    print("✅ VALIDACIÓN EXITOSA: La suma de registros coincide")
else:
    print("❌ ERROR: La suma de registros NO coincide")
    print("Revisar si hay algún problema en la concatenación")

# Información adicional del DataFrame unificado
print(f"\n=== INFORMACIÓN ADICIONAL ===")
print(f"Índices van de 0 a {df_NS_unificado.index.max()}")
print(f"¿Hay valores nulos?: {df_NS_unificado.isnull().any().any()}")

# Opcional: Mostrar primeras y últimas filas para verificar
print("\nPrimeras 3 filas del resultado:")
print(df_NS_unificado.head(3))
print("\nÚltimas 3 filas del resultado:")
print(df_NS_unificado.tail(3))

# 4. Limpieza de datos

## 4.1. df_S4
### 4.1.1. Año

In [None]:
# Convertir la columna FECHA_PROCESO a datetime y filtrar por año 2025
df_S4['FECHA_PROCESO'] = pd.to_datetime(df_S4['FECHA_PROCESO'], format='%d/%m/%Y')
df_S4 = df_S4[df_S4['FECHA_PROCESO'].dt.year == ano]

### 4.1.2. Unicos

In [None]:
# Verificar estado inicial
print("=== ESTADO INICIAL ===")
print(f"Total de registros: {len(df_S4)}")
print(f"Registros únicos por AFL_ID: {df_S4['AFL_ID'].nunique()}")
print(f"Registros duplicados: {len(df_S4) - df_S4['AFL_ID'].nunique()}")

# Verificar duplicados por AFL_ID
duplicados_inicial = df_S4[df_S4.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Registros en grupos duplicados: {len(duplicados_inicial)}")

# Convertir FECHA_PROCESO a datetime si no está ya convertida
if df_S4['FECHA_PROCESO'].dtype == 'object':
    df_S4['FECHA_PROCESO'] = pd.to_datetime(df_S4['FECHA_PROCESO'], format='%d/%m/%Y')

# Convertir RESPUESTA a numérico para asegurar comparaciones correctas
df_S4['RESPUESTA'] = pd.to_numeric(df_S4['RESPUESTA'])

def limpiar_duplicados_s4(df):
    """
    Limpia duplicados según los criterios especificados:
    1. Si hay respuesta=1 y respuesta=0 para el mismo AFL_ID, mantener respuesta=1
    2. Si todos son respuesta=0, mantener el más reciente (fecha más nueva)
    3. Si todos son respuesta=1, mantener el más reciente (fecha más nueva)
    """
    
    # Ordenar por AFL_ID, RESPUESTA (descendente), y FECHA_PROCESO (descendente)
    df_sorted = df.sort_values(['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO'], 
                              ascending=[True, False, False])
    
    # Eliminar duplicados manteniendo el primer registro después del ordenamiento
    # Esto garantiza que:
    # - Si hay respuesta=1, se mantiene (por orden descendente de RESPUESTA)
    # - Si hay múltiples con la misma respuesta, se mantiene el más reciente
    df_clean = df_sorted.drop_duplicates(subset=['AFL_ID'], keep='first')
    
    return df_clean

# Aplicar la limpieza
df_S4_clean = limpiar_duplicados_s4(df_S4)

# Verificar estado final
print("\n=== ESTADO FINAL ===")
print(f"Total de registros: {len(df_S4_clean)}")
print(f"Registros únicos por AFL_ID: {df_S4_clean['AFL_ID'].nunique()}")
print(f"Registros eliminados: {len(df_S4) - len(df_S4_clean)}")

# Verificar si quedan duplicados
duplicados_final = df_S4_clean[df_S4_clean.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Duplicados restantes: {len(duplicados_final)}")

if len(duplicados_final) > 0:
    print("⚠️  ADVERTENCIA: Aún existen duplicados!")
    print(duplicados_final[['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].head(10))
else:
    print("✅ No hay duplicados restantes")

# Análisis detallado de los casos procesados
print("\n=== ANÁLISIS DE CASOS ===")

# Contar casos por tipo de respuesta
respuesta_counts = df_S4_clean['RESPUESTA'].value_counts().sort_index()
print("Distribución de respuestas en resultado final:")
for respuesta, count in respuesta_counts.items():
    print(f"  RESPUESTA {respuesta}: {count} registros")

# Verificar algunos casos específicos para validación manual
print("\n=== VALIDACIÓN DE ALGUNOS CASOS ===")
# Tomar algunos AFL_ID que tenían duplicados y mostrar cómo se resolvieron
if len(duplicados_inicial) > 0:
    sample_ids = duplicados_inicial['AFL_ID'].unique()[:5]
    
    for afl_id in sample_ids:
        print(f"\nAFL_ID: {afl_id}")
        casos_originales = df_S4[df_S4['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].sort_values('FECHA_PROCESO')
        caso_final = df_S4_clean[df_S4_clean['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']]
        
        print("  Casos originales:")
        for _, row in casos_originales.iterrows():
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")
        
        print("  Caso mantenido:")
        if len(caso_final) > 0:
            row = caso_final.iloc[0]
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")

# Actualizar el DataFrame original
df_S4 = df_S4_clean.copy()

print(f"\n✅ Proceso completado. DataFrame limpio asignado a df_S4")

## 4.2 df_R4
### 4.2.1 año

In [None]:
# Convertir la columna FECHA_PROCESO a datetime y filtrar por año 2025
df_R4['FECHA_PROCESO'] = pd.to_datetime(df_R4['FECHA_PROCESO'], format='%d/%m/%Y')
df_R4 = df_R4[df_R4['FECHA_PROCESO'].dt.year == ano]

### 4.2.2. Unicos

In [None]:
# Verificar estado inicial
print("=== ESTADO INICIAL ===")
print(f"Total de registros: {len(df_R4)}")
print(f"Registros únicos por AFL_ID: {df_R4['AFL_ID'].nunique()}")
print(f"Registros duplicados: {len(df_R4) - df_R4['AFL_ID'].nunique()}")

# Verificar duplicados por AFL_ID
duplicados_inicial = df_R4[df_R4.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Registros en grupos duplicados: {len(duplicados_inicial)}")

# Convertir FECHA_PROCESO a datetime si no está ya convertida
if df_R4['FECHA_PROCESO'].dtype == 'object':
    df_R4['FECHA_PROCESO'] = pd.to_datetime(df_R4['FECHA_PROCESO'], format='%d/%m/%Y')

# Convertir RESPUESTA a numérico para asegurar comparaciones correctas
df_R4['RESPUESTA'] = pd.to_numeric(df_R4['RESPUESTA'])

def limpiar_duplicados_s4(df):
    """
    Limpia duplicados según los criterios especificados:
    1. Si hay respuesta=1 y respuesta=0 para el mismo AFL_ID, mantener respuesta=1
    2. Si todos son respuesta=0, mantener el más reciente (fecha más nueva)
    3. Si todos son respuesta=1, mantener el más reciente (fecha más nueva)
    """
    
    # Ordenar por AFL_ID, RESPUESTA (descendente), y FECHA_PROCESO (descendente)
    df_sorted = df.sort_values(['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO'], 
                              ascending=[True, False, False])
    
    # Eliminar duplicados manteniendo el primer registro después del ordenamiento
    # Esto garantiza que:
    # - Si hay respuesta=1, se mantiene (por orden descendente de RESPUESTA)
    # - Si hay múltiples con la misma respuesta, se mantiene el más reciente
    df_clean = df_sorted.drop_duplicates(subset=['AFL_ID'], keep='first')
    
    return df_clean

# Aplicar la limpieza
df_R4_clean = limpiar_duplicados_s4(df_R4)

# Verificar estado final
print("\n=== ESTADO FINAL ===")
print(f"Total de registros: {len(df_R4_clean)}")
print(f"Registros únicos por AFL_ID: {df_R4_clean['AFL_ID'].nunique()}")
print(f"Registros eliminados: {len(df_R4) - len(df_R4_clean)}")

# Verificar si quedan duplicados
duplicados_final = df_R4_clean[df_R4_clean.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Duplicados restantes: {len(duplicados_final)}")

if len(duplicados_final) > 0:
    print("⚠️  ADVERTENCIA: Aún existen duplicados!")
    print(duplicados_final[['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].head(10))
else:
    print("✅ No hay duplicados restantes")

# Análisis detallado de los casos procesados
print("\n=== ANÁLISIS DE CASOS ===")

# Contar casos por tipo de respuesta
respuesta_counts = df_R4_clean['RESPUESTA'].value_counts().sort_index()
print("Distribución de respuestas en resultado final:")
for respuesta, count in respuesta_counts.items():
    print(f"  RESPUESTA {respuesta}: {count} registros")

# Verificar algunos casos específicos para validación manual
print("\n=== VALIDACIÓN DE ALGUNOS CASOS ===")
# Tomar algunos AFL_ID que tenían duplicados y mostrar cómo se resolvieron
if len(duplicados_inicial) > 0:
    sample_ids = duplicados_inicial['AFL_ID'].unique()[:5]
    
    for afl_id in sample_ids:
        print(f"\nAFL_ID: {afl_id}")
        casos_originales = df_R4[df_R4['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].sort_values('FECHA_PROCESO')
        caso_final = df_R4_clean[df_R4_clean['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']]
        
        print("  Casos originales:")
        for _, row in casos_originales.iterrows():
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")
        
        print("  Caso mantenido:")
        if len(caso_final) > 0:
            row = caso_final.iloc[0]
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")

# Actualizar el DataFrame original
df_R4 = df_R4_clean.copy()

print(f"\n✅ Proceso completado. DataFrame limpio asignado a df_R4")

## 4.3. df_S5
### 4.3.1 año

In [None]:
# Convertir la columna FECHA_PROCESO a datetime y filtrar por año
df_S5['FECHA_PROCESO'] = pd.to_datetime(df_S5['FECHA_PROCESO'], format='%d/%m/%Y')
df_S5 = df_S5[df_S5['FECHA_PROCESO'].dt.year == ano]

### 4.3.2. Unicos

In [None]:
# Verificar estado inicial
print("=== ESTADO INICIAL ===")
print(f"Total de registros: {len(df_S5)}")
print(f"Registros únicos por AFL_ID: {df_S5['AFL_ID'].nunique()}")
print(f"Registros duplicados: {len(df_S5) - df_S5['AFL_ID'].nunique()}")

# Verificar duplicados por AFL_ID
duplicados_inicial = df_S5[df_S5.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Registros en grupos duplicados: {len(duplicados_inicial)}")

# Convertir FECHA_PROCESO a datetime si no está ya convertida
if df_S5['FECHA_PROCESO'].dtype == 'object':
    df_S5['FECHA_PROCESO'] = pd.to_datetime(df_S5['FECHA_PROCESO'], format='%d/%m/%Y')

# Convertir RESPUESTA a numérico para asegurar comparaciones correctas
df_S5['RESPUESTA'] = pd.to_numeric(df_S5['RESPUESTA'])

def limpiar_duplicados_s4(df):
    """
    Limpia duplicados según los criterios especificados:
    1. Si hay respuesta=1 y respuesta=0 para el mismo AFL_ID, mantener respuesta=1
    2. Si todos son respuesta=0, mantener el más reciente (fecha más nueva)
    3. Si todos son respuesta=1, mantener el más reciente (fecha más nueva)
    """
    
    # Ordenar por AFL_ID, RESPUESTA (descendente), y FECHA_PROCESO (descendente)
    df_sorted = df.sort_values(['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO'], 
                              ascending=[True, False, False])
    
    # Eliminar duplicados manteniendo el primer registro después del ordenamiento
    # Esto garantiza que:
    # - Si hay respuesta=1, se mantiene (por orden descendente de RESPUESTA)
    # - Si hay múltiples con la misma respuesta, se mantiene el más reciente
    df_clean = df_sorted.drop_duplicates(subset=['AFL_ID'], keep='first')
    
    return df_clean

# Aplicar la limpieza
df_S5_clean = limpiar_duplicados_s4(df_S5)

# Verificar estado final
print("\n=== ESTADO FINAL ===")
print(f"Total de registros: {len(df_S5_clean)}")
print(f"Registros únicos por AFL_ID: {df_S5_clean['AFL_ID'].nunique()}")
print(f"Registros eliminados: {len(df_S5) - len(df_S5_clean)}")

# Verificar si quedan duplicados
duplicados_final = df_S5_clean[df_S5_clean.duplicated(subset=['AFL_ID'], keep=False)]
print(f"Duplicados restantes: {len(duplicados_final)}")

if len(duplicados_final) > 0:
    print("⚠️  ADVERTENCIA: Aún existen duplicados!")
    print(duplicados_final[['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].head(10))
else:
    print("✅ No hay duplicados restantes")

# Análisis detallado de los casos procesados
print("\n=== ANÁLISIS DE CASOS ===")

# Contar casos por tipo de respuesta
respuesta_counts = df_S5_clean['RESPUESTA'].value_counts().sort_index()
print("Distribución de respuestas en resultado final:")
for respuesta, count in respuesta_counts.items():
    print(f"  RESPUESTA {respuesta}: {count} registros")

# Verificar algunos casos específicos para validación manual
print("\n=== VALIDACIÓN DE ALGUNOS CASOS ===")
# Tomar algunos AFL_ID que tenían duplicados y mostrar cómo se resolvieron
if len(duplicados_inicial) > 0:
    sample_ids = duplicados_inicial['AFL_ID'].unique()[:5]
    
    for afl_id in sample_ids:
        print(f"\nAFL_ID: {afl_id}")
        casos_originales = df_S5[df_S5['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']].sort_values('FECHA_PROCESO')
        caso_final = df_S5_clean[df_S5_clean['AFL_ID'] == afl_id][['AFL_ID', 'RESPUESTA', 'FECHA_PROCESO']]
        
        print("  Casos originales:")
        for _, row in casos_originales.iterrows():
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")
        
        print("  Caso mantenido:")
        if len(caso_final) > 0:
            row = caso_final.iloc[0]
            print(f"    RESPUESTA: {row['RESPUESTA']}, FECHA: {row['FECHA_PROCESO'].strftime('%d/%m/%Y')}")

# Actualizar el DataFrame original
df_S5 = df_S5_clean.copy()

print(f"\n✅ Proceso completado. DataFrame limpio asignado a df_S5")

## 4.4. df_S1_AUTO
### 4.4.1. año

In [None]:
# Convertir la columna Fecha_Efectiva a datetime y filtrar por año
print(f"Antes de filtrado:\n {df_S1_AUTO.shape}")
df_S1_AUTO['Fecha_Efectiva'] = pd.to_datetime(df_S1_AUTO['Fecha_Efectiva'], format='%d/%m/%Y')
df_S1_AUTO = df_S1_AUTO[df_S1_AUTO['Fecha_Efectiva'].dt.year == ano]
print(f"Despues de filtrado:\n {df_S1_AUTO.shape}")

### 4.4.2. Unicos

In [None]:
print(f"Antes de filtrado:\n {df_S1_AUTO.shape}")
df_S1_AUTO = df_S1_AUTO[df_S1_AUTO['ENT_ID_ORIGEN'] != 'EPSC25']
print(f"Despues de filtrado:\n {df_S1_AUTO.shape}")

## 4.5. df_MS
### 4.5.1. año

In [None]:
# Convertir la columna CND_AFL_FECHA_INICIO a datetime y filtrar por año
print(f"Antes de filtrado:\n {df_MS.shape}")
df_MS['CND_AFL_FECHA_INICIO'] = pd.to_datetime(df_MS['CND_AFL_FECHA_INICIO'], format='%d/%m/%Y')
df_MS = df_MS[df_MS['CND_AFL_FECHA_INICIO'].dt.year == ano]
print(f"Despues de filtrado:\n {df_MS.shape}")

## 4.6. df_NS_unificado
### 4.6.1. año

In [None]:
# Convertir la columna FECHA_NOVEDAD a datetime y filtrar por año
print(f"Antes de filtrado:\n {df_NS_unificado.shape}")
df_NS_unificado['FECHA_NOVEDAD'] = pd.to_datetime(df_NS_unificado['FECHA_NOVEDAD'], format='%d/%m/%Y')
df_NS_unificado = df_NS_unificado[df_NS_unificado['FECHA_NOVEDAD'].dt.year == ano]
print(f"Despues de filtrado:\n {df_NS_unificado.shape}")

### 4.6.2. Unicos

In [None]:
print(f"Antes de filtrado:\n {df_NS_unificado.shape}")
# Usando | (OR) para combinar condiciones
df_NS_unificado = df_NS_unificado[
    (df_NS_unificado['NOVEDAD'] == 'N09') | 
    (df_NS_unificado['NOVEDAD'] == 'N14') | 
    (df_NS_unificado['NOVEDAD'] == 'N13') | 
    (df_NS_unificado['NOVEDAD'] == 'N31')
]
print(f"Despues de filtrado:\n {df_NS_unificado.shape}")

# 5. Dataframes Estadisticas

In [None]:
# Crear DataFrame vacío con las columnas especificadas
df_Estadisticas = pd.DataFrame(columns=[
    'FECHA_PROCESO', 
    'NOMBRE_ARCHIVO', 
    'AFL_ID', 
    'TPS_IDN_ID', 
    'HST_IDN_NUMERO_IDENTIFICACION', 
    'RESPUESTA', 
    'PROCESO'
])

# Verificar la creación
print("DataFrame creado:")
print(f"Forma: {df_Estadisticas.shape}")
print(f"Columnas: {list(df_Estadisticas.columns)}")
print(f"¿Está vacío?: {df_Estadisticas.empty}")

## 5.1. df_S4

In [None]:
# Verificar que las columnas existen en df_S4
columnas_requeridas = [
    'FECHA_PROCESO', 
    'NOMBRE_ARCHIVO', 
    'AFL_ID', 
    'TPS_IDN_ID', 
    'HST_IDN_NUMERO_IDENTIFICACION', 
    'RESPUESTA'
]

print("=== VERIFICACIÓN DE COLUMNAS ===")
columnas_faltantes = [col for col in columnas_requeridas if col not in df_S4.columns]

if columnas_faltantes:
    print(f"❌ Columnas faltantes en df_S4: {columnas_faltantes}")
    print(f"Columnas disponibles en df_S4: {list(df_S4.columns)}")
else:
    print("✅ Todas las columnas requeridas están disponibles")
    
    # Verificar el tipo de datos de FECHA_PROCESO
    print(f"\nTipo de datos de FECHA_PROCESO en df_S4: {df_S4['FECHA_PROCESO'].dtype}")
    
    # Crear df_Estadisticas manteniendo los tipos de datos originales
    df_Estadisticas = df_S4[columnas_requeridas].copy()
    
    # Asegurar que FECHA_PROCESO mantenga el formato datetime
    if df_Estadisticas['FECHA_PROCESO'].dtype == 'object':
        print("⚠️ Convirtiendo FECHA_PROCESO a datetime...")
        df_Estadisticas['FECHA_PROCESO'] = pd.to_datetime(df_Estadisticas['FECHA_PROCESO'])
    
    # Agregar columna PROCESO vacía
    df_Estadisticas['PROCESO'] = ''
    
    print(f"\n=== RESULTADO ===")
    print(f"df_Estadisticas creado con {df_Estadisticas.shape[0]} registros y {df_Estadisticas.shape[1]} columnas")
    print(f"Columnas: {list(df_Estadisticas.columns)}")
    
    # Verificar tipos de datos en el resultado
    print(f"\n=== TIPOS DE DATOS ===")
    for col in df_Estadisticas.columns:
        print(f"{col}: {df_Estadisticas[col].dtype}")
    
    # Verificar que PROCESO está vacía
    valores_proceso = df_Estadisticas['PROCESO'].unique()
    print(f"\nValores únicos en PROCESO: {valores_proceso}")
    
    # Verificar formato de FECHA_PROCESO
    print(f"\nEjemplos de FECHA_PROCESO:")
    print(df_Estadisticas['FECHA_PROCESO'].head(3).values)
    
    print("\nPrimeras 3 filas:")
    print(df_Estadisticas.head(3))
    
    # Información adicional sobre fechas
    if df_Estadisticas['FECHA_PROCESO'].dtype.name.startswith('datetime'):
        print(f"\n=== INFORMACIÓN DE FECHAS ===")
        print(f"Fecha mínima: {df_Estadisticas['FECHA_PROCESO'].min()}")
        print(f"Fecha máxima: {df_Estadisticas['FECHA_PROCESO'].max()}")
        print(f"Rango de fechas: {df_Estadisticas['FECHA_PROCESO'].nunique()} fechas únicas")

## 5.2. df_R4

In [None]:
# Verificar que las columnas existen en df_R4
columnas_requeridas = [
    'FECHA_PROCESO', 
    'NOMBRE_ARCHIVO', 
    'AFL_ID', 
    'TPS_IDN_ID', 
    'HST_IDN_NUMERO_IDENTIFICACION', 
    'RESPUESTA'
]

print("=== VERIFICACIÓN DE COLUMNAS EN df_R4 ===")
columnas_faltantes = [col for col in columnas_requeridas if col not in df_R4.columns]

if columnas_faltantes:
    print(f"❌ Columnas faltantes en df_R4: {columnas_faltantes}")
    print(f"Columnas disponibles en df_R4: {list(df_R4.columns)}")
else:
    print("✅ Todas las columnas requeridas están disponibles en df_R4")
    
    # Guardar el estado actual de df_Estadisticas
    registros_previos = df_Estadisticas.shape[0]
    print(f"\nRegistros actuales en df_Estadisticas: {registros_previos}")
    
    # Verificar el tipo de datos de FECHA_PROCESO en df_R4
    print(f"Tipo de datos de FECHA_PROCESO en df_R4: {df_R4['FECHA_PROCESO'].dtype}")
    
    # Crear DataFrame temporal con datos de df_R4
    df_R4_temp = df_R4[columnas_requeridas].copy()
    
    # Asegurar que FECHA_PROCESO mantenga el formato datetime en df_R4_temp
    if df_R4_temp['FECHA_PROCESO'].dtype == 'object':
        print("⚠️ Convirtiendo FECHA_PROCESO de df_R4 a datetime...")
        df_R4_temp['FECHA_PROCESO'] = pd.to_datetime(df_R4_temp['FECHA_PROCESO'])
    
    # Agregar columna PROCESO para df_R4 (puedes cambiar 'R4' por el valor que necesites)
    df_R4_temp['PROCESO'] = 'R4'
    
    # Concatenar con df_Estadisticas existente
    df_Estadisticas = pd.concat([df_Estadisticas, df_R4_temp], ignore_index=True)
    
    print(f"\n=== RESULTADO DESPUÉS DE AGREGAR df_R4 ===")
    print(f"Registros de df_S4: {registros_previos}")
    print(f"Registros de df_R4: {df_R4_temp.shape[0]}")
    print(f"Total esperado: {registros_previos + df_R4_temp.shape[0]}")
    print(f"Total actual en df_Estadisticas: {df_Estadisticas.shape[0]}")
    
    # Validar la concatenación
    if df_Estadisticas.shape[0] == registros_previos + df_R4_temp.shape[0]:
        print("✅ Concatenación exitosa - Sin pérdida de registros")
    else:
        print("❌ Problema en la concatenación - Revisar datos")
    
    # Verificar distribución por PROCESO
    print(f"\n=== DISTRIBUCIÓN POR PROCESO ===")
    distribucion_proceso = df_Estadisticas['PROCESO'].value_counts()
    print(distribucion_proceso)
    
    # Verificar tipos de datos finales
    print(f"\n=== TIPOS DE DATOS FINALES ===")
    for col in df_Estadisticas.columns:
        print(f"{col}: {df_Estadisticas[col].dtype}")
    
    # Verificar formato de FECHA_PROCESO
    print(f"\nEjemplos de FECHA_PROCESO después de concatenar:")
    print(df_Estadisticas['FECHA_PROCESO'].head(3).values)
    print(df_Estadisticas['FECHA_PROCESO'].tail(3).values)
    
    print("\nPrimeras 3 filas (df_S4):")
    print(df_Estadisticas.head(3))
    print("\nÚltimas 3 filas (df_R4):")
    print(df_Estadisticas.tail(3))
    
    # Información adicional sobre fechas
    if df_Estadisticas['FECHA_PROCESO'].dtype.name.startswith('datetime'):
        print(f"\n=== INFORMACIÓN DE FECHAS CONSOLIDADA ===")
        print(f"Fecha mínima: {df_Estadisticas['FECHA_PROCESO'].min()}")
        print(f"Fecha máxima: {df_Estadisticas['FECHA_PROCESO'].max()}")
        print(f"Rango de fechas: {df_Estadisticas['FECHA_PROCESO'].nunique()} fechas únicas")