# Procesamiento de datos
 * Nombre: dataProcessing.ipynb
 * Programadora: Fernanda Esquivel (feresq.gt@gmail.com)
 * Lenguaje: Python
 * Recursos: VSCode
 * Descripción: Programa para realizar el procesamiento de los datos del archivo "polizas_full.csv".
 * Historial de Modificaciones: 
    - Creación: 31.07.2025
    - Última modificación: 31.07.2025

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
#Cargar csv
filePath = "data/polizas_full.csv"

In [None]:
#Este encoding='latin1' me sirve para evitar errores con caracteres raros como "�"
df = pd.read_csv(filePath, encoding='latin1', dtype=str, low_memory=False)

#Eliminar BOM en la primera columna
df.columns = [col.replace('ï»¿', '').strip().lower() for col in df.columns]

In [14]:
#Limpieza de caracteres raros
df.replace(to_replace=r'[^\x00-\x7F]+', value='', regex=True, inplace=True) #esto reemplaza caracteres no deseados como "�"

In [15]:
#Convertimos a tipo correcto (donde aplica)
df['fecha_declaracion'] = pd.to_datetime(df['fecha_declaracion'], errors='coerce')  #las fechas no válidas van a ser NaT
df['tipo_cambio_dolar'] = pd.to_numeric(df['tipo_cambio_dolar'], errors='coerce')
df['cantidad_fraccion'] = pd.to_numeric(df['cantidad_fraccion'], errors='coerce')
df['tasa_dai'] = pd.to_numeric(df['tasa_dai'], errors='coerce')
df['valor_dai'] = pd.to_numeric(df['valor_dai'], errors='coerce')
df['valor_cif_uds'] = pd.to_numeric(df['valor_cif_uds'], errors='coerce')
df['tasa_cif_cantidad_fraccion'] = pd.to_numeric(df['tasa_cif_cantidad_fraccion'], errors='coerce')

In [16]:
#Normalizar nombres de las columnas
df.columns = df.columns.str.strip().str.lower()

In [17]:
print(df.columns.tolist())

['correlativo', 'fecha_declaracion', 'aduana', 'tipo_regimen', 'tipo_cambio_dolar', 'sac', 'descripcion', 'pais', 'tipo_unidad_medida', 'cantidad_fraccion', 'tasa_dai', 'valor_dai', 'valor_cif_uds', 'tasa_cif_cantidad_fraccion']


In [18]:
#Validación de campos obligatorios
#Se definieron cuales eran "campos obligatorios" por criterio de la programadora
requiredColumns = [
    'correlativo', 'fecha_declaracion', 'aduana', 'tipo_regimen',
    'sac', 'descripcion', 'pais', 'tipo_unidad_medida', 'cantidad_fraccion'
]

In [19]:
#Eliminamos filas con valores faltantes en columnas obligatorias
cleanDF = df.dropna(subset=requiredColumns)

In [None]:
#Crear un DataFrame con los registros eliminados (inválidos)
invalidDF = df[~df.index.isin(cleanDF.index)]

In [None]:
#Exportar registros inválidos para backup de seguridad
invalidDF.to_csv("data/polizas_invalid.csv", index=False)

In [24]:
cleanDF.to_csv("data/polizas_clean.csv", index=False)

In [25]:
print("Procesamiento terminado.")

Procesamiento terminado.
