# Base de Datos
 * Nombre: database.ipynb
 * Programadora: Fernanda Esquivel (feresq.gt@gmail.com)
 * Lenguaje: Python
 * Recursos: VSCode
 * Descripción: Programa que crea la base de datos normalizada en base al archivo "polizas_clean.csv"
 * Historial de Modificaciones: 
    - Creación: 01.08.2025
    - Última modificación: 01.08.2025

In [1]:
import pandas as pd

In [4]:
#Cargar archivo limpio
df = pd.read_csv("data/polizas_clean.csv")
df.columns = df.columns.str.strip().str.lower()

In [5]:
#Función para normalizar tablas de catalogos
def generateCatalog(df, columna, nombre_id):
    catalogo = df[[columna]].drop_duplicates().dropna().reset_index(drop=True)
    catalogo[nombre_id] = catalogo.index + 1
    return catalogo

In [6]:
aduanas = generateCatalog(df, "aduana", "aduana_id")
regimenes = generateCatalog(df, "tipo_regimen", "regimen_id")
sac = generateCatalog(df, "sac", "sac_id")
paises = generateCatalog(df, "pais", "pais_id")
unidades = generateCatalog(df, "tipo_unidad_medida", "unidad_id")

In [7]:
#Reemplazar en el dataframe original los valores por IDs
df = df.merge(aduanas, on="aduana", how="left")
df = df.merge(regimenes, on="tipo_regimen", how="left")
df = df.merge(sac, on="sac", how="left")
df = df.merge(paises, on="pais", how="left")
df = df.merge(unidades, on="tipo_unidad_medida", how="left")

In [8]:
#Crear tabla Polizas
polizas = df[[
    "correlativo", "fecha_declaracion", "aduana_id", "regimen_id", "tipo_cambio_dolar"
]].drop_duplicates().reset_index(drop=True)

In [9]:
#Crear tabla Importaciones
importaciones = df[[
    "correlativo", "sac_id", "descripcion", "pais_id", "unidad_id",
    "cantidad_fraccion", "tasa_dai", "valor_dai", "valor_cif_uds",
    "tasa_cif_cantidad_fraccion"
]].copy()

In [10]:
importaciones.insert(0, "item_id", range(1, len(importaciones) + 1))

In [11]:
#Exportar todas las tablas
polizas.to_csv("data/database/polizas.csv", index=False)
importaciones.to_csv("data/database/importaciones.csv", index=False)
aduanas.to_csv("data/database/aduanas.csv", index=False)
regimenes.to_csv("data/database/regimenes.csv", index=False)
sac.to_csv("data/database/sac.csv", index=False)
paises.to_csv("data/database/paises.csv", index=False)
unidades.to_csv("data/database/unidades_medida.csv", index=False)

In [12]:
print("Creación de la base de datos terminada.")

Creación de la base de datos terminada.
