# **ETL - ATL√ÅNTICO**

In [24]:
# [Configuraci√≥n] Importaci√≥n de librer√≠as
import pandas as pd
import numpy as np
import unicodedata
import re
import os

In [25]:
# [Funci√≥n] Limpiar nombres de columnas
def limpiar_texto(texto):
    if not isinstance(texto, str):
        return texto
    texto = texto.replace("√£¬±", "√±").replace("√É¬±", "√±").replace("√Ø¬ø¬Ω", "√±")
    texto = unicodedata.normalize("NFKC", texto)
    texto = re.sub(r'\s+', '_', texto.strip().lower())
    texto = texto.replace("_", "")
    return texto

In [26]:
# [Configuraci√≥n] Lectura de los archivos CSV
ruta = r"C:\Users\Hp\DENGUE\ETL\DATA\raw_atlantico"
archivos = sorted([f for f in os.listdir(ruta) if f.endswith(".csv")])
dataframes = {}
for archivo in archivos:
    path = os.path.join(ruta, archivo)
    df = pd.read_csv(path, encoding='latin-1', low_memory=False)

    # Limpieza de nombres de columnas
    columnas_limpias = [limpiar_texto(col) for col in df.columns]
    df.columns = columnas_limpias
    df.columns = df.columns.str.lower()
    df = df[sorted(df.columns)]
    dataframes[archivo] = df
print(f"‚úÖ {len(dataframes)} archivos cargados desde {ruta}")

‚úÖ 7 archivos cargados desde C:\Users\Hp\DENGUE\ETL\DATA\raw_atlantico


In [27]:
columnas_por_archivo = {
    nombre: set(df.columns)
    for nombre, df in dataframes.items()
}
# Columnas comunes a todos los archivos
comunes = set.intersection(*columnas_por_archivo.values())

# Columnas √∫nicas por archivo
exclusivas = {
    nombre: columnas - comunes
    for nombre, columnas in columnas_por_archivo.items()
}
print("‚úÖ Columnas comunes a todos los archivos:")
print(sorted(comunes))

print("\n‚ùå Columnas exclusivas por archivo:")
for nombre, cols in exclusivas.items():
    print(f"üìÑ {nombre}: {sorted(cols)}")

‚úÖ Columnas comunes a todos los archivos:
['ajuste', 'area', 'a√±o', 'barver', 'cbmte', 'cenpobla', 'cerdef', 'codase', 'coddptoo', 'codeve', 'codmuno', 'codpaiso', 'codpre', 'codsub', 'confin', 'dirres', 'edad', 'fecaju', 'fecarcxl', 'feccon', 'fecdef', 'fechanto', 'fechos', 'fecnot', 'fmfuerza', 'fmgrado', 'fmunidad', 'gpcarcela', 'gpdesmovi', 'gpdesplaz', 'gpdiscapa', 'gpgestan', 'gpindigen', 'gpmadcom', 'gpmigrant', 'gpotros', 'gppobicbf', 'gppsiquia', 'gpvicvio', 'inisin', 'localidad', 'ndepnotif', 'ndepproce', 'ndepresi', 'nitupgd', 'nmunnotif', 'nmunproce', 'nmunresi', 'nomdilf', 'nomeve', 'nomupgd', 'numide', 'ocupacion', 'pachos', 'peretn', 'priape', 'prinom', 'segape', 'segnom', 'semana', 'sexo', 'teldilf', 'telefono', 'tipcas', 'tipide', 'tipss', 'unimed', 'vereda']

‚ùå Columnas exclusivas por archivo:
üìÑ DATA_2023_LIMPIO.csv: ['acumliqui', 'agente', 'artralgia', 'aumhemato', 'caidaplaq', 'cefalea', 'choque', 'clasfinal', 'coddepd', 'codmund', 'codpaisd', 'codpaisr', 'co

In [28]:
# Descartar variables poco informativas
delete = [
    'ajuste', 'barver', 'cbmte', 'cenpobla', 'cerdef', 'codase', 'coddptor', 'codpaiso', 'codmunr', 'codpre', 'codsub', 
    'dirres', 'evehistorico', 'fecaju', 'fecarcxl', 'fmfuerza', 'fmgrado', 'fmunidad', 'fecdef', 'fechanto', 'numide', 
    'priape', 'prinom', 'segape', 'segnom', 'codeve', 'gpcarcela', 'gpdesmovi', 'gpdesplaz', 'gpdiscapa', 'gpgestan', 
    'gpindigen', 'gpmadcom', 'gpmigrant', 'gpotros', 'gppobicbf', 'gppsiquia', 'gpvicvio', 'localidad', 'ndepnotif', 
    'ndepresi', 'nitupgd', 'nmunnotif', 'nmunresi', 'nomdilf', 'nomupgd', 'ocupacion', 'teldilf', 'telefono', 'tipide', 
    'vereda', 'coddptor', 'codmunr', 'evehistorico', 
    'acumliqui', 'agente', 'artralgia', 'aumhemato', 'caidaplaq', 'cefalea', 'choque', 'clasfinal', 'coddepd', 'codmund', 
    'codpaisd', 'codpaisr', 'conducta', 'control', 'da√±oorgan', 'desplazami', 'diarrea', 'direclabor', 'dolorabdo', 'dolrretroo', 
    'edadconvertida', 'erupcionr', 'estrato', 'extravasac', 'famantdngu', 'fecexa', 'fecexp', 'fecrec', 'fiebre', 'fuente', 
    'hemmucosa', 'hemorrhem', 'hepatomeg', 'hipotensio', 'hipotermia', 'labajuste', 'malgias', 'muesbazo', 'muescerebr', 
    'mueshigado', 'muesmedula', 'muesmiocar', 'muespulmon', 'muesri√±on', 'muestra', 'muesttejid', 'nacionali', 'ndepproce.1', 
    'ndepresi.1', 'nmunnotif.1', 'nmunproce.1', 'nmunresi.1', 'nombrenacionalidad', 'nombres', 'nomeve.1', 'nomgrupo', 'npaisproce', 
    'npaisresi', 'numide.1', 'nunimodif', 'prueba', 'resultado', 'semges', 'somnolenci', 'unimodif', 'valor', 'version', 'vomito',
    'coddptor', 'codmunr', 'evehistorico'
]

for nombre, data in dataframes.items():
    cols_a_borrar = [col for col in delete if col in data.columns]
    if cols_a_borrar:
        dataframes[nombre] = data.drop(columns=cols_a_borrar)
        print(f"üóëÔ∏è En '{nombre}' se eliminaron: {cols_a_borrar}")
    else:
        print(f"‚úÖ En '{nombre}' no hab√≠a columnas para eliminar.")

üóëÔ∏è En 'DATA_2023_LIMPIO.csv' se eliminaron: ['ajuste', 'barver', 'cbmte', 'cenpobla', 'cerdef', 'codase', 'codpaiso', 'codpre', 'codsub', 'dirres', 'fecaju', 'fecarcxl', 'fmfuerza', 'fmgrado', 'fmunidad', 'fecdef', 'fechanto', 'numide', 'priape', 'prinom', 'segape', 'segnom', 'codeve', 'gpcarcela', 'gpdesmovi', 'gpdesplaz', 'gpdiscapa', 'gpgestan', 'gpindigen', 'gpmadcom', 'gpmigrant', 'gpotros', 'gppobicbf', 'gppsiquia', 'gpvicvio', 'localidad', 'ndepnotif', 'ndepresi', 'nitupgd', 'nmunnotif', 'nmunresi', 'nomdilf', 'nomupgd', 'ocupacion', 'teldilf', 'telefono', 'tipide', 'vereda', 'acumliqui', 'agente', 'artralgia', 'aumhemato', 'caidaplaq', 'cefalea', 'choque', 'clasfinal', 'coddepd', 'codmund', 'codpaisd', 'codpaisr', 'conducta', 'control', 'da√±oorgan', 'desplazami', 'diarrea', 'direclabor', 'dolorabdo', 'dolrretroo', 'edadconvertida', 'erupcionr', 'estrato', 'extravasac', 'famantdngu', 'fecexa', 'fecexp', 'fecrec', 'fiebre', 'fuente', 'hemmucosa', 'hemorrhem', 'hepatomeg', '

## Unificaci√≥n

In [29]:
# Concatenar archivos en un solo DataFrame
data = pd.concat(dataframes.values(), ignore_index=True)
renombres = {
    "coddptoo": "cod_dep",
    "codmuno": "cod_mun",
    "confin":"desenlace",
    "ndepproce": "departamento",
    "nmunproce": "municipio",
    "fecnot": "fecha_notific",
    "feccon": "fecha_consulta",
    "fechos": "fecha_hospital",
    "inisin": "fecha_ini_sint",
    "nomeve": "evento",
    "pachos": "hospitalizado",
    "peretn": 'etnia',
    "tipcas": "tipo_caso",
    "tipss": "regimen_salud",

}
data.rename(columns=renombres, inplace=True)
data = data[sorted(data.columns)]
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32498 entries, 0 to 32497
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   area            32498 non-null  int64 
 1   a√±o             32498 non-null  int64 
 2   cod_dep         32498 non-null  object
 3   cod_mun         32498 non-null  int64 
 4   departamento    32498 non-null  object
 5   desenlace       32498 non-null  int64 
 6   edad            32498 non-null  int64 
 7   etnia           32498 non-null  int64 
 8   evento          32498 non-null  object
 9   fecha_consulta  32498 non-null  object
 10  fecha_hospital  32498 non-null  object
 11  fecha_ini_sint  32498 non-null  object
 12  fecha_notific   32498 non-null  object
 13  hospitalizado   32498 non-null  int64 
 14  municipio       32498 non-null  object
 15  regimen_salud   32498 non-null  object
 16  semana          32498 non-null  int64 
 17  sexo            32498 non-null  object
 18  tipo_

_________

## Agregaci√≥n

In [30]:
# [Variable] Evento
data.loc[:, 'evento'] = data['evento'].str.strip()
data['evento'] = np.where(data['evento'] == 'DENGUE', 'Clasico', 
                       np.where(data['evento'] == 'DENGUE GRAVE', 'Grave', 'Otros'))
data['evento'].unique()

array(['Clasico', 'Grave'], dtype=object)

In [31]:
# [Variable] Edad en a√±os
data = data[data['edad'] != 0]
data["edad_a√±os"] = np.where(data["unimed"] == 1, data["edad"],   # ya est√° en a√±os
                    np.where(data["unimed"] == 2, data["edad"] / 12,  # meses ‚Üí a√±os
                    np.where(data["unimed"] == 3, data["edad"] / 365, # d√≠as ‚Üí a√±os
                    np.where(data["unimed"] == 4, data["edad"] / (365*24), # horas
                    np.where(data["unimed"] == 5, data["edad"] / (365*24*60), # minutos
                    np.where(data["unimed"] == 0, np.nan, 
                     np.nan))))))  # por si hay otros valores
data["edad_a√±os"] = data["edad_a√±os"].round().fillna(-1).astype(int)

In [32]:
# [Variable] Ciclo vital a partir de edad en a√±os
def ciclo_vital(edad):
    if edad < 0:
        return "Desconocido"
    elif edad < 1:
        return "Menor de 1 a√±o"
    elif edad < 5:
        return "Primera infancia"
    elif edad < 10:
        return "Infancia"
    elif edad < 20:
        return "Adolescencia"
    elif edad < 60:
        return "Adulto"
    elif edad < 85:
        return "Adulto mayor"
    else:
        return "Ancianidad"
    
data["ciclo_vital"] = data["edad_a√±os"].apply(ciclo_vital)
data["ciclo_vital"].unique()

array(['Adulto', 'Ancianidad', 'Adulto mayor', 'Infancia', 'Adolescencia',
       'Primera infancia', 'Menor de 1 a√±o'], dtype=object)

In [11]:
# [Mapeo] Variables categ√≥ricas
mapeo = {
    'area' : {1: 'Cabecera municipal' , 2:'Centro poblado', 3:'Rural disperso'}, 
    'hospitalizado': {1: 'Si', 2: 'No'},
    'desenlace': {1: 'Vivo', 2: 'Fallecido'},
    'etnia': {1: 'Indigena', 2: 'Rom', 3: 'Raizal', 4: 'Palenquero', 5: 'Negro', 6:'Otro'},
    'regimen_salud': {'P': 'Excepci√≥n', 'E': 'Especial', 'C': 'Contributivo', 'S': 'Subsidiado', 'N': 'No asegurado', 'I': 'Indeterminado'},
    'sexo': {'M': 'Masculino', 'F': 'Femenino'},
    'tipo_caso': {2: 'Probable', 3: 'Conf. por laboratorio', 5: 'Conf. por nexo'}
}
data = data.replace(mapeo)

In [12]:
# [Mapeo] Grupos √©tnicos
mapeo_etnico = {
    'Indigena': 'Ind√≠gena',
    'Negro': 'Afrocolombiano',
    'Raizal': 'Afrocolombiano',
    'Palenquero': 'Afrocolombiano',
    'Rom': 'Rom',
    'Otro': 'Otro'
}
data['grupo_etnico'] = data['etnia'].map(mapeo_etnico)

In [13]:
# [Variable] Departamento
data['departamento'] = data["departamento"].str.upper().str.strip()
data['departamento'] = data['departamento'].str.replace('_', ' ', regex=False)
data['departamento'] = data['departamento'].replace({'ATLANTICO': 'ATL√ÅNTICO'})
data = data[data['departamento'] == "ATL√ÅNTICO"]
data['departamento'].unique()

array(['ATL√ÅNTICO'], dtype=object)

In [14]:
# [Variable] Departamento
data['municipio'] = data["municipio"].str.upper().str.strip()
data['municipio'] = data['municipio'].str.replace('_', ' ', regex=False)

muni = {
    'REPELON': 'REPEL√ìN',
    'USIACURI': 'USIACUR√ç',
    'REPELON': 'REPEL√ìN', 
    'SANTO TOMAS': 'SANTO TOM√ÅS', 
    'TUBARA': 'TUBAR√Å',
    '* ATLANTICO. MUNICIPIO DESCONO': 'DESCONOCIDO',
    'MANATI': 'MANAT√ç',
    'POLO NUEVO': 'POLONUEVO',
    'PIOJO': 'PIOJ√ì',
    'SANTA LUCIA': 'SANTA LUC√çA'
}

data['municipio'] = data['municipio'].replace(muni)
data = data[data['municipio'] != "DESCONOCIDO"]
data['municipio'].unique()

array(['USIACUR√ç', 'SOLEDAD', 'BARANOA', 'SABANALARGA', 'MALAMBO',
       'CAMPO DE LA CRUZ', 'PONEDERA', 'BARRANQUILLA', 'GALAPA',
       'JUAN DE ACOSTA', 'PUERTO COLOMBIA', 'SANTA LUC√çA',
       'PALMAR DE VARELA', 'MANAT√ç', 'REPEL√ìN', 'PIOJ√ì', 'SANTO TOM√ÅS',
       'POLONUEVO', 'SABANAGRANDE', 'CANDELARIA', 'SUAN', 'TUBAR√Å',
       'LURUACO'], dtype=object)

In [15]:
def obtener_subregion(mun):
    if mun in ['BARRANQUILLA', 'GALAPA', 'MALAMBO', 'SOLEDAD', 'PUERTO COLOMBIA']:
        return 'Metropolitana'
    elif mun in ['PALMAR DE VARELA', 'PONEDERA', 'SANTO TOM√ÅS', 'SABANAGRANDE']:
        return 'Oriental'
    elif mun in ['CAMPO DE LA CRUZ', 'CANDELARIA', 'SANTA LUC√çA', 'SUAN', 'REPEL√ìN', 'MANAT√ç']:
        return 'Sur'
    elif mun in ['BARANOA', 'POLONUEVO', 'LURUACO', 'USIACUR√ç', 'SABANALARGA']:
        return 'Centro'
    elif mun in ['JUAN DE ACOSTA', 'PIOJ√ì', 'TUBAR√Å']:
        return 'Costera'
    else:
        return 'Desconocida'


# Aplicamos la funci√≥n
data['subregion'] = data['municipio'].apply(obtener_subregion)

In [16]:
# [Variable] Periodo epidemiol√≥gico (4 semanas)
def asignar_periodo(semana):
    """
    Calcula el n√∫mero de periodo seg√∫n la semana epidemiol√≥gica.
    Cada periodo abarca 4 semanas. 
    La semana 53 se incluye en el √∫ltimo periodo.
    """
    if pd.isna(semana):
        return np.nan
    semana = int(semana)
    periodo = int(np.ceil(semana / 4))
    if semana == 53:  # Semana extra del a√±o
        periodo = int(np.ceil(52 / 4))  # igual al √∫ltimo periodo
    return periodo

# Aplicar al dataframe
data["periodo"] = data["semana"].apply(asignar_periodo)

In [17]:
# Descartar variables originales ya transformadas
data = data.drop(columns=['edad', 'unimed', 'etnia', 'departamento', 'cod_dep', 'cod_mun'])

In [18]:
# [Data] Estructuraci√≥n por tem√°tica

    # Variables demogr√°ficas
demograficas = [
    "sexo",                    # M/F
    "edad_a√±os",               # Edad num√©rica
    "ciclo_vital",             # Etapa de vida
    "grupo_etnico",            # Grupo √©tnico declarado
    "regimen_salud"            # R√©gimen (contributivo, subsidiado, etc.)
]

    # Variables del evento epidemiol√≥gico
evento = [
    "evento",                  # Cl√°sico, grave
    "tipo_caso",               # Confirmado, probable, descartado
    "hospitalizado",            # S√≠/No
    "desenlace"                # Recuperado, fallecido, etc.
]
'fecha_consulta', 'fecha_hospital', 'fecha_ini_sint', 'fecha_notific',
    # Variables de temporalidad
temporalidad = [
    "a√±o",                      # A√±o del evento
    "semana",                   # Semana epidemiol√≥gica
    "periodo",                  # Periodo (cada 4 semanas)
    "fecha_ini_sint",           # Inicio de s√≠ntomas
    "fecha_consulta",           # Fecha de consulta
    "fecha_hospital",           # Fecha de hospitalizaci√≥n
    "fecha_notific",            # Fecha de notificaci√≥n
]

    # Variables espaciales
espacial = [
    "municipio",                # Municipio de ocurrencia
    "subregion",                # Subregion del Atl√°ntico
    "area",                     # Urbana o rural
]

orden_columnas = demograficas + evento + temporalidad + espacial
cols_existentes = [col for col in orden_columnas if col in data.columns]
data = data[cols_existentes + [col for col in data.columns if col not in cols_existentes]]

In [19]:
# DataFrame final
data.shape

(31775, 19)

In [20]:
df_atl = data[data['municipio'] != "BARRANQUILLA"]
df_atl.info()

<class 'pandas.core.frame.DataFrame'>
Index: 15032 entries, 0 to 32484
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   sexo            15032 non-null  object
 1   edad_a√±os       15032 non-null  int64 
 2   ciclo_vital     15032 non-null  object
 3   grupo_etnico    15032 non-null  object
 4   regimen_salud   15032 non-null  object
 5   evento          15032 non-null  object
 6   tipo_caso       15032 non-null  object
 7   hospitalizado   15032 non-null  object
 8   desenlace       15032 non-null  object
 9   a√±o             15032 non-null  int64 
 10  semana          15032 non-null  int64 
 11  periodo         15032 non-null  int64 
 12  fecha_ini_sint  15032 non-null  object
 13  fecha_consulta  15032 non-null  object
 14  fecha_hospital  15032 non-null  object
 15  fecha_notific   15032 non-null  object
 16  municipio       15032 non-null  object
 17  subregion       15032 non-null  object
 18  area     

In [21]:
df_atl['a√±o'].value_counts().sort_index()

a√±o
2017     510
2018    1594
2019    2060
2020    1295
2021    3172
2022    4257
2023    2144
Name: count, dtype: int64

In [22]:
df_atl.to_csv(r"C:\Users\Hp\DENGUE\DATA\Data_Atlantico.csv", index=False, encoding='latin-1')