In [1]:
import pandas as pd
import os
import numpy as np

* Cargar archivos

In [2]:
# CARGAR ARCHIVOS PARA MANEJO
def leer_archivos(ruta): 
    archivos = [f for f in os.listdir(ruta) if f.endswith(".csv")]

    dataframes = {}
    errores = {}

    for archivo in archivos:
        path = os.path.join(ruta, archivo)
        try:
            df = pd.read_csv(path, encoding='latin_1', low_memory=False)
            df.columns = df.columns.str.lower()
            dataframes[archivo] = df

        except Exception as e:
            errores[archivo] = str(e)

    # Mostrar archivos con errores
    if errores:
        print("\n‚ö†Ô∏è Archivos con errores al cargar:")
        for archivo, error in errores.items():
            print(f"   ‚ùå {archivo}: {error}")
    else:
        print("\n‚úÖ Todos los archivos se cargaron correctamente.")
    i = 1
    for archivo in archivos:
        if archivo in dataframes:
            print(f"{i}  üìÑ {archivo}: {dataframes[archivo].shape[0]} filas, {dataframes[archivo].shape[1]} columnas") 
            i += 1
    
    return dataframes, archivos

In [3]:
def comparar_columnas(dataframes):

    columnas_info = {}
    resultados = {}

    # Extraer columnas y tipos
    for nombre, df in dataframes.items():
        columnas_info[nombre] = {
            "columnas": list(df.columns),
            "tipos": df.dtypes.to_dict()
        }

    # Usar el primer archivo como referencia
    referencia = list(dataframes.keys())[2]
    cols_ref = set(columnas_info[referencia]["columnas"])

    for nombre, info in columnas_info.items():
        if nombre == referencia:
            continue

        cols_actual = set(info["columnas"])
        comunes = cols_ref.intersection(cols_actual)
        distintas = cols_ref.symmetric_difference(cols_actual)

        print(f"\nüìÇ Comparando {referencia} vs {nombre}:")
        print(f"    ‚úîÔ∏è Columnas comunes ({len(comunes)}): {sorted(comunes)}")
        print(f"    ‚ùå Columnas distintas ({len(distintas)}): {sorted(distintas)}")

        if len(distintas) == 0:
            print("     ‚úÖ Las columnas son id√©nticas")
        else:
            print(f"    üî¥ Existen {len(distintas)} variables diferentes")


In [5]:
ruta = r"C:\Users\Hp\DENGUE\Data\raw_data\clean_atlantico"
dataframes, archivos = leer_archivos(ruta)



‚úÖ Todos los archivos se cargaron correctamente.
1  üìÑ clean_dengue_2017.csv: 1214 filas, 31 columnas
2  üìÑ clean_dengue_2018.csv: 3403 filas, 31 columnas
3  üìÑ clean_dengue_2019.csv: 4145 filas, 31 columnas
4  üìÑ clean_dengue_2020.csv: 2722 filas, 31 columnas
5  üìÑ clean_dengue_2021.csv: 7947 filas, 31 columnas
6  üìÑ clean_dengue_2022.csv: 10601 filas, 31 columnas
7  üìÑ clean_dengue_2023.csv: 2466 filas, 29 columnas


In [6]:
comparar_columnas(dataframes)


üìÇ Comparando clean_dengue_2019.csv vs clean_dengue_2017.csv:
    ‚úîÔ∏è Columnas comunes (31): ['area', 'a√±o', 'barrio', 'cod_dpto_o', 'cod_mun_o', 'departamento', 'direccion', 'edad', 'fecha_consulta', 'fecha_hospitalizacion', 'fecha_inicio_sintomas', 'fecha_nacimiento', 'fecha_notificacion', 'hospitalizado', 'localidad', 'muerte', 'municipio', 'nombre_evento', 'num_ide_', 'ocupacion_', 'pertencia_etnica', 'pri_ape_', 'pri_nom_', 'regimen_salud', 'seg_ape_', 'seg_nom_', 'semana', 'sexo', 'tip_ide_', 'tipo_de_caso', 'uni_med_']
    ‚ùå Columnas distintas (0): []
     ‚úÖ Las columnas son id√©nticas

üìÇ Comparando clean_dengue_2019.csv vs clean_dengue_2018.csv:
    ‚úîÔ∏è Columnas comunes (31): ['area', 'a√±o', 'barrio', 'cod_dpto_o', 'cod_mun_o', 'departamento', 'direccion', 'edad', 'fecha_consulta', 'fecha_hospitalizacion', 'fecha_inicio_sintomas', 'fecha_nacimiento', 'fecha_notificacion', 'hospitalizado', 'localidad', 'muerte', 'municipio', 'nombre_evento', 'num_ide_', 'ocupac

In [18]:
dataframes, archivos = leer_archivos(ruta)

# Unir todos en un solo DataFrame
df_final = pd.concat(dataframes.values(), ignore_index=True)


‚úÖ Todos los archivos se cargaron correctamente.
1  üìÑ clean_dengue_2017.csv: 1214 filas, 31 columnas
2  üìÑ clean_dengue_2018.csv: 3403 filas, 31 columnas
3  üìÑ clean_dengue_2019.csv: 4145 filas, 31 columnas
4  üìÑ clean_dengue_2020.csv: 2722 filas, 31 columnas
5  üìÑ clean_dengue_2021.csv: 7947 filas, 31 columnas
6  üìÑ clean_dengue_2022.csv: 10601 filas, 31 columnas
7  üìÑ clean_dengue_2023.csv: 2466 filas, 29 columnas


In [19]:
df_final = df_final[sorted(df_final.columns)]
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32498 entries, 0 to 32497
Data columns (total 31 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   area                   32498 non-null  int64  
 1   a√±o                    32498 non-null  int64  
 2   barrio                 32374 non-null  object 
 3   cod_dpto_o             30032 non-null  float64
 4   cod_mun_o              30032 non-null  float64
 5   departamento           32498 non-null  object 
 6   direccion              32498 non-null  object 
 7   edad                   32498 non-null  int64  
 8   fecha_consulta         32498 non-null  object 
 9   fecha_hospitalizacion  32498 non-null  object 
 10  fecha_inicio_sintomas  32498 non-null  object 
 11  fecha_nacimiento       32498 non-null  object 
 12  fecha_notificacion     32498 non-null  object 
 13  hospitalizado          32498 non-null  int64  
 14  localidad              31045 non-null  object 
 15  m

In [20]:
count_duplicados = df_final.duplicated().sum()
print(f"N√∫mero de filas duplicadas exactas en columnas de inter√©s: {count_duplicados}")

N√∫mero de filas duplicadas exactas en columnas de inter√©s: 0


In [21]:
df_final['nombre_evento'] = df_final['nombre_evento'].str.strip()
df_final['nombre_evento'].unique()

array(['DENGUE', 'DENGUE GRAVE'], dtype=object)

In [22]:
# Crear evento a partir del codigo 
# evento = Clasifico if code_eve = 210 
# evento = Grave if code_eve = 220
df_final['evento'] = np.where(df_final['nombre_evento'] == 'DENGUE', 'Clasico', 
                       np.where(df_final['nombre_evento'] == 'DENGUE GRAVE', 'Grave', 'Otros'))
df_final['evento'].unique()

array(['Clasico', 'Grave'], dtype=object)

In [23]:
df_final.columns

Index(['area', 'a√±o', 'barrio', 'cod_dpto_o', 'cod_mun_o', 'departamento',
       'direccion', 'edad', 'fecha_consulta', 'fecha_hospitalizacion',
       'fecha_inicio_sintomas', 'fecha_nacimiento', 'fecha_notificacion',
       'hospitalizado', 'localidad', 'muerte', 'municipio', 'nombre_evento',
       'num_ide_', 'ocupacion_', 'pertencia_etnica', 'pri_ape_', 'pri_nom_',
       'regimen_salud', 'seg_ape_', 'seg_nom_', 'semana', 'sexo', 'tip_ide_',
       'tipo_de_caso', 'uni_med_', 'evento'],
      dtype='object')

In [24]:
delete =['num_ide_', 'ocupacion_', 'pri_ape_', 'pri_nom_',
        'seg_ape_', 'seg_nom_', 'tip_ide_']

In [25]:
df_final = df_final.drop(columns=delete, errors="ignore")
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32498 entries, 0 to 32497
Data columns (total 25 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   area                   32498 non-null  int64  
 1   a√±o                    32498 non-null  int64  
 2   barrio                 32374 non-null  object 
 3   cod_dpto_o             30032 non-null  float64
 4   cod_mun_o              30032 non-null  float64
 5   departamento           32498 non-null  object 
 6   direccion              32498 non-null  object 
 7   edad                   32498 non-null  int64  
 8   fecha_consulta         32498 non-null  object 
 9   fecha_hospitalizacion  32498 non-null  object 
 10  fecha_inicio_sintomas  32498 non-null  object 
 11  fecha_nacimiento       32498 non-null  object 
 12  fecha_notificacion     32498 non-null  object 
 13  hospitalizado          32498 non-null  int64  
 14  localidad              31045 non-null  object 
 15  m

In [26]:
df_final.columns

Index(['area', 'a√±o', 'barrio', 'cod_dpto_o', 'cod_mun_o', 'departamento',
       'direccion', 'edad', 'fecha_consulta', 'fecha_hospitalizacion',
       'fecha_inicio_sintomas', 'fecha_nacimiento', 'fecha_notificacion',
       'hospitalizado', 'localidad', 'muerte', 'municipio', 'nombre_evento',
       'pertencia_etnica', 'regimen_salud', 'semana', 'sexo', 'tipo_de_caso',
       'uni_med_', 'evento'],
      dtype='object')

In [27]:
df_final['departamento'].value_counts()

departamento
ATLANTICO            31800
MAGDALENA              255
GUAJIRA                129
BOLIVAR                 82
47                      62
CESAR                   25
DEPTO DESCONOCIDO       23
SUCRE                   19
44                      17
CORDOBA                 11
13                      10
CUNDINAMARCA             8
ANTIOQUIA                7
20                       6
VALLE                    5
SANTANDER                5
SAN ANDRES               5
AMAZONAS                 3
70                       3
5                        3
NORTE SANTANDER          3
BOYACA                   2
TOLIMA                   2
CALDAS                   2
GUAVIARE                 2
CASANARE                 1
NARI√ëO                   1
CAQUETA                  1
CHOCO                    1
54                       1
CQ                       1
23                       1
52                       1
68                       1
Name: count, dtype: int64

In [28]:
# Filtrar solo los registros donde el departamento es ATLANTICO
df_final = df_final[df_final['departamento'] == "ATLANTICO"]

print(df_final.shape)  # para ver cu√°ntos registros quedaron


(31800, 25)


In [29]:
df_final['municipio'].unique()

array(['BARRANQUILLA', 'SOLEDAD', 'REPELON', 'JUAN DE ACOSTA', 'GALAPA',
       'USIACURI', 'BARANOA', 'POLO NUEVO', 'SABANALARGA', 'SABANAGRANDE',
       'MALAMBO', 'LURUACO', 'CAMPO DE LA CRUZ', 'SANTO TOMAS',
       '* ATLANTICO. MUNICIPIO DESCONO', 'TUBARA', 'PONEDERA',
       'PUERTO COLOMBIA', 'MANATI', 'CANDELARIA', 'PALMAR DE VARELA',
       'SUAN', 'PIOJO', 'SANTA LUCIA'], dtype=object)

In [30]:
# Filtrar solo los registros donde el departamento es ATLANTICO
df_final = df_final[df_final['municipio'] == "BARRANQUILLA"]

print(df_final.shape)  # para ver cu√°ntos registros quedaron


(16743, 25)


In [31]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16743 entries, 0 to 32485
Data columns (total 25 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   area                   16743 non-null  int64  
 1   a√±o                    16743 non-null  int64  
 2   barrio                 16736 non-null  object 
 3   cod_dpto_o             16527 non-null  float64
 4   cod_mun_o              16527 non-null  float64
 5   departamento           16743 non-null  object 
 6   direccion              16743 non-null  object 
 7   edad                   16743 non-null  int64  
 8   fecha_consulta         16743 non-null  object 
 9   fecha_hospitalizacion  16743 non-null  object 
 10  fecha_inicio_sintomas  16743 non-null  object 
 11  fecha_nacimiento       16743 non-null  object 
 12  fecha_notificacion     16743 non-null  object 
 13  hospitalizado          16743 non-null  int64  
 14  localidad              16622 non-null  object 
 15  muerte

In [32]:
df = df_final

In [33]:
# Reemplazar el valor espec√≠fico
df["municipio"] = df["municipio"].replace(
    "* ATLANTICO. MUNICIPIO DESCONO", "desconocido"
)

# Verificar
print(df["municipio"].unique())

['BARRANQUILLA']


In [34]:
df = df.drop(columns=["departamento", 'cod_dpto_o'], errors="ignore")
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16743 entries, 0 to 32485
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   area                   16743 non-null  int64  
 1   a√±o                    16743 non-null  int64  
 2   barrio                 16736 non-null  object 
 3   cod_mun_o              16527 non-null  float64
 4   direccion              16743 non-null  object 
 5   edad                   16743 non-null  int64  
 6   fecha_consulta         16743 non-null  object 
 7   fecha_hospitalizacion  16743 non-null  object 
 8   fecha_inicio_sintomas  16743 non-null  object 
 9   fecha_nacimiento       16743 non-null  object 
 10  fecha_notificacion     16743 non-null  object 
 11  hospitalizado          16743 non-null  int64  
 12  localidad              16622 non-null  object 
 13  muerte                 16743 non-null  int64  
 14  municipio              16743 non-null  object 
 15  nombre

In [35]:
import os

ruta_salida = r"C:\Users\Hp\DENGUE\Data"
archivo = "data_quilla.csv"

# Crear ruta completa
path_out = os.path.join(ruta_salida, archivo)

# Guardar
df_final.to_csv(path_out, index=False, encoding="latin1")
print(f"‚úîÔ∏è Guardado en: {path_out}")

‚úîÔ∏è Guardado en: C:\Users\Hp\DENGUE\Data\data_quilla.csv
