# Limpieza de datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt
import json
Df = pd.read_csv("archivos/Casos_Epidemiol_gicos_20250205.csv") #Leemos el CSV

## Convertir fechas a formato datetime

Df['Fecha_notificación'] = pd.to_datetime(Df["Fecha_notificación"], format='%m/%d/%Y %H:%M:%S %p')
Df['Fecha_contagio'] = pd.to_datetime(Df["Fecha_contagio"], format='%m/%d/%Y %H:%M:%S %p')

# Fecha de hospitalización por el momento no es muy relevante, y tiene muchos valores nulos
# por lo cual es mejor eliminar dicha columna
Df.pop("Fecha_hospitalización")

# Imprimimos la información para saber en que campos hay información nula
#print(Df.info())

# Podemos rellenar información nula en ciertos campos no numericos con N/A
Df["Unidad_generadora_datos"] = Df["Unidad_generadora_datos"].fillna("N/A")
Df["Estrato_socioeconómico"] = Df["Estrato_socioeconómico"].fillna("N/A")
Df.dropna()

#Los años están escritos, como 2,024. vamos a eliminar dichas comas
Df["Año"] = Df["Año"].astype(str).str.replace(",","",regex=False)
Df["Año_contagio"] = Df["Año_contagio"].astype(str).str.replace(",","",regex=False)

# Vamos a cambiar el codigo de municipio por el nombre del municipio
Df["Código_Municipio"] = Df["Código_Municipio"].replace(682,"Santa Rosa de Cabal")

#### Cambiamos los municipios de codigos a nombres, igual con los departamentos ####

map_df = pd.read_csv("archivos/municipios_tabla_completa.csv") #Leemos el archivo donde se guardaron los codigos con nombres

# Crear diccionarios de mapeo a partir del CSV
# Diccionario para departamentos: {código: nombre}
dept_map = pd.Series(map_df["Nombre Departamento"].values, index=map_df["Código Departamento"]).to_dict()

# Diccionario para municipios: {código: nombre}

mun_full_dict = {}
for index, row in map_df.iterrows():
    # Aseguramos que el código del departamento tenga 2 dígitos y el del municipio 3 dígitos.
    dept_code = str(row["Código Departamento"]).zfill(2)
    mun_code = str(row["Código Municipio"]).zfill(3)
    key = dept_code + mun_code  # Ejemplo: "05" + "001" = "05001"
    mun_full_dict[key] = row["Nombre Municipio"]



Unnamed: 0,Fecha_notificación,Semana_epidemiológica,Año,Edad_paciente,Código_Nacionalidad,Nacionalidad,Sexo_paciente,Codigo Departamento,Código_Municipio,Tipo Seguridad Social,...,Otros_grupos_riesgo,Fecha_contagio,Hospitalizacion,Certificado_de_defunción,Evento_reportado,Unidad_generadora_datos,Mes_contagio,Año_contagio,Codigo Completo,Nombre Municipio
0,2024-08-02 12:00:00,31,2024,31,170,COLOMBIA,F,66,Santa Rosa de Cabal,C,...,SI,2024-07-24 12:00:00,NO,NO,ENFERMEDADES HUERFANAS - RARAS,CENTRO DE INMUNOLOGIA Y GENETICA CIGE SAS,7.0,2024,66Santa Rosa de Cabal,
1,2024-04-05 12:00:00,14,2024,14,170,COLOMBIA,M,66,Santa Rosa de Cabal,S,...,SI,2024-01-04 12:00:00,SI,NO,CÁNCER EN MENORES DE 18 AÑOS,CLINICA LOS ROSALES,1.0,2024,66Santa Rosa de Cabal,
2,2024-01-19 12:00:00,3,2024,48,170,COLOMBIA,F,66,Santa Rosa de Cabal,S,...,SI,2024-04-01 12:00:00,NO,NO,CÁNCER DE LA MAMA Y CUELLO UTERINO,LIGA CONTRA EL CANCER SECCIONAL RISARALDA,4.0,2024,66Santa Rosa de Cabal,
3,2024-03-09 12:00:00,10,2024,69,170,COLOMBIA,F,66,Santa Rosa de Cabal,C,...,SI,2024-02-26 12:00:00,NO,NO,CÁNCER DE LA MAMA Y CUELLO UTERINO,LIGA CONTRA EL CANCER SECCIONAL RISARALDA,2.0,2024,66Santa Rosa de Cabal,
4,2024-04-14 12:00:00,15,2024,22,170,COLOMBIA,F,66,Santa Rosa de Cabal,S,...,SI,2024-04-13 12:00:00,NO,NO,VIGILANCIA EN SALUD PÚBLICA DE LA VIOLENCIA DE...,ESE HOSPITAL SAN VICENTE DE PAUL,4.0,2024,66Santa Rosa de Cabal,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8631,2022-03-03 12:00:00,9,2022,20,170,COLOMBIA,F,66,Santa Rosa de Cabal,S,...,SI,2022-03-03 12:00:00,NO,NO,VARICELA INDIVIDUAL,ESE HOSPITAL SAN VICENTE DE PAUL,3.0,2022,66Santa Rosa de Cabal,
8632,2022-03-09 12:00:00,9,2022,34,862,VENEZUELA,F,CN,10,N,...,NO,2022-03-09 12:00:00,NO,NO,VARICELA INDIVIDUAL,ESE HOSPITAL SAN VICENTE DE PAUL,3.0,2022,CN10,
8633,2022-02-27 12:00:00,9,2022,58,170,COLOMBIA,M,66,Santa Rosa de Cabal,S,...,SI,2022-02-27 12:00:00,NO,NO,VIGILANCIA EN SALUD PÚBLICA DE LA VIOLENCIA DE...,ESE HOSPITAL SAN VICENTE DE PAUL,2.0,2022,66Santa Rosa de Cabal,
8634,2022-03-03 12:00:00,9,2022,6,170,COLOMBIA,F,66,Santa Rosa de Cabal,C,...,SI,2022-03-02 12:00:00,SI,NO,VIGILANCIA EN SALUD PÚBLICA DE LA VIOLENCIA DE...,ESE HOSPITAL SAN VICENTE DE PAUL,3.0,2022,66Santa Rosa de Cabal,
