### Librerías

In [1]:
import zipfile
import sqlite3
import requests
import pandas as pd
from io import BytesIO

### Descarga de datos

In [67]:
# Link de descarga de los datos
url = "https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/etv/historicos/2023/datos_abiertos_dengue_261023.zip"

# Descarga los datos y los guarda en un objeto de tipo BytesIO
response = requests.get(url)
zip_file = BytesIO(response.content)

# Extrae los datos del objeto zip_file
with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall('.\\data') # Cambia 'ruta' por la ruta donde deseas extraer los archivos

In [68]:
# Leer el archivo de datos 
df = pd.read_csv('data/dengue_abierto.csv')

# Muestra los primeros registros para verificar que la lectura fue exitosa
df.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,SEXO,EDAD_ANOS,ENTIDAD_RES,MUNICIPIO_RES,HABLA_LENGUA_INDIG,INDIGENA,ENTIDAD_UM_NOTIF,MUNICIPIO_UM_NOTIF,...,INMUNOSUPR,CIRROSIS_HEPATICA,EMBARAZO,DEFUNCION,DICTAMEN,TOMA_MUESTRA,RESULTADO_PCR,ESTATUS_CASO,ENTIDAD_ASIG,MUNICIPIO_ASIG
0,2023-10-23,1004648,1,17,23,5,2,2,23,5,...,2,2,2,2,5.0,1,3,2,23,5
1,2023-10-23,1004661,2,25,23,5,2,2,23,5,...,2,2,2,2,5.0,1,5,3,23,5
2,2023-10-23,1004693,2,8,19,21,2,2,19,21,...,2,2,2,2,5.0,1,5,3,19,21
3,2023-10-23,1004728,1,64,25,1,2,2,25,1,...,2,2,2,2,5.0,1,5,3,25,1
4,2023-10-23,1004754,1,30,6,2,2,2,6,2,...,2,2,2,2,5.0,1,5,3,6,2


In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202762 entries, 0 to 202761
Data columns (total 28 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   FECHA_ACTUALIZACION     202762 non-null  object 
 1   ID_REGISTRO             202762 non-null  int64  
 2   SEXO                    202762 non-null  int64  
 3   EDAD_ANOS               202762 non-null  int64  
 4   ENTIDAD_RES             202762 non-null  int64  
 5   MUNICIPIO_RES           202762 non-null  int64  
 6   HABLA_LENGUA_INDIG      202762 non-null  int64  
 7   INDIGENA                202762 non-null  int64  
 8   ENTIDAD_UM_NOTIF        202762 non-null  int64  
 9   MUNICIPIO_UM_NOTIF      202762 non-null  int64  
 10  INSTITUCION_UM_NOTIF    202762 non-null  int64  
 11  FECHA_SIGN_SINTOMAS     202762 non-null  object 
 12  TIPO_PACIENTE           202762 non-null  int64  
 13  HEMORRAGICOS            202762 non-null  int64  
 14  DIABETES            

In [70]:
df.describe()

Unnamed: 0,ID_REGISTRO,SEXO,EDAD_ANOS,ENTIDAD_RES,MUNICIPIO_RES,HABLA_LENGUA_INDIG,INDIGENA,ENTIDAD_UM_NOTIF,MUNICIPIO_UM_NOTIF,INSTITUCION_UM_NOTIF,...,INMUNOSUPR,CIRROSIS_HEPATICA,EMBARAZO,DEFUNCION,DICTAMEN,TOMA_MUESTRA,RESULTADO_PCR,ESTATUS_CASO,ENTIDAD_ASIG,MUNICIPIO_ASIG
count,202762.0,202762.0,202762.0,202762.0,202762.0,202762.0,202762.0,202762.0,202762.0,202762.0,...,202762.0,202762.0,202762.0,202762.0,202760.0,202762.0,202762.0,202762.0,202762.0,202762.0
mean,1114941.0,1.462005,27.355318,21.841652,61.846268,1.975104,1.967558,21.857123,60.034735,7.617497,...,1.99821,1.999137,1.988173,1.996755,4.994836,1.535589,4.801822,1.573125,21.96344,62.893096
std,61972.39,0.498555,17.908616,8.490932,81.42947,0.155809,0.177171,8.487523,81.969824,4.396052,...,0.042274,0.029366,0.108106,0.056874,0.107877,0.498733,0.715866,0.795658,8.829502,86.889775
min,852727.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
25%,1062482.0,1.0,13.0,17.0,9.0,2.0,2.0,17.0,8.0,4.0,...,2.0,2.0,2.0,2.0,5.0,1.0,5.0,1.0,17.0,9.0
50%,1116200.0,1.0,24.0,23.0,44.0,2.0,2.0,23.0,44.0,5.0,...,2.0,2.0,2.0,2.0,5.0,2.0,5.0,1.0,23.0,44.0
75%,1168415.0,2.0,39.0,30.0,85.0,2.0,2.0,30.0,82.0,12.0,...,2.0,2.0,2.0,2.0,5.0,2.0,5.0,2.0,30.0,85.0
max,1220335.0,2.0,118.0,35.0,570.0,2.0,2.0,32.0,999.0,99.0,...,2.0,2.0,2.0,2.0,5.0,2.0,5.0,3.0,99.0,999.0


### Limpieza de datos

Antes de realizar la limpieza de datos, crearemos archivos CSV de los catálogos de las variables no numéricas para facilitar su posterior mapeo.

In [71]:
# Crear diccionarios csv
diccionario = pd.read_excel('Catálogos_Dengue.xlsx', sheet_name=None)

# Sacamos los diccionarios en formato csv leyendo cada sheet del archivo
for sheet_name, sheet_data in diccionario.items():
    # Reemplaza los espacios en el nombre de la hoja con guiones bajos
    nombre_archivo_csv = f"{sheet_name.replace(' ', '_')}.csv"
    sheet_data.to_csv(f'data/{nombre_archivo_csv}', index=False)

Buscando por datos `NA`, vemos que solo la variable "DICTAMEN" tiene 2 valores `NA`. Cambiaremos estos valores a "5", este valor significa "NO APLICA" como se ve en su catálogo.

In [72]:
df.isna().sum()

FECHA_ACTUALIZACION       0
ID_REGISTRO               0
SEXO                      0
EDAD_ANOS                 0
ENTIDAD_RES               0
MUNICIPIO_RES             0
HABLA_LENGUA_INDIG        0
INDIGENA                  0
ENTIDAD_UM_NOTIF          0
MUNICIPIO_UM_NOTIF        0
INSTITUCION_UM_NOTIF      0
FECHA_SIGN_SINTOMAS       0
TIPO_PACIENTE             0
HEMORRAGICOS              0
DIABETES                  0
HIPERTENSION              0
ENFERMEDAD_ULC_PEPTICA    0
ENFERMEDAD_RENAL          0
INMUNOSUPR                0
CIRROSIS_HEPATICA         0
EMBARAZO                  0
DEFUNCION                 0
DICTAMEN                  2
TOMA_MUESTRA              0
RESULTADO_PCR             0
ESTATUS_CASO              0
ENTIDAD_ASIG              0
MUNICIPIO_ASIG            0
dtype: int64

In [73]:
df['DICTAMEN'] = df['DICTAMEN'].fillna(5)

In [74]:
df.isna().sum()

FECHA_ACTUALIZACION       0
ID_REGISTRO               0
SEXO                      0
EDAD_ANOS                 0
ENTIDAD_RES               0
MUNICIPIO_RES             0
HABLA_LENGUA_INDIG        0
INDIGENA                  0
ENTIDAD_UM_NOTIF          0
MUNICIPIO_UM_NOTIF        0
INSTITUCION_UM_NOTIF      0
FECHA_SIGN_SINTOMAS       0
TIPO_PACIENTE             0
HEMORRAGICOS              0
DIABETES                  0
HIPERTENSION              0
ENFERMEDAD_ULC_PEPTICA    0
ENFERMEDAD_RENAL          0
INMUNOSUPR                0
CIRROSIS_HEPATICA         0
EMBARAZO                  0
DEFUNCION                 0
DICTAMEN                  0
TOMA_MUESTRA              0
RESULTADO_PCR             0
ESTATUS_CASO              0
ENTIDAD_ASIG              0
MUNICIPIO_ASIG            0
dtype: int64

Ahora, al explorar los catálogos nos damos cuenta de que solo tenemos números, a lo más, de 3 dígitos. Por lo que cambiaremos los tipos `int64` y `float64` a `uint8`.

In [75]:
# Seleccionamos las columnas con cada tipo
int64_columns = df.select_dtypes(include='int64').columns
float64_columns = df.select_dtypes(include='float64').columns

# Convertertimos las columnas int64 y float64 a uint16
df[int64_columns] = df[int64_columns].astype('uint16')
df[float64_columns] = df[float64_columns].astype('uint16')

También cambiaremos los tipos de las variables temporales a `datetime`, tomando solamente la fecha y no la hora.

In [76]:
df['FECHA_ACTUALIZACION'] = pd.to_datetime(df['FECHA_ACTUALIZACION'], format='%Y-%m-%d')
df['FECHA_SIGN_SINTOMAS'] = pd.to_datetime(df['FECHA_SIGN_SINTOMAS'], format='%Y-%m-%d')

In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202762 entries, 0 to 202761
Data columns (total 28 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   FECHA_ACTUALIZACION     202762 non-null  datetime64[ns]
 1   ID_REGISTRO             202762 non-null  uint16        
 2   SEXO                    202762 non-null  uint16        
 3   EDAD_ANOS               202762 non-null  uint16        
 4   ENTIDAD_RES             202762 non-null  uint16        
 5   MUNICIPIO_RES           202762 non-null  uint16        
 6   HABLA_LENGUA_INDIG      202762 non-null  uint16        
 7   INDIGENA                202762 non-null  uint16        
 8   ENTIDAD_UM_NOTIF        202762 non-null  uint16        
 9   MUNICIPIO_UM_NOTIF      202762 non-null  uint16        
 10  INSTITUCION_UM_NOTIF    202762 non-null  uint16        
 11  FECHA_SIGN_SINTOMAS     202762 non-null  datetime64[ns]
 12  TIPO_PACIENTE           202762

### Creación de base de datos

In [44]:
# Crear la base de datos SQLite
conn = sqlite3.connect('mcd.db')

# Enviar el DataFrame a la base de datos SQLite
df.to_sql('dengue_2023', conn, index=False, if_exists='replace')

# Cerrar la conexión
conn.close()


### Exploración de la base de datos

In [45]:
# Leer el dataframe desde la base de datos SQLite
conn = sqlite3.connect('mcd.db')
df = pd.read_sql('SELECT * FROM dengue_2023', conn)

# Muestra los primeros registros para verificar que la lectura fue exitosa
df.head()

0


Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,SEXO,EDAD_ANOS,ENTIDAD_RES,MUNICIPIO_RES,HABLA_LENGUA_INDIG,INDIGENA,ENTIDAD_UM_NOTIF,MUNICIPIO_UM_NOTIF,...,INMUNOSUPR,CIRROSIS_HEPATICA,EMBARAZO,DEFUNCION,DICTAMEN,TOMA_MUESTRA,RESULTADO_PCR,ESTATUS_CASO,ENTIDAD_ASIG,MUNICIPIO_ASIG
0,2023-10-23,21608,1,17,23,5,2,2,23,5,...,2,2,2,2,5,1,3,2,23,5
1,2023-10-23,21621,2,25,23,5,2,2,23,5,...,2,2,2,2,5,1,5,3,23,5
2,2023-10-23,21653,2,8,19,21,2,2,19,21,...,2,2,2,2,5,1,5,3,19,21
3,2023-10-23,21688,1,64,25,1,2,2,25,1,...,2,2,2,2,5,1,5,3,25,1
4,2023-10-23,21714,1,30,6,2,2,2,6,2,...,2,2,2,2,5,1,5,3,6,2


In [47]:
# Cerrar la conexión
conn.close()