# Descarga de datos

In [1]:
# Importamos librerías a utilizar
import pandas as pd
import os
import requests
import zipfile
import io

## Descarga del archivo csv

In [2]:
url = 'https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip'

# Realizar la solicitud GET para descargar el archivo ZIP
response = requests.get(url)

# Verificar si la descarga fue exitosa (código 200)
if response.status_code == 200:
    # Crear un objeto ZipFile a partir del contenido descargado
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
        # Extraer el contenido del archivo ZIP a una carpeta temporal
        z.extractall('../../data/raw')

In [4]:
# Leer el archivo CSV dentro del archivo ZIP usando pandas
df = pd.read_csv('../../data/raw/COVID19MEXICO.csv', low_memory=False)

In [5]:
df.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,OTRO_CASO,TOMA_MUESTRA_LAB,RESULTADO_LAB,TOMA_MUESTRA_ANTIGENO,RESULTADO_ANTIGENO,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2024-04-23,c9a5ed,2,12,9,2,9,9,9,1,...,2,2,97,1,2,7,99,México,97,97
1,2024-04-23,cbecc9,2,6,5,1,5,5,28,1,...,2,2,97,1,2,7,99,México,97,97
2,2024-04-23,1b6d59,1,12,9,1,9,9,12,1,...,1,2,97,1,1,3,99,México,97,97
3,2024-04-23,0ed066,2,12,16,2,16,16,41,1,...,2,2,97,1,2,7,99,México,97,97
4,2024-04-23,7aeb5d,2,12,3,1,15,3,3,1,...,1,2,97,1,2,7,99,México,97,97


## CSV a Parquet

In [7]:
# Guardar el DataFrame en formato Parquet
df.to_parquet('../../data/raw/COVID19MEXICO.parquet', index=False)

## Diccionario

In [66]:
nombres_columnas = list(df.columns)
diccionario_raw = pd.DataFrame({'Variables': nombres_columnas})

In [67]:
diccionario_raw['Tipo de dato'] = df.dtypes.values

In [68]:
diccionario_raw.head()

Unnamed: 0,Variables,Tipo de dato
0,FECHA_ACTUALIZACION,object
1,ID_REGISTRO,object
2,ORIGEN,int64
3,SECTOR,int64
4,ENTIDAD_UM,int64


In [None]:
for i in nombres_columnas:
    print(i)

In [120]:
df.INTUBADO.value_counts()

97    1156855
2      132982
1        6624
99        256
Name: INTUBADO, dtype: int64

In [None]:
text = """
FECHA_ACTUALIZACION: Feha en la que se subieron los datos
ID_REGISTRO:  ID de registro
ORIGEN: {1: Hombre, 2: Mujer}
SECTOR
ENTIDAD_UM
SEXO: {1: Hombre, 2: Mujer}
ENTIDAD_NAC: Estado al que pertenece
ENTIDAD_RES
MUNICIPIO_RES: Municipio al que pertenece
TIPO_PACIENTE
FECHA_INGRESO: Fecha en la que ingreso el paciente
FECHA_SINTOMAS: Fecha en la que se presentaron los sintomas
FECHA_DEF: Fecha de defunción
INTUBADO
NEUMONIA: {1:,2:,99:Desconocido}
EDAD: Edad del paciente
NACIONALIDAD: {1: Mexicana, 2:E}
EMBARAZO: {1: No embarazada, 2: Embarazada}
HABLA_LENGUA_INDIG: {1: Si habla lengua indigena, 2: No habla lengua indigena, 99:Desconocido}
INDIGENA: {1: Indigena, 2: No indigena, 99:Desconocido}
DIABETES: {1: Con diabetes, 2: Sin deabetes, 99:Desconocido}
EPOC
ASMA: {1: Con asma, 2: Sin asma, 99:Desconocido}
INMUSUPR: {1: Si, 2: NO, 99:Desconocido}
HIPERTENSION: {1: Con hipertension, 2: Sin hipertension, 99:Desconocido}
OTRA_COM
CARDIOVASCULAR: {1: Si, 2: NO, 99:Desconocido}
OBESIDAD: {1: Con obesidad, 2: Sin obesidad, 99:Desconocido}
RENAL_CRONICA: {1: Si, 2: NO, 99:Desconocido}
TABAQUISMO: {1: Si, 2: NO, 99:Desconocido}
OTRO_CASO
TOMA_MUESTRA_LAB
RESULTADO_LAB
TOMA_MUESTRA_ANTIGENO
RESULTADO_ANTIGENO
CLASIFICACION_FINAL: {1:Caso COVID19 confimado por asosiación clínica epidemiológica,2:Caso COVID19 confirmado por comité de dictaminación,3:Caso SARS-COV-2 confirmado,4:Inválido por laboratorio,5:No realizado por laboratorio,6:Caso sospechoso,7:Negativo a SARS-COV-2}
MIGRANTE
PAIS_NACIONALIDAD: Nacionalidad del paciente
PAIS_ORIGEN: Pais de origen
UCI
"""

In [65]:
diccionario_raw.to_excel('../../references/raw_data_dictionary.xlsx')

In [None]:
text.to_excel('../../references/raw_data_dictionary.txt')