# Descarga de datos

In [1]:
import pandas as pd
import os
import requests
import zipfile
import io

## Descarga del archivo csv

In [2]:
url = 'https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip'

# Realizar la solicitud GET para descargar el archivo ZIP
response = requests.get(url)

# Verificar si la descarga fue exitosa (código 200)
if response.status_code == 200:
    # Crear un objeto ZipFile a partir del contenido descargado
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
        # Extraer el contenido del archivo ZIP a una carpeta temporal
        z.extractall('../../data/raw')

In [4]:
# Leer el archivo CSV dentro del archivo ZIP usando pandas
df = pd.read_csv('../../data/raw/COVID19MEXICO.csv', low_memory=False)

In [5]:
df.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,OTRO_CASO,TOMA_MUESTRA_LAB,RESULTADO_LAB,TOMA_MUESTRA_ANTIGENO,RESULTADO_ANTIGENO,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2024-04-23,c9a5ed,2,12,9,2,9,9,9,1,...,2,2,97,1,2,7,99,México,97,97
1,2024-04-23,cbecc9,2,6,5,1,5,5,28,1,...,2,2,97,1,2,7,99,México,97,97
2,2024-04-23,1b6d59,1,12,9,1,9,9,12,1,...,1,2,97,1,1,3,99,México,97,97
3,2024-04-23,0ed066,2,12,16,2,16,16,41,1,...,2,2,97,1,2,7,99,México,97,97
4,2024-04-23,7aeb5d,2,12,3,1,15,3,3,1,...,1,2,97,1,2,7,99,México,97,97


## CSV a Parquet

In [7]:
# Guardar el DataFrame en formato Parquet
df.to_parquet('../../data/raw/COVID19MEXICO.parquet', index=False)

## Descarga de catalogo y diccionario

In [164]:
directorio = "../../references/raw"
url = 'https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip'

response = requests.get(url)

if not os.path.exists(os.path.join(directorio, "Catalogos.xlsx")) or \
    not os.path.exists(os.path.join(directorio, "Diccionario.xlsx")):
    if response.status_code == 200:
        with zipfile.ZipFile(io.BytesIO(response.content)) as z:
            z.extractall('../../references/raw')

In [165]:
archivos = []
for archivo in os.listdir(directorio):
    if os.path.isfile(os.path.join(directorio, archivo)):
        archivos.append(archivo)

print("Archivos en el directorio:")
for archivo in archivos:
    print(archivo)

Archivos en el directorio:
Actualizaciones en la presentación de información referente a casos de COVID.pdf
Catalogos.xlsx
Diccionario.xlsx


In [166]:
if not os.path.exists(os.path.join(directorio, "Catalogos.xlsx")):
    ruta_original = os.path.join(directorio, "201128 Catalogos.xlsx")
    ruta_nuevo = os.path.join(directorio, "Catalogos.xlsx")
    os.rename(ruta_original, ruta_nuevo)

In [167]:
if not os.path.exists(os.path.join(directorio, "Diccionario.xlsx")):
    ruta_original = os.path.join(directorio, "201128 Descriptores_.xlsx")
    ruta_nuevo = os.path.join(directorio, "Diccionario.xlsx")
    os.rename(ruta_original, ruta_nuevo)