[ Español | English ]
La Secretaría de Salud publica la información sobre casos de COVID-19 en México en formato pdf. Este repositorio busca automatizar la conversión de estos documentos para producir tablas que faciliten la consulta y el procesamiento de estos datos.
El archivo más reciente de la Secretaría de Salud se encuentra aquí:
Todos el procesamiento de datos se encuentra en ipynb_notebooks/
.
Algunos puntos importantes a considerar son los siguientes:
El proceso de extraer los datos de los archivos pdf
es inconsistente. Los archivos de la Secretaría de Salud no tienen un formato regular y esto dificulta considerablemente la extración limpia de los datos. En este repositorio, he intentado automatizar la obtención de las tablas, pero no es un algoritmo perfecto. He detectado y corregido errores y estoy constantemente intentando mejorar el script.
Si encuentras algún error en mis datos, te pido me la hagas saber por medio de un Issue citando el archivo con el problema y una explicación detallada.