Por supuesto puedes usar los datos recopilados, para eso están. Pon link a este repositorio (https://github.com/montera34/escovid19data) e indica que el proyecto es Escovid19data. Liberamos los datos para que hagas con ellos lo que quieras. Si nos citas, mejor, para mantener la trazabilidad de los datos. Nos encantará saber que usas los datos, escríbemos a covid19@montera34.com o tuitea con #escovid19data. Ver condiciones de la licencia con que compartimos los datos.
Puedes ayudar colaborando activamente en la recopilación de datos o detectando errores y notificándolos. Anímate a participar. Puedes ponernos un email (covid19@montera34.com), o mejor, crear un incidencia.
Los datos por provincias se publican en este CSV: /data/output/covid19-provincias-spain_consolidated.csv, también se publican en formato .xls y .rds.
Se han creado datos agregados por comunidades autónomas y para toda España en el directorio /data/output/ en base a los datos provinciales. La fuente de los datos es la misma que la de las series provinciales pero no se indica en los propios archivos agregados por CCAA y para toda España:
- covid19-ccaa-spain_consolidated.(rds, csv, xlsx) para datos agregados por comunidades autónomas.
- covid19-spain_consolidated.(rds, csv, xlsx) para datos agregados para toda España.
Incluye el código del INE para las provincias y datos relativos a 100.000 habitantes. Cuando se indica 'NA' es que no hay datos disponibles.
Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compatida son luego procesados con este script de R en otro repositorio.
Los datos originales usados son almacenados en este directorio: /data/original/spain. Puedes acceder a datos más desagregados que ls provinicas, por ejemplo a datos por islas de Canarias o por área sanitaria en Galicia. Hay una carpeta por cada comunidad o ciudad autónoma. En los estados de git puedes acceder a cómo estaban los datos en cada momento.
EN
Data are published in this CSV file: /data/output/covid19-provincias-spain_consolidated.csv
It includes now INE code for provinces and data per 100.000 inhabitants. 'NA' is indicated when no data is available.
dateDía en formato aaaa-mm-dd | Day in yyyy-mm-dd formatprovinceProvincia | Provinceine_codeCódigo de provinci del INE | INE code fro the provinceccaaComunidad autónoma | Regionnew_casesNúmero de nuevos casos COVID-19 detectados | Number of new COVID-19 casesPCRNúmero de nuevos casos detectados COVID-19 por PCR | Number of new COVID-19 cases detected with PCRTestAcNúmero de nuevos casos detectados COVID-19 por test de anticuerpos | Number of new COVID-19 cases detected with AcactivosCasos de COVID-19 activos | Active COVID-19 caseshospitalizedHospitalizados prevalentes | Hospitalized. Ver | View wikihospitalized_newIngresos nuevos ese díahospitalized_accumulatedHospitalizados acumuladosintensive_carePacientes en UCI | UCI (intensive care patiens)deceasedDeaths (cumulative)cases_accumulatedCasos COVID-19 detectados acumulado | Number of new COVID-19 cases (cumulative)cases_accumulated_PCRCasos COVID-19 detectados por PCR acumulado | Number of new COVID-19 cases detected with PCR (cumulative)recoveredRecuperados | RecoveredpoblacionPoblación de la provincia | Inhabitants of the province
Datos de RENAVE-ISCIII: la fecha de inicio de síntomas o, en su defecto, la fecha de diagnóstico menos 6 días (con prefijo num_) (fuente: https://cnecovid.isciii.es/covid19/resources/datos_provincias.csv, que desde el 2020-12-30 pasa a usarse https://cnecovid.isciii.es/covid19/resources/casos_diagnostico_provincia.csv), variables explicadas en https://cnecovid.isciii.es/covid19/resources/metadata_ccaadecl_prov_edad_sexo.pdf
num_casosel número de casos totales, confirmados o probables del díanum_casos_cum1el número de casosnum_casosacumulado (calculado a partir del anterior)num_casos_avg7el número de casos diarios medio calculado con ventana de 7 días de la variablenum_casosnum_casos_prueba_pcrel número de casos con prueba de laboratorio PCR o técnicas molecularesnum_casos_prueba_test_acel número de casos con prueba de laboratorio de test rápido de anticuerposnum_casos_prueba_otrasel número de casos con otras pruebas de laboratorio, mayoritariamente por detección de antígeno o técnica Elisanum_casos_prueba_agNúmero de casos con prueba de laboratorio de test de detección de antígenonum_casos_prueba_elisaNúmero de casos con prueba de laboratorio deserología de alta resolución (ELISA/ECLIA/CLIA)num_casos_prueba_desconocidael número de casos sin información sobre la prueba de laboratorio
Datos ISCIII, de este archivo https://cnecovid.isciii.es/covid19/resources/casos_hosp_uci_def_sexo_edad_provres.csv que tiene información de: Número de hospitalizaciones, número de ingresos en UCI y número de defunciones por sexo, edad y provincia de residencia. Asiganación de fecha_ Hospitalizaciones, ingresos en UCI, defunciones: los casos hospitalizados están representados por fecha de hospitalización (en su defecto, la fecha de diagnóstico, y en su defecto la fecha clave3, los casos UCI por fecha de admisión en UCI (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ) y las defunciones por fecha de defunción (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ.).
num_casos2casos diarios. "Número decasos notificados confirmados con una prueba diagnóstica positiva de infección activa (PDIA) tal como se establece en la Estrategia de detección precoz, vigilancia y control de COVID-19 y además los casos notificados antes del 11 de mayo que requirieron hospitalización, ingreso en UCI o fallecieron con diagnóstico clínico de COVID-19, de acuerdo a las definiciones de caso vigentes en cada momento".num_casos_cum2el número de casosnum_casos2acumuladonum_casos_avg7el número de casos diarios medio calculado con ventana de 7 días de la variablenum_casos2num_hospNúmero de casoshospitalizadosnum_hosp_cumhospitalizados acumuladosnum_uciNúmero de casos ingresados en UCInum_uci_cumNúmero de casos ingresados en UCI acumulados (calculado a partir del anterior)num_defNúmero de defunciones.num_def_cumNúmero de defunciones acumuladas (calculado a partir del anterior)
-
cases_per_cienmilCasos acumulados por 100.000 habitantes | Cumulative cases per 100,000 inhabitants -
intensive_care_per_100000Casos UCI por 100.000 habitantes | Intensive care per 100,000 inhabitants -
hospitalized_per_100000Hospitalizados por 100.000 habitantes | Intensive care per 100,000 inhabitants Ver | View wiki -
deceassed_per_100000Fallecidos acumulados por 1000.000 habitantes | Cumulative deaths per 100,000 inhabitants -
cases_14daysCasos detectados en los últimos 14 días | Detected cases in the last 14 days -
daily_casesCasos diarios. Calculado como la diferencia de los casos acumulados . Calculated as a difference of cumulative cases reported. -
daily_cases_avg7Media de casos detectados (ventana de 7 días) | Average daily cases in the last 7 days (rolling average 7 days) -
daily_cases_PCR_avg7Media de casos PCR detectados (ventana de 7 días) | Average daily cases PCR in the last 7 days (rolling average 7 days) -
daily_deathsFallecidos diarios . Calculated as a difference of cumulative deaths reported. -
daily_deaths_incPorcentaje de nuevos falllecidos respecto de día anterior | Calculated as the percentage from last day -
daily_deaths_avg3Media de fallecidos en los últimos 3 días | Average daily deaths in the last 3 days (rolling average 3 days) -
daily_deaths_avg7Media de fallecidos en los últimos 7 días | Average daily deaths in the last 7 days (rolling average 7 days) -
deaths_last_weekFallecidos en los últimos 7 días | Deaths in the last 7 days. -
num_casos_prueba_pcr_avg7Media de casos (ventana de 7 días) de casos con prueba de laboratorio PCR o técnicas moleculares de los datos de RENAVE-ISCIII -
ia14Incidencia ccumulada 14 días (casos en los últimos 14 días por cada 100.000 habitantes) | Cases in 14 days by 100,000 inhabitants
Fuente de los datos y comentarios | Data sources and comments:
source_nameNombre de la fuente separados por ; . No se incluye la referencia a los datos de RENAVE-ISCIII al ser redundante. Como se indica más arriba, las variable que empiezan por "num_" tienen todas ellas esa fuente. | Name of source of information, separated by ;sourceURL de la fuente separado por ; | Source URL of information, separated by ;commentsCOmentario sobre los datos | Comments of the data
Existen ciertas bases de datos oficiales del Ministerio de Sanidad que no se publican desagregadas por provincias y se incluen en las columnas que empiezan por mnt_:
Informes en PDF del Ministerio de Sanidad escrapeados por @mharias:
mnt_pdf_deceasedFallecidos acumulados.
De la hoja de cálculo del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Fallecidos_COVID19.xlsx
mnt_daily_deathsFallecidos diarios publicadosmnt_deceasedFallecidos acumulados calculados a partir de los datos diarios
Del archivo CSV del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Casos_COVID19.csv
mnt_csv_daily_casesCasos diarios | Daily casesmnt_csv_new_hospNuevos hospitalizados diarios | New daily hospitalizationsmnt_csv_new_icNuevos hospitalizados en UCI | New daily in intensive caremnt_csv_daily_deathsFallecidos diarios | Daily deathsmnt_csv_deceasedFallecidos acumulados calculados a partir de los datos diarios | Cumulative deaths (calculate)
De los PDF y XLSX de vacunación del Ministerio de Sanidad:
vac_dosis_entregadasDosis.entregadasvac_dosis_administradasDosis.administradasvac_perc_entregadas% de administradas sobre entregadasvac_date_dataÚltima fecha de actualización de datosvac_date_lastFecha de la última vacuna registradavac_date_publishedFecha de publicación del informe
Población por provincias del INE: https://www.ine.es/jaxiT3/Datos.htm?t=2852#!tabs-tabla
Hemos empezado a recopilar los datos de vacunaciones publicados de Lunes a Viernes por Sanidad en esta dirección.
Esos datos son leídos y replicados aquí. Dejamos dos tipos de ficheros :
- Fichero diario con el formato:
estado_vacunacion_añomesdía.csv. Con formato año cuatro dígitos, mes y día de dos dígitos. - Fichero de datos acumulados con el nómbre de fichero :
estado_vacunacion_.csv
Los campos del csv son los siguientes:
date_pub: fecha de publicación del informeccaa: Comunidad/Ciudad autónomaDosis entregadas Pfizer: dosis entregadas a la Comunidad/CiudadDosis entregadas Moderna: idemDosis entregadas AstraZeneca: idemDosis entregadas: suma de las entregadas de los tres fabricantesDosis administradas % sobre entregadas:cociente de vacunas administradas sobre vacunas entregadasTotal pauta completada: total de pautas completadas o dobles vacunacionesÚltima fecha de actualización de datos: fecha indicada en la tabla como última con actualizaciónFecha de la ultima vacuna registrada: este campo no está en uso actualmentesource_name: nombre la fuenteSanidaden todos los casossource: link al fichero original de los datos
├── analysis # para guardar los scripts de análisis y obtención de datos
│ ├── canarias
│ │ └── canarias_hospi_scrap.R # obtiene datos de hospitalizados de Canarias
│ ├── descarga_andalucia.py # obtiene y procesa datos de hospitalizados Andalucía
│ ├── procesar_por_provincia.R # procesado de datos de Escovid19da. Se ha mudado archivo a otro repositorio
│ └── sanidad # scripts para scrapear y obtener datos de los PDF del Ministerio de Sanidad
│ ├── scrap_pdf_sanidad.ipynb
│ ├── scrap_pdf_sanidad_situacion.ipynb
│ └── test
├── andalucia-hospitalizados.csv # borrable?
├── data # para almacenar los datos
│ ├── original # datos originales
│ │ ├── andalucia-hospitalizados.csv
│ │ ├── covid19_spain_provincias.csv # datos provenientes de la hoja de cálculo compartida original de Escovid19data. No se actualiza desde 2020-07-28
│ │ ├── datos_sanidad.csv # datos de PDF de Ministerio de Sanidad por CCAA
│ │ ├── datos_sanidad_matriz.csv
│ │ ├── datos_sanidad_tabla.csv
│ │ ├── madrid_zbs.csv
│ │ ├── provincias-poblacion.csv
│ │ └── shapes # contornos para mapas
│ │ └── recintos_provinciales_inspire_peninbal_etrs89.json
│ └── output # archivos de la base de datos para descarga
│ ├── covid19-ccaa-spain_consolidated.csv
│ ├── covid19-ccaa-spain_consolidated.rds
│ ├── covid19-ccaa-spain_consolidated.xlsx
│ ├── covid19-provincias-spain_consolidated.csv
│ ├── covid19-provincias-spain_consolidated.rds
│ ├── covid19-provincias-spain_consolidated.xlsx
│ ├── covid19-spain_consolidated.csv
│ ├── covid19-spain_consolidated.rds
│ └── covid19-spain_consolidated.xlsx
├── docs # para guardar documentos
├── escovid19data.Rproj # borrable? (ya no se procesan los datos en este repositorio)
├── LICENSE.md
└── README.md
Este es un proyecto colaborativo para recopilar datos sobre COVID-19 en España por provincias.
Contacto: covid19@montera34.com
Hay muchas personas que nos habéis ayudado y aportado pistas. Gracias a todas por colaborar.
Ahora mismo, estamos manteniendo los datos y amadrinando provincias y comunidades autónomas o han ayudado en alún momento: @ProsumidorSoc @numeroteca @arivero @ManoloYuri @congosto @skotperez @allisdata @acorsin @hhkaos @belengarcia_8 @Tejerauskas @aniol @zgzmiki89 @mota_santiago @nachotronic @puzzle72 @montera34 @alfonsotwr @lipido @danielegrasso @picanumeros @walyt @JKniffki @harlesden88, @crisalpas, @otro_mas1, @fdezordonez.
Coordina el proyecto @numeroteca. Actualiza los datos a diario (desde abril de 2021) @puzzle72.
Si se nos olvida alguien ¡avísanos!
Cada cual se encarga de amadrinar una comunidad autónoma. Ver sección "Organización" de la hoja de cálculo.
Una lista más actualizada y completa puede encontrarse en la wiki del proyecto: https://github.com/montera34/escovid19data/wiki/Qui%C3%A9n-utiliza-los-datos-de-escovid19data
Mándanos tu análisis o visualización si usas estos datos (covid19@montera34.com):
Actualizado diariamente:
- Gráficos de Escovid19data mantenido por @numeroteca en @montera34).
- Tablas por provincias y CCAA mantenido por [@numeroteca](https://twitter.com/numeroteca. Se generan automáticamente con RMarkdown.
- Un dashboard de análisis mantenido por @harlesden88.
No se actualizan:
- Dashboard interactivo en Tableau con los datos provinciales (en Tableau Public) mantenido por @ProsumidorSoc.
- La evolución del COVID-19 en España y en el mundo, en gráficos por @picanumeros
- Mapas de afectados por coronavirus en España iniciativa mantenida por voluntarios e impulsada por Esri España.
- Visualización de evolución de múltiples variables mantenido por @infoiguacel.
Puedes ver un listado actualizado en la wiki de Escovid19data dedicada a documentar dónde se usan los datos. Ayúdanos a completarla.
Puedes ver el análisis sobre las fuentes de información y el estado de la base de datos en este informe automatizado.
Se han usado varias fuentes, la mayoría oficiales, algunas periodísicas, que se indican en cada una de los datos por día y provincia en la columna "source". Puedes leer más información sobre cada una de las fuentes en este documento.
También puedes encontrar (y contribuir) información más actualizada en la wiki de este repositorio.
En la wiki puedes encontrar información sobre las fuentes e historia de la recopilació nde datos de cada comunidad autónoma.
Cada madrina, reponsable de conseguir los datos, de una comunidad autónoma o provincia sube los datos a una hoja de cálculo común o busca fuentes que podamos descargar y procesar automáticamente.
Los datos de esa hoja de cálculo se descargaban en este CSV: data/original/covid19_spain_provincias.csv para ser procesados con el script de R, pero ahora el script hace mucho más que eso. Descarga los datos de cada una de las pestañas y fuentes originales, procesa y une los datos y genera el CSV listo para usarse /data/output/covid19-provincias-spain_consolidated.csv. También puedes descargar los datos en formato .xlsx y .rds.
No todos los datos están disponibles en la hoja de cálculo compartida, como se indica en algunas comunidades se obtiene directamente de la fuente.
El proyecto tiene un grupo de Telegram con el que nos coordinamos. Escribe a covid19@montera34.com para apuntarte, colaborar y saber más.