# Descarga de datos de Fallecimientos desde Sanidad

## Objetivo

Vamos a hacer una lectura de los datos publicados en los informes diarios de datos de Covid19 publicados por Sanidad. Este es un [ejemplo](https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_265_COVID-19.pdf) publicado del 4 de Diciembre 2020.
  
Manuel H. Arias  
[@walyt](https://twitter.com/walyt)  

[#escovid19data](https://github.com/montera34/escovid19data)

versión definitiva documentada, para ser publicar en el repo

[@walyt](https://twitter.com/walyt)

## Código

Tenemos un montón de librerias con las que vamos a trabajar, no he tenido ningún problema en instalar aquellas no disponibles en el entorno Anaconda con el que trabajo por medio de `pip install libreria` realizado desde un terminal abierto desde el entorno `env`.

In [1]:
import os.path as pth
import datetime as dt
import time
from glob import glob
import re
import pandas as pd
import numpy as np

import requests
from shutil import copyfile

import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter
from matplotlib import cm
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
from matplotlib.dates import (YEARLY, MONTHLY, DateFormatter, WeekdayLocator, MonthLocator,DayLocator,
                              rrulewrapper, RRuleLocator, drange)
import seaborn as sns
import matplotlib.colors as colors

import numpy as np
from datetime import datetime
import seaborn as sns
%matplotlib inline

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO

Preparamos las expresiones regulares que nos ayudarán en la interpretación de la información que sacamos de los pdf.

Definimos variables que nos ayuden en la gestión de los nombres de los ficheros.

In [2]:
datadir='datos_sanidad/'
csvdir='csv/'
URL_reg='https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_{:02d}_COVID-19.pdf'

# Actualización día ZERO con el histórico

### Función de para descargar un fichero pdf, copiada del script de [@alfonsotwr](https://github.com/alfonsotwr/snippets/tree/master/covidia-cam)

In [3]:
def descarga(url,num):
    print('Descargando:', url)
    fn=datadir+str(num)+'.pdf'
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
    with requests.Session() as s:
        r = s.get(url, headers=headers)
    if r.status_code == requests.codes.ok:
        with open(fn, 'wb') as fp:
                fp.write(r.content)
    else:
        print ('Error con el ',num)
    return True

### Descarga de un rango o de un solo pdf

Descargamos el rango completo en el caso de que sea la primera vez. Arrancamos con el 77, pues no pude descifrar el formato de los pdf anteriores.

In [89]:
for i in range(77,263):
    descarga(URL_reg.format(i),i)

Descargando: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_77_COVID-19.pdf
Descargando: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_78_COVID-19.pdf
Descargando: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_79_COVID-19.pdf
Descargando: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_80_COVID-19.pdf


KeyboardInterrupt: 

### Descarga de un solo fichero

Como ejemplo 266 corresponde al Viernes 4 Diciembre 2020, grabamos el fichero en el directorio local con el nº de orden del documento.

In [38]:
descarga(URL_reg.format(275),275)

Descargando: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_275_COVID-19.pdf


True

### Función para extraer el texto de la página correspondiente del informe pdf

In [39]:
# Extract PDF text using PDFMiner. Adapted from
# http://stackoverflow.com/questions/5725278/python-help-using-pdfminer-as-a-library

def pdf_to_text(pdfname, pagenum=None):

    # PDFMiner boilerplate
    rsrcmgr = PDFResourceManager()
    sio = StringIO()
    laparams = LAParams()
    device = None
    try:
        device = TextConverter(rsrcmgr, sio, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # Extract text
        with open(pdfname, 'rb') as fp:
            for i, page in enumerate(PDFPage.get_pages(fp)):
                if pagenum is None or pagenum == i:
                    interpreter.process_page(page)

        # Get text from StringIO
        text = sio.getvalue()
    finally:
        # Cleanup
        sio.close()
        if device is not None:
            device.close()

    return text

### Creamos el pandas datos, al que vamos incorporando los datos leidos

In [42]:
datos=pd.DataFrame()

### Descarga del documento 235 a la actualidad

In [43]:
pattern=re.compile(r'(\n{1,2}\d*[,.]?\d+¥? ){19}')
pattern=re.compile(r'(\n\nTotal) ((\n{1,2}\d*[,.]?\d+¥? ){19})')
for i in range(235,276):
    numero_pagina=3 if i==266 else 4
    fn='datos_sanidad/'+str(i)+'.pdf'
    fn1 = fn.replace('.pdf', '.txt')
    text = pdf_to_text(fn, pagenum=numero_pagina)  #con que pagina queremos trabajar?
    cadena=re.search(pattern,text).group(2)         
    print ('Documento {}-->'.format(i),cadena.replace('¥','').replace('\n','').split())
    datos.loc[:,str(i)]=cadena.replace('¥','').replace('\n','').split()

Documento 235--> ['2.270', '1566', '391', '352', '267', '248', '3.338', '3.446', '5.960', '13', '1.719', '676', '859', '10.211', '11', '283', '668', '2.032', '442']
Documento 236--> ['2.314', '1598', '409', '356', '270', '248', '3.349', '3.502', '5.961', '16', '1.727', '687', '882', '10.247', '11', '288', '675', '2.038', '453']
Documento 237--> ['2.370', '1613', '414', '357', '273', '250', '3.367', '3.528', '5.968', '16', '1.737', '697', '884', '10.327', '11', '299', '687', '2.046', '454']
Documento 238--> ['2.402', '1620', '419', '357', '277', '251', '3.383', '3.549', '5.972', '16', '1.751', '701', '895', '10.350', '12', '300', '694', '2.061', '456']
Documento 239--> ['2.432', '1627', '427', '357', '278', '252', '3.405', '3.567', '5.977', '18', '1.762', '703', '895', '10.403', '12', '306', '699', '2.061', '458']
Documento 240--> ['2.470', '1654', '437', '362', '282', '252', '3.425', '3.599', '5.991', '19', '1.773', '714', '904', '10.419', '12', '317', '703', '2.082', '463']
Documento 

### Aquí tenemos una serie de días que han dado error en el escrapeo y no pude solucionar, luego introducimos los valores manualmente:

In [44]:
dia_234=[2183,1559,383,344,266,248,3336,3421,5958,13,1709,670,850,10155,11,279,666,2029,441] 

In [45]:
dia_137=[1404,826,314,209,151,202,2945,1928,5587,4,1332,508,609,8691,2,148,490,1424,362]

In [46]:
datos.loc[:,'234']=dia_234

In [47]:
datos.loc[:,'137']=dia_137

### Ahora metemos la serie antígua..del 77 al 234

In [48]:
texto1="Total"

texto2="\n\n"

for i in range(77,234): #original 100 a 234
    fn='datos_sanidad/'+str(i)+'.pdf'
    fn1 = fn.replace('.pdf', '.txt')
    text = pdf_to_text(fn, pagenum=1)
    #with open(fn1, 'w', encoding='utf-8') as fp:
    #with open(fn1, 'w') as fp:    
    #        fp.write(page1)
 

    #with open(fn1) as fp:
    #    text = fp.read()
    #lista=text.partition(texto1)[2].partition(texto1)[2].partition(texto1)[2].replace('\n','').split(' ')
    
    if ((((i >= 122) & (i<=139))) & (i!=137)):
        lista=text.partition(texto1)[2].replace('\n','').split(' ')
        print (i,' -> ',lista[113])
        #print (i,'ojo',' ->',lista[113:113+19])
        datos.loc[:,str(i)]=lista[113:113+19]
            
    elif (i==151):
        lista=text.partition(texto1)[2].replace('\n','').split(' ')
        print (i,' -> ',lista[127])
        datos.loc[:,str(i)]=lista[127:127+19]
    elif (i==154):
        lista=text.partition(texto1)[2].replace('\n','').split(' ')
        print (i,' -> ',lista[123])
        datos.loc[:,str(i)]=lista[123:123+19]
        
    elif (i!=137):
        lista=text.partition(texto1)[2].partition(texto1)[2].partition(texto1)[2].replace('\n','').split(' ')
        print (i,' -> ',lista[1])
        datos.loc[:,str(i)]=lista[1:1+19]

        #print (i,' -> ',lista[0],'-->',lista[1:20])

77  ->  912
78  ->  940
79  ->  967
80  ->  993
81  ->  1.013
82  ->  1.017
83  ->  1.050
84  ->  1.079
85  ->  1.107
86  ->  1.131
87  ->  1.145
88  ->  1.157
89  ->  1.168
90  ->  1.188
91  ->  1.207
92  ->  1.238
93  ->  1.253
94  ->  1.256
95  ->  1.263
96  ->  1.267
97  ->  1.281
98  ->  1.294
99  ->  1.301
100  ->  1.317
101  ->  1.320
102  ->  1.322
103  ->  1.326
104  ->  1.332
105  ->  1.336
106  ->  1.344
107  ->  1.355
108  ->  1.358
109  ->  1.358
110  ->  1.358
111  ->  1.371
112  ->  1.375
113  ->  1.377
114  ->  1.389
115  ->  1.391
116  ->  1.334
117  ->  1.404
118  ->  1.404
119  ->  1.404
120  ->  1.404
121  ->  1.404
122  ->  1.404
123  ->  1.404
124  ->  1.404
125  ->  1.404
126  ->  1.404
127  ->  1.404
128  ->  1.404
129  ->  1.404
130  ->  1.404
131  ->  1.404
132  ->  1.404
133  ->  1.404
134  ->  1.404
135  ->  1.404
136  ->  1.404
138  ->  1.404
139  ->  1.404
140  ->  1.404
141  ->  1.426
142  ->  1.426
143  ->  1.426
144  ->  1.426
145  ->  1.426
146  ->  1.

### Filtramos las columnas en las fechas correctas: desde 77 hasta hoy, y formateamos el index con la denominación correcta de la CA

In [49]:
datos

Unnamed: 0,235,236,237,238,239,240,241,242,243,244,...,224,225,226,227,228,229,230,231,232,233
0,2.27,2.314,2.37,2.402,2.432,2.47,2.57,2.602,2.664,2.695,...,1.965,1.979,2.02,2.02,2.053,2.065,2.094,2.137,2.176,2.182
1,1566.0,1598.0,1613.0,1620.0,1627.0,1654.0,1691.0,1706.0,1730.0,1753.0,...,1412.0,1470.0,1481.0,1485.0,1495.0,1501.0,1508.0,1528.0,1541.0,1543.0
2,391.0,409.0,414.0,419.0,427.0,437.0,466.0,484.0,497.0,520.0,...,351.0,354.0,356.0,357.0,361.0,364.0,365.0,371.0,371.0,377.0
3,352.0,356.0,357.0,357.0,357.0,362.0,363.0,364.0,371.0,372.0,...,313.0,316.0,316.0,316.0,321.0,325.0,327.0,327.0,332.0,336.0
4,267.0,270.0,273.0,277.0,278.0,282.0,286.0,289.0,294.0,295.0,...,240.0,241.0,247.0,248.0,250.0,250.0,251.0,257.0,259.0,265.0
5,248.0,248.0,250.0,251.0,252.0,252.0,255.0,255.0,254.0,257.0,...,237.0,237.0,237.0,240.0,240.0,240.0,242.0,247.0,247.0,247.0
6,3.338,3.349,3.367,3.383,3.405,3.425,3.437,3.445,3.414,3.438,...,3.244,3.254,3.266,3.267,3.277,3.304,3.322,3.33,3.331,3.333
7,3.446,3.502,3.528,3.549,3.567,3.599,3.659,3.673,3.757,3.81,...,3.179,3.199,3.232,3.241,3.28,3.297,3.307,3.346,3.38,3.4
8,5.96,5.961,5.968,5.972,5.977,5.991,6.001,6.036,7.073,7.147,...,5.865,5.875,5.883,5.883,5.89,5.895,5.909,5.913,5.919,5.927
9,13.0,16.0,16.0,16.0,18.0,19.0,23.0,26.0,29.0,29.0,...,11.0,11.0,12.0,12.0,12.0,12.0,12.0,13.0,13.0,13.0


In [50]:
datos=datos[[str(i) for i in range(77,276)]]

In [51]:
datos.index=['Andalucia','Aragon','Asturias','Baleares','Canarias','Cantabria','Castilla La Mancha',
            'Castilla y Leon','Cataluña','Ceuta','C.Valenciana','Extremadura','Galicia','Madrid','Melilla','Murcia',
             'Navarra','Pais Vasco','La Rioja']

In [52]:
datos=datos.applymap(lambda x: int(str(x).replace(".","")))

necesitamos un fichero adicional en el que se relacionen los nº de orden de los docs con las fechas en las que se publicaron

In [53]:
claves=pd.read_excel(datadir+'clave_numero_fecha.xlsx')

In [54]:
claves

Unnamed: 0,Codigo,Fecha
0,77,2020-04-16
1,78,2020-04-17
2,79,2020-04-18
3,80,2020-04-19
4,81,2020-04-20
...,...,...
194,271,2020-12-15
195,272,2020-12-16
196,273,2020-12-17
197,274,2020-12-18


In [55]:
#claves=claves.loc[claves.index[:]]

In [56]:
datos.columns=claves['Fecha']

Finalmente guardamos el `pandas`en un fichero csv:

In [57]:
datos.to_csv(csvdir+'datos_sanidad_matriz.csv')

Preparamos también una versión en formato tabla:

In [58]:
datos_tabla=datos.unstack().reset_index()[['level_1','Fecha',0]]

In [59]:
datos_tabla.columns=['Comunidad','Fecha','Fallecidos']

In [60]:
datos_tabla.columns=['Comunidad','Fecha','Fallecidos']

In [61]:
datos_tabla.columns=['Comunidad','Fecha','Fallecidos']

que guardamos también en el directorio local:

In [62]:
datos_tabla.to_csv(csvdir+'datos_sanidad_tabla.csv')

In [63]:
datos_tabla

Unnamed: 0,Comunidad,Fecha,Fallecidos
0,Andalucia,2020-04-16,912
1,Aragon,2020-04-16,543
2,Asturias,2020-04-16,168
3,Baleares,2020-04-16,131
4,Canarias,2020-04-16,107
...,...,...,...
3776,Melilla,2020-12-21,43
3777,Murcia,2020-12-21,708
3778,Navarra,2020-12-21,945
3779,Pais Vasco,2020-12-21,2781
