# Descarga de datos del fichero de Indicadores de Seguimiento publicado por Ministerio de Sanidad

## Objetivo

Vamos a hacer una lectura de los datos publicados en el informe https://t.co/KOFUAhUynL?amp=1 publicado por Sanidad el 30 Noviembre:
  
Manuel H. Arias  
[@walyt](https://twitter.com/walyt)  

[#escovid19data](https://github.com/montera34/escovid19data)



## Código

Como siempre importamos las librerías con las que vamos a trabajar:

In [1]:
import os.path as pth
import datetime as dt
import time
from glob import glob
import re
import pandas as pd
import numpy as np

import requests
from shutil import copyfile

import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter
from matplotlib import cm
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
from matplotlib.dates import (YEARLY, MONTHLY, DateFormatter, WeekdayLocator, MonthLocator,DayLocator,
                              rrulewrapper, RRuleLocator, drange)
import seaborn as sns
import matplotlib.colors as colors

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO


import numpy as np
from datetime import datetime,timedelta
import seaborn as sns
%matplotlib inline

Definimos variables que nos ayuden en la gestión de los nombres de los ficheros, nombres de columnas e indices. 

In [8]:
datadir='pdf_ext/'
URL_reg='https://saludextremadura.ses.es/filescms/web/uploaded_files/CasosPositivos/Datos%20Covid-19.pdf'

In [37]:
conversion_mes={'ENERO':1,'FEBRERO':2,'MARZO':3,
                'ABRIL':4,'MAYO':5,'JUNIO':6,
                'JULIO':7,'AGOSTO':8,'SEPTIEMBRE':9,
                'OCTUBRE':10,'NOVIEMBRE':11,'DICIEMBRE':12}

In [137]:
#generamos un pandas vacío con esas columnas e indice tal que las zonas


In [138]:
datos_pos.shape

(0, 0)

In [161]:
pueblos=['BADAJOZ',
'JEREZ DE LOS CABALLEROS',
'MONTIJO',
'ZAHINOS', 
'OLIVENZA', 
'PUEBLONUEVO DEL GUADIANA',
'PUEBLA DE OBANDO', 
'PARRA (LA)',
'ALBUERA (LA)', 
'TALAVERA LA REAL', 
'TORRE DE MIGUEL SESMERO', 
'VALVERDE DE LEGANES', 
'ALCUESCAR', 
'CACERES', 
'TORREORGAZ', 
'CASAR DE CÁCERES', 
'CASAR DE CACERES', 
'LOGROSAN', 
'MIAJADAS', 
'VILLAMESIAS', 
'CUMBRE (LA)', 
'TRUJILLO',
'JOLA', 
'CORIA', 
'CASTUERA', 
'MONTERRUBIO DE LA SERENA', 
'DON BENITO' ,
'ORELLANA LA VIEJA', 
'SANTA AMALIA' ,
'VILLANUEVA DE LA SERENA' ,
'PUEBLA DEL MAESTRE' ,
'ALCONERA',
'VALENCIA DEL, VENTOSO',
'ZAFRA' ,
'ACEUCHAL', 
'ALMENDRALEJO',
'ARROYO DE SAN SERVAN' ,
'ESPARRAGALEJO' ,
'MERIDA',
'VALVERDE DE MERIDA',
'MIRANDILLA',
'VILLAFRANCA DE LOS BARROS' ,
'PERALEDA DE SAN ROMAN',
'JARANDILLA DE LA VERA',
'LOSAR DE LA VERA',
'ROBLEDILLO DE LA VERA',
'BELVIS DE MONROY',
'NAVALMORAL DE LA MATA',
'PUEBLONUEVO DE MIRAMONTES',
'TALAYUELA',
'PASARON DE LA VERA',
'PINOFRANQUEADO',
'PLASENCIA',
'TORREJON EL RUBIO']

In [162]:
datos_pos=pd.DataFrame()

In [163]:
datos_pos.loc[:,'pueblo']=pueblos

In [177]:
historico=pd.read_csv(datadir+'positivos.csv',index_col=0)

In [179]:
historico.head(5)

Unnamed: 0,Fecha,pueblo,positivos
0,04-12-2020,BADAJOZ,22
1,04-12-2020,JEREZ DE LOS CABALLEROS,2
2,04-12-2020,MONTIJO,6
3,04-12-2020,ZAHINOS,1
4,04-12-2020,OLIVENZA,1


### Función para descargar un fichero pdf

Definimos a continuación una función para descargar el fichero pdf de web

In [11]:
def descarga(url,guardarlo_como):
    '''
    Devuelve True si éxito descargando el pdf del link url, grabándolo como guardarlo_como
    Parametros:
        url: url del fichero a descargar
        guardarlo_como : nombre del fichero a grabar, sin extensión.
    '''
    print('Descargando:', url)
    nombre_a_guardar=datadir+guardarlo_como+'.pdf'
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
    with requests.Session() as s:
        r = s.get(url, headers=headers)
    if r.status_code == requests.codes.ok:
        with open(nombre_a_guardar, 'wb') as fp:
                fp.write(r.content)
                print('Guardándolo como:', nombre_a_guardar)
                return True
    else:
        print ('Error con el ',nombre_a_guardar)
        return False

 Vamos a llamar a los ficheros tal que su día de publicación en formato `%Y-%m-%d`, "2020-12-05" por ejemplo...

In [22]:
un_dia=timedelta(days=1)
hoy=datetime.today().strftime('%d-%m-%Y')
#descargamos el del 30-11
fecha_str='2020-11-30'

In [23]:
descarga(URL_reg,hoy)

Descargando: https://saludextremadura.ses.es/filescms/web/uploaded_files/CasosPositivos/Datos%20Covid-19.pdf
Guardándolo como: pdf_ext/05-12-2020.pdf


True

### Extraemos el texto de la pagina concreta del pdf

In [24]:
# Extract PDF text using PDFMiner. Adapted from
# http://stackoverflow.com/questions/5725278/python-help-using-pdfminer-as-a-library
# codigo copiado del script de @alfonsotwr
# desde 
def pdf_to_text(pdfname, pagenum=None):
    '''
    Devuelve el texto de la página pagenum extraído del pdf de path=pdfname
    Parametros:
        pdfname:pdf del fichero pdf
        pagenum : página del fichero
    '''
    # PDFMiner boilerplate
    rsrcmgr = PDFResourceManager()
    sio = StringIO()
    laparams = LAParams()
    device = None
    try:
        device = TextConverter(rsrcmgr, sio, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # Extract text
        with open(pdfname, 'rb') as fp:
            for i, page in enumerate(PDFPage.get_pages(fp)):
                if pagenum is None or pagenum == i:
                    interpreter.process_page(page)

        # Get text from StringIO
        text = sio.getvalue()
    finally:
        # Cleanup
        sio.close()
        if device is not None:
            device.close()

    return text

Tras estudiar el formato de `text` hemos generado unas RegEx para leer las series de números: basicamente se compone de una cabezera (IA x 100.000....) seguida de una lista de 30 números ó `NA`..

In [25]:
loc_pdf=datadir+hoy+'.pdf'
#sacamos la tabla de la página 3, aprox la mitad de las zonas
primera_pagina = pdf_to_text(loc_pdf, pagenum=0)  #con que pagina queremos trabajar?
segunda_pagina = pdf_to_text(loc_pdf, pagenum=1)
                         

extraemos la fecha del documento

In [64]:
#regex_fecha_publicacion='(CASOS POSITIVOS Y BROTES – )(\d{1,2} DE (\w)* DE \d{4} )'
regex_fecha_publicacion='(CASOS POSITIVOS Y BROTES – )((\d{1,2}) DE (\w*) DE (\d{4}))'
regex_fecha_casos='del día (\d{2}) de (\w*)'
match_fecha_casos=re.search(re.compile(r'{}'.format(regex_fecha_casos)),primera_pagina)
match_fecha_publicacion=re.search(re.compile(r'{}'.format(regex_fecha_publicacion)),primera_pagina)

#datos=list(match.group(2).rstrip().lstrip().replace('\n','').split(' '))
    #eliminamos el primer elemento
    #indicadores.loc[zonas[0]:zonas[len(datos)-1],columnas[i]]=datos
print (0,'-->',match_fecha_casos.group(2))
print (0,'-->',match_fecha_casos.groups()) 
print (0,'-->',match_fecha_publicacion.group(2))
print (0,'-->',match_fecha_publicacion.groups()) 
fecha_casos=datetime(year=2020,
                     month=conversion_mes[match_fecha_casos.groups()[1].upper()],
                     day=int(match_fecha_casos.groups()[0]))
fecha_publicacion=datetime(year=int(match_fecha_publicacion.groups()[4]),
                               month=conversion_mes[match_fecha_publicacion.groups()[3]],
                               day=int(match_fecha_publicacion.groups()[2]))
nombre_columna=datetime.strftime(fecha_casos,'%d-%m-%Y')

0 --> diciembre
0 --> ('04', 'diciembre')
0 --> 05 DE DICIEMBRE DE 2020
0 --> ('CASOS POSITIVOS Y BROTES – ', '05 DE DICIEMBRE DE 2020', '05', 'DICIEMBRE', '2020')


 extraemos la primera lista de casos positivos, página nº 1

In [146]:
regex_casos=['(CASOS \+ )((\n\d* ){45})','(CASOS \+ )((\n\d* ){9})']

match=re.search(re.compile(r'{}'.format(regex_casos[0])),primera_pagina)
datos1=list(match.group(2).rstrip().lstrip().replace('\n','').split(' '))
print ('-->',datos1)


--> ['22', '2', '6', '1', '1', '2', '1', '1', '1', '3', '5', '1', '1', '18', '1', '2', '1', '1', '3', '1', '1', '2', '1', '3', '3', '1', '1', '2', '1', '12', '1', '2', '1', '1', '4', '12', '1', '2', '13', '1', '12', '1', '3', '2', '1']


 extraemos la segunda lista de casos positivos, página nº 2

In [147]:
match=re.search(re.compile(r'{}'.format(regex_casos[1])),segunda_pagina)
datos2=list(match.group(2).rstrip().lstrip().replace('\n','').split(' '))
    #indicadores.loc[zonas[0]:zonas[len(datos)-1],columnas[i]]=datos
print ('-->',datos2)

--> ['1', '1', '5', '2', '2', '1', '1', '11', '1']


In [164]:
datos_pos.loc[:,nombre_columna]=datos1+datos2

In [180]:
datos_pos.head(5)

Unnamed: 0,pueblo,04-12-2020
0,BADAJOZ,22
1,JEREZ DE LOS CABALLEROS,2
2,MONTIJO,6
3,ZAHINOS,1
4,OLIVENZA,1


In [169]:
datos_tabla=datos_pos.set_index('pueblo').unstack().reset_index()
datos_tabla.columns=['Fecha','pueblo','positivos']

In [182]:
datos_tabla.head(20)

Unnamed: 0,Fecha,pueblo,positivos
0,04-12-2020,BADAJOZ,22
1,04-12-2020,JEREZ DE LOS CABALLEROS,2
2,04-12-2020,MONTIJO,6
3,04-12-2020,ZAHINOS,1
4,04-12-2020,OLIVENZA,1
5,04-12-2020,PUEBLONUEVO DEL GUADIANA,2
6,04-12-2020,PUEBLA DE OBANDO,1
7,04-12-2020,PARRA (LA),1
8,04-12-2020,ALBUERA (LA),1
9,04-12-2020,TALAVERA LA REAL,3


In [173]:
datos_tabla.to_csv(datadir+'positivos.csv')