# Obtenemos la primera información de toda la región de la Araucania

In [28]:
import requests
import io
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileReader
import pandas as pd

## Obtendremos los enlaces y fechas para cada reporte

In [2]:
URL = 'https://seremi9.redsalud.gob.cl/accion-sanitaria-3/registros-covid19/'
page = requests.get(URL) #Obtenemos la respuesta del servidor

In [3]:
soup     = BeautifulSoup(page.content, 'html.parser')  #Transformamos a un objeto soup

In [4]:
job_elems = soup.find_all('ol')                    # Buscamos todos los elementos "ol"
for job_elem in job_elems:                         # Recorremos
    enlaces = job_elem.find_all('a')               # Buscamos los enlaces de ahí

In [5]:
reportes_diarios = []
base_url         = "https://seremi9.redsalud.gob.cl"
for enlace in enlaces:                            # Recorremos los enlaces
    fecha  = enlace.text                          # obtenemos el texto
    enlace = enlace['href']                       # obtenemos el enlace
    url    = base_url + enlace
    dato   = {'fecha': fecha, 'url':url}
    reportes_diarios.append(dato)

## Desde ahora trabajamos con los reportes diarios

In [88]:
#Esta funcion retornara en un arreglo el texto de la pagina 0 del PDF
def get_info(fecha, url):
    print ("Obteniendo información del: " + fecha)
    page      = requests.get(url)                           #Obtenemos la respuesta del servidor
    f         = io.BytesIO(page.content)                    #Tenemos el pdf
    reader    = PdfFileReader(f)                            #leemos el pf 
    contenido = reader.getPage(0).extractText().split('\n') #Tenemos el pdf separado por salto de linea
    
    
    #Filtramos e iteramos los datos
    pos_ini   = contenido.index('Angol')
    pos_fin   = contenido.index('Total General')
    
    contenido = contenido[pos_ini:pos_fin]                  # Filtramos con los datos que queremos    
    contenido.remove("Chol")
    contenido.remove("-")
    contenido = ["Chol-Chol" if x=="Chol" else x for x in contenido] #Cambiamos el nombre de cholchol
    
    #Eliminamos los espacios en blanco
    contenido_filtrado = []
    for c in contenido:
        if c != " ":
            contenido_filtrado.append(c)
    
    return contenido_filtrado    

In [89]:
# Retornará si el elemento ingresado es una ciudad
def is_city(elemento):
    bandera  = False
    ciudades = ['Angol', 'Carahue', 'Chol-Chol', 'Collipulli', 'Cunco', 'Curacautín', 'Curarrehue', 'Ercilla', 'Freire', 'Galvarino', 'Gorbea', 'Lautaro', 'Loncoche', 'Lonquimay', 'Los Sauces', 'Lumaco',  'Melipeuco', 'Nueva Imperial', 'Padre Las Casas',  'Perquenco', 'Pitrufquén', 'Pucón', 'Renaico',  'Saavedra', 'Temuco', 'Teodoro Schmidt','Toltén', 'Traiguén',  'Victoria', 'Vilcún', 'Villarrica', 'Purén']
    if elemento in ciudades:
        bandera = True
    return bandera

In [90]:
#Retornará los datos acumulados de los casos por region
def get_data(elemento, f):
    datos = [f]
    #print(elemento)
    anterior = '' 
    ciudad   = ''
    for e in elemento:
        if (is_city(e) == False):
            anterior += e
        else:
            if anterior != '':
                #print (ciudad + " : " + anterior)
                datos.append(int(anterior))
                anterior = ''
        
        if is_city(e):
            ciudad = e
            
    datos.append(elemento[len(elemento)-1]) #Para solucionar el ultimo elemento
    return datos

La siguiente traerá los nombre de las ciudades que entrega el reporte diario.

In [91]:
def get_citys(fecha, url):
    ciudades = ['Fecha']
    data     = get_info(fecha, url)
    for d in data:
        if is_city(d):
            ciudades.append(d)
    return ciudades

ciudades = get_citys(reportes_diarios[0]['fecha'], reportes_diarios[0]['url'])

Obteniendo información del: 01 de Mayo


### Crearemos el dataframe de la región

In [92]:
araucania = pd.DataFrame(columns=ciudades)
araucania

Unnamed: 0,Fecha,Angol,Carahue,Chol-Chol,Collipulli,Cunco,Curacautín,Curarrehue,Ercilla,Freire,...,Purén,Renaico,Saavedra,Temuco,Teodoro Schmidt,Toltén,Traiguén,Victoria,Vilcún,Villarrica


### Llenamos de información el dataframe

In [93]:
for r in reportes_diarios:
    texto     = get_info(r['fecha'], r['url'])       # Obtenemos el texto de la primera pagina del informe
    data      = get_data(texto, r['fecha'])          # Obtenemos la data
    araucania.loc[len(araucania)] = data             # Creamos el data frame

Obteniendo información del: 01 de Mayo
Obteniendo información del: 02 de Mayo
Obteniendo información del: 03 de Mayo
Obteniendo información del: 04 de Mayo
Obteniendo información del: 05 de Mayo
Obteniendo información del: 06 de Mayo
Obteniendo información del: 07 de Mayo
Obteniendo información del: 08 de Mayo
Obteniendo información del: 09 de Mayo
Obteniendo información del: 10 de Mayo
Obteniendo información del: 11 de Mayo
Obteniendo información del: 12 de Mayo
Obteniendo información del: 13 de Mayo
Obteniendo información del: 14 de Mayo
Obteniendo información del: 15 de Mayo
Obteniendo información del: 16 de Mayo
Obteniendo información del: 17 de Mayo
Obteniendo información del: 18 de Mayo
Obteniendo información del: 19 de Mayo
Obteniendo información del: 20 de Mayo
Obteniendo información del: 21 de Mayo
Obteniendo información del: 22 de Mayo
Obteniendo información del: 23 de Mayo
Obteniendo información del: 24 de Mayo
Obteniendo información del: 25 de Mayo
Obteniendo información de

In [94]:
araucania

Unnamed: 0,Fecha,Angol,Carahue,Chol-Chol,Collipulli,Cunco,Curacautín,Curarrehue,Ercilla,Freire,...,Purén,Renaico,Saavedra,Temuco,Teodoro Schmidt,Toltén,Traiguén,Victoria,Vilcún,Villarrica
0,01 de Mayo,102,30,4,6,5,5,4,9,7,...,4,6,25,679,5,8,2,75,42,19
1,02 de Mayo,106,30,4,6,5,6,4,9,7,...,4,7,31,684,5,8,2,75,42,19
2,03 de Mayo,107,34,4,6,5,6,4,9,7,...,5,7,34,687,5,8,2,77,43,19
3,04 de Mayo,108,34,4,6,5,6,4,11,7,...,5,7,34,687,5,8,2,75,43,19
4,05 de Mayo,110,34,4,6,5,6,4,11,7,...,6,9,38,693,5,8,2,76,43,19
5,06 de Mayo,111,34,4,6,5,6,4,11,7,...,6,9,38,696,5,8,2,76,46,20
6,07 de Mayo,113,35,4,6,5,6,4,11,7,...,6,10,38,703,5,8,2,77,47,20
7,08 de Mayo,113,35,4,6,6,7,4,11,7,...,6,12,42,711,5,8,2,78,47,20
8,09 de Mayo,115,35,4,6,6,7,4,11,7,...,7,12,45,715,5,8,2,78,49,20
9,10 de Mayo,117,35,4,6,6,7,4,11,9,...,7,12,50,731,5,8,2,78,49,20
