# Inicialización del entorno

In [10]:
# Se importan las librerías necesarias para poder capturar los datos,
# generar el dataset y hacer un primer análisis exploratorio
from requests import get
from bs4 import BeautifulSoup
from datetime import date, timedelta
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import io

In [11]:
# Se define la URL de donde se van a obtener los datos
url = 'https://analisi.transparenciacatalunya.cat/api/views/xuwf-dxjd/rows.csv?accessType=DOWNLOAD&sorting=true'
# Se define el nombre del fichero donde se guardará el dataset
dataset_file_name = 'covid-19_2020_cat.csv'
# Se define una variable para activar el guardado del dataset en un csv
save_csv = True
# Se define otra variable para concatenar datos en el csv
append_csv = False
# Se define el percentil de casos sobre el que han de estar los países
# para mostrarlos en el análisis exploratorio
percentile = 97

# Implementación de las técnicas de _web scrapping_

In [12]:
# Se obtiene el contenido de la web
page = get(url).content
# Se convierte el contenido en un DataFrame
df = pd.read_csv(io.StringIO(page.decode('utf-8')))
display(df.head())

Unnamed: 0,Data,RegioSanitariaCodi,RegioSanitariaDescripcio,SectorSanitariCodi,SectorSanitariDescripcio,ABSCodi,ABSDescripcio,SexeCodi,SexeDescripcio,ResultatCovidCodi,ResultatCovidDescripcio,NumCasos
0,02/04/2020,78,Barcelona,7844,Vallès Occidental Est,320,Barberà del Vallès,1,Dona,0,Negatiu,4
1,02/04/2020,61,Lleida,6156,Lleida,86,Les Borges Blanques,1,Dona,1,Positiu,1
2,02/04/2020,78,Barcelona,7850,Barcelona Sarrià-Sant Gervasi,44,Barcelona 5-C,0,Home,0,Negatiu,1
3,02/04/2020,78,Barcelona,7843,Vallès Occidental Oest,249,Terrassa C,1,Dona,0,Negatiu,2
4,02/04/2020,78,Barcelona,7843,Vallès Occidental Oest,310,Rubí 2,1,Dona,0,Negatiu,4


In [13]:
# Si está activado el guardado del dataset en un fichero
if save_csv:
    # Si está activada la opción de concatenar datos
    if append_csv:
        print('Adding data to csv...')
        # Se concatenan los datos del dataset en el fichero
        df.to_csv(dataset_file_name, mode = 'a', 
                  header = False, index = False) 
    # En caso contrario
    else:
        print('Creating csv...')
        # Se genera un nuevo fichero
        df.to_csv(dataset_file_name, index = False)    

Creating csv...


# Validación del _dataset_ y primer análisis exploratiro

In [14]:
# Se comprueba que los datos se han almacenado correctamente en el fichero
# Generando un DataFrame a partir del fichero
df = pd.read_csv(dataset_file_name)
display(df)

Unnamed: 0,Data,RegioSanitariaCodi,RegioSanitariaDescripcio,SectorSanitariCodi,SectorSanitariDescripcio,ABSCodi,ABSDescripcio,SexeCodi,SexeDescripcio,ResultatCovidCodi,ResultatCovidDescripcio,NumCasos
0,02/04/2020,78,Barcelona,7844,Vallès Occidental Est,320,Barberà del Vallès,1,Dona,0,Negatiu,4
1,02/04/2020,61,Lleida,6156,Lleida,86,Les Borges Blanques,1,Dona,1,Positiu,1
2,02/04/2020,78,Barcelona,7850,Barcelona Sarrià-Sant Gervasi,44,Barcelona 5-C,0,Home,0,Negatiu,1
3,02/04/2020,78,Barcelona,7843,Vallès Occidental Oest,249,Terrassa C,1,Dona,0,Negatiu,2
4,02/04/2020,78,Barcelona,7843,Vallès Occidental Oest,310,Rubí 2,1,Dona,0,Negatiu,4
5,02/04/2020,78,Barcelona,7867,Barcelonès Nord i Maresme,222,Santa Coloma de Gramenet 1,0,Home,0,Negatiu,1
6,02/04/2020,78,Barcelona,7867,Barcelonès Nord i Maresme,273,Badalona 2,1,Dona,0,Negatiu,1
7,02/04/2020,78,Barcelona,7866,Baix Llobregat Centre-Litoral i l'Hospitalet d...,216,Sant Just Desvern,1,Dona,0,Negatiu,3
8,02/04/2020,78,Barcelona,7853,Barcelona Horta-Guinardó,54,Barcelona 7-D,1,Dona,0,Negatiu,3
9,02/04/2020,78,Barcelona,7831,Baix Llobregat Nord,149,Martorell,1,Dona,0,Negatiu,7
