# Extracción de las cifras relativas a los casos e incidencia de Covid-19 en Euskadi

Para la obtención de estos datos utilizo los documentos 02.csv y 04.csv de la carpeta situacion-epidemiológica. Estos datos, al igual que el resto de utilizados en este proyecto, se pueden obtener en la web https://opendata.euskadi.eus/inicio/

### 1.- Importación de las librerias necesarias para la limpieza de los datos

In [67]:
import pandas as pd
import numpy as np
import pickle
from datetime import datetime, date

### 2.- Limpieza datos

Antes de importar el documento, elimino la primera fila del encabezamiento del csv en un editor. Es una línea con una breve descripción de los datos que incluye el documento, pero innecesaria para su limpieza. Además, así Pandas reconoce automáticamente el nombre de las columnas.

In [3]:
incidencia = pd.read_csv("situacion-epidemiologica/02.csv", sep=";", encoding="latin-1")

Visualización de los datos importados

In [4]:
incidencia.head()

Unnamed: 0,Data / Fecha,Kasuak / Casos,Euskadi: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) / Euskadi: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs),Araba: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /ï¿½lava: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs),Bizkaia: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /Bizkaia: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs),Gipuzkoa: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /Gipuzkoa: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs),Unnamed: 6,Unnamed: 7
0,2020/03/01,1,5,0,0,0,,
1,2020/03/02,3,18,0,0,0,,
2,2020/03/03,4,37,0,0,0,,
3,2020/03/04,4,55,0,0,0,,
4,2020/03/05,19,142,0,0,0,,


Tras visualizar los datos importados y para facilitar el análisis de los mismos doy los siguientes pasos:

2.1.- Eliminación de las dos últimas columnas

In [5]:
incidencia.columns

Index(['Data / Fecha', 'Kasuak / Casos',
       'Euskadi: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) / Euskadi: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs) ',
       'Araba: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /ï¿½lava: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs) ',
       'Bizkaia: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /Bizkaia: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs) ',
       'Gipuzkoa: 14 eguneko 100.000 biztanleko intzidentzia metatua (PCR testak) /Gipuzkoa: Incidencia acumulada 14 dï¿½as x 100.000 habitantes (test PCRs) ',
       'Unnamed: 6', 'Unnamed: 7'],
      dtype='object')

In [6]:
incidencia.drop(["Unnamed: 6", "Unnamed: 7"], axis="columns", inplace=True)

2.2.- Cambio del nombre de las columnas para su simplificación

In [7]:
columnas = ["Fecha", "Casos", "Incidencia Euskadi", "Incidencia Araba", "Incidencia Bizkaia", "Incidencia Gipuzkoa"]

In [8]:
incidencia.columns = columnas

2.3.- En los números con decimales, sustitución de las comas por los puntos para que Python los reconozca como tal

In [9]:
def remove_comas(string):
    
    """Función para sustituir las comas por los puntos"""
    
    string = string.replace(",", ".")
    return string

In [10]:
incidencia["Casos"] = incidencia["Casos"].apply(lambda x: remove_comas(x))
incidencia["Incidencia Euskadi"] = incidencia["Incidencia Euskadi"].apply(lambda x: remove_comas(x))
incidencia["Incidencia Araba"] = incidencia["Incidencia Araba"].apply(lambda x: remove_comas(x))
incidencia["Incidencia Bizkaia"] = incidencia["Incidencia Bizkaia"].apply(lambda x: remove_comas(x))
incidencia["Incidencia Gipuzkoa"] = incidencia["Incidencia Gipuzkoa"].apply(lambda x: remove_comas(x))

2.4.- Conversión de las cifras a decimales y enteros

In [11]:
incidencia.dtypes

Fecha                  object
Casos                  object
Incidencia Euskadi     object
Incidencia Araba       object
Incidencia Bizkaia     object
Incidencia Gipuzkoa    object
dtype: object

In [12]:
incidencia["Casos"] = incidencia["Casos"].astype(float).astype(int)
incidencia["Incidencia Euskadi"] = incidencia["Incidencia Euskadi"].astype(float)
incidencia["Incidencia Araba"] = incidencia["Incidencia Araba"].astype(float)
incidencia["Incidencia Bizkaia"] = incidencia["Incidencia Bizkaia"].astype(float)
incidencia["Incidencia Gipuzkoa"] = incidencia["Incidencia Gipuzkoa"].astype(float)

2.5.- Cambio del formato de las fechas para que Python las reconozca como tal

In [15]:
def convert_date(string):
    
    """Función para el cambio de formato de las fechas"""
    
    elements = string.split("/")
    result = "/".join([str(elements[2]), str(elements[1]), "20"])
    correct_date = datetime.strptime(result, "%d/%m/%y")
    return correct_date

In [16]:
incidencia["Fecha"] = incidencia["Fecha"].apply(lambda x: convert_date(x))

Al igual que con el anterior csv, antes de importar el documento, elimino la primera fila del encabezamiento del csv en un editor. Es una línea con una breve descripción de los datos que incluye el documento, pero innecesaria para su limpieza. Además, así Pandas reconoce automáticamente el nombre de las columnas.

In [18]:
casos = pd.read_csv("situacion-epidemiologica/04.csv", sep=";", encoding="latin-1")

In [19]:
casos.head()

Unnamed: 0,UDALERRIA / MUNICIPIO,13/05,14/05,15/05,16/05,17/05,18/05,19/05,20/05,21/05,...,09/11,10/11,11/11,12/11,13/11,14/11,15/11,16/11,17/11,Unnamed: 189
0,Agurain/Salvatierra,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,...,4,1,4,0,0,1,0,1,3,
1,Alegrï¿½a-Dulantzi,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,4,0,4,1,3,4,2,1,3,
2,Amurrio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1,3,2,2,7,0,1,4,3,
3,Aï¿½ana,,,,,,,,,,...,0,0,0,0,0,0,0,0,0,
4,Aramaio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0,0,2,1,0,2,2,1,1,


Visualización de los datos importados

2.6.- Eliminación de la última columna

In [20]:
casos.columns

Index(['UDALERRIA / MUNICIPIO', '13/05', '14/05', '15/05', '16/05', '17/05',
       '18/05', '19/05', '20/05', '21/05',
       ...
       '09/11', '10/11', '11/11', '12/11', '13/11', '14/11', '15/11', '16/11',
       '17/11', 'Unnamed: 189'],
      dtype='object', length=190)

In [22]:
casos = casos.iloc[:, :-1]

2.7.- Cambio del nombre de las columnas para su simplificación

In [24]:
casos.rename(columns={"UDALERRIA / MUNICIPIO": "Municipios"}, inplace=True)

2.8.- Sustitución de los NaN por ceros

In [25]:
casos.fillna(0, inplace=True)

2.9.- División del DataFrame por territorios para luego poder calcular los casos diarios en cada uno de ellos

In [26]:
casos_araba = casos.iloc[:51]

In [27]:
casos_araba.set_index("Municipios", inplace=True)

In [28]:
casos_araba = casos_araba.astype(int)

In [29]:
casos_araba = casos_araba.T

In [30]:
casos_araba.head()

Municipios,Agurain/Salvatierra,Alegrï¿½a-Dulantzi,Amurrio,Aï¿½ana,Aramaio,Armiï¿½ï¿½n,Arraia-Maeztu,Arratzua-Ubarrundia,Artziniega,Asparrena,...,San Millï¿½n/Donemiliaga,Urkabustaiz,Valdegovï¿½a/Gaubea,Villabuena de ï¿½lava/Eskuernaga,Vitoria-Gasteiz,Yï¿½cora/Iekora,Zalduondo,Zambrana,Zigoitia,Zuia
13/05,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,3,0,0,0,0,0
14/05,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,7,0,0,0,0,0
15/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
16/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,6,0,0,0,0,0
17/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,2,0,0,0,0,0


In [31]:
casos_bizkaia = casos.iloc[51:163]

In [32]:
casos_bizkaia.set_index("Municipios", inplace=True)

In [33]:
casos_bizkaia = casos_bizkaia.astype(int)

In [34]:
casos_bizkaia = casos_bizkaia.T

In [35]:
casos_bizkaia.head()

Municipios,Abadiï¿½o,Abanto y Ciï¿½rvana-Abanto Zierbena,Ajangiz,Alonsotegi,Amorebieta-Etxano,Amoroto,Arakaldo,Arantzazu,Areatza,Arrankudiaga,...,Urduï¿½a/Orduï¿½a,Valle de Trï¿½paga-Trapagaran,Zaldibar,Zalla,Zamudio,Zaratamo,Zeanuri,Zeberio,Zierbena,Ziortza-Bolibar
13/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
14/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
16/05,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
17/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [36]:
casos_gipuzkoa = casos.iloc[163:251]

In [37]:
casos_gipuzkoa.set_index("Municipios", inplace=True)

In [38]:
casos_gipuzkoa = casos_gipuzkoa.astype(int)

In [39]:
casos_gipuzkoa = casos_gipuzkoa.T

In [40]:
casos_gipuzkoa.head()

Municipios,Abaltzisketa,Aduna,Aia,Aizarnazabal,Alegia,Albiztur,Alkiza,Altzaga,Altzo,Amezketa,...,Usurbil,Villabona,Zaldibia,Zarautz,Zegama,Zerain,Zestoa,Zizurkil,Zumaia,Zumarraga
13/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
14/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
16/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
17/05,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 3.- Obtención datos

Casos totales de Covid-19 desde el inicio de la pandemia en Euskadi.

In [41]:
casos_totales = incidencia["Casos"].sum()

In [42]:
print(casos_totales)

90409


Casos totales de Covid-19 en el último día en Euskadi.

In [43]:
casos_totales_dia = incidencia.iloc[-1]["Casos"]

In [44]:
print(casos_totales_dia)

1050


Incidencia Euskadi

In [45]:
incidencia_euskadi = incidencia.iloc[-1]["Incidencia Euskadi"]

In [46]:
print(incidencia_euskadi)

799.49


Incidencia Araba

In [47]:
incidencia_araba = incidencia.iloc[-1]["Incidencia Araba"]

In [48]:
print(incidencia_araba)

539.38


Incidencia Bizkaia

In [49]:
incidencia_bizkaia = incidencia.iloc[-1]["Incidencia Bizkaia"]

In [50]:
print(incidencia_bizkaia)

706.13


Incidencia Gipuzkoa

In [51]:
incidencia_gipuzkoa = incidencia.iloc[-1]["Incidencia Gipuzkoa"]

In [52]:
print(incidencia_gipuzkoa)

1040.72


Casos al día Araba

In [53]:
casos_araba_dia = casos_araba.iloc[[-1]].sum(axis=1)

In [54]:
casos_araba_dia = casos_araba_dia.iloc[0]

In [55]:
print(casos_araba_dia)

122


Casos al día Bizkaia

In [56]:
casos_bizkaia_dia = casos_bizkaia.iloc[[-1]].sum(axis=1)

In [57]:
casos_bizkaia_dia = casos_bizkaia_dia.iloc[0]

In [58]:
print(casos_bizkaia_dia)

459


Casos al día Gipuzkoa

In [59]:
casos_gipuzkoa_dia = casos_gipuzkoa.iloc[[-1]].sum(axis=1)

In [60]:
casos_gipuzkoa_dia = casos_gipuzkoa_dia.iloc[0]

In [61]:
print(casos_gipuzkoa_dia)

459


Casos con residencia fuera de Euskadi

In [62]:
casos_no_euskadi = int(casos.iat[-1, -1])

In [63]:
print(casos_no_euskadi)

10


Fecha actualización

In [70]:
fecha_actualizacion = date.today()

In [71]:
print(fecha_actualizacion)

2020-11-18


Casos segunda ola

In [84]:
segunda = incidencia[122:]

In [87]:
segunda.reset_index(drop=True, inplace=True)

### 4.- Exportación datos

Exportación de los datos que el Bot va a incluir en los mensajes que intercambiará con el usuario.

In [72]:
datos_casos = open("../mensajes/casos.pickle", "wb")

In [73]:
pickle.dump(casos_totales, datos_casos)
pickle.dump(casos_totales_dia, datos_casos)
pickle.dump(casos_araba_dia, datos_casos)
pickle.dump(casos_bizkaia_dia, datos_casos)
pickle.dump(casos_gipuzkoa_dia, datos_casos)
pickle.dump(casos_no_euskadi, datos_casos)
pickle.dump(incidencia_euskadi, datos_casos)
pickle.dump(incidencia_araba, datos_casos)
pickle.dump(incidencia_bizkaia, datos_casos)
pickle.dump(incidencia_gipuzkoa, datos_casos)
pickle.dump(fecha_actualizacion, datos_casos)

In [74]:
datos_casos.close()

Exportación de un nuevo csv para hacer una visualización sobre la evolución de la incidencia en los últimos 30 días

In [75]:
incidencia_30 = incidencia[-30:]

In [76]:
incidencia_30.reset_index(drop=True, inplace=True)

In [77]:
incidencia_30.to_csv("../graficos/incidencia.csv")

Exportación de un nuevo csv para hacer una visualización sobre la evolución de los casos en la segunda ola

In [89]:
segunda.to_csv("../graficos/casos.csv")