

# Objetivo

En este trabajo vamos a analizar los datos epidemiológicos generados por el grupo de trabajo [#escovid19data](https://github.com/montera34/escovid19data). Siguiendo los procesos estándares descargaremos los datos desde gitub, analizaremos los campos y prepararemos una serie de gráficas como ayuda para entender como estñá progresando la enfermedad.


@author: Manuel H. Arias 

@Twitter: @walyt

@mail: mharias@me.com



## Importación de librerias estándares para DAE

In [18]:
import pandas as pd

import matplotlib.pyplot as plt

from matplotlib.ticker import FuncFormatter
from matplotlib import cm
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
from matplotlib.dates import (YEARLY, MONTHLY, DateFormatter, MonthLocator,DayLocator,
                              rrulewrapper, RRuleLocator, drange)
import matplotlib.image as mpimg
from matplotlib.animation import FuncAnimation
from matplotlib.offsetbox import TextArea, DrawingArea, OffsetImage, AnnotationBbox
import matplotlib.colors as colors

import numpy as np
from datetime import datetime,timedelta
import seaborn as sns
%matplotlib inline

import urllib.request

import matplotlib.image as mpimg
from matplotlib.animation import FuncAnimation
from matplotlib.offsetbox import TextArea, DrawingArea, OffsetImage, AnnotationBbox
import itertools

## Descargamos la información

Hacemos en primer lugar una actualización de parámetros y preparación de variables que necesitaremos durante el ejercicio

In [19]:
pd.options.display.max_rows = 999 #Variable de contexto para permitir la presentación de datos por pantalla
pd.set_option('display.max_columns', None)

In [20]:
#fuente de pdatos
data_path = 'https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Capacidad_Asistencial_Historico_30032021.csv'
data_path_row = 'https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Capacidad_Asistencial_Historico_{}.csv'

img_path = '/Users/mharias/documents/proyectos/covid/sanidad_hospital/img/'
autor='@walyt'
escovid='@escovid19data'

In [21]:
hashtag_fuente='#escovid19data' #hashtag de la fuente para los créditos

In [22]:
hoy_string = datetime.today().strftime(format='%d %b')
hoy_string = datetime.today().strftime(format='%d%m%Y')

In [23]:
hoy_string

'07042021'

In [24]:
data_path = data_path_row.format(hoy_string)

In [25]:
data_path

'https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Capacidad_Asistencial_Historico_07042021.csv'

Leemos los datos en un `pandas`

In [26]:
df = pd.read_csv(data_path,encoding = "ISO-8859-1",sep=';')

veamos una rápida descripción de la información:

In [27]:
df.tail()

Unnamed: 0,Fecha,Unidad,COD_CCAA,CCAA,Cod_Provincia,Provincia,TOTAL_CAMAS,OCUPADAS_COVID19,OCUPADAS_NO_COVID19
36019,2021-04-06,U. Críticas CON respirador,10,COMUNIDAD VALENCIANA,3,Alicante/Alacant,300,24,130
36020,2021-04-06,U. Críticas CON respirador,16,PAÍS VASCO,1,Araba/Álava,72,11,17
36021,2021-04-06,U. Críticas SIN respirador,7,CASTILLA Y LEÓN,40,Segovia,4,0,0
36022,2021-04-06,U. Críticas SIN respirador,9,CATALUÑA,8,Barcelona,258,69,134
36023,2021-04-06,U. Críticas SIN respirador,10,COMUNIDAD VALENCIANA,12,Castellón/Castelló,2,0,0


In [28]:
df['Fecha'].unique()

array(['2020-08-19', '2020-08-20', '2020-08-21', '2020-08-22',
       '2020-08-23', '2020-08-24', '2020-08-25', '2020-08-26',
       '2020-08-27', '2020-08-28', '2020-08-29', '2020-08-30',
       '2020-08-31', '2020-09-01', '2020-09-02', '2020-09-03',
       '2020-09-04', '2020-09-05', '2020-09-06', '2020-09-07',
       '2020-09-08', '2020-09-09', '2020-09-10', '2020-09-11',
       '2020-09-12', '2020-09-13', '2020-09-14', '2020-09-15',
       '2020-09-16', '2020-09-17', '2020-09-18', '2020-09-19',
       '2020-09-20', '2020-09-21', '2020-09-22', '2020-09-23',
       '2020-09-24', '2020-09-25', '2020-09-26', '2020-09-27',
       '2020-09-28', '2020-09-29', '2020-09-30', '2020-10-01',
       '2020-10-02', '2020-10-03', '2020-10-04', '2020-10-05',
       '2020-10-06', '2020-10-07', '2020-10-08', '2020-10-09',
       '2020-10-10', '2020-10-11', '2020-10-12', '2020-10-13',
       '2020-10-14', '2020-10-15', '2020-10-16', '2020-10-17',
       '2020-10-18', '2020-10-19', '2020-10-20', '2020-

veamos las  columnas de interés:

In [29]:
df.columns

Index(['Fecha', 'Unidad', 'COD_CCAA', 'CCAA', 'Cod_Provincia', 'Provincia',
       'TOTAL_CAMAS', 'OCUPADAS_COVID19', 'OCUPADAS_NO_COVID19'],
      dtype='object')

In [30]:
df.Unidad.unique()

array(['Hospitalización convencional', 'U. Críticas CON respirador',
       'U. Críticas SIN respirador'], dtype=object)

In [31]:
df.CCAA.unique()

array(['ISLAS CANARIAS', 'EXTREMADURA', 'ANDALUCÍA', 'CASTILLA LA MANCHA',
       'NAVARRA', 'PAÍS VASCO', 'MELILLA', 'CASTILLA Y LEÓN', 'ARAGÓN',
       'GALICIA', 'CANTABRIA', 'CATALUÑA', 'COMUNIDAD VALENCIANA',
       'MURCIA', 'LA RIOJA', 'ASTURIAS', 'ISLAS BALEARES', 'MADRID',
       'CEUTA'], dtype=object)

Parece que es ok, no hay nombres duplicados (muy usual que cambie algún acento por ejemplo)

Convertimos la columna `fecha` en datetime

In [34]:
df['Fecha'] = pd.to_datetime(df['Fecha'],format='%Y-%m-%d')

y vamos añadir dos columnas adicionales `hola` : 
- `porcentaje_total`:  `OCUPADAS_COVID19`+`OCUPADAS_NO_COVID19` / `TOTAL_CAMAS` 
- `porcentaje_covid`: `OCUPADAS_COVID19`/ `TOTAL_CAMAS`

In [35]:
(df['Provincia']=='Madrid').any()

True

In [36]:
provincias = sorted(list(df['Provincia'].unique()))
provincias.insert(0,provincias.pop(-1))

In [None]:
fechas = df['Fecha'].unique()
unidades = df['Unidad'].unique()
for i in itertools.product(fechas,provincias,unidades):
    if ((df['Fecha']==i[0])&(df['Provincia']==i[1])&(df['Unidad']==i[2])).any():
        pass
    else:
        print (i)
        df=df.append({
            'Fecha':i[0],
            'Provincia':i[1],
            'Unidad':i[2],
            'TOTAL_CAMAS':np.NaN,
            'OCUPADAS_COVID19':np.NaN,
            'OCUPADAS_COVID19':np.NaN
        },
            ignore_index=True
        )

In [None]:
df.tail()

In [None]:
df[df['Provincia']=='Palencia'].sort_values('Fecha')

In [None]:
df['porcentaje_total'] = 100*(df['OCUPADAS_COVID19']+df['OCUPADAS_NO_COVID19'])/df['TOTAL_CAMAS']
df['porcentaje_covid'] = 100*(df['OCUPADAS_COVID19'])/df['TOTAL_CAMAS']

In [None]:
df=df.fillna(0)

# Gráficos

 A continuación vamos a crear un gráfico múltiple que nos permita visualizar cada una de las columnas con datos numéricos. Ello nos permitirá

Preparemos un gráfico tipo [Facetgrid](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html), al que añadiremos tantos gráficos como provincias, presentando una de las columnas de datos. Elegimos nº de hospitalizados por 100.000 habitantes. Dejo otras claves con `#` para que fácilmente se puedan generar. Este ejemplo esta basado en el código del link anterior.

In [None]:
datos1 = pd.melt(df[df['Unidad']=='Hospitalización convencional'], id_vars=['Fecha','Provincia'],value_vars=['porcentaje_total','porcentaje_covid'])

In [None]:
sns.plotting_context('paper', font_scale = 1.3)
g = sns.FacetGrid(datos1,col='Provincia',hue='variable',col_wrap=4,aspect=2.5, 
                      margin_titles=False,height=1.3,sharey=True,col_order=provincias,palette=['Black','Blue'])
g.map_dataframe(sns.scatterplot, x="Fecha", y="value",s=2)

# Título
unidad = 'Hospitalización convencional'
#unidad = 'U. Críticas CON respirador'
#unidad = 'U. Críticas SIN respirador'
titulo1 = 'Ocupación de {}, por COVID(Rojo) y Total(Negro) a fecha {}'.format(unidad,hoy_string)
titulo2 = 'Fuente : {}'.format(data_path)

color_ejes = 'black'
color_titulos = 'black'
color_total='black'
color_covid='red'

g.set_titles(row_template="{row_name}", col_template="{col_name}",size=18)
XmajorFmt = DateFormatter('%-d%-b')
fmt = '%.0f%%' # Format you want the ticks, e.g. '40%'
yticks = ticker.FormatStrFormatter(fmt)
for ax in g.axes.flat:
    
    ax.yaxis.set_major_formatter(yticks)
    ax.yaxis.set_tick_params(labelsize=10,width=0,labelcolor=color_ejes)
    #a1.yaxis.set_major_locator(plt.MaxNLocator(5))
    ax.xaxis.set_tick_params(labelsize=10,width=0,labelcolor=color_ejes,rotation=0)
    ax.xaxis.set_major_formatter(XmajorFmt)
    ax.set_yticks([0,25,50,75,100])
    ax.xaxis.set_major_locator(DayLocator([1]))
    ax.grid(True,axis='both',which='both')
   


#plt.legend()
#g.set(yticks=[])
g.set(xlabel='')

g.despine(bottom=True, left=True)
g.fig.suptitle('{}'.format(titulo1),fontsize=22,color=color_titulos)
#g.fig.text(x=.4,y=.05,s='ROJO: CAMAS UCI COVID vs UCI TOTALES',color='red',fontsize=18)
#g.fig.text(x=.4,y=.1,s='AZUL: CAMAS HOSP COVID vs CAMAS TOTALES',color='navy',fontsize=18)
g.fig.text(x=0.05,y=.1,s=titulo2,color=color_titulos,fontsize=12,ha='left')
g.fig.text(x=0.05,y=.085,s=autor,color=color_titulos,fontsize=12)
g.fig.subplots_adjust(top=.92,bottom=.14,wspace=0.0,hspace=0.45)
#plt.tight_layout()
plt.savefig(img_path+unidad+'_provincias.png',dpi=288)  

plt.show()


# Graficos de UCI acumulados con respirador y sin respirador

In [None]:
datos2 = df.copy()

In [None]:
for i in itertools.product(fechas,provincias):
    
    
    
    camas_sin = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas SIN respirador')]['TOTAL_CAMAS'].values[0]
    camas_con = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas CON respirador')]['TOTAL_CAMAS'].values[0]
    ocupadas_covid_sin = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas SIN respirador')]['OCUPADAS_COVID19'].values[0]
    ocupadas_covid_con = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas CON respirador')]['OCUPADAS_COVID19'].values[0]
    ocupadas_no_covid_sin = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas SIN respirador')]['OCUPADAS_NO_COVID19'].values[0]
    ocupadas_no_covid_con = datos2.loc[(datos2['Fecha']==i[0])&(datos2['Provincia']==i[1])&(datos2['Unidad']==\
                                                'U. Críticas CON respirador')]['OCUPADAS_NO_COVID19'].values[0]
    datos2=datos2.append({
        'Fecha':i[0],
        'Provincia':i[1],
        'TOTAL_CAMAS':camas_sin+camas_con,
        'OCUPADAS_NO_COVID19':ocupadas_no_covid_sin+ocupadas_no_covid_con,
        'OCUPADAS_COVID19':ocupadas_covid_sin+ocupadas_covid_con,
        'Unidad':'U. Crítica Total'
        
    },ignore_index=True)

In [None]:
datos2['porcentaje_total'] = 100*(datos2['OCUPADAS_COVID19']+datos2['OCUPADAS_NO_COVID19'])/datos2['TOTAL_CAMAS']
datos2['porcentaje_covid'] = 100*datos2['OCUPADAS_COVID19']/datos2['TOTAL_CAMAS']
datos2=datos2.fillna(0)

In [None]:
datos3 = datos2[datos2['Unidad']=='U. Crítica Total']

In [None]:
datos3 = pd.melt(datos3, id_vars=['Fecha','Provincia'],value_vars=['porcentaje_total','porcentaje_covid'])

In [None]:
sns.plotting_context('paper', font_scale = 1.3)
g = sns.FacetGrid(datos3,col='Provincia',hue='variable',col_wrap=4,aspect=2.5, 
                      margin_titles=False,height=1.3,sharey=True,col_order=provincias,palette=['Black','Red'])
g.map_dataframe(sns.scatterplot, x="Fecha", y="value",s=2)
unidad = 'U. Crítica Total'
titulo1 = 'Ocupación de {}, por COVID(Rojo) y Total(Negro) a fecha {}'.format(unidad,hoy_string)
titulo2 = 'Fuente : {}'.format(data_path)
color_ejes = 'black'
color_titulos = 'black'
color_total='black'
color_covid='red'

g.set_titles(row_template="{row_name}", col_template="{col_name}",size=18)
XmajorFmt = DateFormatter('%-d%-b')
fmt = '%.0f%%' # Format you want the ticks, e.g. '40%'
yticks = ticker.FormatStrFormatter(fmt)
for ax in g.axes.flat:
    
    ax.yaxis.set_major_formatter(yticks)
    ax.yaxis.set_tick_params(labelsize=10,width=0,labelcolor=color_ejes)
    #a1.yaxis.set_major_locator(plt.MaxNLocator(5))
    ax.xaxis.set_tick_params(labelsize=10,width=0,labelcolor=color_ejes,rotation=0)
    ax.xaxis.set_major_formatter(XmajorFmt)
    ax.set_yticks([0,25,50,75,100])
    ax.xaxis.set_major_locator(DayLocator([1]))
    ax.grid(True,axis='both',which='both')
   


#plt.legend()
#g.set(yticks=[])
g.set(xlabel='')

g.despine(bottom=True, left=True)
g.fig.suptitle('{}'.format(titulo1),fontsize=22,color=color_titulos)
#g.fig.text(x=.4,y=.05,s='ROJO: CAMAS UCI COVID vs UCI TOTALES',color='red',fontsize=18)
#g.fig.text(x=.4,y=.1,s='AZUL: CAMAS HOSP COVID vs CAMAS TOTALES',color='navy',fontsize=18)
g.fig.text(x=0.05,y=.1,s=titulo2,color=color_titulos,fontsize=12,ha='left')
g.fig.text(x=0.05,y=.085,s=autor,color=color_titulos,fontsize=12)
g.fig.subplots_adjust(top=.92,bottom=.14,wspace=0.0,hspace=0.45)
#plt.tight_layout()
plt.savefig(img_path+unidad+'_provincias.png',dpi=288)  

plt.show()
