# Taller de visualización de datos, "Visualizando datos de COVID-19"
## Manejo y procesamiento de datos
En esta sección del tutorial descragaremos los datos, los procesaremos, haremos algunas gráficas exploratorias y generaremos los insumos necesarios para visualizar nuestros datos en la web.

La celda que estas leyendo es una celda de texto, no es necesario que teclees todo esto en tu ejemplo. La siguiente celda es una celda de código. Para seguir el ejemplo tendras que ir tecleando cada una de ellas y ejecutandolas paso a paso. La manera más fácil de ejecutar una celda de Jupyter es después de teclearla presionar Shift+Enter, esto ejecutará el código en ella, te mosdtrará el resultado de la ejecución si es que hay algo que mostrar y te dará una celda nueva debajo de la celda actual. Probemos con la siguiente celda, escribe 2+2 y presiona Shift+Enter, la celda debería de darte el resultado de la suma y colocarte en una celda nueva.

In [1]:
2+2

4

Si se ejecutó la celda y obtuviste el resultado todo está listo para continuar.

## Importando las librerías necesarias para realizar análisis de datos

Lo primero que haremos es importar las librerías necesarias para hacer análisis de datos. Por lo pronto necesitaremos 2 librterías:

* [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html)
* [Bokeh](https://docs.bokeh.org/en/latest/index.html)

Pandas lo usaremos para manipular de formas muy eficientes nuestra base de datos. 

Bokeh lo utilizaremos para graficar y realizar algunas visualizaciones de datos básicas con nuestros datos.

Ambas las importaremos a nuestro notebook a traves del comando import y las guardaremos en aliases para que no tengamos que teclear tanto cuando las llamamos. Pandas la guardaremos en el alias "pd" y Bokeh lo guardaremos en el alias "bpl"


In [167]:
import pandas as pd 
import bokeh.plotting as bpl
import bokeh.models as bmd
import bokeh.layouts as bly
import bokeh.transform as btr
import bokeh.palettes as bpa

## Descargando los datos

En este tutorial trabajaremos con los datos mexicanos reportados por la secretaría de salud relacionados al COVID19. Los datos se publican diariamente y se pueden encontrar [aquí](https://www.gob.mx/salud/documentos/datos-abiertos-152127).

En específico nos concentraremos en los datos actuales, que se encuentran en un enlace en esa página. 

Para poder trabajar con los datos en python necesitamos "cargarlos" a memoria. Pandas nos permite crear una estructura de datos con ellos. A esta estructura la llamamos DataFrame.

Pandas nos permite crear DataFrames a partir de una gran cantidad de formatos de datos. Los más usuales son los formatos de texto separado por comas o "CSVs", texto en notación de objeto tipo JavaScript o "JSON", hojas de cálculo de excel. Además Pandas nos permite indicar la dirección de donde está guardado nuestro archivo a utilizar, puede ser una dirección local en tu computadora, por ejemplo una carpeta donde tengas guardados los datos o una dirección URL donde estén almacenados los datos en la web.

Para este ejercicio descargaremos directamente los datos de la página de la secretaría de salud pública. Los datos que liberaron están en formato zip, dentro del archivo comprimido hay un archivo de tipo CSV que podemos usar para crear un DataFrame. Pandas nos permite crear un DataFrame en nuestro notebook directamente desde la URL donde están guardados los datos, sin descargarlos y descomprimirlos a nuestra computadora previamente.

Teclea y ejecuta lo siguiente en tu notebook:

In [3]:
data = pd.read_csv('http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip', compression='zip',encoding="latin1")

La instrucción anterior carga los últimos datos liberados por la secretaría, Si queremos los datos de un día en específico podemos cargarlos poniendo la ruta correcta...

In [4]:
data = pd.read_csv('http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/historicos/10/datos_abiertos_covid19_18.10.2020.zip', compression='zip',encoding="latin1")

Hay varias cosas importantes en la celda anterior:

* Estamos ocupando la función read_csv de Pandas, por eso la invocamos como pd.read_csv() 
* El primer parámetro de la función es la ruta en la cual se encuentra nuestro archivo, en este caso es una dirección URL al archivo zip en la página de la secretaría de salud mexicana.
* Estamos utilizando la opción "compression" para indicar que es un archivo tipo zip
* Necesitamos indicar que la codificación del archivo es "latin1".
* La función read_csv() crea un DataFrame listo para procesarse. Este DataFrame lo guardamos en la variable "data".

Para poder visualizar nuestro DataFrame necesitamos ver el contenido de la variable data, nuestro DataFrame tiene la estructura de una tabla de datos, muy parecida a una hoja de cálculo. En la siguiente celda veremos que hay en esta variable

In [5]:
data

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-10-18,1426fb,1,4,10,1,28,10,7,1,...,2,2,99,1,1,3,99,MÃ©xico,97,97
1,2020-10-18,1c4583,2,12,9,2,9,9,4,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
2,2020-10-18,0d55c9,2,12,9,1,9,9,16,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
3,2020-10-18,071735,2,9,21,2,21,21,114,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
4,2020-10-18,1468a5,1,4,5,1,15,5,18,1,...,2,2,1,1,1,3,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183267,2020-10-18,332cf5,2,4,30,1,30,30,135,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2183268,2020-10-18,42c51a,2,12,9,2,9,9,10,1,...,2,2,1,1,3,6,99,MÃ©xico,97,97
2183269,2020-10-18,408ef1,2,6,9,2,9,9,5,1,...,2,2,1,2,97,1,99,MÃ©xico,97,97
2183270,2020-10-18,372368,2,9,8,2,8,8,19,2,...,2,2,2,1,3,6,99,MÃ©xico,97,2


Podemos observar que la estructura es muy similar a una hoja de cálculo. Cada dato está identificado por una columna en la parte posterior y un índice en la parte izquierda. Cada fila representa un caso en la base de datos, cada columna una variable con datos para cada caso. En la parte inferior podemos observar que nuestro DataFrame tiene 2,183,272 filas (este número puede variar dependiendo de cuando descargas el archivo pues diariamente este archivo crece debido a los casos que se agregan) y 38 columnas.

## Explorando un DataFrame

El primer paso para explorar una base de datos es conocer las variables que se encuentran en ella. En este caso podemos pedirle al DataFrame que nos muestre las columnas que contiene. El nombre de las columnas están guardadas en la propiedad "columns"

In [6]:
data.columns

Index(['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'SECTOR', 'ENTIDAD_UM',
       'SEXO', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES', 'TIPO_PACIENTE',
       'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA',
       'EDAD', 'NACIONALIDAD', 'EMBARAZO', 'HABLA_LENGUA_INDIG', 'INDIGENA',
       'DIABETES', 'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO',
       'OTRO_CASO', 'TOMA_MUESTRA', 'RESULTADO_LAB', 'CLASIFICACION_FINAL',
       'MIGRANTE', 'PAIS_NACIONALIDAD', 'PAIS_ORIGEN', 'UCI'],
      dtype='object')

Existen varias maneras para poder extraer pedazos o rebanadas del DataFrame. Por ejemplo podemos pedir una rebanada que contenga solamente la columna "FECHA_ACTUALIZACION". Para esto utilizaremos la notación de corchete, escribimos el nombre de la variable donde tenemos guardado nuestro DataFrame y luego entre corchetes la columna que nos interesa. La estructura resultante no es un DataFrame, es una Serie (similar a un DataFrame de una columna).

In [7]:
data["FECHA_ACTUALIZACION"]

0          2020-10-18
1          2020-10-18
2          2020-10-18
3          2020-10-18
4          2020-10-18
              ...    
2183267    2020-10-18
2183268    2020-10-18
2183269    2020-10-18
2183270    2020-10-18
2183271    2020-10-18
Name: FECHA_ACTUALIZACION, Length: 2183272, dtype: object

Tambien podemos pedir un conjunto de columnas, para ello utilizamos la misma notación pero con una lista de las columnas que deseamos, por ejemplo pidamos las columnas relacionadas con fechas:

In [8]:
data[["FECHA_ACTUALIZACION","FECHA_INGRESO","FECHA_SINTOMAS","FECHA_DEF"]]

Unnamed: 0,FECHA_ACTUALIZACION,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF
0,2020-10-18,2020-03-31,2020-03-29,9999-99-99
1,2020-10-18,2020-03-30,2020-03-30,9999-99-99
2,2020-10-18,2020-03-26,2020-03-24,9999-99-99
3,2020-10-18,2020-03-18,2020-03-12,9999-99-99
4,2020-10-18,2020-04-02,2020-03-27,9999-99-99
...,...,...,...,...
2183267,2020-10-18,2020-10-14,2020-10-11,9999-99-99
2183268,2020-10-18,2020-10-09,2020-10-07,9999-99-99
2183269,2020-10-18,2020-10-09,2020-10-02,9999-99-99
2183270,2020-10-18,2020-10-15,2020-10-05,9999-99-99


La estructura de datos obtenida es un DataFrame con todas las filas de nuestro DataFrame original pero con solo 4 columnas.

También podemos pedir filas en específico, para distinguir entre columnas y filas siempre que necesitemos filas utilizaremos la propiedad "loc". Su uso es muy similar, por ejemplo, si quisera la fila 10 únicamente puedo hacerlo de la siguiente manera:

In [9]:
data.loc[10]

FECHA_ACTUALIZACION    2020-10-18
ID_REGISTRO                092521
ORIGEN                          1
SECTOR                         12
ENTIDAD_UM                      9
SEXO                            1
ENTIDAD_NAC                     9
ENTIDAD_RES                     9
MUNICIPIO_RES                  17
TIPO_PACIENTE                   1
FECHA_INGRESO          2020-03-30
FECHA_SINTOMAS         2020-03-28
FECHA_DEF              9999-99-99
INTUBADO                       97
NEUMONIA                        2
EDAD                           49
NACIONALIDAD                    1
EMBARAZO                        2
HABLA_LENGUA_INDIG              2
INDIGENA                        2
DIABETES                        2
EPOC                            2
ASMA                            2
INMUSUPR                        2
HIPERTENSION                    2
OTRA_COM                        2
CARDIOVASCULAR                  2
OBESIDAD                        2
RENAL_CRONICA                   2
TABAQUISMO    

También podemos pedir varias filas, por ejemplo hagamos un DataFrame con las filas 1,3 y 6:

In [10]:
data.loc[[1,3,6]]

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
1,2020-10-18,1c4583,2,12,9,2,9,9,4,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
3,2020-10-18,071735,2,9,21,2,21,21,114,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
6,2020-10-18,0e07d8,1,4,15,2,15,15,104,2,...,2,2,99,1,1,3,99,MÃ©xico,97,2


La notación loc nos permite combinar y pedir solamente un número determinado de filas y un número determinado de columnas. Solamente tenemos que recordar que primero van las filas y luego las columnas, por ejemplo si quisieramos un mini DataFrame conformado por las filas 1,3,6 y las columnas relacionadas con fechas haríamos lo siguiente:

In [11]:
data.loc[[1,3,6],["FECHA_ACTUALIZACION","FECHA_INGRESO","FECHA_SINTOMAS","FECHA_DEF"]]

Unnamed: 0,FECHA_ACTUALIZACION,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF
1,2020-10-18,2020-03-30,2020-03-30,9999-99-99
3,2020-10-18,2020-03-18,2020-03-12,9999-99-99
6,2020-10-18,2020-03-28,2020-03-28,2020-04-02


Una última cosa que tenemos que saber acerca de la notación loc es que nos permite usar rangos. La notación de rangos nos permite pedir filas o columnas empezando en una y terminando en otra incluyendo todas las que estén en medio. El inicio y el final del rango se separan con el símbolo de 2 puntos. Por ejemplo, para pedir las filas 10 a 20 y columnas entre "ENTIDAD_NAC" y "TIPO_PACIENTE" usamos la siguiente instrucción:

In [12]:
data.loc[10:20,"ENTIDAD_NAC":"TIPO_PACIENTE"]

Unnamed: 0,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE
10,9,9,17,1
11,14,6,10,1
12,9,14,67,2
13,23,23,5,1
14,17,9,12,1
15,14,14,120,1
16,11,11,20,1
17,9,9,10,1
18,11,11,7,1
19,26,26,55,2


## Los datos principales

En el DataFrame hay variables muy interesantes, hay mucho material para hacer visualizaciones! Por el momento nos enfocaremos en los datos básicos reportados en las conferencias diarias de la secretaría de salud. La secretaría de Salud en su conferencia nocturna muestra la siguiente imagen:

![Resultados covid](./imagenes/img2.png)

En ella se muestran algunos datos que son importantes, principalmente el número de casos confirmados, el número de casos sospechosos, el número de casos negativos y el número de defunciones hasta la fecha. Los sospechosos los dividen en sospechosos sin muestra, sospechosos sin posibilidad de resultado y sopechosos con posibilidad de resultado.

## Obteniendo las datos principales

Si analilzamos el diccionario de datos proporcionado por la Secretaría de Salud que se encuentra en este [enlace](http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip) podemos observar que la variable "CLASIFICACION_FINAL" nos permite clasificar los casos de acuerdo a su calidad de confirmados, sospechosos o negativos. Para explorar los valores de una columna podemos utilizar la función value_counts(). Seleccionamos la columna de interes, en este caso "CLASIFICACION_FINAL" y ehecutamos la función value_counts()

In [13]:
data["CLASIFICACION_FINAL"].value_counts()

7    1019821
3     826576
6     265492
5      40954
1      24032
4       5778
2        619
Name: CLASIFICACION_FINAL, dtype: int64

Esta instrucción nos permite saber cuantos registros existen en la columna para cada uno de los valores que aparecen en ella, así podemos ver que en la columna ocurren valores del 1 al 7, los cuales se concuerdan con los valores de esa variable de acuerdo al diccionario de datos proporcionado. Además podemos ver cuantas veces aparece en la base de datos cada valor, así el valor 7 correspondiente en el diccionario a los casos "Negativos a SARS-COV-2" es el que aparece más veces en la base de datos. Aparece 1,019,821 veces lo cual quiere decir que la base de datos contiene ese número de casos negativos. Si comparamos con la imágen vemos que se corresponde el valor de nuestra base de datos y lo reportado por la Secretaría de Salud en su conferencia. (La imágen corresponde a los datos descargados el 18 de octubre de 2020, si estás repitiendo este ejercicio otro día el número será diferente, compáralo con lo reportado en la conferencia de ese día. Acá encuentras todas las [conferencias](https://www.youtube.com/channel/UCu2Uc7YeJmE9mvGG9OK-zbQ)).

## Filtrando el DataFrame

¿Cómo le haríamos para obtener de nuestro DataFrame todos los casos negativos? Extraer todos los casos negativos equivale a obtener todas las filas para las que la columna "CLASIFICACION_FINAL" tiene un valor de 7. Afortunadamente Pandas nos permite seleccionarlas y generar un nuevo DataFrame solamente con nuestra selección. El procedimiento es el siguiente:

## Casos negativos

Pandas nos permite evaluar una condición en toda una columna en una sola operación, por ejemplo, para el caso que nos ocupa, queremos saber de la columna "CLASIFICACION_FINAL" cuales filas cumplen con la condición de tener un valor igual a 7. Podemos evaluar esta condicón seleccionando la columna e igualandola (con doble igual) al valor que queremos evaluar

In [14]:
data["CLASIFICACION_FINAL"]==7

0          False
1          False
2          False
3          False
4          False
           ...  
2183267    False
2183268    False
2183269    False
2183270    False
2183271    False
Name: CLASIFICACION_FINAL, Length: 2183272, dtype: bool

podemos observar que el resultado es una serie llena de valores verdaderos y falsos, guardemos esa columna con valores verdaderos y falsos en una variable, llamémosla "condicion_negativos":

In [15]:
condicion_negativos = data["CLASIFICACION_FINAL"]==7

Exploremos que valores contiene la serie y cuantos registros de cada valor, para esto volvemos a utilizar la función value_counts():

In [16]:
condicion_negativos.value_counts()

False    1163451
True     1019821
Name: CLASIFICACION_FINAL, dtype: int64

Observamos que hay 1,163,451 registros o filas con el valor "False" y 1,019,821 registros o filas con el valor "True". Este último conteo se corresponde con nuestro número de casos negativos a SARS-COV-2 en la base de datos. Es decir, todas aquellas filas en donde el valor de la columna era 7 se transformaron en un True y todas aquellas que tenían un valor diferente a 7 se transformaron en un False.

Recordemos que en la variable condicion_negativos está guardada nuestra columna llena de True y False. Pandas nos permite usarla para filtrar el DataFrame original (que está guardado en nuestra variable "data"). La sintaxis es similar a cuando le pediamos una columna (lo cual es desafortunado). Se hace de la siguiente manera:

In [17]:
data[condicion_negativos]

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
3950,2020-10-18,13f641,1,12,26,1,16,26,55,2,...,2,2,2,1,2,7,99,MÃ©xico,97,99
3951,2020-10-18,1e20d5,1,4,16,1,16,16,52,1,...,2,2,99,1,2,7,99,MÃ©xico,97,97
3952,2020-10-18,01ee3f,1,12,24,2,24,24,13,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
3953,2020-10-18,0cf214,1,12,13,2,13,13,60,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
3954,2020-10-18,0b5ebb,2,12,19,1,19,19,26,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2134599,2020-10-18,38af8c,2,4,9,1,9,9,17,1,...,2,1,2,1,2,7,99,MÃ©xico,97,97
2134600,2020-10-18,390ba7,1,4,14,1,14,14,39,1,...,2,2,1,1,2,7,99,MÃ©xico,97,97
2134601,2020-10-18,33b9ba,2,4,21,1,21,21,114,2,...,2,2,2,1,2,7,99,MÃ©xico,97,2
2134602,2020-10-18,33712d,2,12,9,2,15,9,7,1,...,2,1,1,1,2,7,99,MÃ©xico,97,97


En la parte inferior izquierda del resultado podemos ver que este es un nuevo DataFrame que contiene únicamente 1,019,821 filas, es decir contiene únicamente casos negativos. Contiene únicamente casos para los cuales la condición que evaluamos a la columna resultó ser verdadera o True

Repitamos el ejercicio pero ahora sin guardar la condición en una variable intermedia y guardando el resultado en una variable que contenga un DataFrame con únicamente los casos negativos a SARS-COV-2:

In [18]:
negativos = data[data["CLASIFICACION_FINAL"]==7]
negativos

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
3950,2020-10-18,13f641,1,12,26,1,16,26,55,2,...,2,2,2,1,2,7,99,MÃ©xico,97,99
3951,2020-10-18,1e20d5,1,4,16,1,16,16,52,1,...,2,2,99,1,2,7,99,MÃ©xico,97,97
3952,2020-10-18,01ee3f,1,12,24,2,24,24,13,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
3953,2020-10-18,0cf214,1,12,13,2,13,13,60,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
3954,2020-10-18,0b5ebb,2,12,19,1,19,19,26,1,...,2,2,2,1,2,7,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2134599,2020-10-18,38af8c,2,4,9,1,9,9,17,1,...,2,1,2,1,2,7,99,MÃ©xico,97,97
2134600,2020-10-18,390ba7,1,4,14,1,14,14,39,1,...,2,2,1,1,2,7,99,MÃ©xico,97,97
2134601,2020-10-18,33b9ba,2,4,21,1,21,21,114,2,...,2,2,2,1,2,7,99,MÃ©xico,97,2
2134602,2020-10-18,33712d,2,12,9,2,15,9,7,1,...,2,1,1,1,2,7,99,MÃ©xico,97,97


Como se puede apreciar en la instrucción anterior podemos poner la condición a evaluar directamente entre los corchetes para filtrar el DataFrame y obtener una versión con los registros que nos interesan.

## Casos confirmados

De acuerdo al diccionario de datos, los casos confirmados se conforman por 3 valores: 
* el valor 1 correspondiente a casos confirmados por asociación clínica epidemiológica
* el valor 2 correspondiente a casos confirmados por comité de dictaminación
* el valor 3 correspondiente a casos confirmados por laboratorio

Es decir, para detectar los casos confirmados necesitamos todas aquellas filas en nuestro DataFrame original que tengan los valores 1,2 o 3 en la columna "CLASIFICACION_FINAL". Para filtrar esas filas necesitamos armar esa condición compuesta.

Podemos armar condiciones compuestas usando operadores lógicos como "and" y "or". En Pandas el operador asociado a and es "&" y el operador asociado a or es "|".

La condición que queremos es: valor de la columna "CLASIFICACION_FINAL" igual a 1, o igual a 2 o igual a 3, en código podemos ponerla de la siguiente manera

In [19]:
(data["CLASIFICACION_FINAL"] == 1) | (data["CLASIFICACION_FINAL"] == 2) | (data["CLASIFICACION_FINAL"] == 3)

0           True
1           True
2           True
3           True
4           True
           ...  
2183267    False
2183268    False
2183269     True
2183270    False
2183271    False
Name: CLASIFICACION_FINAL, Length: 2183272, dtype: bool

El resultado es una serie llena de True y False, True en donde la fila satisface la condición y False en aquellas que no lo satisfacen. 

Existe una manera más compacta para evaluar esta condición. Podemos preguntarle al valor de la columna si se encuentra o no en los valores contenidos en una lista de valores. Esto lo hacemos a traves de la función isin(). El único parámetro que utiliza esta función es una lista con los valores a comparar, en este caso pasaremos una lista con los valores 1,2 y 3. En python las listas se ponen entre corchetes.

In [20]:
data["CLASIFICACION_FINAL"].isin([1,2,3])

0           True
1           True
2           True
3           True
4           True
           ...  
2183267    False
2183268    False
2183269     True
2183270    False
2183271    False
Name: CLASIFICACION_FINAL, Length: 2183272, dtype: bool

Esta es la condición que usaremos para filtrar nuestro DataFrame original. El resultado será un nuevo DataFrame que contiene únicamente los casos confirmados. Este nuevo DataFrame lo guardaremos en la variable confirmados

In [21]:
confirmados = data[data["CLASIFICACION_FINAL"].isin([1,2,3])]
confirmados

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-10-18,1426fb,1,4,10,1,28,10,7,1,...,2,2,99,1,1,3,99,MÃ©xico,97,97
1,2020-10-18,1c4583,2,12,9,2,9,9,4,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
2,2020-10-18,0d55c9,2,12,9,1,9,9,16,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
3,2020-10-18,071735,2,9,21,2,21,21,114,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
4,2020-10-18,1468a5,1,4,5,1,15,5,18,1,...,2,2,1,1,1,3,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183114,2020-10-18,2fcdc7,1,12,26,1,26,26,30,1,...,2,2,1,2,97,1,99,MÃ©xico,97,97
2183136,2020-10-18,3c6f4d,1,12,26,2,26,26,19,1,...,2,2,1,2,97,1,99,MÃ©xico,97,97
2183216,2020-10-18,373591,1,6,20,1,20,20,399,1,...,2,2,2,2,97,1,99,MÃ©xico,97,97
2183262,2020-10-18,365e11,1,6,9,1,17,15,58,2,...,2,2,2,2,97,1,99,MÃ©xico,97,2


En la parte inferior izquierda del resultado podemos ver que este DataFrame contiene 851,227 filas, este número se corresponde con lo reportado por la Secretaría de Salud el 18 de octubre de 2020.

## Casos sospechosos

Para filtrar los casos sospechosos podemos volver a checar el diccionario de datos. De acuerdo a la información en el diccionario los casos sospechosos están identificados con el valor 6 en la columna "CLASIFICACION_FINAL". Filtrémoslos y guardémoslos en una variable!

In [22]:
sospechosos=data[data["CLASIFICACION_FINAL"]==6]
sospechosos

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
39125,2020-10-18,193243,2,4,19,2,10,19,46,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39126,2020-10-18,0462c9,2,4,14,1,14,14,120,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39127,2020-10-18,0cafed,2,4,19,2,19,19,26,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39128,2020-10-18,194bf3,2,4,11,2,11,11,7,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39129,2020-10-18,1b4b5a,2,4,26,2,26,26,55,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183266,2020-10-18,2edfde,2,6,28,2,28,28,9,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2183267,2020-10-18,332cf5,2,4,30,1,30,30,135,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2183268,2020-10-18,42c51a,2,12,9,2,9,9,10,1,...,2,2,1,1,3,6,99,MÃ©xico,97,97
2183270,2020-10-18,372368,2,9,8,2,8,8,19,2,...,2,2,2,1,3,6,99,MÃ©xico,97,2


En el reporte de la secretaría separan a los casos sospechosos en "sospechosos sin muestra", "sospechosos con posibilidad de resultado" y "sospechosos sin posibilidad de resultado". Para obtenerlos necesitamos algunos filtros compuestos mezclando los valores de dos columnas, por un lado la columna que estuvimos utilizando previamente "CLASIFICACION_FINAL" y además la columna con los resultados del laboratorio "RESULTADO_LAB"

## Sospechosos sin muestra

Los casos sospechosos sin muestra podemos identificarlos como casos con valor 6 en la columna de "CLASIFICACION_FINAL" y valor 97 en la columna de "RESULTADO_LAB". Este valor corresponde con los resultados de laboratorio clasificados como "No aplica (caso sin muestra)" en el diccionario de datos. Para poder filtrar usaremos la notación usada previamente para cada una de las condiciones y el operador "and" que en Pandas es "&".

In [23]:
sospechosos_sin_muestra=data[(data["CLASIFICACION_FINAL"]==6)&(data["RESULTADO_LAB"]==97)]
sospechosos_sin_muestra

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
39125,2020-10-18,193243,2,4,19,2,10,19,46,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39126,2020-10-18,0462c9,2,4,14,1,14,14,120,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39127,2020-10-18,0cafed,2,4,19,2,19,19,26,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39128,2020-10-18,194bf3,2,4,11,2,11,11,7,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
39129,2020-10-18,1b4b5a,2,4,26,2,26,26,55,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183248,2020-10-18,37c6a8,2,12,11,1,11,11,31,1,...,2,2,2,2,97,6,99,MÃ©xico,97,97
2183251,2020-10-18,28b4d5,1,12,1,2,1,1,1,1,...,2,2,2,2,97,6,99,MÃ©xico,97,97
2183255,2020-10-18,414a3f,1,12,1,2,1,1,1,1,...,2,2,99,2,97,6,99,MÃ©xico,97,97
2183263,2020-10-18,3d7bff,1,4,19,2,19,19,31,1,...,2,2,2,2,97,6,99,MÃ©xico,97,97


## Sospechosos con posibilidad de resultado

Para identificar los sospechosos con posibilidad de resultado necesitamos un filtro compuesto por el valor 6 en la columna "CLASIFICACION_FINAL" y el valor 3 en la columna "RESULTADO_LAB". Este valor corresponde con la clasificación "Resultado pendiente" en el diccionario.

In [24]:
sospechosos_con_posibilidad=data[(data["CLASIFICACION_FINAL"]==6)&(data["RESULTADO_LAB"]==3)]
sospechosos_con_posibilidad

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
2134604,2020-10-18,3611b6,2,4,15,2,15,15,50,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2134605,2020-10-18,2ba8f7,2,4,11,2,11,11,7,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2134606,2020-10-18,45a62c,2,4,9,1,14,15,104,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2134607,2020-10-18,23f242,2,4,9,1,9,9,13,1,...,2,2,1,1,3,6,99,MÃ©xico,97,97
2134608,2020-10-18,28907e,2,4,15,1,15,15,120,1,...,2,2,1,1,3,6,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183266,2020-10-18,2edfde,2,6,28,2,28,28,9,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2183267,2020-10-18,332cf5,2,4,30,1,30,30,135,1,...,2,2,2,1,3,6,99,MÃ©xico,97,97
2183268,2020-10-18,42c51a,2,12,9,2,9,9,10,1,...,2,2,1,1,3,6,99,MÃ©xico,97,97
2183270,2020-10-18,372368,2,9,8,2,8,8,19,2,...,2,2,2,1,3,6,99,MÃ©xico,97,2


## Sospechosos sin posibilidad de resultado

LOs casos sospechosos sin posibilidad de resultado son un poco más complejos. El filtro compuesto usado por la secretaría es el sigguiente, primero necesitamos aquellos casos que en la columna "RESULTADO_LAB" tienen valor 4, correspondiente a "Resultado no adecuado". Con respecto a la columna de "CLASIFICACION_FINAL" necesitamos el valor 6 correspondiente a "Caso sospechoso", pero además necesitamos agregar los valores 5 y 4 que se corresponden con los casos en donde la muestra no se realizó por el laboratorio o se invalidó por el laboratorio. 

In [25]:
sospechosos_sin_posibilidad=data[(data["CLASIFICACION_FINAL"].isin([6,5,4]))&(data["RESULTADO_LAB"].isin([4]))]
sospechosos_sin_posibilidad

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
3955,2020-10-18,15cd78,1,4,26,2,26,26,43,2,...,2,2,99,1,4,5,99,MÃ©xico,97,2
3957,2020-10-18,17088a,1,4,9,1,9,9,2,1,...,2,2,1,1,4,5,99,MÃ©xico,97,97
3960,2020-10-18,14bac7,2,12,1,1,1,1,3,1,...,2,2,2,1,4,5,99,MÃ©xico,97,97
3962,2020-10-18,0e98be,2,4,21,2,21,21,74,1,...,2,2,1,1,4,5,99,MÃ©xico,97,97
3978,2020-10-18,0385cb,2,4,19,2,19,19,6,2,...,2,2,99,1,4,5,99,MÃ©xico,97,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183241,2020-10-18,43e449,2,12,15,2,15,15,106,1,...,2,2,1,1,4,6,99,MÃ©xico,97,97
2183246,2020-10-18,3ab0f8,1,6,10,2,10,10,5,1,...,2,2,1,1,4,6,99,MÃ©xico,97,97
2183247,2020-10-18,436cf1,2,12,15,1,15,15,121,1,...,2,2,2,1,4,6,99,MÃ©xico,97,97
2183260,2020-10-18,3b2e97,2,9,9,2,9,15,76,1,...,2,2,2,1,4,6,99,MÃ©xico,97,97


## Defunciones

Nos falta detectar los casos que corresponden a personas que fallecieron. Lamentablemente la base de datos no cuenta con una columna que indique de forma categórica si el caso falleció o no. Sin embargo podemos obtener este dato de forma indirecta. La base de datos cuenta con una columna que indica la fecha de defunción, esta columna es "FECHA_DEF". Exploremos cuales son sus valores...

In [26]:
data["FECHA_DEF"].value_counts()

9999-99-99    2059923
2020-07-06        980
2020-07-07        966
2020-06-16        956
2020-07-13        948
               ...   
2020-03-08          5
2020-01-06          3
2020-01-05          2
2020-01-04          1
2020-01-02          1
Name: FECHA_DEF, Length: 291, dtype: int64

Podemos observar que la columna efectivamente contiene fechas, el format de estas es "Año-mes-día". Además notamos que el valor más utilizado es el valor "9999-99-99" que no se corresponde con ninguna fecha válida. Podemos asumir que las filas que en esta columna tienen el valor "9999-99-99" corresponden con casos que no han fallecido.

Filtrando con este valor podríamos obtener los casos que aún no han fallecido, filtrando por las filas que NO tienen este valor podemos identificar los casos que han fallecido.

Para buscar un valor en específico utilizabamos el operador doble igual ==, para buscar valores diferentes usamos el operador "diferente a" que en Pandas es el símbolo != 

Para encontrar los casos fallecidos por COVID necesitamos hacer un filtro compuesto, necesitamos identificar los casos confirmados (columna "CLASIFICACION_FINAL" con valores 1,2 o 3) y ademas aquellos casos que fallecieron. Podríamos crear este filtro compuesto sobre nuestros datos originales, sin embargo aprovecharemos que previamente creamos el DataFrame "confirmados" que únicamente contiene los casos confirmados y aplicaremos el filtro de defunciones sobre este DataFrame. El DataFrame resultante lo guardamos en otra variable 

In [27]:
defunciones = confirmados[confirmados["FECHA_DEF"]!="9999-99-99"]
defunciones

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
5,2020-10-18,043f64,2,4,9,2,9,9,10,2,...,1,2,99,1,1,3,99,MÃ©xico,97,1
6,2020-10-18,0e07d8,1,4,15,2,15,15,104,2,...,2,2,99,1,1,3,99,MÃ©xico,97,2
9,2020-10-18,11fb00,1,12,9,2,9,9,15,1,...,2,2,1,1,1,3,99,MÃ©xico,97,97
12,2020-10-18,1a1f12,2,4,14,2,9,14,67,2,...,2,2,2,1,1,3,99,MÃ©xico,97,2
20,2020-10-18,0e7853,1,13,21,1,21,21,85,2,...,2,2,2,1,1,3,99,MÃ©xico,97,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2176939,2020-10-18,429fc1,2,12,9,2,9,9,7,2,...,2,2,2,2,97,2,99,MÃ©xico,97,2
2177689,2020-10-18,2fb89e,2,10,9,2,16,15,60,2,...,2,2,2,2,97,1,99,MÃ©xico,97,2
2178901,2020-10-18,22b433,1,6,9,2,9,9,17,2,...,2,2,2,2,97,1,99,MÃ©xico,97,2
2180380,2020-10-18,36f81d,1,6,9,2,21,15,58,2,...,98,98,2,2,97,1,99,MÃ©xico,97,2


Como podemos observar en el número de filas de los DataFrames creados y en la imágen de la conferencia de la secretaría, los reportes concuerdan. (Recuerda, si estás repitiendo este ejercicio tendrás otros datos y deberás comparar con la imágen correspondiente al día de tus datos. [Acá los videos de todas las conferencias](https://www.youtube.com/channel/UCu2Uc7YeJmE9mvGG9OK-zbQ))

## Graficando los casos confirmados diarios

Una vez que tenemos nuestros casos separados en categorías podemos hacer gráficas con ellos. A partir de aquí nos concentraremos en el DataFrame que creamos con casos confirmados. El proceso para hacer gráficas con los otros DataFrames es similar.

La gráfica que queremos hacer es una gráfica en la cual se muestre el número de casos en función del tiempo.

## Agrupando por fechas

Para realizar la gráfica necesitamos saber cuantos casos confirmados hubo por día. Anteriormente usamos la función value_counts() para saber cuantas filas se correspondían con ciertos valores en una columna. Esa función está bien para explorar los datos pero esta vez lo haremos agrupando filas de acuerdo a valores en ciertas columnas, el método de agrupar es más poderoso porque se puede hacer para varias columnas y es parte de uno de los procesos más importantes en el análisis de datos. Comencemos agrupando por los valores de una columna.

Para agrupar usaremos la función groupby(). Esta función utiliza como parámetros el nombre de una columna o una lista con las columnas que queremos utilizar para poder agrupar el DataFrame. El resultado de aplicar esta función es un grupo, los elementos de ese grupo serán estructuras de Datos similares a DataFrames, una por cada conjunto de valores únicos en las columnas que utilizamos para agrupar. Usemos la función para agrupar de acuerdo a los valores de solamente una columna. La columna que nos interesa es "FECHA_SINTOMAS" que indíca la fecha en la que presentó síntomas el caso.

Agrupmos el DataFrame "confirmados" usando la función groupby() con la columna "FECHA_SINTOMAS", el resultado lo guardaremos en la variable grupos.

In [28]:
grupos = confirmados.groupby("FECHA_SINTOMAS")

Si exploramos que hay guardado en la variable grupos veremos que solamente obtenemos una indicación de que tenemos grupos guardados en ella. Esto es debido a que ya no es posible visualizar toda la estructura de datos. Cada elemento del grupo es similar a un DataFrame y entonces un grupo estaría hecho por muchos de estos elementos, por muchos DataFrames.

No podemos verlos pero si podemos operar con ellos. Hay muchas operaciones que podemos hacer sobre cada uno de los grupos, en este ejemplo nos interesa una de las más simples. Solamente queremos saber cuantas filas quedaron en cada grupo. Para eso utilizamos la función size() sobre el grupo.

In [29]:
grupos.size()

FECHA_SINTOMAS
2020-01-13       1
2020-01-29       1
2020-02-06       1
2020-02-18       1
2020-02-19       1
              ... 
2020-10-13    1389
2020-10-14     671
2020-10-15     335
2020-10-16      63
2020-10-17      18
Length: 245, dtype: int64

El resultado es una serie, el índice de la serie es la fecha y los valores corresponden con el número de casos confirmados que iniciaron síntomas en la fecha correspondiente. Para graficar estos valores utilizaremos Bokeh, una librería para realizar gráficas. En bokeh es más fácil graficar si tenemos DataFrames y no series, por lo cual tenemos que cambiar nuestra Serie a un DataFrame. Podemos cambiarlo con la función to_frame() la cual puede adimitir un parámetro que nos permite ponerle un nombre a la columna. Encadenaremos la función al comando usado anteriormente

In [30]:
grupos.size().to_frame("confirmados")

Unnamed: 0_level_0,confirmados
FECHA_SINTOMAS,Unnamed: 1_level_1
2020-01-13,1
2020-01-29,1
2020-02-06,1
2020-02-18,1
2020-02-19,1
...,...
2020-10-13,1389
2020-10-14,671
2020-10-15,335
2020-10-16,63


El resultado es un DataFrame de una columna. La columna tiene como nombre "casos confirmados". Este DataFrame ya no tiene un índice hecho con números como los anteriores. El índice en este caso es la fecha de inicio de síntomas. Los DataFrames pueden tener indices diversos. Para graficar necesitamos tener 2 columnas en nuestro DataFrame. Para esto encadenaremos la función reset_index() para convertir el índice en una columna del DataFrame

In [31]:
grupos.size().to_frame("confirmados").reset_index()

Unnamed: 0,FECHA_SINTOMAS,confirmados
0,2020-01-13,1
1,2020-01-29,1
2,2020-02-06,1
3,2020-02-18,1
4,2020-02-19,1
...,...,...
240,2020-10-13,1389
241,2020-10-14,671
242,2020-10-15,335
243,2020-10-16,63


El DataFrame es el que usaremos para graficar, guardémoslo en una variable y sigamos trabajando con el

In [32]:
confirmados_por_fecha = grupos.size().to_frame("confirmados").reset_index()

## Tipos de datos en nuestros DataFrames

Para poder graficar necesitamos asegurarnos que los datos en las columnas son del tipo correcto. Usualmente para graficar necesitamos datos numéricos. En este caso en el eje x tendremos fechas y en el eje y tendremos el número de casos que iniciaron síntomas en esos días. Existen diversos tipos de datos. Los más usuales son números, enteros y decimales o flotantes, cadenas de texto, fechas, valores booleanos (verdadero y falso).

Antes de graficar necesitamos saber el tipo de datos que están guardados en nuestros DataFrames y convertir al tipo de datos correctos.

Podemos saber el tipo de datos en cada una de las columnas de nuestro dataframe con la propiedad "dtypes"

In [33]:
confirmados_por_fecha.dtypes

FECHA_SINTOMAS    object
confirmados        int64
dtype: object

Podemos observar que la columna "FECHA_SINTOMAS" es una columna con datos de tipo "object" y la columna casos confirmados es una columna de tipo "int64". El tipo de datos "object" hace referencia a una columna que está compuesta por una mezcla entre cadenas de texto y números. El tipo "int64" hace referencia a una columna que está compues6ta por números enteros.

Necesitamos convertir nuestras fechas a fechas verdaderas pues por ahora solamente son cadenas de texto. 

Para esto utilizaremos la función de pandas to_datetime() aplicada a la columna que nos interesa, es importante que al hacer la conversión usemos la opción "format" para decirle a la función el formato en el cual están escritas nuestras fechas. Como vimos anteriormente el formato de las fechas en la base de datos es "Año-mes-día", Año con cuatro cifras, el mes con dos cifras y el día con dos cifras. Este formato se puede especificar con la siguiente cadena de texto "%Y-%m-%d", la Y hace referencia al año y es importante que está en mayúsculas (de esta manera especificamos que tiene 4 cifras), la m hace referencia al mes y la d al día.

Convertimos la columna de nuestro DataFrame de la siguiente manera:

In [34]:
pd.to_datetime(confirmados_por_fecha["FECHA_SINTOMAS"])

0     2020-01-13
1     2020-01-29
2     2020-02-06
3     2020-02-18
4     2020-02-19
         ...    
240   2020-10-13
241   2020-10-14
242   2020-10-15
243   2020-10-16
244   2020-10-17
Name: FECHA_SINTOMAS, Length: 245, dtype: datetime64[ns]

Podemos ver en la parte inferior que esta columna es del tipo correcto "datetime64" que es el tipo asociado a fechas. Con ella podremos graficar sin problemas. Sin embargo esta operación no se ha realizado sobre nuestro DataFrame, solamente sobre la columna y nos ha dado como resultado una serie. Es conveniente ponerla en nuestro DataFrame para que todo quede en un mismo lugar. Con Pandas podemos agregar columnas nuevas usando series. Basta con asignarlas. Es importante mencionar que si los índices no concuerdan Pandas se encargará de empatar aquellos que si concuerden y de escribir filas nuevas con aquellos índices que no esten en el DataFrame donde queremos escribir la nueva columna. Esto es un super poder de Pandas!

Escribamos la nueva columna en nuestro DataFrame "confirmados_por_fecha"

In [35]:
confirmados_por_fecha["fecha_sintomas"] = pd.to_datetime(confirmados_por_fecha["FECHA_SINTOMAS"])

Nuestro dataframe ahora tiene 3 columnas

In [36]:
confirmados_por_fecha

Unnamed: 0,FECHA_SINTOMAS,confirmados,fecha_sintomas
0,2020-01-13,1,2020-01-13
1,2020-01-29,1,2020-01-29
2,2020-02-06,1,2020-02-06
3,2020-02-18,1,2020-02-18
4,2020-02-19,1,2020-02-19
...,...,...,...
240,2020-10-13,1389,2020-10-13
241,2020-10-14,671,2020-10-14
242,2020-10-15,335,2020-10-15
243,2020-10-16,63,2020-10-16


Con los tipos de datos correctos

In [37]:
confirmados_por_fecha.dtypes

FECHA_SINTOMAS            object
confirmados                int64
fecha_sintomas    datetime64[ns]
dtype: object

Repitamos los pasos con los DataFrames de defunciones y de sospechosos:

In [38]:
grupos_def = defunciones.groupby("FECHA_SINTOMAS")
defunciones_por_fecha = grupos_def.size().to_frame("defunciones").reset_index()
defunciones_por_fecha["fecha_sintomas"] = pd.to_datetime(defunciones_por_fecha["FECHA_SINTOMAS"])
defunciones_por_fecha

Unnamed: 0,FECHA_SINTOMAS,defunciones,fecha_sintomas
0,2020-02-06,1,2020-02-06
1,2020-02-26,1,2020-02-26
2,2020-02-27,1,2020-02-27
3,2020-03-01,1,2020-03-01
4,2020-03-02,2,2020-03-02
...,...,...,...
223,2020-10-11,24,2020-10-11
224,2020-10-12,22,2020-10-12
225,2020-10-13,5,2020-10-13
226,2020-10-14,7,2020-10-14


In [39]:
grupos_sosp = sospechosos.groupby("FECHA_SINTOMAS")
sospechosos_por_fecha = grupos_sosp.size().to_frame("sospechosos").reset_index()
sospechosos_por_fecha["fecha_sintomas"] = pd.to_datetime(sospechosos_por_fecha["FECHA_SINTOMAS"])
sospechosos_por_fecha

Unnamed: 0,FECHA_SINTOMAS,sospechosos,fecha_sintomas
0,2020-01-01,133,2020-01-01
1,2020-01-02,114,2020-01-02
2,2020-01-03,113,2020-01-03
3,2020-01-04,107,2020-01-04
4,2020-01-05,164,2020-01-05
...,...,...,...
287,2020-10-14,4668,2020-10-14
288,2020-10-15,3952,2020-10-15
289,2020-10-16,2680,2020-10-16
290,2020-10-17,918,2020-10-17


## Graficando con Bokeh

Como mencionamos anteriormente para graficar usaremos Bokeh. Bokeh tiene la posibilidad de varias salidas para nuestras gráficas. Si no indicamos a Bokeh donde queremos nuestra gráfica la arrojará a una pestaña nueva de nuestro explorador. Dado que nuestra gráfica es parte de la exploración de los datos es importante tenerla en nuestro Notebook. Necesitamos indicarle a Bokeh que la salida la queremos en nuestro notebook. Recordemos que al principio del Notebook asociamos Bokeh al alias bpl. Para indicar a Bokeh la salida usamos la función ouput_notebook() de Bokeh

In [40]:
bpl.output_notebook()

Bokeh funciona de fomra muy similar a la mayoría de las librerías de graficación. Se define un "plot" en donde graficar y luego en ese plot se van pintando símbolos y elementos gráficos para conformar la gráfica. 

Definiremos nuestro plot y lo guardaremos en la variable "p". Cuando definimos nuestro plot podemos usar algunas opciones para cambiar propiedades del plot, por ejemplo podemos definir el alto y el ancho de la zona de piuntado.

Debido a que nuestra gráfica tiene un tipo de datos especial en el eje x (fechas) es necesario especificar este tipo de datos en la definición del plot, lo hacemos con la opción "x_axis_type".

El plot se define de la siguiente manera:

In [41]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")

Una vez que hemos definido nuestrto plot podemos pintar en el elementos gráficos para conformar la gráfica. Bokeh tiene un monton de estos elementos para poder hacer gráficas, puedes verlos todos y la manera en la que se usan en la [documentación de Bokeh](https://docs.bokeh.org/en/latest/docs/user_guide/plotting.html).

Comenzaremos por pintar puntos en nuestra gráfica. Queremosn un punto por cada fecha. En el eje x usaremos la columna con fechas de nuestro DataFrame y en el eje y usaremos la columna con el número de casos de nuestro DataFrame. Para gregar un tipo de elemento gráfico usamos la función correspondiente sobre nuestro plot que está guardado en "p". En este caso usaremos la funcion "circle".

In [42]:
p.circle(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],size=7)

Es importante notar que despues de ejecutar la función no obtenemos como resultado una gráfica, lo que hicimos fue agregar elementos gráficos a nuestra gráfica pero tiene vida propia. 

Podemos visualizar como va nuestra gráfica con la función de bokeh show() que utiliza como parámetro el plot que queremos ver.

Veamos nuestra gráfica...

In [43]:
bpl.show(p)

Existen muchos tipos diferentes de marcadores:

![marcadores](./imagenes/img4.png)

Si queremos cambiar el tipo de marcador necesitamos volver a definir nuestra figure porque si no se encimarán nuestros marcadores...

In [44]:
p.cross(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],color="red",size=13)

In [45]:
bpl.show(p)

In [46]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.cross(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],color="red",size=13)
bpl.show(p)

Vamos a cambiar a algun marcador relleno y hablemos de las partes y colores de un marcador. Los marcadores tienen línea y relleno o fill y se pueden controlar de forma independiente. Los colores se pueden representar en varios formatos. Esencialmente cada color está compuesto por 3 números entre 0 y 255, cada uno correspondiente a los canales rojo, verde y azul además de un número que va de 0 a 1 y que controla la transparencia o alpha. Conseguir paletas de colores buenas es muy importante, existen muchos sitios para obtener palettas de colores, por ejemplo [Colorhunt](https://colorhunt.co/). Una manera compacta de escribir colores es a traves del formato hexadecimal. Es una cadena compuesta por 6 dígitos, donde  cada dos dígitos representan un número en hexadecimal que está asociado a alguno de los canales de color, para especificar que estamos usando este formato se usa el símbolo #. El formato para los canales es #RRGGBB.

In [47]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.circle(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],line_color="#070d59",line_width=2,line_alpha=1, fill_color="#f5a25d", fill_alpha=0.5,size=20)
bpl.show(p)

Podemos graficar con líneas en vez de marcadores. Cuando graficamos líneas debemos tener cuidado de que nuestros datos estén ordenados pues Bokeh los conecta de forma secuencial. Podemos ordenar un DataFrame con la función sort_values() y la opción inplace=True para reescribirlos.

In [48]:
confirmados_por_fecha.sort_values("confirmados",inplace=True)

In [49]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.line(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],line_color="#070d59",line_width=2,line_alpha=1)
bpl.show(p)

In [50]:
confirmados_por_fecha.sort_values("fecha_sintomas",inplace=True)

In [51]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.line(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],line_color="#070d59",line_width=2,line_alpha=1)
bpl.show(p)

Podemos agregar líneas para otros DataFrames, por ejemplo podemos hacer una gráfica compuesta con los casos confirmados, los casos sospechosos y las defunciones. Solamente necesitamos agregar 3 glifos de tipo línea. También podemos agregar a cada uno la leyenda que lo identifique.

In [52]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.line(x=confirmados_por_fecha["fecha_sintomas"], y=confirmados_por_fecha["confirmados"],line_color="#d7385e",line_width=2,line_alpha=1,legend_label="Casos confirmados")
p.line(x=defunciones_por_fecha["fecha_sintomas"], y=defunciones_por_fecha["defunciones"],line_color="#070d59",line_width=2,line_alpha=1,legend_label="Defunciones")
p.line(x=sospechosos_por_fecha["fecha_sintomas"], y=sospechosos_por_fecha["sospechosos"],line_color="#edc988",line_width=2,line_alpha=1,legend_label="Casos sospechosos")
bpl.show(p)

Agreguemos etiquetas en los ejes

In [53]:
p.xaxis.axis_label = 'Fecha'
p.yaxis.axis_label = 'Casos'

In [54]:
bpl.show(p)

## Fuentes de datos o DataSources

Para realizar visualizaciones más complejas necesitamos estructuras de datos más complejos. Bokeh permite crearlas a traves de su especificación de modelos. La principal estructura de datos es el ColumnDataSource, esencialmente es un diccionario con nombres de columnas y datos asociados a ellas, como un DataFrame. De hecho, la manera más fácil de construir estas estructuras de datos es a partir de DataFrames, sin embargo tenemos que poner todos los datos que nos interesa usar en el mismo DataFrame. También es importante que nuestras columnas tengan nombres simples y específicos, de preferencia sin espacios entre ellos. 

Construyamos un DataSource con nuestros 3 DataFrames. Para ello necesitamos mezclarlos

## Mezclando dos DataFrames

Pandas nos permite mezclar dos DataFrames de acuerdo a los valores que existan en alguna columna que tenga valores en común. En este caso nuestros DataFrames tienen como columnas en común la columna de fechas. Esta operación se llama "merge".

Si nos fijamos con atención algunos de los valores en estas columnas se corresponden y existen otros que solamente están en una columna o en otra. Un merge se hace entre dos DataFrames, de acuerdo a donde lo colocamos en la función les llamamos "left" al que ponemos a la izquierda y "right" al que ponemos a la derecha. Cuando hacemos un merge podemos decidir que filas queremos mantener, las del DataFrame de la izquierda (left), las filas del DataFrame de la derecha (right), todas las filas de ambos DataFrames (outer) o solamente las filas que en ambos DataFrames existen. 

Al hacer un merge tenemos que indicar dentro de la función los DataFrames a mezclar, la manera en la que los vamos a mezclar, y las columnas que usaremos para mezclarlas.

Juntemos primero los DataFrames de confirmados y de defunciones. En estos DataFrames tenemos columnas que no nos interesan así que seleccionaremos solamente las columnas de la fecha y de casos. Guardémoslos en variables temporales

In [55]:
conf_temp = confirmados_por_fecha[["confirmados","fecha_sintomas"]]
defun_temp = defunciones_por_fecha[["defunciones","fecha_sintomas"]]
sosp_temp = sospechosos_por_fecha[["sospechosos","fecha_sintomas"]]

Después los mezclamos con la función merge. Queremos que el DataFrame resultante no pierda filas de ningúno de los dos DataFrames por lo cual haremos un merge de tipo "outer", afortunadamente la columna en común tiene el mismo nombre por lo cual solamente tenemos que especificarla una sola vez usando la opción "on". El resultado lo guardaremos en un frame temporal pues aún nos falta mezclarlo con los casos sospechosos.

In [56]:
mezcla_temporal = pd.merge(conf_temp,defun_temp,how="outer",on="fecha_sintomas")
mezcla_temporal

Unnamed: 0,confirmados,fecha_sintomas,defunciones
0,1,2020-01-13,
1,1,2020-01-29,
2,1,2020-02-06,1.0
3,1,2020-02-18,
4,1,2020-02-19,
...,...,...,...
240,1389,2020-10-13,5.0
241,671,2020-10-14,7.0
242,335,2020-10-15,1.0
243,63,2020-10-16,


Como podemos observar el DataFrame resultante tiene 3 columnas, una de fechas, una de casos confirmados y una de defunciones. Podemos ver que hay fechas para las que si existe un valor de casos confirmados pero no para defunciones, en estos casos los huecos se llenan con valores nulos o NaN.

Mezclemos este DataFrame resultante con los casos sospechosos y guardémoslo en un DataFrame final mezclado:

In [57]:
casos = pd.merge(mezcla_temporal,sosp_temp,how="outer", on="fecha_sintomas")
casos

Unnamed: 0,confirmados,fecha_sintomas,defunciones,sospechosos
0,1.0,2020-01-13,,312
1,1.0,2020-01-29,,217
2,1.0,2020-02-06,1.0,146
3,1.0,2020-02-18,,247
4,1.0,2020-02-19,,211
...,...,...,...,...
287,,2020-02-15,,236
288,,2020-02-16,,252
289,,2020-02-17,,262
290,,2020-02-20,,173


Mezcla DataFrames puede modificar el orden de nuestras filas en ocasiones. Es buena práctica siempre ordenar nuestro dataFrame antes de crear un ColumnDataSource

In [58]:
casos.sort_values("fecha_sintomas", inplace=True)

## Definiendo el DataSource

Para crear un DataSource usaremos el módulo de bokeh correspondiente a modelos que al principio del notebook guardamos en el alias bmd y usamos como parámetro nuestro DataFrame

In [59]:
source = bmd.ColumnDataSource(casos)

Caundo definimos un DataSource entonces podemos usar los nombres de las columnas en la definición de nuestro glifos, solo basta con indicar que DataSource estamos usando. Volvamos a hacer la gráfica anterior pero usando nuestro DataSource

In [60]:
p = bpl.figure(x_axis_type="datetime", plot_width=800, plot_height=600, title="Casos de COVID19 en México")
p.line(x="fecha_sintomas", y="confirmados",line_color="#d7385e",line_width=2,line_alpha=1,legend_label="Casos confirmados",source=source)
p.line(x="fecha_sintomas", y="defunciones",line_color="#070d59",line_width=2,line_alpha=1,legend_label="Defunciones",source=source)
p.line(x="fecha_sintomas", y="sospechosos",line_color="#edc988",line_width=2,line_alpha=1,legend_label="Casos sospechosos",source=source)
bpl.show(p)

## Agregar un tooltip

Usar DataSourceColumnes nos permite tener todos nuestros datos enlazados. Es posible usar todos los datos de forma cruzada para realizar operaciones, filtrar, enlazar gráficas, poner interactividad, poner tooltips.

Agreguemos en nuestra gráfica un tooltip que nos permita ver los valores en cada fecha.

Los tooltips siempre van amarrados a glifos, en este caso tenemos 3 glifos en nuestra gráfica solamente, las 3 líneas. Si quisieramos amarrar un tooltip solo podríamos amarrarlo a las líneas, sin embargo quisieramos que nuestros tooltips estén amarrados a cada momento temporal no a cada línea. Una técnica usual es agregar glifos invisibles a los cuales amarraremos el tooltip. En este caso agregaremos un glifo de círculos que sigan la línea de casos confirmados. Para hacerlo invisible simplemente le ponemos un valor de alpha de cero. 

La definición del nuevo glifo lo guardaremos en una variable, a la definición de un glifo se le llama "renderer".

In [61]:
cr1 = p.circle(x="fecha_sintomas", y="confirmados",color="#d7385e",size=2,alpha=0,source=source)
bpl.show(p)

Una vez que tenemos los glifos invisibles podemos agregar la herramienta de "hover" a nuestra gráfica y agregar el tooltip en nuestro glifo. 

Para agregar herramientas nuevas lo hacemos sobre la gráfica completa y con la función add_tools(). En este caso agregaremos la herramienta hover que está definida en la parte de modelos de bokeh.

La herramienta HoverTool requiere como parámetros el tooltip a agregar y el "renderer" sobre el cual se va a aplicar la herramienta. Además podemos agregar formato para los textos del tooltip y el modo de hover el cual puede ser directo sobre el elemento gráfico, o solamente detectando la coordenada x o y.

En este caso agregaremos un tooltip con la fecha y con el número de casos confirmados, sospechosos y las defunciones de ese día. Lo aplicaremos sobre el "renderer" que definimos anteriormente. Para la fecha necesitamos indicar que requerimos formato de fecha. Además usaremos el modo "vline" para que detecte nuestra posición en x.

In [62]:
p.add_tools(bmd.HoverTool(tooltips=[('Fecha de síntomas', '@fecha_sintomas{%F}'),("Confirmados","@confirmados"),("Sospechosos","@sospechosos"),("Defunciones","@defunciones")],formatters={'@fecha_sintomas': 'datetime'}, renderers=[cr1], mode='vline'))

In [63]:
bpl.show(p)

## Haciendo arreglos de gráficas

Bokeh nos permite también armar arreglos de gráficas. Esta habilidad se vuelve muy importante cuando queremos mezclar gráficas y crear "Dashboards" o aplicaciones gráficas.

Para crear layouts de gráficas usaremos otro módulo de Bokeh, el módulo layouts que al principio del notebook asociamos con el alias bly. Separemos las 3 líneas de la gráfica anterior en 3 gráficas diferentes:

In [64]:
g1 = bpl.figure(x_axis_type="datetime", plot_width=1000, plot_height=300, background_fill_color="white")
g1.line(x="fecha_sintomas", y="confirmados",line_color="#d7385e",line_width=2,line_alpha=1,legend_label="Casos confirmados",source=source)
g1.min_border = 50
bpl.show(g1)

In [65]:
g2 = bpl.figure(x_axis_type="datetime", plot_width=1000, plot_height=300, background_fill_color="white")
g2.line(x="fecha_sintomas", y="sospechosos",line_color="#edc988",line_width=2,line_alpha=1,legend_label="Casos sospechosos",source=source)
g2.min_border = 50
bpl.show(g2)

In [66]:
g3 = bpl.figure(x_axis_type="datetime", plot_width=1000, plot_height=300, background_fill_color="white")
g3.line(x="fecha_sintomas", y="defunciones",line_color="#070d59",line_width=2,line_alpha=1,legend_label="Defunciones",source=source)
g3.min_border = 50
bpl.show(g3)

Ahora crearemos un layout con estas tres gráficas. Necesitamos pensar la disposición de nuestra gráfica compuesta, en este caso haremos una columna. Usaremos la función column del módulo layouts de Bokeh

In [67]:
columna = bly.gridplot([g1,g2,g3], ncols=1)

In [68]:
bpl.show(columna)

## Enlazando gráficas

Las gráficas anteriores se encuentran en el mismo panel y comparten el mismo set de herraminetas, pero no funcionan en conjunto, por ejemplo las herramientas de zoom y de desplazamiento de las gráficas funcionan de forma independiente. Para poder enlazarlas basta con definir rangos de ejes de forma entrelazada:

In [69]:
g1 = bpl.figure(x_axis_type="datetime", plot_width=1000, plot_height=300, background_fill_color="white")
g1.line(x="fecha_sintomas", y="confirmados",line_color="#d7385e",line_width=2,line_alpha=1,legend_label="Casos confirmados",source=source)
g1.min_border = 50

In [70]:
g2 = bpl.figure(x_axis_type="datetime", x_range = g1.x_range, plot_width=1000, plot_height=300, background_fill_color="white")
g2.line(x="fecha_sintomas", y="sospechosos",line_color="#edc988",line_width=2,line_alpha=1,legend_label="Casos sospechosos",source=source)
g2.min_border = 50

In [71]:
g3 = bpl.figure(x_axis_type="datetime", x_range = g1.x_range, plot_width=1000, plot_height=300, background_fill_color="white")
g3.line(x="fecha_sintomas", y="defunciones",line_color="#070d59",line_width=2,line_alpha=1,legend_label="Defunciones",source=source)
g3.min_border = 50

In [72]:
columna = bly.gridplot([g1,g2,g3], ncols=1)

In [73]:
bpl.show(columna)

Si tenemos glifos que aqdmitan selección podemos usar herramientas de selección y estarán sincronizadas dentro del mismo panel siempre y cuando las gráficas estén usando el mismo ColumnDataSource. 

Por ejemplo, definamos las gráficas anteriores con glifos de círculos y activemos las herramientas de selección "box_select" y "lasso_select"

In [74]:
herramientas = "box_select,lasso_select,box_zoom,reset,help"

In [75]:
g1 = bpl.figure(x_axis_type="datetime", plot_width=1000, plot_height=300, background_fill_color="white", tools = herramientas)
g1.circle(x="fecha_sintomas", y="confirmados",color="#d7385e",line_width=2,line_alpha=1,legend_label="Casos confirmados",source=source)
g1.min_border = 50

In [76]:
g2 = bpl.figure(x_axis_type="datetime", x_range = g1.x_range, plot_width=1000, plot_height=300, background_fill_color="white", tools = herramientas)
g2.circle(x="fecha_sintomas", y="sospechosos",color="#edc988",line_width=2,line_alpha=1,legend_label="Casos sospechosos",source=source)
g2.min_border = 50

In [77]:
g3 = bpl.figure(x_axis_type="datetime", x_range = g1.x_range, plot_width=1000, plot_height=300, background_fill_color="white", tools = herramientas)
g3.circle(x="fecha_sintomas", y="defunciones",color="#070d59",line_width=2,line_alpha=1,legend_label="Defunciones",source=source)
g3.min_border = 50

In [78]:
columna = bly.gridplot([g1,g2,g3], ncols=1)

In [79]:
bpl.show(columna)

## Graficando la distribución por estado

Hagamos otra gráfica, veamos como es la distribución de casos por estado. Regresemos a nuestro DataFrame de casos confirmados

In [80]:
confirmados

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,TOMA_MUESTRA,RESULTADO_LAB,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-10-18,1426fb,1,4,10,1,28,10,7,1,...,2,2,99,1,1,3,99,MÃ©xico,97,97
1,2020-10-18,1c4583,2,12,9,2,9,9,4,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
2,2020-10-18,0d55c9,2,12,9,1,9,9,16,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
3,2020-10-18,071735,2,9,21,2,21,21,114,1,...,2,2,2,1,1,3,99,MÃ©xico,97,97
4,2020-10-18,1468a5,1,4,5,1,15,5,18,1,...,2,2,1,1,1,3,99,MÃ©xico,97,97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2183114,2020-10-18,2fcdc7,1,12,26,1,26,26,30,1,...,2,2,1,2,97,1,99,MÃ©xico,97,97
2183136,2020-10-18,3c6f4d,1,12,26,2,26,26,19,1,...,2,2,1,2,97,1,99,MÃ©xico,97,97
2183216,2020-10-18,373591,1,6,20,1,20,20,399,1,...,2,2,2,2,97,1,99,MÃ©xico,97,97
2183262,2020-10-18,365e11,1,6,9,1,17,15,58,2,...,2,2,2,2,97,1,99,MÃ©xico,97,2


## Agrupando por estado

La base de datos tiene codificado para cada caso tres estados, la entidad de nacimiento en la columna "ENTIDAD_NAC", la entidad de residencia en la columna "ENTIDAD_RES" y la entidad de la unidad médica en la columna "ENTIDAD_UM". Nos concentraremos en la entidad de residencia. Necesitamos saber cuantos casos están asociados a cada entidad. Podemos volver a agrupar con la función groupby(), esta vez con la columna "ENTIDAD_RES"

In [81]:
grupos_estado = confirmados.groupby("ENTIDAD_RES")

Podemos preguntarle a cada grupo cuantos elementos tiene y crear un DataFrame con esta información de manera similar a como lo hicimos anteriormente:

In [82]:
confirmados_por_estado = grupos_estado.size().to_frame("casos confirmados").reset_index()
confirmados_por_estado

Unnamed: 0,ENTIDAD_RES,casos confirmados
0,1,8406
1,2,21767
2,3,11578
3,4,6336
4,5,30211
5,6,6113
6,7,7428
7,8,14366
8,9,146952
9,10,11126


## Cargando los diccionarios

Los estados vienen codificados de acuerdo a su clave de estado (una clave que el INEGI les ha asignado a cada estado). Usando el diccionario podemos saber a que estado pertenece cada clave. Si queremos que el nombre de los estados aparezca en nuestra gráfica necesitamos cargar esa información. El diccionario de datos se puede descargar de [aquí](http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip). La Secretaría lo proporciona en un archivo Zip, dentro de ese archivo viene además el archivo descriptor de la base de datos por lo cual no podremos cargar directamente el archivo a nuestro Notebook. Tendrás que ir por el y descomprimirlo. Este repositorio tiene una copia del diccionario en la carpeta "diccionarios".

El diccionario es un archivo de excel. Pandas tiene la capacidad de cargar archivos de excel. Usaremos la función read_excel. El primer parámetro es la ruta a donde está el archivo, además podemos usar algunas opciones. Los archivos de excel usualmente tienen varias hojas, para poder cargarlas todas usaremos la opción "sheet_name=None".

Si descargaste los diccionarios desde la secretaría de salud colócalos en una subcarpeta llamada diccionarios en la misma carpeta en donde está este notebook o coloca la ruta correcta.

In [83]:
dics = pd.read_excel("./diccionarios/Catalogos_071020.xlsx", sheet_name=None)

El archivo de diccionarios es un archivo que tiene muchas hojas, por cada hoja Pandas ha creado un DataFrame. Están guardados en una estructura de datos de python llamada diccionario que a su vez nosotros hemos guardado en la variable dics. Los diccionarios de python pueden acceder a su contenido de acuerdo a una llave. Podemos conocer las llaves existentes en dics con la función keys()

In [84]:
dics.keys()

dict_keys(['Catálogo ORIGEN', 'Catálogo SECTOR', 'Catálogo SEXO', 'Catálogo TIPO_PACIENTE', 'Catálogo SI_NO', 'Catálogo NACIONALIDAD', 'Catálogo RESULTADO_LAB', 'Catálogo CLASIFICACION_FINAL', 'Catálogo de ENTIDADES', 'Catálogo MUNICIPIOS'])

De las llaves existentes nos interesa la que se llama "Catálogo de ENTIDADES". Ahí está guardado el DataFrame que nos interesa. Accedemos a el de manera similar a como lo hacemos con las columnas de los DataFrames. Guardamos este DataFrame en la variable dic_estados

In [85]:
dic_estados = dics["Catálogo de ENTIDADES"]
dic_estados

Unnamed: 0,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA
0,1,AGUASCALIENTES,AS
1,2,BAJA CALIFORNIA,BC
2,3,BAJA CALIFORNIA SUR,BS
3,4,CAMPECHE,CC
4,5,COAHUILA DE ZARAGOZA,CL
5,6,COLIMA,CM
6,7,CHIAPAS,CS
7,8,CHIHUAHUA,CH
8,9,CIUDAD DE MÉXICO,DF
9,10,DURANGO,DG


## Mezclando dos DataFrames

Listo, tenemos la información que queremos en dos DataFrames, por un lado tenemos el número de casos confirmados en el DataFrame "confirmados_por_estado" y por otro lado tenemos la información del nombre de cada estado en el DataFrame "dic_estados".

Como vimos anteriormente Pandas nos permite mezclar dos DataFrames de acuerdo a los valores que existan en alguna columna que tenga valores en común. En este caso ambos DataFrames tienen una columna con la clave de la entidad. Esta operación se llama "merge".

Si nos fijamos con atención algunos de los valores en estas columnas se corresponden y existen otros que solamente están en una columna o en otra. Un merge se hace entre dos DataFrames, de acuerdo a donde lo colocamos en la función les llamamos "left" al que ponemos a la izquierda y "right" al que ponemos a la derecha. Cuando hacemos un merge podemos decidir que filas queremos mantener, las del DataFrame de la izquierda (left), las filas del DataFrame de la derecha (right), todas las filas de ambos DataFrames (outer) o solamente las filas que en ambos DataFrames existen. 

Al hacer un merge tenemos que indicar dentro de la función los DataFrames a mezclar, la manera en la que los vamos a mezclar, y las columnas que usaremos para mezclarlas. En este caso queremos mantener solo las filas del DataFrame de casos confirmados y dado que lo pondremos a la izquierda haremos un merge a la izquierda. En el DataFrame de la izquierda usaremos la columna "ENTIDAD_RES" y en el de la derecha usaremos la columna "CLAVE_ENTIDAD".

El resultado lo guardaremos en la variable "confirmados_edo"

In [86]:
confirmados_edo = pd.merge(confirmados_por_estado,dic_estados,how="left",left_on="ENTIDAD_RES",right_on="CLAVE_ENTIDAD")
confirmados_edo

Unnamed: 0,ENTIDAD_RES,casos confirmados,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA
0,1,8406,1,AGUASCALIENTES,AS
1,2,21767,2,BAJA CALIFORNIA,BC
2,3,11578,3,BAJA CALIFORNIA SUR,BS
3,4,6336,4,CAMPECHE,CC
4,5,30211,5,COAHUILA DE ZARAGOZA,CL
5,6,6113,6,COLIMA,CM
6,7,7428,7,CHIAPAS,CS
7,8,14366,8,CHIHUAHUA,CH
8,9,146952,9,CIUDAD DE MÉXICO,DF
9,10,11126,10,DURANGO,DG


Este nuevo DataFrame contiene toda la información que necesitamos para la siguiente gráfica. Chequémos el tipo de datos que existen en cada columna

In [87]:
confirmados_edo.dtypes

ENTIDAD_RES            int64
casos confirmados      int64
CLAVE_ENTIDAD          int64
ENTIDAD_FEDERATIVA    object
ABREVIATURA           object
dtype: object

Vemos que tenemos 3 columnas de enteros y dos columnas de tipo "object". La gráfica que haremos es una gráfica de barras en donde en el eje x pondremos el estado identificado por su abreviatura y en el eje y pondremos el número de casos para cada estado. Las dos columnas que nos interesan "ABREVIATURA" y "casos confirmados" son de tipo "object" y de tipo entero. Con esos tipos podemos graficar sin problema

## Graficando los casos por estado

Definimos un nuevo plot y lo guardamos en la variable "s". En la definición debemos especificar que el eje x será un eje con variables categóricas, la manera de especificar esto es usando la opción x_range y pasandole una lista con las categorías que usaremos en el orden que las usaremos. En nuestro caso las categorías son los estados, específicamente las abreviaturas.

In [88]:
s = bpl.figure(x_range=confirmados_edo["ABREVIATURA"], plot_width=800, plot_height=600)

Despues de definir el plot podemos agregar elementos gráficos. En este caso agregaremos glifos llamados "vbar" que hacen referencia a barras verticales. Las barras verticales requieren que especifiquemos la coordenada en x, que en este caso es la columna con las abreviaturas, además podemos especificar el valor del eje y en donde empieza y en donde termina el rectangulo correspondiente a la barra. Usualmente especificaremos únicamente el valor donde terminan usando la opción "top", la opción de "bottom" indica donde empiezan y su valor por default es 0. Otro parámetro que es necesario es la opción "width" que especifica el ancho de la barra, barras de ancho 1 son barras de un ancho igual al espacio disponible para cada categoría.

In [89]:
s.vbar(x=confirmados_edo["ABREVIATURA"],top=confirmados_edo["casos confirmados"], width=0.7)

In [90]:
bpl.show(s)

En la gráfica anterior los estados se ordenan de forma alfabética, podríamos ordenarlos de acuerdo al monto. Para esto necesitamos modificar nuestro DataFrame con la función sort_values(). Esta función requiere como parámetro el nombre de la columna con la cual ordenaremos los valores, en este caso los casos confirmados, además podemos especificar usando la opción ascending="False" que queremos ordenar el DataFrame de mayor a menor. Además usamos la opción inplace=True para que el resultado se almacene en el mismo DataFrame y no tengamos que guardarlo en otra variable.

In [91]:
confirmados_edo.sort_values("casos confirmados", ascending = False, inplace=True)
confirmados_edo

Unnamed: 0,ENTIDAD_RES,casos confirmados,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA
8,9,146952,9,CIUDAD DE MÉXICO,DF
14,15,91571,15,MÉXICO,MC
18,19,47793,19,NUEVO LEÓN,NL
10,11,44965,11,GUANAJUATO,GT
25,26,36414,26,SONORA,SR
29,30,35818,30,VERACRUZ DE IGNACIO DE LA LLAVE,VZ
20,21,33942,21,PUEBLA,PL
26,27,33587,27,TABASCO,TC
13,14,31093,14,JALISCO,JC
27,28,30828,28,TAMAULIPAS,TS


Una vez que tenemos ordenado el DataFrame podemos volver a definir nuestra grafíca y nuestros glifos para pintarla de nuevo

In [92]:
s = bpl.figure(x_range=confirmados_edo["ABREVIATURA"], plot_width=800, plot_height=600)
s.vbar(x=confirmados_edo["ABREVIATURA"],top=confirmados_edo["casos confirmados"], width=0.7)

Por último mostramos esta nueva gráfica...

In [93]:
bpl.show(s)

Nuestra gráfica es buena pero tramposa, no nos permite comparar pues el efecto de la población está escondido. Podemos suponer que en la ciudad de México hay más casos simplemente porque hay más personas, necesitamos tasar por población, es decir calcular el número de casos por cada 100mil habitantes en cada estado. Para ello necesitaremos los datos de la población. Los datos de población a nivel estatal los podemos conseguir de las proyecciones que hace CONAPO las cuales se encuentran [aquí](http://www.conapo.gob.mx/work/models/CONAPO/Datos_Abiertos/Proyecciones2018/pob_mit_proyecciones.csv)

En el enlace se encuentran los datos en formato CSV, con lo cual podemos cargarlos sin problema usando Pandas con la función read_csv():

In [94]:
poblaciones = pd.read_csv("http://www.conapo.gob.mx/work/models/CONAPO/Datos_Abiertos/Proyecciones2018/pob_mit_proyecciones.csv", encoding="latin1")

In [95]:
poblaciones

Unnamed: 0,RENGLON,AÑO,ENTIDAD,CVE_GEO,EDAD,SEXO,POBLACION
0,1,1950,República Mexicana,0,0,Hombres,572103
1,2,1950,República Mexicana,0,0,Mujeres,559162
2,3,1950,República Mexicana,0,1,Hombres,514540
3,4,1950,República Mexicana,0,1,Mujeres,505269
4,5,1950,República Mexicana,0,2,Hombres,478546
...,...,...,...,...,...,...,...
592455,592456,2050,Zacatecas,32,107,Mujeres,4
592456,592457,2050,Zacatecas,32,108,Hombres,1
592457,592458,2050,Zacatecas,32,108,Mujeres,2
592458,592459,2050,Zacatecas,32,109,Hombres,0


Al explorar el DataFrame obtenido podemos observar que las poblaciones vienen desagregadas por año, estado, sexo y edad. Necesitaremos filtrar el DataFrame. Obtengamos un DataFrame con las poblaciones correspondientes a 2020. para filtrar lo hacemos de la misma manera en la que filtramos los casos. El filtro que buscamos son todas las filas que cumplan con la condición de tener el valor 2020 en la columna "AÑO"

In [96]:
pob2020 = poblaciones[poblaciones["AÑO"]==2020]
pob2020

Unnamed: 0,RENGLON,AÑO,ENTIDAD,CVE_GEO,EDAD,SEXO,POBLACION
15400,15401,2020,República Mexicana,0,0,Hombres,1087447
15401,15402,2020,República Mexicana,0,0,Mujeres,1048275
15402,15403,2020,República Mexicana,0,1,Hombres,1093379
15403,15404,2020,República Mexicana,0,1,Mujeres,1054636
15404,15405,2020,República Mexicana,0,2,Hombres,1100800
...,...,...,...,...,...,...,...
585855,585856,2020,Zacatecas,32,107,Mujeres,1
585856,585857,2020,Zacatecas,32,108,Hombres,0
585857,585858,2020,Zacatecas,32,108,Mujeres,0
585858,585859,2020,Zacatecas,32,109,Hombres,0


Nos interesa agrupar por estado, entonces agrupamos por la columna "CVE_GEO" (esta clave es la misma clave que hemos manejado para cada estado) y además conservaremos la columna con el nombre del estado "ENTIDAD", esto para poder checar que las claves correspondan en los dos DataFrames.

In [97]:
grupos_poblacion = pob2020.groupby(["CVE_GEO","ENTIDAD"])

Cada elemento de este grupo es una estructura tipo DataFrame sobre la cual podemos operar. Anteriormente solamente habíamos contado el número de filas en cada elemento. Esta vez la operación que necesitamos es más compleja, tomaremos todas las filas pertenecientes al grupo y sumaremos el valor que tengan en la columna "POBLACION", para hacerlo necesitamos indicar que sobre la columna "POBLACION" vamos a aplicar la función sum(), lo hacemos de la siguiente manera...

In [98]:
grupos_poblacion["POBLACION"].sum()

CVE_GEO  ENTIDAD            
0        República Mexicana     127792286
1        Aguascalientes           1434635
2        Baja California          3634868
3        Baja California Sur       804708
4        Campeche                 1000617
5        Coahuila                 3218720
6        Colima                    785153
7        Chiapas                  5730367
8        Chihuahua                3801487
9        Ciudad de México         9018645
10       Durango                  1868996
11       Guanajuato               6228175
12       Guerrero                 3657048
13       Hidalgo                  3086414
14       Jalisco                  8409693
15       México                  17427790
16       Michoacán                4825401
17       Morelos                  2044058
18       Nayarit                  1288571
19       Nuevo León               5610153
20       Oaxaca                   4143593
21       Puebla                   6604451
22       Querétaro                2279637
23   

El resultado obtenido es una serie con la suma de los valores, cada fila en esta serie corresponde con cada uno de los elementos en el grupo creado. Transformaremos esta serie en un DataFrame de la misma manera en la que lo hicimos anteriormente y lo guardaremos en una variable nueva

In [99]:
poblacion_edo = grupos_poblacion["POBLACION"].sum().to_frame("poblacion").reset_index()
poblacion_edo

Unnamed: 0,CVE_GEO,ENTIDAD,poblacion
0,0,República Mexicana,127792286
1,1,Aguascalientes,1434635
2,2,Baja California,3634868
3,3,Baja California Sur,804708
4,4,Campeche,1000617
5,5,Coahuila,3218720
6,6,Colima,785153
7,7,Chiapas,5730367
8,8,Chihuahua,3801487
9,9,Ciudad de México,9018645


Ya que tenemos la información de la población haremos merge entre este DataFrame y nuestro DataFrame de casos confirmados por estado. Pondremos los casos confirmados a la izquierda, las poblaciones a la derecha y usaremos las columnas de las claves para mezclarlos y lo guardaremos en una nueva variable

In [100]:
conf_pob_edo = pd.merge(confirmados_edo,poblacion_edo,how="left",left_on="CLAVE_ENTIDAD",right_on="CVE_GEO")
conf_pob_edo

Unnamed: 0,ENTIDAD_RES,casos confirmados,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA,CVE_GEO,ENTIDAD,poblacion
0,9,146952,9,CIUDAD DE MÉXICO,DF,9,Ciudad de México,9018645
1,15,91571,15,MÉXICO,MC,15,México,17427790
2,19,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153
3,11,44965,11,GUANAJUATO,GT,11,Guanajuato,6228175
4,26,36414,26,SONORA,SR,26,Sonora,3074745
5,30,35818,30,VERACRUZ DE IGNACIO DE LA LLAVE,VZ,30,Veracruz,8539862
6,21,33942,21,PUEBLA,PL,21,Puebla,6604451
7,27,33587,27,TABASCO,TC,27,Tabasco,2572287
8,14,31093,14,JALISCO,JC,14,Jalisco,8409693
9,28,30828,28,TAMAULIPAS,TS,28,Tamaulipas,3650602


Para calcular la tasa de casos confirmados dividimos el número de casos entre la población del estado y lo multiplicamos por 100mil. Pandas nos permite hacer estas operaciones en todas las filas al mismo tiempo

In [101]:
conf_pob_edo["casos confirmados"]/conf_pob_edo["poblacion"]*100000

0     1629.424376
1      525.430935
2      851.901900
3      721.961088
4     1184.293332
5      419.421297
6      513.926139
7     1305.725217
8      369.728122
9      844.463461
10     938.602923
11     913.771893
12     478.592349
13     598.838802
14     579.866603
15     658.256127
16     899.385507
17     478.594302
18     471.485679
19     377.904751
20     756.009398
21    1438.782763
22     501.176284
23     595.292874
24     560.600951
25     585.933007
26     591.009782
27     129.625206
28     319.560404
29     502.882651
30     633.209310
31     778.574367
dtype: float64

El resultado es una serie y lo guardaremos en una columna nueva de nuestro DataFrame

In [102]:
conf_pob_edo["tasa de casos"] = conf_pob_edo["casos confirmados"]/conf_pob_edo["poblacion"]*100000

Cambiemos el orden de nuestro DataFrame una vez más, esta ves usando la columna "tasa de casos"

In [103]:
conf_pob_edo.sort_values("tasa de casos", ascending=False, inplace=True)
conf_pob_edo

Unnamed: 0,ENTIDAD_RES,casos confirmados,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA,CVE_GEO,ENTIDAD,poblacion,tasa de casos
0,9,146952,9,CIUDAD DE MÉXICO,DF,9,Ciudad de México,9018645,1629.424376
21,3,11578,3,BAJA CALIFORNIA SUR,BS,3,Baja California Sur,804708,1438.782763
7,27,33587,27,TABASCO,TC,27,Tabasco,2572287,1305.725217
4,26,36414,26,SONORA,SR,26,Sonora,3074745,1184.293332
10,5,30211,5,COAHUILA DE ZARAGOZA,CL,5,Coahuila,3218720,938.602923
11,24,26190,24,SAN LUIS POTOSÍ,SP,24,San Luis Potosí,2866142,913.771893
16,31,20318,31,YUCATÁN,YN,31,Yucatán,2259098,899.385507
2,19,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.9019
9,28,30828,28,TAMAULIPAS,TS,28,Tamaulipas,3650602,844.463461
31,6,6113,6,COLIMA,CM,6,Colima,785153,778.574367


Volvamos a graficar pero ahora utilizando el nuevo DataFrame y la columna "tasa de casos"

In [104]:
s = bpl.figure(x_range=conf_pob_edo["ABREVIATURA"], plot_width=800, plot_height=600)
s.vbar(x=conf_pob_edo["ABREVIATURA"],top=conf_pob_edo["tasa de casos"], width=0.7)

In [105]:
bpl.show(s)

Ahora grafiquemos la información por estado y por fecha. Regresemos a nuestro DataFrame de confirmados y obtengamos fechas verdaderas para todos los casos

In [111]:
confirmados["fecha_sintomas"] = pd.to_datetime(confirmados["FECHA_SINTOMAS"],format="%Y-%m-%d")

Tener una columna de fechas nos permite hacer operaciones temporales, por ejemplo podemos crear una nueva columna con la semana del añño a la que pertenece la fecha

In [114]:
confirmados["semana"] = confirmados["fecha_sintomas"].dt.week

Hagamos un groupby por dos columnas ahora, "semana" y "ENTIDAD_RES". Esta agrupación nos dará el número de casos por semana y por estado

In [276]:
semana_edo = confirmados.groupby(["semana","ENTIDAD_RES"]).size().to_frame("casos").reset_index()
semana_edo

Unnamed: 0,semana,ENTIDAD_RES,casos
0,3,19,1
1,5,25,1
2,6,22,1
3,8,9,2
4,8,13,1
...,...,...,...
1049,42,28,47
1050,42,29,35
1051,42,30,73
1052,42,31,378


Mezclemos este DataFrame con la información de los estados que obtuvimos en la gráfica anterior:

In [277]:
por_semana = pd.merge(semana_edo,conf_pob_edo)

Y calculemos la tasa por cada 100000 habitantes pero ahora para cada semana

In [278]:
por_semana["tasa_semana"] = por_semana["casos"]/por_semana["poblacion"]*100000

In [127]:
por_semana

Unnamed: 0,semana,ENTIDAD_RES,casos,casos confirmados,CLAVE_ENTIDAD,ENTIDAD_FEDERATIVA,ABREVIATURA,CVE_GEO,ENTIDAD,poblacion,tasa de casos,tasa_semana
0,3,19,1,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.901900,0.017825
1,10,19,6,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.901900,0.106949
2,11,19,39,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.901900,0.695168
3,12,19,34,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.901900,0.606044
4,13,19,13,47793,19,NUEVO LEÓN,NL,19,Nuevo León,5610153,851.901900,0.231723
...,...,...,...,...,...,...,...,...,...,...,...,...
1049,38,29,200,8156,29,TLAXCALA,TL,29,Tlaxcala,1380011,591.009782,14.492638
1050,39,29,158,8156,29,TLAXCALA,TL,29,Tlaxcala,1380011,591.009782,11.449184
1051,40,29,144,8156,29,TLAXCALA,TL,29,Tlaxcala,1380011,591.009782,10.434699
1052,41,29,120,8156,29,TLAXCALA,TL,29,Tlaxcala,1380011,591.009782,8.695583


Por último crearemos una gráfica con esta información. De manera similar a lo anterior creamos un DataSource

In [128]:
source = bmd.ColumnDataSource(por_semana)

In [149]:
por_semana["tasa_semana"].describe()

count    1054.000000
mean       21.019195
std        20.051607
min         0.011476
25%         4.623377
50%        16.728170
75%        29.688565
max       105.960006
Name: tasa_semana, dtype: float64

Para nuestra gráfica necesitaremos un degradado de colores, podemos usar las capacidades de palettas de colores de Bokeh. [Tiene muchas paletas disponibles como listas de colores.](https://docs.bokeh.org/en/latest/docs/reference/palettes.html#usability-palettes)

Seleccionaremos una y la invertiremos para que el color rojo quede en los colores altos

In [192]:
colores = list(bpa.OrRd[9])
colores.reverse()

Con esta paleta crearemos una escala de colores, se crea de la siguiente manera, todo gracias al DataSource

In [195]:
fill_color=btr.linear_cmap('tasa_semana', colores, low=0, high=por_semana["tasa_semana"].max())

Y graficamos...

In [196]:
p = bpl.figure(y_range=list(reversed(conf_pob_edo["ABREVIATURA"])))

In [197]:
p.rect(x="semana",y="ABREVIATURA",width=1,height=1, color=fill_color, source=source)

In [198]:
bpl.show(p)

A esta gráfica le faltan algunas cosas, etiquetas, tooltips, títulos. Te toca a ti aplicar lo que hemos aprendido para poner los elementos faltantes. Inténtalo!