In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
    
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Visualización 2 - bokeh y plotly

## Dataset

En esta clase vamos a usar datos de COVID-19 que disponibiliza Johns Hopkins University en 

https://github.com/CSSEGISandData/COVID-19

Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE 

(CSSE = Computer Science and Software Engineering)

Los datasets que usamos se actualizan diariamente y llevan el registro de cantidad de confirmados, muertos y recuperados por país o región.

Usando estos datos vamos a construir algunas visualizaciones con las bibliotecas bokeh y plotly.

(Nota: la actualizacion es diaria en mayo 2020.)


## Imports

In [None]:
import pandas as pd
import numpy as np
import datetime

### Leemos los datos

In [None]:
world_confirmed_url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'
world_deaths_url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv'
world_recovered_url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv'

world_confirmed = pd.read_csv(world_confirmed_url)
world_deaths = pd.read_csv(world_deaths_url)
world_recovered = pd.read_csv(world_recovered_url)

### Ejercicio 1

Veamos de qué paises tiene datos este dataset.

Filtremos los datos de países latinoamericanos y construyamos tres nuevos DataFrame 

* world_confirmed_latam
* world_deaths_latam
* world_recovered_latam

Empezamos construyendo una lista con los países de interes:

In [None]:
latam_countries = ['Argentina', 'Bolivia', 'Brazil', 'Chile', 'Colombia',
       'Costa Rica', 'Cuba', 'Dominican Republic', 'Ecuador',
       'El Salvador', 'Guatemala', 'Honduras',
       'Mexico', 'Nicaragua', 'Panama', 'Paraguay', 'Peru', 'Uruguay', 'Venezuela', 'Belize']

Observemos que en todos estos DataFrame la fecha aparece como una columna, es decir a medida que pasa el tiempo crece la cantidad de columnas, y no la cantidad de filas (como es usual).



---

## Bokeh

### Imports

In [None]:
from bokeh.plotting import figure
from bokeh.io import show, output_notebook
from bokeh.palettes import Category20
from bokeh.models import HoverTool


### Ejercicio 2

Grafiquemos las muertes por día para los países de latinoamérica

Cada punto de este gráfico tendrá como coordena x la cantidad de días desde el 22 de enero del 2020, y como coordenada y la cantidad de muertes ese día. Cada país estará representado por una serie distinta.

**2.a** Para eso tenemos que construir un DataFrame con tres columnnas:
* coord_x: es la cantidad de días desde el 22 de enero del 2020 (fecha mínima en el dataset)
* coord_y: es la cantidad de muertes en la fecha y país correspondiente a ese registro
* color: es el país

Ayuda: usemos la función `melt` de pandas

https://pandas.pydata.org/docs/reference/api/pandas.melt.html

**2.b** Grafiquemos los datos del DataFrame que construimos en el punto anterior

Veamos si las columnas del DataFrame construido tiene el tipo de datos adecuado.

Para representar la fecha (columna "variable") como coordenada x de los puntos vamos a convertirlas en enteros: cantidad de días desde el 22 de enero de 2020 hasta la fecha.

Vamos a usar para representar cada país un color de la paleta `Category20`.

Creamos un diccionario `color_map` que mapee países con colores 

Ahora podemos graficar los datos del DataFrame que construimos


### Ejercicio 3

Repitamos el gráfico del ejercicio anterior, usando como valores en el eje x la cantidad de días desde la primera muerte en un país de latinoamérica.

Y usemos lineas para unir los puntos de la misma serie.

Ayuda: Calculemos el mínimo valor de días con cantidad de muertes distinto de cero.

In [None]:
# veamos que data_ej3 sigue teniendo registros con coord_y = 0 
# porque todos los países comenzaron a tener muertos en fechas diferentes y nosotros consideramos umbral la fecha del primer muerto


Grafiquemos los datos de data_ej3

### Ejercicio 4

Para poder comparar las curvas de distintos países, grafiquemos ahora en el eje x la cantidad de días desde las primeras tres muertes en cada país.

Para eso vamos a tener que calcular las coordenadas del eje x con este criterio.

## Ejercicio 5

Repitamos el ejercicio 4 usando escala logarítmica

En este ejercicio sólo tenemos que cambiar el valor del argumento `y_axis_type` del método `figure`

## Ejercicio 6 - Opcional

Repitamos algunos de los análisis con los datos de confirmados o recuperados en latinoamérica

## Ejercicio 7 - Opcional

Usando gráficos de barras como los que vemos acá

https://hectoramirez.github.io/covid/COVID19.html
    
analicemos los datos de latam.

---

## Plotly

Recuerden crear un usuario y generar una api key en https://chart-studio.plotly.com/

In [None]:
import plotly
import plotly.express as px
import chart_studio

In [None]:
#chart-studio api
username = 'your_username' # your username
api_key = 'your_apikey' # your api api_key
chart_studio.tools.set_credentials_file(username=username, api_key=api_key)
import chart_studio.plotly as py

## Ejercicio 1

Vamos construir un único DataFrame con los datos de confirmados y muertos por país y fecha

Las columnas serán:
* Country/Region    
* fecha
* value_deaths
* value_confirmed




### Ejercicio 2

Vamos a graficar Confirmados vs. Muertos por país usando los datos de latam en el DataFrame que construimos en el ejercicio anterior para la máxima fecha disponible en el dataset.


### Ejercicio 3

Vamos a repetir el ejercicio 2, pero en lugar de graficar la fecha máxima del dataset usaremos una animación para ver un gráfico distinto por cada fecha.


La cuenta gratuita no nos deja graficar tantos datos, así que vamos a gaficar sólo la última semana

### Ejercicio 4

Ahora repitamos el ejercicio 3 para escala logarítmica

## Ejercicio 5

Usemos un gráfico de lineas para mostrar el total de casos confirmados de COVID 19 por pais de latam vs. cant de días desde el primer confirmado, en escala logaritmica.


## Referencias

https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-one-getting-started-a11655a467d4

https://towardsdatascience.com/your-live-covid-19-tracker-with-airflow-and-github-pages-658c3e048304

https://hectoramirez.github.io/covid/COVID19.html

https://joserzapata.github.io/es/post/covid19-visualizacion/

https://colab.research.google.com/github/JoseRZapata/JoseRZapata.github.io/blob/master/Jupyter_Notebook/Covid19_Visualizacion_es.ipynb
