#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## **Tema 3: Data Storytelling**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Creando narrativas de datos desde un jupyter notebook

El poder de los lenguajes de programación es tal que nos permite crear **librerías (o paquetes)** reutilizables cuyo propósito es resolver tareas específicas. Mi ejemplo favorito del uso de python en la visualización de datos evento científico reciente, en el que la Dra. Katie Bouman lideró el equipo que "tomó una fotografía" de un agujero negro por primera vez en la historia utilizando únicamente bibliotecas de Python para lograrlo. Historia aquí: ["how imaging a blackhole gives us one more reason to embrace python for larger datasets?](https://analyticsindiamag.com/how-imaging-a-blackhole-gives-us-one-more-reason-to-embrace-python-for-larger-datasets/)

Los ejemplos que se dan en este notebook se han adaptado del [artículo de anuncio de Medium](https://medium.com/@plotlygraphs/introducing-plotly-express-808df010143d) que presenta [Plotly Express](https://plotly.express): una **biblioteca** basada en `Plotly.py` para la exploración rápida de datos y la generación de gráficas.

**Nota:** Dado que **Plotly Express** es una biblioteca externa, es necesario instalarla antes de ejecutarla.

```shell
!pip install plotly
```

**EN CASO DE NO TENER INSTALADO `plotly`:**

In [1]:
!pip install plotly

Collecting plotly
  Downloading plotly-5.24.1-py3-none-any.whl.metadata (7.3 kB)
Collecting tenacity>=6.2.0 (from plotly)
  Downloading tenacity-9.0.0-py3-none-any.whl.metadata (1.2 kB)
Downloading plotly-5.24.1-py3-none-any.whl (19.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.1/19.1 MB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading tenacity-9.0.0-py3-none-any.whl (28 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.24.1 tenacity-9.0.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


**Ahora Reinicia el kernel de este notebook en el menú `Kernel > Restart Kernel`**

En caso de ya tener instalado `plotly`, continúa con los siguientes pasos

In [1]:
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'iframe'

## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya está contenido en la biblioteca de Plotly, pero también en un CSV en este repo. El dataset contiene información sobre la esperanza de vida, la población y el PIB per cápita de los países por año.

In [3]:
import pandas as pd
dataset = pd.read_csv('../../../data-visualization-with-python/data/gapminder_data_world_health.csv')
dataset

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,AFG,4
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
...,...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716


---
## Regla general para graficar en Plotly express

```python
px._______(data = ____, x=_____, y=_____, other_paremeters=____)


px.scatter(data=dataset, x=variable_x, y=variable_y)
```

**Creating advanced visualizations**

The following command will: Use the `data2007` cut. Take the `gdpPercap` as **X** axis and `lifeExp` as **Y** axis value. Render a scatter plot.  
**Note:** you can hover your cursor on the plot and explore individual data elements.

# EJERCICIO 1

- Haz un query que filtre el año 1997 y se cree un subset
- Crea una gráfica de disperción con la función `px.scatter` que compare el GDP per capita y la esperanza de vida

In [10]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)

dataset_1997 = dataset[(dataset["year"] == 1997)]
dataset_1997

px.scatter(dataset_1997,x="gdpPercap", y="lifeExp")


**Adding Color and Size**

The following command is very similar than the last one, except that this contains **new parameters** within the function: `color`, `size` and `size_max`.   

**Note:** You can scroll down the values and also use the zoom option in the plot

# EJERCICIO 2

- Utiliza el mismo subset del datos del 2007
- Crea de nuevo una gráfica de disperción incluyendo nuevos parámetros: `color`, `size` y `size_max`
Nota: `color` tiene que ser una variable categórica, y `size` una variable numérica

In [12]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)

px.scatter(dataset_1997,x="gdpPercap", y="lifeExp", color= "continent", size = "lifeExp")


**Understanding a graphic**

Everytime a new parameter is added to the formula, the plotting result is changing.

# EJERCICIO 3

- Utiliza la misma gráfica de dispersión, ahora queremos responder algunas preguntas para la narrativa de datos
- Agrega los siguientes parámetros para tener una mejor gráfica
```python
facet_col="continent", log_x=True, trendline="ols", hover_name="country"
```
Responde: 
- Si se cambia `log_x=False` por `log_x=True`, que es lo que pasa?
- Que pais tiene el GPD per capita más bajo en asia?
- Que paises tienen la esperanza de vida más alta en Africa

In [20]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)

px.scatter(dataset_1997,x="gdpPercap", y="lifeExp", color= "continent", size = "lifeExp"
           , facet_col="continent", log_x=True, trendline="ols", hover_name="country")

# Responde:

''' con log_x = False se grafica las cordenadas tal cual viene en la base, si se cambia el argumento a True
    se grafica el argumento x (en este caso gdpPercap) en escala logaritmica

    Myanmar cuenta con el gdpPercap más bajo en el continente asiatico, con un valor de 415

    Los 3 paises con la esperanza de vida mas alta en Africa son Reunion, Tunisia y Libia, con 74.77,
    71.97 y 71.56 respectivamente '''



**Quantity over time**

Creating a country subset so that we can analyse data over time. Take the `year` as X axis and `lifeExp` (Population) as Y axis value. Render an horizontal bar plot.  

# EJERCICIO 4 

- Elije un país para aplicar el filtro/query
- Crea una gráfica de barras `px.bar()` donde los años sean el eje x y la población el eje y
- Encuentra el botón para descargar la imagen y descargala en el mismo folder de tareas

In [25]:
# px._______(data = ____, x=_____, y=_____)

dataset_mex = dataset[(dataset["country"] == "Mexico")]
dataset_mex

px.bar(dataset_mex, x= "year", y = "pop")


**Animated plot**

There is a new play/stop button inside the graph, click on it and enjoy the visuals!  
## What would it be your **data story**?

# EJERCICIO 5 

- La misma función `px.scatter` tiene parámetros para animarla!
- Utiliza la misma gráfica e incluye ahora  `animation_frame="year"`, `animation_group="country"` y ve lo que sucede

In [31]:
# px._______(data = ____, x=_____, y=_____)

px.scatter(dataset, x="gdpPercap", y="lifeExp", color= "continent", size = "lifeExp",
          animation_frame="year", animation_group="country")


Because this is geographic data, we can also represent it as an animated map, which makes it clear that `px` can make way more than just scatterplots.

## 🎉🎉 Congrats!!  

## You've finished the notebook