#### Diplomado en Ciencia de Datos
M√≥dulo 2: Business Intelligence  
## **Tema 3: Data Storytelling**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Creando narrativas de datos desde un jupyter notebook

El poder de los lenguajes de programaci√≥n es tal que nos permite crear **librer√≠as (o paquetes)** reutilizables cuyo prop√≥sito es resolver tareas espec√≠ficas. Mi ejemplo favorito del uso de python en la visualizaci√≥n de datos evento cient√≠fico reciente, en el que la Dra. Katie Bouman lider√≥ el equipo que "tom√≥ una fotograf√≠a" de un agujero negro por primera vez en la historia utilizando √∫nicamente bibliotecas de Python para lograrlo. Historia aqu√≠: ["how imaging a blackhole gives us one more reason to embrace python for larger datasets?](https://analyticsindiamag.com/how-imaging-a-blackhole-gives-us-one-more-reason-to-embrace-python-for-larger-datasets/)

Los ejemplos que se dan en este notebook se han adaptado del [art√≠culo de anuncio de Medium](https://medium.com/@plotlygraphs/introducing-plotly-express-808df010143d) que presenta [Plotly Express](https://plotly.express): una **biblioteca** basada en `Plotly.py` para la exploraci√≥n r√°pida de datos y la generaci√≥n de gr√°ficas.

**Nota:** Dado que **Plotly Express** es una biblioteca externa, es necesario instalarla antes de ejecutarla.

```shell
!pip install plotly
```

**EN CASO DE NO TENER INSTALADO `plotly`:**

In [None]:
!pip install plotly

Collecting plotly
  Downloading plotly-5.24.1-py3-none-any.whl.metadata (7.3 kB)
Collecting tenacity>=6.2.0 (from plotly)
  Downloading tenacity-9.0.0-py3-none-any.whl.metadata (1.2 kB)
Downloading plotly-5.24.1-py3-none-any.whl (19.1 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m19.1/19.1 MB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading tenacity-9.0.0-py3-none-any.whl (28 kB)
Installing collected packages: tenacity, plotly


**Ahora Reinicia el kernel de este notebook en el men√∫ `Kernel > Restart Kernel`**

En caso de ya tener instalado `plotly`, contin√∫a con los siguientes pasos

In [8]:
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'iframe'


## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya est√° contenido en la biblioteca de Plotly, pero tambi√©n en un CSV en este repo. El dataset contiene informaci√≥n sobre la esperanza de vida, la poblaci√≥n y el PIB per c√°pita de los pa√≠ses por a√±o.

In [9]:
import pandas as pd
dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

---
## Regla general para graficar en Plotly express

```python
px._______(data = ____, x=_____, y=_____, other_paremeters=____)


px.scatter(data=dataset, x=variable_x, y=variable_y)
```

**Creating advanced visualizations**

The following command will: Use the `data2007` cut. Take the `gdpPercap` as **X** axis and `lifeExp` as **Y** axis value. Render a scatter plot.  
**Note:** you can hover your cursor on the plot and explore individual data elements.

# EJERCICIO 1

- Haz un query que filtre el a√±o 1997 y se cree un subset
- Crea una gr√°fica de disperci√≥n con la funci√≥n `px.scatter` que compare el GDP per capita y la esperanza de vida

In [27]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)


import plotly.express as px

#subset
dataset_2007 = dataset[dataset['year'] == 2007]


# Dispersi√≥n
fig = px.scatter(dataset_2007, 
                 x='gdpPercap',  # PIB per c√°pita
                 y='lifeExp',  
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  # Muestra el nombre del pa√≠s al pasar el cursor
                 size='pop',  # Tama√±o de los puntos basado en la poblaci√≥n
                 color='continent',  # Colorea por continente
                 log_x=True,  
                 size_max=60,  
                 opacity=0.7,  # Opacidad de los puntos
                 #color_discrete_sequence=px.colors.qualitative.D3  # para cambiar la paleta de colores
                ) #identacion si lo muevo no funciona


fig.show()



**Adding Color and Size**

The following command is very similar than the last one, except that this contains **new parameters** within the function: `color`, `size` and `size_max`.   

**Note:** You can scroll down the values and also use the zoom option in the plot

# EJERCICIO 2

- Utiliza el mismo subset del datos del 2007
- Crea de nuevo una gr√°fica de disperci√≥n incluyendo nuevos par√°metros: `color`, `size` y `size_max`
Nota: `color` tiene que ser una variable categ√≥rica, y `size` una variable num√©rica

**Understanding a graphic**

In [29]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)

#numerica:poblacion cate:continente 

import plotly.express as px


dataset_2007 = dataset[dataset['year'] == 2007]

# gr√°fica de dispersi√≥n
fig = px.scatter(dataset_2007, 
                 x='gdpPercap', 
                 y='lifeExp',  
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  
                 size='pop',  
                 color='continent', 
                 log_x=True, 
                 size_max=60,  
                 opacity=0.7) 

fig.show()


In [None]:
¬øqu√© tiene de diferencia de lo anterior ?
-interactividad, el tipo de visualizaci√≥n,par√°metros 
Ejercicio2: Nuevos Par√°metros:color: Categ√≥rico (para diferenciar grupos como continentes).
size: Num√©rico (para el tama√±o de los puntoscon una variable como la poblaci√≥n),
hace zoom


Everytime a new parameter is added to the formula, the plotting result is changing.

# EJERCICIO 3

- Utiliza la misma gr√°fica de dispersi√≥n, ahora queremos responder algunas preguntas para la narrativa de datos
- Agrega los siguientes par√°metros para tener una mejor gr√°fica
```python
facet_col="continent", log_x=True, trendline="ols", hover_name="country"
```
Responde: 
- Si se cambia `log_x=False` por `log_x=True`, que es lo que pasa?
- Que pais tiene el GPD per capita m√°s bajo en asia?
- Que paises tienen la esperanza de vida m√°s alta en Africa

In [30]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)


# Responde:
#1.mostrar√° el PIB per c√°pita en su escala real,los valores
#muy grandes ser√°n vistos en primera y los valores m√°s peque√±os ser√°n menos visibles, es √∫til cuando los datos 
#tienen valores grandes.




import plotly.express as px


fig = px.scatter(dataset_2007, 
                 x='gdpPercap', 
                 y='lifeExp', 
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country', 
                 size='pop',  
                 color='continent',
                 log_x=True, #aqu√≠ cambiamos,es √∫til cuando los datos tienen una amplia gama de valores
                 size_max=60,
                 opacity=0.7,  
                 color_discrete_sequence=px.colors.qualitative.D3,  
                 facet_col='continent',  # facetas por continente
                 trendline='ols')  # L√≠nea de tendencia con OLS (Ordinary Least Squares)

fig.show()










In [34]:
#2.Que pais tiene el GPD per capita m√°s bajo en asia?
#3.Que paises tienen la esperanza de vida m√°s alta en Africa


# datos para Asia
dataset_asia = dataset_2007[dataset_2007['continent'] == 'Asia']

# pa√≠s con el GDP per Capita m√°s bajo
country_lowest_gdp_asia = dataset_asia.loc[dataset_asia['gdpPercap'].idxmin()]
country_lowest_gdp_asia[['country', 'gdpPercap']]




country      Myanmar
gdpPercap      944.0
Name: 1055, dtype: object

In [35]:
# para √Åfrica
dataset_africa = dataset_2007[dataset_2007['continent'] == 'Africa']

# esperanza de vida m√°s alta
highest_life_exp_africa = dataset_africa.loc[dataset_africa['lifeExp'].idxmax()]
highest_life_exp_africa[['country', 'lifeExp']]



country    Reunion
lifeExp     76.442
Name: 1271, dtype: object

**Quantity over time**

Creating a country subset so that we can analyse data over time. Take the `year` as X axis and `lifeExp` (Population) as Y axis value. Render an horizontal bar plot.  

# EJERCICIO 4 

- Elije un pa√≠s para aplicar el filtro/query
- Crea una gr√°fica de barras `px.bar()` donde los a√±os sean el eje x y la poblaci√≥n el eje y
- Encuentra el bot√≥n para descargar la imagen y descargala en el mismo folder de tareas

In [37]:
# px._______(data = ____, x=_____, y=_____)




import pandas as pd
import plotly.express as px


dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

# Filtrar datos para el pa√≠s espec√≠fico (por ejemplo, India)
country_name = 'China'
country_subset = dataset[dataset['country'] == country_name]

# Crear el gr√°fico de barras horizontales
fig = px.bar(country_subset, 
             x='lifeExp',  # Cambia esto a 'pop' si prefieres analizar la poblaci√≥n
             y='year', 
             orientation='h',  # Horizontal
             title=f'Life Expectancy Over Time for {country_name}',
             labels={'lifeExp': 'Life Expectancy', 'year': 'Year'},
             text='lifeExp')  # Muestra los valores de la esperanza de vida en las barras

fig.show()







**Animated plot**

There is a new play/stop button inside the graph, click on it and enjoy the visuals!  
## What would it be your **data story**?

# EJERCICIO 5 

- La misma funci√≥n `px.scatter` tiene par√°metros para animarla!
- Utiliza la misma gr√°fica e incluye ahora  `animation_frame="year"`, `animation_group="country"` y ve lo que sucede

In [38]:
# px._______(data = ____, x=_____, y=_____)

import pandas as pd
import plotly.express as px

dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

# dispersi√≥n animada, en a√±os
fig = px.scatter(dataset, 
                 x='gdpPercap', 
                 y='lifeExp', 
                 animation_frame='year',  
                 animation_group='country',
                 title='GDP per Capita vs Life Expectancy Over Time',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  
                 size='pop',  
                 color='continent',  
                 log_x=True,  
                 size_max=60) 

fig.show()




Because this is geographic data, we can also represent it as an animated map, which makes it clear that `px` can make way more than just scatterplots.

## üéâüéâ Congrats!!  

## You've finished the notebook