#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## **Tema 3: Data Storytelling**

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Creando narrativas de datos desde un jupyter notebook

El poder de los lenguajes de programación es tal que nos permite crear **librerías (o paquetes)** reutilizables cuyo propósito es resolver tareas específicas. Mi ejemplo favorito del uso de python en la visualización de datos evento científico reciente, en el que la Dra. Katie Bouman lideró el equipo que "tomó una fotografía" de un agujero negro por primera vez en la historia utilizando únicamente bibliotecas de Python para lograrlo. Historia aquí: ["how imaging a blackhole gives us one more reason to embrace python for larger datasets?](https://analyticsindiamag.com/how-imaging-a-blackhole-gives-us-one-more-reason-to-embrace-python-for-larger-datasets/)

Los ejemplos que se dan en este notebook se han adaptado del [artículo de anuncio de Medium](https://medium.com/@plotlygraphs/introducing-plotly-express-808df010143d) que presenta [Plotly Express](https://plotly.express): una **biblioteca** basada en `Plotly.py` para la exploración rápida de datos y la generación de gráficas.

**Nota:** Dado que **Plotly Express** es una biblioteca externa, es necesario instalarla antes de ejecutarla.

```shell
!pip install plotly
```

**EN CASO DE NO TENER INSTALADO `plotly`:**

In [None]:
!pip install plotly

Collecting plotly
  Downloading plotly-5.24.1-py3-none-any.whl.metadata (7.3 kB)
Collecting tenacity>=6.2.0 (from plotly)
  Downloading tenacity-9.0.0-py3-none-any.whl.metadata (1.2 kB)
Downloading plotly-5.24.1-py3-none-any.whl (19.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.1/19.1 MB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading tenacity-9.0.0-py3-none-any.whl (28 kB)
Installing collected packages: tenacity, plotly


**Ahora Reinicia el kernel de este notebook en el menú `Kernel > Restart Kernel`**

En caso de ya tener instalado `plotly`, continúa con los siguientes pasos

In [8]:
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'iframe'


## The Data: Global flows

Para este notebook, usaremos el [ejemplo de Gapminder](https://www.gapminder.org/fw/world-health-chart/), un dataset que ya está contenido en la biblioteca de Plotly, pero también en un CSV en este repo. El dataset contiene información sobre la esperanza de vida, la población y el PIB per cápita de los países por año.

In [9]:
import pandas as pd
dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

---
## Regla general para graficar en Plotly express

```python
px._______(data = ____, x=_____, y=_____, other_paremeters=____)


px.scatter(data=dataset, x=variable_x, y=variable_y)
```

**Creating advanced visualizations**

The following command will: Use the `data2007` cut. Take the `gdpPercap` as **X** axis and `lifeExp` as **Y** axis value. Render a scatter plot.  
**Note:** you can hover your cursor on the plot and explore individual data elements.

# EJERCICIO 1

- Haz un query que filtre el año 1997 y se cree un subset
- Crea una gráfica de disperción con la función `px.scatter` que compare el GDP per capita y la esperanza de vida

In [27]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)


import plotly.express as px

#subset
dataset_2007 = dataset[dataset['year'] == 2007]


# Dispersión
fig = px.scatter(dataset_2007, 
                 x='gdpPercap',  # PIB per cápita
                 y='lifeExp',  
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  # Muestra el nombre del país al pasar el cursor
                 size='pop',  # Tamaño de los puntos basado en la población
                 color='continent',  # Colorea por continente
                 log_x=True,  
                 size_max=60,  
                 opacity=0.7,  # Opacidad de los puntos
                 #color_discrete_sequence=px.colors.qualitative.D3  # para cambiar la paleta de colores
                ) #identacion si lo muevo no funciona


fig.show()



**Adding Color and Size**

The following command is very similar than the last one, except that this contains **new parameters** within the function: `color`, `size` and `size_max`.   

**Note:** You can scroll down the values and also use the zoom option in the plot

# EJERCICIO 2

- Utiliza el mismo subset del datos del 2007
- Crea de nuevo una gráfica de disperción incluyendo nuevos parámetros: `color`, `size` y `size_max`
Nota: `color` tiene que ser una variable categórica, y `size` una variable numérica

**Understanding a graphic**

In [29]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)

#numerica:poblacion cate:continente 

import plotly.express as px


dataset_2007 = dataset[dataset['year'] == 2007]

# gráfica de dispersión
fig = px.scatter(dataset_2007, 
                 x='gdpPercap', 
                 y='lifeExp',  
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  
                 size='pop',  
                 color='continent', 
                 log_x=True, 
                 size_max=60,  
                 opacity=0.7) 

fig.show()


In [None]:
¿qué tiene de diferencia de lo anterior ?
-interactividad, el tipo de visualización,parámetros 
Ejercicio2: Nuevos Parámetros:color: Categórico (para diferenciar grupos como continentes).
size: Numérico (para el tamaño de los puntoscon una variable como la población),
hace zoom


Everytime a new parameter is added to the formula, the plotting result is changing.

# EJERCICIO 3

- Utiliza la misma gráfica de dispersión, ahora queremos responder algunas preguntas para la narrativa de datos
- Agrega los siguientes parámetros para tener una mejor gráfica
```python
facet_col="continent", log_x=True, trendline="ols", hover_name="country"
```
Responde: 
- Si se cambia `log_x=False` por `log_x=True`, que es lo que pasa?
- Que pais tiene el GPD per capita más bajo en asia?
- Que paises tienen la esperanza de vida más alta en Africa

In [30]:
# px._______(data = ____, x=_____, y=_____, other_paremeters=____)


# Responde:
#1.mostrará el PIB per cápita en su escala real,los valores
#muy grandes serán vistos en primera y los valores más pequeños serán menos visibles, es útil cuando los datos 
#tienen valores grandes.




import plotly.express as px


fig = px.scatter(dataset_2007, 
                 x='gdpPercap', 
                 y='lifeExp', 
                 title='GDP per Capita vs Life Expectancy (2007)',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country', 
                 size='pop',  
                 color='continent',
                 log_x=True, #aquí cambiamos,es útil cuando los datos tienen una amplia gama de valores
                 size_max=60,
                 opacity=0.7,  
                 color_discrete_sequence=px.colors.qualitative.D3,  
                 facet_col='continent',  # facetas por continente
                 trendline='ols')  # Línea de tendencia con OLS (Ordinary Least Squares)

fig.show()










In [34]:
#2.Que pais tiene el GPD per capita más bajo en asia?
#3.Que paises tienen la esperanza de vida más alta en Africa


# datos para Asia
dataset_asia = dataset_2007[dataset_2007['continent'] == 'Asia']

# país con el GDP per Capita más bajo
country_lowest_gdp_asia = dataset_asia.loc[dataset_asia['gdpPercap'].idxmin()]
country_lowest_gdp_asia[['country', 'gdpPercap']]




country      Myanmar
gdpPercap      944.0
Name: 1055, dtype: object

In [35]:
# para África
dataset_africa = dataset_2007[dataset_2007['continent'] == 'Africa']

# esperanza de vida más alta
highest_life_exp_africa = dataset_africa.loc[dataset_africa['lifeExp'].idxmax()]
highest_life_exp_africa[['country', 'lifeExp']]



country    Reunion
lifeExp     76.442
Name: 1271, dtype: object

**Quantity over time**

Creating a country subset so that we can analyse data over time. Take the `year` as X axis and `lifeExp` (Population) as Y axis value. Render an horizontal bar plot.  

# EJERCICIO 4 

- Elije un país para aplicar el filtro/query
- Crea una gráfica de barras `px.bar()` donde los años sean el eje x y la población el eje y
- Encuentra el botón para descargar la imagen y descargala en el mismo folder de tareas

In [37]:
# px._______(data = ____, x=_____, y=_____)




import pandas as pd
import plotly.express as px


dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

# Filtrar datos para el país específico (por ejemplo, India)
country_name = 'China'
country_subset = dataset[dataset['country'] == country_name]

# Crear el gráfico de barras horizontales
fig = px.bar(country_subset, 
             x='lifeExp',  # Cambia esto a 'pop' si prefieres analizar la población
             y='year', 
             orientation='h',  # Horizontal
             title=f'Life Expectancy Over Time for {country_name}',
             labels={'lifeExp': 'Life Expectancy', 'year': 'Year'},
             text='lifeExp')  # Muestra los valores de la esperanza de vida en las barras

fig.show()







**Animated plot**

There is a new play/stop button inside the graph, click on it and enjoy the visuals!  
## What would it be your **data story**?

# EJERCICIO 5 

- La misma función `px.scatter` tiene parámetros para animarla!
- Utiliza la misma gráfica e incluye ahora  `animation_frame="year"`, `animation_group="country"` y ve lo que sucede

In [38]:
# px._______(data = ____, x=_____, y=_____)

import pandas as pd
import plotly.express as px

dataset = pd.read_csv('../data/gapminder_data_world_health.csv')

# dispersión animada, en años
fig = px.scatter(dataset, 
                 x='gdpPercap', 
                 y='lifeExp', 
                 animation_frame='year',  
                 animation_group='country',
                 title='GDP per Capita vs Life Expectancy Over Time',
                 labels={'gdpPercap': 'GDP per Capita', 'lifeExp': 'Life Expectancy'},
                 hover_name='country',  
                 size='pop',  
                 color='continent',  
                 log_x=True,  
                 size_max=60) 

fig.show()




Because this is geographic data, we can also represent it as an animated map, which makes it clear that `px` can make way more than just scatterplots.

## 🎉🎉 Congrats!!  

## You've finished the notebook