# Módulo 3: Análisis exploratorio de los datos

**Profesor**: Juan Felipe Nájera Puente

**Clase**: Analítica de Datos con Python

# ¿Qué es Plotly Express?

- Submódulo de Plotly (`plotly.express`), creado para facilitar la creación de gráficos interactivos de forma sencilla y con pocas líneas de código.

- Parte del ecosistema de Plotly, una biblioteca inicialmente desarrollada por una empresa canadiense (Plotly, Inc.) en 2013.

## Origenes de Plotly

![image-2.png](attachment:image-2.png)

- **Plotly** fue fundada en 2012 en Montreal, Canadá, por un equipo de ingenieros, matemáticos y diseñadores.

- **Objetivo**: crear una herramienta interactiva, colaborativa y basada en la web para la visualización de datos científicos.

- En **2013**, se lanzó la primera versión pública de `Plotly.js`, una biblioteca de gráficos interactivos basada en **JavaScript**.

- Con el auge de **Python** para ciencia de datos, el equipo desarrolló una **API en Python** que sirviera como puente para generar estos gráficos en notebooks.

## Plotly en Python

- Las primeras versiones de Plotly en Python requerían usar una API más extensa y detallada, con **varias líneas de código** para generar gráficos básicos.

- Si bien eran gráficos visualmente atractivos e interactivos, el proceso era algo más complejo y verboso, especialmente comparado con **Seaborn** o **Matplotlib**.

## Nacimiento de Plotly Express

- En respuesta a esta complejidad, en **marzo de 2019**, Plotly lanza **Plotly Express** como parte de Plotly v4.0.

- Plotly Express ofrece una interfaz de alto nivel (inspirada en Seaborn) que permite crear **visualizaciones complejas** con una sola línea de código, usando **dataframes de Pandas** como entrada.

- Esto marcó un hito en la usabilidad de la librería, haciéndola mucho más **accesible** para analistas, científicos de datos y educadores.

## ¿Por qué es importante?

- Permite crear gráficos interactivos 
    - zoom, hover, seleccionar áreas, exportar.

- Ideal para dashboards, notebooks y presentaciones.

- Compatible con herramientas como:

    - Jupyter Notebooks / Colab

    - Dash (framework para apps web en Python)

    - Streamlit

    - Django / Flask (con render de HTML)

    - Power BI Python scripting

    - Shiny para Python


## Comparación con `Matplotlib` y `Seaborn`

| Característica            | Matplotlib | Seaborn            | Plotly Express (px)            |
| ------------------------- | ---------- | ------------------ | ------------------------------ |
| Tipo de gráficos          | Estáticos  | Estáticos + Estilo | Interactivos                   |
| Facilidad de uso          | Media      | Alta               | Muy alta (1 línea por gráfico) |
| Personalización           | Muy alta   | Alta               | Alta con parámetros            |
| Interacción (hover, zoom) | ⛔          | ⛔                  | ☑️                              |
| Exportable a web          | ⛔          | ⛔                  | ☑️                              |


## Instalación

In [None]:
pip install plotly

## Importación

In [None]:
import plotly.express as px

## Página web

https://plotly.com/python/

# Ejemplo Gapminder con Plotly Express

Dentro de las librerías más usadas, vienen también pre instaladas datos que pueden usar. En este caso, en Plotly Express existe la data de `Gapminder`. 

**Gapminder** es una fundación sueca sin fines de lucro, creada por el doctor Hans Rosling, su hijo Ola Rosling, y Anna Rosling Rönnlund. 

Su **objetivo** es combatir la ignorancia con datos y ayudar a las personas a entender cómo está cambiando el mundo a través de estadísticas confiables, visuales e interactivas.

Se puede usar con el siguiente comando: 

`px.data.gapminder()`

Esta data contiene una versión simplificada del set de datos reales que usa Gapminder en sus visualizaciones globales. 

Contiene información de 1952 a 2007, cada 5 años, y tiene estas columnas:

| Columna     | Descripción                                         |
| ----------- | --------------------------------------------------- |
| `country`   | Nombre del país                                     |
| `continent` | Continente al que pertenece                         |
| `year`      | Año del dato (1952, 1957, ..., 2007)                |
| `lifeExp`   | Esperanza de vida al nacer                          |
| `pop`       | Población total del país                            |
| `gdpPercap` | PIB per cápita (Producto Interno Bruto por persona) |


In [None]:
# se llama los datos
gapminder = px.data.gapminder()
display(gapminder.head())
gapminder.info()

## Gráfico de Dispersión

https://plotly.com/python-api-reference/generated/plotly.express.scatter

Se realizará un gráfico de dispersión (`scatter`) que visualiza la relación entre: 

- PIB per cápita (gdpPercap) en el eje X
- Esperanza de vida (lifeExp) en el eje Y
- Tamaño del punto proporcional a la población
- Color por continente
- Hover con nombre del país
- Animación por año (para ver la evolución en el tiempo)

Descripción de argumentos y uso de ejemplos:

- **`x="gdpPercap"`**  
  Define la variable del eje X del gráfico. En este caso, es el PIB per cápita de cada país.

- **`y="lifeExp"`**  
  Define la variable del eje Y. Aquí representa la esperanza de vida al nacer.

- **`animation_frame="year"`**  
  Crea una animación que avanza por cada año disponible en la columna `year`.  
  Ideal para mostrar cómo cambian los datos a lo largo del tiempo.

- **`animation_group="country"`**  
  Agrupa los puntos que pertenecen a la misma entidad (país), para que la animación los reconozca como el mismo objeto que se mueve con el tiempo.

- **`size="pop"`**  
  Controla el tamaño de los puntos en función de la población (`pop`) de cada país.  
  Esto permite visualizar qué países tienen más habitantes.

- **`color="continent"`**  
  Asigna un color distinto a cada punto según el continente.  
  Útil para agrupar visualmente por región geográfica.

- **`hover_name="country"`**  
  Muestra el nombre del país al pasar el cursor sobre cada punto.  
  Mejora la experiencia interactiva y el análisis exploratorio.

- **`log_x=True`**  
  Aplica una escala logarítmica al eje X.  
  Útil cuando hay diferencias muy grandes entre países ricos y pobres, ya que mejora la visualización.

- **`size_max=55`**  
  Establece el tamaño máximo de los puntos (para evitar que sean demasiado grandes y se superpongan).

- **`title="..."`**  
  Define el título del gráfico, que se muestra en la parte superior.


In [None]:
# gráfico
fig = px.scatter(
    gapminder,
    x="gdpPercap",
    y="lifeExp",
    animation_frame="year",
    animation_group="country",
    size="pop",
    color="continent",
    hover_name="country",
    log_x=True,
    size_max=55,
    title="Evolución del PIB per cápita y la Esperanza de Vida (1952-2007)"
)

# mostrar
fig.show()

## Sunburst Chart por Continente y País (año 2007)

https://plotly.com/python/sunburst-charts/

Un **Sunburst Chart** (o gráfico de rayos de sol) es una visualización jerárquica en forma de anillos concéntricos. Cada anillo representa un nivel de profundidad en la jerarquía.

- El centro representa el nivel más alto 
    - Por ejemplo, el continente.
- Cada capa hacia afuera representa subniveles 
    - Por ejemplo, país, año, etc.
- El tamaño de cada segmento es proporcional a un valor numérico
    - Por ejemplo, la población.
- El color puede representar otra variable
    - Por ejemplo, esperanza de vida.

**¿Para qué sirve?**

- Mostrar relaciones jerárquicas de forma compacta y visual.
- Comparar distribuciones internas dentro de cada grupo.
- Detectar fácilmente los elementos dominantes dentro de cada categoría.



Descripción de argumentos y uso del gráfico Sunburst:

- **`path=["continent", "country"]`**  
  Define la jerarquía del gráfico. En este caso, se representa primero el continente (nivel interno) y luego el país (nivel externo).  
  Cada segmento del gráfico muestra la relación entre estos niveles.

- **`values="pop"`**  
  Determina el tamaño de cada segmento según la población de cada país.  
  Países con mayor población ocuparán una porción más grande del anillo.

- **`color="lifeExp"`**  
  Asigna un color a cada segmento según la esperanza de vida del país.  
  Los colores permiten comparar visualmente la variable `lifeExp` entre países.

- **`color_continuous_scale="Viridis"`**  
  Especifica la paleta de colores utilizada. `Viridis` es una escala continua que va de tonos oscuros a claros, ideal para representar variables numéricas.

- **`title="..."`**  
  Define el título del gráfico, que se muestra en la parte superior y ayuda a contextualizar la visualización.

In [None]:
# filtramos el dataset para un solo año
gapminder_2007 = px.data.gapminder().query("year == 2007")

# creamos el sunburst
fig = px.sunburst(
    gapminder_2007,
    path=["continent", "country"],          
    values="pop",                           
    color="lifeExp",                        
    color_continuous_scale="Viridis",       
    title="Distribución poblacional por continente y país (2007)"
)

# ajustar tamaño
fig.update_layout(
    width=900,
    height=700,
    title_font_size=22
)

fig.update_traces(insidetextfont=dict(size=14))

fig.show()

## Treemap

https://plotly.com/python/treemaps/

Un **Treemap** es una visualización jerárquica en forma de rectángulos anidados. Cada rectángulo representa una categoría y su tamaño es proporcional a una variable numérica.

- El rectángulo más grande representa el nivel más alto de la jerarquía
    - Por ejemplo, el continente.

- Dentro de él, se anidan subniveles
    - Por ejemplo, países dentro de cada continente.

- El tamaño de cada bloque es proporcional a un valor numérico
    - Por ejemplo, la población.

- El color puede representar una segunda variable
    - Por ejemplo, esperanza de vida.

**¿Para qué sirve?**

- Visualizar la jerarquía y la proporción de cada categoría en un espacio compacto.

- Comparar visualmente la importancia relativa entre elementos.

- Detectar visualmente outliers o valores dominantes dentro de cada grupo.

Descripción de argumentos y uso del gráfico Treemap:

- **`path=["continent", "country"]`**  
  Define la jerarquía del gráfico. Primero se agrupa por continente (nivel superior), y dentro de cada continente por país (nivel inferior).  
  Cada bloque representa una combinación única de esta jerarquía.

- **`values="pop"`**  
  Define el tamaño de cada bloque según la población del país.  
  Cuanto mayor sea la población, más grande será el área del rectángulo.

- **`color="lifeExp"`**  
  Asigna un color a cada país según su esperanza de vida.  
  Útil para agregar una segunda capa de análisis visual.

- **`color_continuous_scale="Viridis"`**  
  Paleta de colores continua que va de oscuro a claro.  
  Ideal para representar variables numéricas como `lifeExp`.

- **`title="..."`**  
  Define el título del gráfico, visible en la parte superior.  
  Brinda contexto y mejora la presentación del gráfico.


In [None]:
# treemap
fig = px.treemap(
    gapminder_2007,
    path=["continent", "country"],
    values="pop",
    color="lifeExp",
    color_continuous_scale="Viridis",
    title="Treemap de población por continente y país (2007)"
)

# tamaño
fig.update_layout(
    width=900,
    height=650,
    margin=dict(t=50, l=25, r=25, b=25)
)

# mostrar
fig.show()


## Choropleth Maps

https://plotly.com/python/choropleth-maps/

Un **Choropleth Map** es una visualización geográfica en la que las regiones (países, estados, provincias, etc.) se colorean según los valores de una variable numérica.

- Cada país (o región) se representa como una figura geográfica en un mapa.
- El color de cada país indica el valor de una variable numérica
    - Por ejemplo, esperanza de vida, PIB per cápita o población.
- Los colores siguen una escala continua o categórica.
- Es una excelente herramienta para mostrar distribuciones globales o detectar desigualdades geográficas.

**¿Para qué sirve?**

- Representar visualmente datos cuantitativos sobre un mapa.
- Comparar regiones según un indicador específico.
- Identificar patrones espaciales, como desigualdad regional o agrupaciones geográficas.

Descripción de argumentos y uso del gráfico Choropleth:

- **`locations="iso_alpha"`**  
  Especifica la columna que contiene los **códigos ISO 3166-1 alfa-3** de los países (ej. 'ECU', 'USA', 'COL').  
  Plotly los utiliza para ubicar correctamente cada país en el mapa.

- **`color="lifeExp"`**  
  Variable numérica que define el color de cada país.  
  En este caso, se representa la esperanza de vida promedio.

- **`hover_name="country"`**  
  Muestra el nombre del país cuando se pasa el cursor sobre él.  
  Mejora la interactividad del gráfico.

- **`color_continuous_scale="Blues"`**  
  Paleta de colores utilizada para representar el valor numérico.  
  'Blues' va de tonos claros a oscuros según el valor de `lifeExp`.

- **`title="..."`**  
  Define el título del gráfico, que se muestra en la parte superior del mapa.

- **`geo=dict(showframe=False)`**  
  Elimina el marco del mapa para una visualización más limpia.


In [None]:
gapminder_2007.head()

In [None]:
# filtrar datos para el año 2007
gapminder_2007 = px.data.gapminder().query("year == 2007")

# crear Choropleth Map
fig = px.choropleth(
    gapminder_2007,
    locations="iso_alpha",           
    color="lifeExp",                 
    hover_name="country",            
    color_continuous_scale="YlGnBu",  
    title="Esperanza de vida por país (2007)"
)

# ajustar estilo del mapa
fig.update_layout(
    geo=dict(showframe=False)
)

fig.show()