<font size=6>

<b>Taller de Análisis de Datos</b>
</font>

<font size=4>
    
InpsiraSTEM 2025 <br/>
24 de Julio de 2025

</font>

https://github.com/michaelsanchez2025/inspirastem2025-data-analises/

<br/>

# Día 2 - Visualización

## Objetivos

- Introducir las diferentes librerías para visualización de datos en Python, describiendo sus principales características.

- Conocer los fundamentos del uso de la librería _Matplotlib_, la más utilizada para la creación de gráficos en Python.

- Introducir las capacidades gráficas de _Pandas_ y la librería de alto nivel _Seaborn_, basadas en Matplotlib.

## Introducción
Como suele decirse, _una imagen vale más que mil palabras_. Para entender mejor nuestros datos, o para comunicar resultados, es imprescindible ser capaz de producir visualizaciones adecuadas.

Podríamos dedicar un curso entero solo a hablar de los diferentes tipos de gráficos existentes, y cuáles son las cualidades que estos deben reunir. Aunque a lo largo del curso, veremos algunos ejemplos de gráficos interesantes para el análisis de datos, en este tema vamos a centrarnos en describir las librerías de visualización más importantes para Python, y en los fundamentos del uso de algunas de ellas (las que utilizaremos en los temas siguientes).

## Librerías de visualización en Python

### Matplotlib
Matplotlib ha sido considerada desde hace mucho tiempo la librería de referencia para la creación gráfica en Python. Aunque hoy en día existen diferentes alternativas, algunas de ellas muy populares, Matplotlib sigue siendo seguramente la más utilizada. Además, algunas librerías gráficas que ofrecen interfaces de alto nivel utilizan Matplotlib internamente.

Matplotlib se inspiró en Matlab para su interfaz a usuarios (la referencia en el momento de su creación). A lo largo del tiempo el interfaz y las recomendaciones de uso han ido evolucionando. En este curso, utilizaremos versiones recientes y las prácticas de uso recomendadas en la actualidad.

Algunas deficiencias de Matplotlib son su escasa funcionalidad de interactividad, una complicada gestión de las series de datos temporales y el soporte a gráficos 3D.

### Interfaces de alto nivel sobre Matplotlib: Seaborn y Pandas

**Seaborn**
Seaborn es un interfaz de alto nivel a Matplotlib. Su objetivo es facilitar la producción de gráficos de calidad (quizás con mejor acabado que los de Matplotlib), principalmente a partir de DataFrames de Pandas.

Además, Seaborn ofrece buen soporte para una fácil representacion de análisis estadístico (como los gráficos de regresión).

**Pandas**
Los objetos Pandas ofrecen funciones de alto nivel para la creación de gráficos. En realidad, esto es solo un interfaz de conveniencia que internamente utiliza Matplotlib, pero puede ser suficiente y sencillo para los gráficos más comunes.


### Librerías para gráficos interactivos: Plotly y Bokeh

**Plotly**
Basada en la librería de Javascript `plotly.js`, la librería de Python `plotly` (o `plotly.py`) está especialmente dirigida a la creación de gráficos interactivos para plataformas web (Jupyter , aplicaciones creadas con `Dash`), aunque pueden ser guardados como documentos HTML, o exportados a otros contextos (integración con IDEs, o figuras estáticas).

- _Dash_ es un _framework_ para la creación de aplicaciones webs interactivas para análisis de datos con Python (sin manipular directamente javascript). Plotly es la librería de visualización utilizada con Dash.

Plotly es buena elección para trabajar con Dash, o, en general, para conseguir interactividad, o cuando se quiere usar la misma librería con Python y con otros lenguajes (R, Julia, etc.).

Además, Plotly ofrece algunos tipos de visualizaciones no presentes en otras librerías, especialmente para gráficos en 3D, y contiene utilidades para visualizar resultados de algoritmos de aprendizaje automático (p.ej. clasificación kNN).

Para la integración de Plotly con Jupyter, se requiere la instalación de `ipywidgets`, y, para poder usar widgets (botones, _sliders_...) también de `jupyter-dash`.


**Bokeh**
La principal alternativa a plotly para gráficos interactivos es `Bokeh`. Ambas son potentes y ofrecen gran funcionalidad (aunque plotly es más potente para gráficos 3D), y resultados de calidad.

Bokeh también puede usarse para aplicaciones web, en las que el usuario puede interaccionar con un servidor. El _back-end_ para aplicaciones con Bokeh es `Tornado`, y utiliza _websockets_ para una interacción inmediata.

Para usar Bokeh en JupyterLab se debe instalar la extensión `jupyter_bokeh`, y utilizar la función `output_notebook`, en lugar de la habitual `output_file`. Además, uno puede incluso _empotrar_ un servidor _back-end_ para Bokeh en un notebook Jupyter.


### Librerías de uso específico: mapas, redes, datasets

**Creación y visualización de mapas**
Para este fin, se pueden usar `Geoplotlib`o `Folium`.

**Visualización de redes complejas**
La librería `Networkx` permite, no solo visualizar, sino analizar, manipular y estudiar la estructura de redes complejas.

**Visualización de datasets (datos ausentes)**
La librería `Missingno` permite visualizar fácilmente (una línea de código) qué datos faltan en un dataset.


### Otras librerías

**ggplot2/plotnine**
Implementaciones para Python de la conocida (y apreciada) librería `ggplot2` de R. Son opciones para quien provenga de R, o trabaje a la vez con Python y R, o simplemente aprecie la aproximación declarativa de ggplot2.

**Altair**
Otra librería declarativa, basada en _Vega-Lite_. Altair pone énfasis en la sencillez y facilidad de uso.


### Recomendaciones generales
Aunque a la hora de elegir una librería hay muchos factores personales a tener en cuenta (tipo de trabajo, conocimientos previos, gusto personal), y las opciones disponibles van evolucionando, mis recomendaciones generales son las siguientes:

- Es importante conocer los fundamentos de Matplotlib, porque sigue siendo la libraría más usada y es la base para otras.

- Sin embargo, probablemente sea más productivo usar las capacidades gráficas de Pandas y la librería Seaborn, antes que Matplotlib, para gráficos estáticos. Recurriríamos a Matplotlib cuando necesitemos personalización o funcionalidades de bajo nivel.

- Para visualizaciones interactivas o para aplicaciones web,  plotly o bokeh.

- Para gráficos 3D, plotly parece la opción más potente.

- Para grafos o mapas, usar librerías específicas.

## Matplotlib



**Nota:** Las funciones de Matplotlib esperan recibir ndarrays de NumPy, o bien tipos de datos que puedan convertirse a estos sin problemas (listas Python, Pandas DataFrames, etc.).

### Aproximación al trabajo con Matplotlib

Hay básicamente dos maneras de usar Matplotlib:

- Explícitamente crear los objetos de los gráficos (_Artists_), y usar sus métodos (estilo _orientado a objetos_).

- Utilizar las funciones del interfaz `pyplot` y dejar que este gestione los objetos gráficos automáticamente (estilo de _scripting_, el más parecido al de Matlab).

La recomendación general es utilizar el segundo método para trabajo interactivo (_rápido_), pero usar el primero para proyectos de mayor envergadura, o que se vayan a reusar. A continuación, mostraremos los dos estilos.

#### Estilo de _scripting_

En este caso, utilizamos directamente funciones del módulo `pyplot` (`plt`). Podemos usar directamente `plt.plot`, o, como en este caso, usar `plt.subplot(rows, cols, plot_num)`, si queremos tener varios gráficos en la misma figura.

A partir de ahí, las llamadas que realicemos afectarán al gráfico (a los ejes) activos en ese momento.

In [None]:
import numpy as np
from matplotlib import pyplot as plt

In [None]:
x = np.linspace(0, 2, 100)

plt.subplot(2, 1, 1)
plt.plot(x, x, label='lineal')
plt.plot(x, x**2, label='cuadrático')
plt.ylabel('y label')
plt.legend()
plt.title("Simple Plot")

plt.subplot(2, 1, 2)
plt.plot(x, x, label='lineal')
plt.plot(x, x**3, label='cúbico')
plt.xlabel('x label')
plt.ylabel('y label 2')
plt.legend();

#### Estilo orientado a objetos

En este caso, volvemos a utilizar el módulo `pyplot` como puerta de entrada para crear una figura (`plt.figure`, o `plt.subplots`), pero, a partir de ahí, siempre realizaremos llamadas a los objetos `Figure`, o `Axes`, que nos devuelven:

```python
fig, ax = plt.subplots()
ax.plot(...)
```

Con `subplots` también podemos crear varios gráficos, en cuyo caso, nos devolverá una lista de `Axes`, uno para cada gráfico de la figura.

In [None]:
x = np.linspace(0, 2, 100)

# Incluso en OO-style, usamos pyplot.figure o .subplots para crear la figura
fig, axs = plt.subplots(2, 1)

axs[0].plot(x, x, label='lineal')
axs[0].plot(x, x**2, label='cuadrático')
axs[0].set_ylabel('y label')
axs[0].set_title("Simple Plot")
axs[0].legend()

axs[1].plot(x, x, label='lineal')
axs[1].plot(x, x**3, label='cúbico')
axs[1].set_xlabel('x label')
axs[1].set_ylabel('y label 2')
axs[1].legend();

### Principales objetos _Artist_
Básicamente, todos los objetos manipulables (y visibles) de una figura heredan del tipo `Artist`. Los principales son:

- `Figure`: el conjunto de la figura (que puede tener varios gráficos, _Axes_).
- `Axes`: referencia un gráfico (_plot_) concreto dentro de una figura. Es el objeto que más se usa en la interacción con los gráficos de Matplotlib.
- `Axis`: son los ejes de un gráfico. Se encargan de definir los límites de los valores representados, así como los _ticks_ y los _ticklabels_ de los ejes.

### _Back-ends_
Los gráficos producidos por Matplotlib pueden tener varios destinos objetivo: mostrarse en un notebook Jupyter, o en una ventana emergente, integrarse con un IDE, salvarse en un fichero, etc. El tipo de resultado que Matplotlib produce se determina por el _back-end_ que se utiliza en cada caso.

Por defecto Matplotlib seleeciona el _back-end_ adecuado, y normalmente no es necesario instalar nada. Sin embargo, sí puede ser necesario hacer alguna instalación adicional, o seleccionar manualmente el _back-end_ para integración en una apliación gráfica o web.

- Nota: en algunas distribuciones Linux es necesario instalar el paquete `tkinter` para que Matplotlib funcione adecuadamente.

En el caso de tener que indicar el _back-end_ explícitamente se puede hacer en el fichero `matplotlibrc`, con la variable de entorno `MPLBACKEND`, o con la función `matplotlib.use`. Finalmente, dentro de IPython/Jupyter, se puede usar la función `%matplotlib <back-end-name>`.

### Exportar a un fichero
Independientemente del _back-end_ que Matplotlib esté usando por defecto, si queremos guardar una figura en un fichero externo, se puede usar la función `savefig(<fname>)`, que deducirá el tipo de fichero por la extensión utilizada (o explícitamente con el _keyword_ `format`). Algunos formatos soportados por Matplotlib son `pdf`, `png`, `(e)ps`, `svg`.

In [None]:
fig.savefig('example.png')

### Interactividad

Las funciones `pyplot.ion()` y `pyplot.ioff()` permiten cambiar el modo de Matplotlib de interactivo a no interactivo.

En el caso interactivo, una llamada a `plot` en un script mostrará un gráfico en una ventana nueva, y retornará inmediatamente. Sucesivas instrucciones pueden modificar el gráfico activo directamente.

En el caso no interactivo, una figura no se muestra directamente con `plot` sino que require usar `pyplot.show`, y, una vez llamada, bloquea el intérprete hasta que se cierra la ventana de la figura (esto es útil para scripts que quieren mostrar figuras y dejar tiempo para que el usuario las vea).

En un entorno como Jupyter solo se usa el modo interactivo. Por otro lado, conviene incluir todo el código referente a una figura en la misma celda (aunque sea después de `plot`).

### Algunos ejemplos de gráficos con matplotlib

In [None]:
fig, ax = plt.subplots()
langs = ['C', 'C++', 'Java', 'Python']
ax.bar(langs, [5, 8, 7, 10])
ax.grid()

In [None]:
x = np.random.randn(300)
y = np.random.randn(300)
x1, x2 = np.split(x, 2)
y1, y2 = np.split(y, 2)

vol1 = 50*x1 + 100*y1
vol2 = 50*x2 + 100*y2

fig, ax = plt.subplots()
ax.scatter(x1, y2, s=vol1, color='blue', alpha=0.5)
ax.scatter(x1, y2, s=vol2, color='red', alpha=0.5);

<div style="background-color:powderblue;">

**EJERCICIO e6_1:**
    
Producir un gráfico de las funciones seno y coseno en la misma gráfica, usando matplotlib.  

## Creación de gráficos desde Pandas

### Básicos

Los objetos `Series` y `DataFrame` ofrecen el método `plot`, que básicamente llama al método `pyplot.plot` de Matplotlib. Para interacciones directas con Matplotlib (por ejemplo para cerrar una figura, o crear una nueva), se usa la convención habitual: `import matplotlib.pyplot as plt`.

Diferentes ajustes se pueden lograr por el uso de _keywords_ similares a los que se usan con Matplotlib. Pandas va progresivamente añadiendo soporte a más y más funcionalidades de Matplotlib a través de su interfaz.

In [None]:
import pandas as pd

In [None]:
ts = pd.Series(np.arange(100)**2, index=pd.date_range("1/1/2000", periods=100))
ts

In [None]:
# Plot series with some formatting
# Automáticamente formatea el eje X como fecha, con gcf().autofmt_xdate()
ts.plot(style='x', color='orange', xlabel='Date', ylabel='x^2');

In [None]:
df = pd.DataFrame(np.random.randn(100, 4), index=ts.index, columns=list("ABCD"))
df = df.cumsum()
df.head()

In [None]:
df.plot(y=['A', 'C']);   # Si no damos 'y', mostraría las 4 columnas en 4 líneas

El método `plot` devuelve un objeto `matplotlib.Axes`, que podemos usar para interaccionar a más bajo nivel (o para usarlo en posteriores funciones de visualización de Pandas).

In [None]:
ax = df.plot(y=['A', 'C'], xlabel='Date', ylabel='A/C Scale')
df.plot(ax=ax, y=['B'], secondary_y=True)

ax.right_ax.set_ylabel("B scale");

### Otros tipos de gráficos

Además del de líneas, se pueden obtener otros tipos de gráficos usando el _keyword_ `kind`, o usando los respectivos métodos `plot.<tipo>`.

In [None]:
df2 = pd.DataFrame(np.random.rand(7, 3), columns=["A", "B", "C"])
df2.plot.box(color='green', figsize=(3,2))
df2.plot(kind='box', color='red', figsize=(3,2));

In [None]:
df3 = pd.DataFrame(np.random.randn(50, 3), columns=list("ABC"))
df3 = df.cumsum()
df3.plot.hist(alpha=0.5, figsize=(4,3))
df3.plot.kde(figsize=(4,3))
df3.hist(alpha=0.5);

### Nota sobre valores ausentes.

Según el tipo de gráfico, Pandas los eliminará, los dejará fuera, o los completará (https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html#plotting-with-missing-data).

Si eso no es lo que queremos, debemos gestionar esos datos antes de crear el gráfico (con `fillna` or `dropna` por ejemplo).

### Bonus: mostrando tablas

Pandas también permite controlar cómo mostrar los contenidos de un DataFrame.

Existe un estilo por defecto.

In [None]:
df4 = df3[:5]
df

Pero podemos alterarlo de diferentes maneras, en particular usando propiedades CSS (como en páginas web) e incluso un estilo CSS definido en un fichero externo.

In [None]:
headers = {
    'selector': 'th:not(.index_name)',
    'props': 'background-color: #000066; color: white;'
}
df4[:10].style.set_table_styles([headers])

<br/>
<div style="background-color:powderblue;">

**EJERCICIO e6_2:**
    
Usando pandas, producir un gráfico de área y otro de líneas para mostrar la evolución de los valores del DataFrame `df2` usado en los ejemplos anteriores. Ver la principal diferencia entre ambos.

## Seaborn
Seaborn ofrece dos tipos de funciones de producción de figuras: las que producen un solo gráfico de un tipo determinado (_Axes-level_), y las genéricas que pueden producir diferentes tipos de gráficos (_Figure-level_), seleccionadas por el parámetro `kind` (o el tipo por defecto).

Las 3 funciones genéricas son:

- `relplot`: para gráficos relacionales (p.ej. _scatter_, o de línea)
- `distplot`: para gráficos de distribuciones (p.ej. histogramas, KDE, o _rug plot_)
- `catplot`: para gráficos categóricos (p.ej. barras, boxplot o _violin plot_)

Entre otras diferencias, las funciones de tipo _Axes-level_ aceptan un parámetro `ax` de tipo `matplotlib.Axes` para poder incluirlos en figuras creadas previamente, mientras que las funciones _Figure-level_ crean su propia figura, aunque devuelven un objeto de tipo `FacetGrid`, que permite gestionar los gráficos que contiene, o añadir nuevos.

In [None]:
import seaborn as sns

In [None]:
df = pd.DataFrame(np.random.randn(50, 3), columns=list("ABC"))
df = df.cumsum()
sns.kdeplot(data=df, multiple="stack");

In [None]:
# Distribución con dos variables
g = sns.displot(df, x='A', y='B', kind='kde')
print(type(g))

In [None]:
# Ejemplo de regresión lineal
x = np.arange(100)
noise = np.random.randn(100)
y = x + 10*noise
sns.regplot(x=x, y=y);

### Visualización de DataFrames con Seaborn: formatos _wide_ y _long_
A la hora de visualizar datos de un DataFrame, Seaborn distingue entre dos formatos de datos:

- **Long-format**: cada variable es una columna, cada observación es una fila. Podemos indicar las variables a representar por el nombre de la columna.

- **Wide-format**: las filas y las columnas contienen niveles de diferentes variables. Se incluyen más columnas en la tabla, de modo que cada observación se define por las coordenadas de esa celda en cuanto a índice y columnas. Las variables a representar corresponden a los índices.

![objeto](https://github.com/michaelsanchez2025/inspirastem2025-data-analises/blob/main/Dia2/images/t6_long_wide_format.png?raw=1)

Seaborn considera que los datos están en forma _wide_, si no se usan los parámetros `x` ni `y` en la función.

El formato _long_ permite distinguir más variables, y, en general, tener mejor control sobre lo que se quiere representar.

In [None]:
flights = sns.load_dataset("flights")
flights.head()

In [None]:
sns.relplot(data=flights, x="year", y="passengers", hue="month", kind="line");

In [None]:
flights_wide = flights.pivot(index="year", columns="month", values="passengers")
flights_wide.head()

In [None]:
sns.relplot(data=flights_wide, kind="line");

In [None]:
sns.catplot(data=flights, x='year', y='passengers', kind="violin");

<br/>
<div style="background-color:powderblue;">

**EJERCICIO e6_3:**
    
Crear un mapa de calor del DataFrame `flights_wide` de los ejemplos anteriores. Incluir los valores de cada campo en el mapa, con un formato de entero (`'d'`).

## ipywidgets

Los _widgets_ de Jupyter son controles interactivos para los notebooks, que permiten recibir información de los usuarios de manera más visual que con simple texto. Algunos ejemplos son botones, casillas de marcado, _sliders_, etc.

Se requiere el paquete `ipywidgets`.

In [None]:
import ipywidgets as widgets
from IPython.display import display

w = widgets.IntSlider()
display(w)

In [None]:
print(w.value)

El decorador `interact` permite llamar repetidamente a una función con el valor de un widget de manera sencilla. Por defecto, `interact` elige automáticamente el tipo de _widget_ adecuado para el tipo de valor que se espera (boolean, float...)

In [None]:
from ipywidgets import interact

@interact(x=True, y=1.0)
def g(x, y):
    print(f"x is {x}, and y is {y}")

<br/><br/>
<div style="background-color:powderblue;">

**EJERCICIO e6_4 (avanzado)**
    
Dados los ficheros  `data/school_2018_clean_Countries.pickle` (_wide format_) y `data/school_2018_clean_Countries_longformat.pickle` (_long format_), producir un gráfico de barras comparando las poblaciones de los diferentes niveles de escolaridad para los 5 primeros países (el fichero _wide_ contiene muchos más países, el _long_ solo esos 5).
    
Hacerlo primero con barras múltiples, y luego con barras apiladas. Se puede hacer con matplotlib, pandas o seaborn, o probar varios de ellos. Según el método usado para crear el gráfico puede interesar usar como punto de partida un fichero de datos, o el otro
    
NOTA: en este caso, con Pandas es más fácil.
    
El resultado debe ser algo como las figuras mostradas a continuación:
    
![modelo_ejecucion](https://github.com/michaelsanchez2025/inspirastem2025-data-analises/blob/main/Dia2/images/t6_bars.png?raw=1)    

## Algunas referencias

Towards Data Science. How to Choose a Python Plotting Library:
https://towardsdatascience.com/data-visualization-101-how-to-choose-a-python-plotting-library-853460a08a8a

Paul Iacomi. Plotly vs. Bokeh: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html

Matplotlib. http://matplotlib.org/

Pandas:
- https://pandas.pydata.org/docs/user_guide/visualization.html
- https://realpython.com/pandas-plot-python/
- https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html

Seaborn. http://web.stanford.edu/~mwaskom/software/seaborn/index.html

Plotly. https://plot.ly/python/

Bokeh. https://docs.bokeh.org

Bokeh en Jupyter. https://docs.bokeh.org/en/latest/docs/user_guide/jupyter.html

Plotnine. https://plotnine.readthedocs.io/en/stable/

Ggplot2. https://yhat.github.io/ggpy/

Altair. https://altair-viz.github.io/

Networkx. https://networkx.github.io/

Missingno. https://github.com/ResidentMario/missingno

Geoplotlib. https://github.com/andrea-cuttone/geoplotlib/wiki/User-Guide

Folium. https://python-visualization.github.io/folium/index.html