# Visualización de Datos en Python

Profesor: Steven Van Vaerenbergh  
27 de junio de 2023  
Curso CA.2.1 Python para el análisis de datos  

## Índice

1. [Introducción](#1.-Introducción)  

2. [Matplotlib](#2.-Matplotlib)  
   - [A. Introducción a Matplotlib](#2.A.-Introducción-a-Matplotlib)
   - [B. Creación de diferentes tipos de gráficos con Matplotlib](#2.B.-Creación-de-diferentes-tipos-de-gráficos-con-Matplotlib)  
   - [C. Guardar figuras](#2.C.-Guardar-figuras)
   - [D. Personalización de gráficos](#2.D.-Personalización-de-gráficos)  
   - [E. Ejercicio práctico](#2.E.-Ejercicio-práctico)  
   
3. [Breve introducción a Seaborn](#3.-Breve-introducción-a-Seaborn)  
   - [A. ¿Qué es Seaborn?](#3.A.-¿Qué-es-Seaborn?)  
   - [B. Primeros pasos con Seaborn](#3.B.-Primeros-pasos-con-Seaborn) 
   
4. [Plotly](#4.-Plotly)
   - [A. ¿Qué es Plotly?](#4.A.-¿Qué-es-Plotly?)  
   - [B. Ejemplo 2D: Gráfico de Dispersión Interactivo](#4.B.-Ejemplo-2D:-Gráfico-de-Dispersión-Interactivo)  
   - [C. Ejemplo 3D: Gráfico de Dispersión 3D](#4.C.-Ejemplo-3D:-Gráfico-de-Dispersión-3D)  
   
5. [Conclusión](#5.-Conclusión)  
   - [A. Recapitulación rápida](#5.A.-Recapitulación-rápida)  
   - [B. Recursos para aprendizaje posterior](#5.B.-Recursos-para-aprendizaje-posterior)  
   - [C. Tiempo para preguntas](#5.C.-Tiempo-para-preguntas)  

## 1. Introducción

La visualización de datos es una parte esencial de la ciencia de datos. Nos permite comprender los patrones, tendencias y correlaciones que podrían no ser evidentes en los datos brutos. Python, siendo uno de los lenguajes de programación más populares en el campo de la ciencia de datos, ofrece una variedad de bibliotecas para visualizar datos.

En esta clase, nos centraremos en tres de ellas: Matplotlib, Seaborn y Plotly.

### Matplotlib
Matplotlib es una de las bibliotecas de visualización de datos más utilizadas en Python. Proporciona una forma rápida de visualizar los datos y crear gráficos estáticos, animados e interactivos en Python. Matplotlib es altamente personalizable y se puede utilizar para crear una amplia variedad de gráficos. Es la "navaja suiza" entre las bibliotecas de visualización de Python.

### Seaborn
Seaborn es otra biblioteca de visualización de datos en Python, que se basa en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos. Seaborn es especialmente útil para visualizar patrones complejos en datos multidimensionales.

### Plotly
Plotly es una biblioteca de gráficos que permite crear gráficos interactivos de alta calidad. Con Plotly, puedes crear una variedad de gráficos que van desde simples gráficos de líneas hasta visualizaciones 3D complejas. A diferencia de Matplotlib y Seaborn, Plotly crea gráficos que son interactivos por defecto.


## 2. Matplotlib

 ![Matplotlib](https://matplotlib.org/_static/logo2.png)

### 2.A. Introducción a Matplotlib

Matplotlib es una biblioteca de visualización de datos en Python que permite la creación de gráficos estáticos, animados e interactivos. Es una de las herramientas más utilizadas y versátiles para la visualización de datos, ya que permite gran control sobre todos los aspectos del gráfico, desde los colores y estilos hasta la creación de gráficos complejos con varias subtramas.

Creada por John D. Hunter en 2002, Matplotlib ha crecido hasta convertirse en una herramienta fundamental para cualquier científico de datos o investigador que utilice Python. Muchas de las otras bibliotecas de visualización de datos en Python, como Seaborn, se construyen sobre Matplotlib, extendiendo su funcionalidad y haciéndola más accesible.

A continuación, vamos a ver cómo utilizar Matplotlib para crear varios tipos de gráficos, desde los más simples hasta los más complejos. Empezaremos importando la biblioteca e introduciendo algunas de sus funcionalidades básicas.


In [None]:
import matplotlib.pyplot as plt

Para utilizar Matplotlib, primero necesitamos importarla. La convención estándar es importar `matplotlib.pyplot` como `plt`.

La biblioteca Pyplot proporciona una interfaz que permite la creación de una variedad de gráficos, y se estructura de manera que permite la creación de gráficos de la misma forma que lo haríamos en MATLAB, un lenguaje de programación ampliamente utilizado por los ingenieros y científicos.

A lo largo de esta sección, veremos cómo podemos usar Matplotlib para crear varios tipos de gráficos, como gráficos de líneas, gráficos de barras, histogramas y más.


### 2.B. Creación de diferentes tipos de gráficos con Matplotlib

#### Gráficos de líneas


In [None]:
# Creamos unos datos de ejemplo. Cambia algunos puntos y observa cómo cambia la figura
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]

# Creamos un gráfico de línea simple
plt.plot(x, y)
plt.title('Gráfico de líneas')  # Cambia el título
plt.xlabel('Eje X')  # Cambia las etiquetas de los ejes
plt.ylabel('Eje Y')
plt.show()

#### Gráfico de dispersión (scatter plot)

In [None]:
# Importamos numpy para usar el generador de números aleatorios
import numpy as np

# Creamos dos clusters de datos aleatorios
np.random.seed(0)  # para reproducibilidad
x1 = np.random.normal(1, 0.5, 100)  # 100 datos con media 1 y desviación estándar 0.5
y1 = np.random.normal(1, 0.5, 100)
x2 = np.random.normal(2, 0.5, 100)  # 100 datos con media 2 y desviación estándar 0.5
y2 = np.random.normal(2, 0.5, 100)

# Creamos un gráfico de dispersión para cada cluster
plt.scatter(x1, y1, color='red', marker='o', label='Cluster 1')  # Cluster 1 de color rojo, marcador de círculo
plt.scatter(x2, y2, color='blue', marker='x', label='Cluster 2')  # Cluster 2 de color azul, marcador de equis

plt.title('Gráfico de dispersión con 2 clusters')  
plt.xlabel('Eje X')  
plt.ylabel('Eje Y')

plt.legend(loc='upper left')  # Añadimos la leyenda en la esquina superior izquierda
plt.show()

#### Gráficos de barras


In [None]:
# Creamos un gráfico de barras. Cambia los nombres y los valores
nombres = ['A', 'B', 'C', 'D', 'E']
valores = [23, 45, 56, 78, 13]

plt.bar(nombres, valores, color='green')  # Cambiar el color
plt.title('Gráfico de barras')  
plt.xlabel('Nombres')  
plt.ylabel('Valores')
plt.show()

#### Diagrama de tarta (Pie chart)


In [None]:
# Creamos un diagrama de tarta. Cambia los labels y los tamaños
labels = ['A', 'B', 'C', 'D']
sizes = [15, 30, 45, 10]
colors = ['#ff9999','#66b3ff','#99ff99','#ffcc99']  # Cambiar los colores
plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%')  # Cambiar el formato de los porcentajes
plt.title('Diagrama de tarta')
plt.show()

#### Histograma

In [None]:
# Creamos un histograma. Añade algunos puntos
datos = [1, 1.1, 1.2, 1.3, 2.2, 2.9, 3, 3.5, 3.6, 4, 4.5, 4.7, 4.8, 5]

plt.hist(datos, bins=5, facecolor='lightblue', edgecolor='black')  # Cambiar el número de bins y el color
plt.title('Histograma')  
plt.xlabel('Valores')  
plt.ylabel('Frecuencia')
plt.show()

### 2.C. Guardar figuras

Un aspecto útil de la visualización de datos es la capacidad de guardar las figuras generadas para su uso en informes, presentaciones, sitios web, etc. Matplotlib proporciona la función `savefig()` para este propósito. Simplemente debes especificar el nombre del archivo (y, opcionalmente, el camino si quieres guardar el archivo en una ubicación específica), y Matplotlib guardará la figura en ese archivo.

In [None]:
# Creamos algunos datos y un gráfico
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y, label='sin(x)')
plt.title('Gráfico de una función seno')
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.legend()

plt.gca().set_facecolor('white')  # Configura el color de fondo de la figura como blanco

# Guardamos la figura como PNG con DPI ajustado, márgenes apretados y fondo blanco
plt.savefig('sin_function.png', dpi=150, bbox_inches='tight', facecolor='w')

# Guardamos como PDF
plt.savefig('sin_function.pdf')

Los archivos 'sin_function.png' y 'sin_function.pdf' se guardarán en el mismo directorio desde el que estás ejecutando este código. Si quieres especificar una ubicación diferente, puedes proporcionar la ruta completa.

También puedes especificar otros parámetros en `savefig()`, como la DPI (puntos por pulgada) para ajustar la resolución de la imagen, y `bbox_inches` para incluir partes del gráfico que se salen del área principal de la figura (como las leyendas).

### 2.D. Personalización de gráficos

Una de las grandes ventajas de Matplotlib es su flexibilidad para personalizar gráficos. Desde colores y estilos de líneas hasta la adición de texto en posiciones específicas, la biblioteca ofrece una gran variedad de opciones.

Aquí, veremos cómo se pueden personalizar algunos elementos comunes en un gráfico, como colores, títulos y etiquetas de los ejes, leyendas y anotaciones.


In [None]:
# Datos
x = np.linspace(0, 10, 500)
y = np.sin(x)

# Creación del gráfico
plt.figure(figsize=(10, 6))

# Visualizamos los datos
plt.plot(x, y, label='sin(x)', color='purple', linewidth=2, linestyle='--')

# Cambiamos el tamaño y el peso de la fuente del título
plt.title('Gráfico personalizado en Matplotlib', fontsize=16, fontweight='bold')
plt.xlabel('Eje X', fontsize=14) # Cambia el tamaño de la fuente de las etiquetas de los ejes
plt.ylabel('Eje Y', fontsize=14)

# Añadimos la leyenda
plt.legend(loc='lower left')

# Añadimos una cuadrícula
plt.grid(True)

# Añadimos un texto
plt.text(7.5, 0.7, 'Texto en (7.5, 0.7)', fontsize=12, color='red', bbox=dict(facecolor='none', edgecolor='red'))

# Añadimos una anotación con una flecha
plt.annotate('Máximo local', xy=(1.5, 1), xytext=(3, 1.03), arrowprops=dict(facecolor='black', arrowstyle='->'))

plt.show()

Como puedes ver, hemos cambiado varios aspectos de este gráfico, incluyendo el tamaño del gráfico, el color, el grosor y el estilo de la línea, el tamaño y el peso de la fuente del título y de las etiquetas de los ejes, la posición de la leyenda, la adición de una cuadrícula, y la adición de texto y anotaciones con flechas.

Veremos algos ejemplo más:

#### Histograma con varias series y transparencia

Este ejemplo muestra cómo crear un histograma con múltiples series y ajustar la transparencia para facilitar la visualización.

In [None]:
# Datos
np.random.seed(0)
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

# Gráfico
kwargs = dict(histtype='stepfilled', alpha=0.3, bins=40)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs)

plt.title('Histograma con transparencia', fontsize=16)
plt.xlabel('Valor', fontsize=14)
plt.ylabel('Frecuencia', fontsize=14)

plt.show()

#### Gráfico de líneas con varios subplots

Este ejemplo muestra cómo crear múltiples subgráficos en la misma figura.

In [None]:
# Datos
x = np.linspace(0, 2 * np.pi, 400)
y1 = np.sin(x)
y2 = np.cos(x)

# Gráfico
fig, ax = plt.subplots(2)

ax[0].plot(x, y1, color='red')
ax[0].set_title('Seno de x', fontsize=14)
ax[0].set_ylabel('sin(x)', fontsize=12)

ax[1].plot(x, y2, color='blue')
ax[1].set_title('Coseno de x', fontsize=14)
ax[1].set_xlabel('x', fontsize=12)
ax[1].set_ylabel('cos(x)', fontsize=12)

fig.subplots_adjust(hspace=0.5) # Ajusta el espacio entre los subplots

plt.show()

#### Gráfico de barras horizontales con etiquetas de texto, colores y patrones personalizados

Este ejemplo muestra cómo se pueden añadir etiquetas de texto a las barras en un gráfico de barras. En este caso, las etiquetas muestran el valor exacto de cada barra. Además, se personalizan los colores y los patrones de las barras.

In [None]:
# Datos
categorias = ['A', 'B', 'C', 'D', 'E']
valores = [7, 12, 16, 9, 17]

# Colores
color=['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd']

# Gráfico
plt.barh(categorias, valores, color=color, hatch='//')
plt.title('Gráfico de barras horizontales con etiquetas de texto', fontsize=16)
plt.xlabel('Valores', fontsize=14)
plt.ylabel('Categorías', fontsize=14)

for i, v in enumerate(valores):
    plt.text(v, i, f" {v}", color='black', va='center', fontweight='bold')

plt.show()


Recuerda que hay muchísimas más opciones de personalización en Matplotlib. Te invito a explorar la [documentación oficial](https://matplotlib.org/stable/contents.html) para descubrir más.

### 2.E. Ejercicio práctico

Ahora que hemos revisado los conceptos básicos y algunas técnicas de personalización en Matplotlib, es tu turno de poner en práctica lo que has aprendido. Aquí tienes tres ejercicios para que elijas uno y lo resuelvas. Si tienes tiempo, te animo a que intentes resolver más de uno.

**Ejercicio 1: Gráfico de Líneas**
- Genera un array de números entre 0 y 10 con `numpy.linspace()`.
- Crea dos funciones `y1` y `y2` que sean respectivamente el seno y el coseno de x.
- Crea un gráfico de líneas que muestre ambas funciones en la misma figura.
- Personaliza el gráfico con un título, etiquetas para los ejes x e y, y una leyenda que diferencie las dos funciones.
- Finalmente, guarda la figura en formato PNG.

Por supuesto, aquí tienes una alternativa de ejercicio de histograma con su respectiva solución:

**Ejercicio 2: Histograma acumulativo**

- Genera una serie de datos con `numpy.random.randn()`.
- Crea un histograma que muestre la distribución acumulada de los datos, usando la opción `cumulative=True`.
- Personaliza el gráfico con un título, etiquetas para los ejes x e y, y asegúrate de que el histograma muestra los percentiles 25, 50 y 75 de los datos.
- Finalmente, guarda la figura en formato PNG.

**Ejercicio 3: Gráfico de Dispersión**
- Genera dos series de datos con `numpy.random.rand()`.
- Crea un gráfico de dispersión que muestre la relación entre las dos series de datos.
- Personaliza el gráfico con un título, etiquetas para los ejes x e y, y utiliza la opción `c` para mostrar los puntos con colores basados en una tercera serie generada con `numpy.random.rand()`.
- Añade una barra de colores para mostrar la escala de los colores utilizados.
- Finalmente, guarda la figura en formato PNG.

#### Solución del Ejercicio 1: Gráfico de Líneas

In [None]:
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)

plt.plot(x, y1, label='sin(x)')
plt.plot(x, y2, label='cos(x)')

plt.title('Gráfico de líneas de las funciones seno y coseno')
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.legend()

plt.show()

#### Solución del Ejercicio 2: Histograma

In [None]:
np.random.seed(0)
x = np.random.randn(1000)

plt.hist(x, bins=30, cumulative=True, histtype='step', color='blue')

plt.axhline(y=250, color='r', linestyle='dashed', linewidth=2, label='25%')
plt.axhline(y=500, color='g', linestyle='dashed', linewidth=2, label='50%')
plt.axhline(y=750, color='y', linestyle='dashed', linewidth=2, label='75%')

plt.title('Histograma acumulativo con percentiles')
plt.xlabel('Valor')
plt.ylabel('Frecuencia acumulada')
plt.legend()

plt.show()

#### Solución del Ejercicio 3: Gráfico de Dispersión

In [None]:
np.random.seed(0)
x = np.random.rand(200)
y = np.random.rand(200)
colors = np.random.rand(200)

plt.scatter(x, y, c=colors, cmap='viridis')

plt.colorbar()
plt.title('Gráfico de dispersión con colores basados en una tercera serie')
plt.xlabel('Eje X')
plt.ylabel('Eje Y')

plt.show()

## 3. Breve introducción a Seaborn

### 3.A. ¿Qué es Seaborn?

Seaborn es una biblioteca de visualización de datos en Python basada en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos.

Seaborn es particularmente útil cuando se trabaja con DataFrames de Pandas, ya que está diseñado para funcionar directamente con estos. Proporciona opciones para ajustar el estilo visual y las paletas de colores de tus gráficos, y hace que sea fácil y rápido crear gráficos complejos.

### 3.B. Primeros pasos con Seaborn

Si lo necesitas, puedes instalar Seaborn usando `pip` o `conda` desde este notebook. Para ello ejecuta el comando `import sys` y una de los dos comandos comentados:

In [None]:
#import sys

#!{sys.executable} -m pip install seaborn

#!conda install --yes --prefix {sys.prefix} seaborn

In [None]:
# Importamos las bibliotecas necesarias
import seaborn as sns
import pandas as pd

# Cargamos el conjunto de datos de ejemplo "Iris" que viene con Seaborn
iris = sns.load_dataset("iris")

# Mostramos las primeras 5 filas del DataFrame
iris.head()

Este conjunto de datos contiene medidas de 150 flores iris de tres especies diferentes.

In [None]:
# Creamos un gráfico de pares (pairplot) con Seaborn
sns.pairplot(iris, hue="species")

# Mostramos el gráfico
plt.show()

El gráfico de pares muestra las relaciones entre pares de características en nuestro DataFrame. Este tipo de gráfico es extremadamente útil para explorar rápidamente las relaciones entre las variables de tu dataset.

Este es solo un breve vistazo a lo que puedes hacer con Seaborn. Seaborn puede manejar una variedad de tipos de gráficos, incluyendo gráficos de distribución, de matriz, de tiempo y muchos más. Puedes ver más ejemplos en la [galería de figuras de Seaborn](https://seaborn.pydata.org/examples/index.html).


## 4. Plotly

### 4.A. ¿Qué es Plotly?

Plotly es una biblioteca de visualización de datos en Python que te permite crear una variedad de gráficos interactivos. A diferencia de Matplotlib y Seaborn, los gráficos de Plotly se pueden explorar interactivamente. Puedes hacer zoom, desplazar, ver tooltips e incluso hacer girar los gráficos 3D. Además, Plotly es altamente personalizable y te permite crear gráficos bastante complejos.

Si lo necesitas, puedes instalar plotly usando pip o conda desde este notebook. Para ello ejecuta el comando import sys y una de los dos comandos comentados:

In [None]:
#import sys

#!{sys.executable} -m pip install plotly

#!conda install --yes --prefix {sys.prefix} plotly

In [None]:
# Importamos las bibliotecas necesarias
import plotly.express as px

### 4.B. Ejemplo 2D: Gráfico de Dispersión Interactivo

In [None]:
# Generamos tres clusters de datos
np.random.seed(0)

# Generamos las coordenadas x, y de los clusters
# Creamos dos clusters de datos aleatorios
np.random.seed(0)  # para reproducibilidad
x1 = np.random.normal(1, 0.3, 100)  # 100 datos con media 1 y desviación estándar 0.5
y1 = np.random.normal(1, 0.3, 100)
x2 = np.random.normal(2, 0.3, 100)  # 100 datos con media 2 y desviación estándar 0.5
y2 = np.random.normal(2, 0.3, 100)
x3 = np.random.normal(1, 0.3, 100)  # 100 datos con media 1 y desviación estándar 0.5
y3 = np.random.normal(2, 0.3, 100)

x = np.concatenate([x1,x2,x3])
y = np.concatenate([y1,y2,y3])

# Asignamos etiquetas a los clusters
labels = np.repeat(['Cluster 1', 'Cluster 2', 'Cluster 3'], 100)

# Creamos un DataFrame con los datos
df = pd.DataFrame({'x': x, 'y': y, 'label': labels})

# Creamos un gráfico de dispersión interactivo
fig = px.scatter(df, x="x", y="y", color="label")

# Mostramos el gráfico
fig.show()

Este gráfico es similar al gráfico de dispersión que hemos hecho anteriormente, pero con Plotly este gráfico es interactivo. Puedes pasar el cursor sobre los puntos para ver más información, hacer zoom y mover el gráfico.

### 4.C. Ejemplo 3D: Gráfico de Dispersión 3D

In [None]:
# Generamos la tercera coordenada de los clusters
z1 = np.random.normal(1, 0.3, 100)
z2 = np.random.normal(1.5, 0.4, 100)
z3 = np.random.normal(3, 0.3, 100)
z = np.concatenate([z1,z2,z3])

# Añadimos la tercera coordenada al DataFrame
df['z'] = z

# Creamos un gráfico de dispersión 3D
fig = px.scatter_3d(df, x='x', y='y', z='z', color='label')

# Fijamos el tamaño de los marcadores. Alternativamente, podemos
# usar size='alguna_columna_del_df'
fig.update_traces(marker_size = 4)

# Mostramos el gráfico
fig.show()

Aquí hemos creado un gráfico de dispersión 3D interactivo. Este gráfico permite explorar la relación entre tres variables a la vez. Además, puedes hacer girar el gráfico para verlo desde diferentes ángulos.

## 5. Conclusión

### 5.A. Recapitulación rápida

En esta clase, hemos explorado diferentes herramientas y bibliotecas para la visualización de datos en Python. Comenzamos con una introducción a Matplotlib, una biblioteca fundamental para la visualización de datos en Python. Aprendimos cómo crear gráficos de líneas, gráficos de dispersión, gráficos de barras, diagramas de tarta y histogramas utilizando Matplotlib. Luego, nos adentramos en la personalización de gráficos, aprendiendo cómo ajustar colores, títulos, etiquetas de ejes y otros elementos visuales en nuestros gráficos.

Posteriormente, exploramos brevemente Seaborn, una biblioteca que permite crear visualizaciones más atractivas y estadísticamente informativas. Aprendimos cómo cargar conjuntos de datos y crear gráficos como gráficos de pares, gráficos de barras y gráficos de dispersión utilizando Seaborn.

Finalmente, introdujimos Plotly, una biblioteca que nos permite crear gráficos interactivos y personalizables. Vimos ejemplos de gráficos de dispersión interactivos en 2D y gráficos de dispersión 3D, que nos permiten explorar nuestros datos de manera más interactiva y detallada.

### 5.B. Recursos para aprendizaje posterior

Si deseas profundizar tus conocimientos sobre visualización de datos en Python, aquí tienes algunos recursos adicionales que pueden ser útiles:

- Documentación oficial de Matplotlib: [https://matplotlib.org/stable/contents.html](https://matplotlib.org/stable/contents.html)
- Documentación oficial de Seaborn: [https://seaborn.pydata.org/](https://seaborn.pydata.org/)
- Documentación oficial de Plotly: [https://plotly.com/python/](https://plotly.com/python/)
- Galería de ejemplos de Matplotlib: [https://matplotlib.org/stable/gallery/index.html](https://matplotlib.org/stable/gallery/index.html)
- Tutoriales y ejemplos de Seaborn: [https://seaborn.pydata.org/examples/index.html](https://seaborn.pydata.org/examples/index.html)
- Tutoriales y ejemplos de Plotly: [https://plotly.com/python/#tutorials](https://plotly.com/python/#tutorials)

### 5.C. Tiempo para preguntas

Si tienes alguna pregunta sobre los temas que hemos cubierto en esta clase, no dudes en hacerla.