# <span style="color:steelBlue"> **Visualización de Datos con Matplotlib** </span>

En este cuaderno se utiliza la biblioteca matplotlib para poder utilizar las herramientas de visualización de datos. Los temas que se abordarán son los siguientes:

1. Gráficas de dispersión
2. Gráficas poligonales
3. Gráficas de barras
4. Histogramas
5. Gráficas de pastel
6. Personalización de gráficas
7. Leyendas
8. Múltiples figuras
9. Gráficas 3D

Para comenzar, lo primero que se debe hacer es importar las bibliotecas necesarias.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import style

style.use("default")

Si al ejecutar la celda anterior el intérprete de Python retornó un error es porque los módulos `numpy` y `matplotlib` no están instalados. Para instalarlos se debe ejecutar la siguiente celda:

In [None]:
%pip install numpy pandas

### <span style="color:FireBrick">**Atención**</span>
Una vez que se hayan instalado los módulos es necesario que se ejecute la celda de python, donde se hacen las importaciones.

## <span style="color:steelBlue"> **Gráficas de Dispersión** </span>

Para comenzar la generación de gráficas, es necesario contar con los datos que se quieren graficar.
En este ejemplo, se generan dos vectores de número aleatorios. Uno para el eje X y otro para el eje Y.

In [None]:
x = np.random.random(50) * 100
y = np.random.random(50) * 100

Posteriormente se genera la gráfica con el siguiente comando.

In [None]:
plt.scatter(x,y)
# plt.show() solo se utiliza en entornos diferentes a Jupyter para que se muestre la gráfica

Scatter recibe varios parámetros, pero algunos de los más importantes son los siguientes:
- `c`: Indica el color en hexadecimal o con [nombres predefinidos](https://matplotlib.org/stable/gallery/color/named_colors.html).
- `s`: Indica el tamaño de los marcadores
- `marker`: Indica el tipo de marcador se utiliza en los puntos.
- `alpha`: Indica la transparencia del 1 al 0, donde 1 es opaco y 0 es transparente.

Pongamos a prueba esto :3

In [None]:
plt.scatter(x,y, c="red", s=300, marker='.', alpha=0.3)

## <span style="color:steelBlue"> **Gráficas Poligonales** </span>

Supongamos que queremos graficar el peso de una persona a lo largo de los años. Para eso, tenemos que definir una lista para los años y para los pesos.

In [None]:
años = np.array([2010 + x for x in range(10)])
peso = np.array([29, 31, 33, 36, 38, 37, 40, 45, 49, 52])

Con los datos previamente definidos se pueden graficar en una gráfica poligonal.

In [None]:
plt.plot(años, peso)

Al igual que con la gráfica de disperción, podemos configurar nuestra gráfica con la siguientes opciones.

- `c`: Color
- [`linestyle`](https://www.w3schools.com/python/matplotlib_line.asp): Estilo de línea
- `lw`: Ancho de línea

Las primeras 2 opciones se pueden reducir a una expresión, por ejemplo `r--` para color rojo y estilo de línea '--'.

In [None]:
plt.plot(años,peso, c='red', linestyle='--', lw=3)

## <span style="color:steelBlue"> **Gráficas de Barras** </span>

Para las gráficas de barras se definen las etiquetas de cada columna y los valores asociados:

In [None]:
x = np.array(["Python", "C/C++", "Java", "Matlab"])
y = np.array([40, 30, 25, 5])

In [None]:
plt.bar(x,y)

Nuevamente, este tipo de gráfica también tiene sus características opcionales:

In [None]:
plt.bar(x,y, color="#d42500", align="edge", width=0.7, edgecolor="#00afd4", lw=6)

- `color`: Recibe el código hexadecimal de un color o su nombre.
- `align`: Solo se puede indicar `center` o `edge` para especificar dónde colocar la etiqueta de la columna.
- `width`: Indica el ancho de la columna.
- `edgecolor`: Indica el color (hex o nombre) del borde de la columna.
- `lw`: Indica el ancho del borde de la columna.

## <span style="color:steelBlue">**Histogramas**</span>

Los histogramas son gráficas que permiten visualizar cómo están distribuidos los datos. Un ejemplo muy bueno de un histograma es la [máquina de Galton](https://es.wikipedia.org/wiki/M%C3%A1quina_de_Galton).

<div align="center">
    <img src="https://upload.wikimedia.org/wikipedia/commons/c/c1/Galton_box.jpg" style="height:400px">
</div>

La máquina de Galton es una demostración visual de la distribución normal, mejor conocida como campana de Gauss -en realidad el primer registro de la distribución normal fue de Abraham de Moivre, no Gauss, pero la evidencia apunta a que el descubrimiento de Gauss de dicha distribución fue independiente.

Hablando de distribuciones normales, visualicemos esta distribución en un histograma. Primero se deben generar números aleatorios que sigan esta distribución.

In [None]:
edades = np.random.normal(20, 1.5, 100000)

El primer parámetro de entrada del método `normal` es la media $\mu$, el segundo parámetro es la desviación estándar $\sigma$ y el tercer parámetro es el número de muestras que se quieren generar.

Ahora se utiliza el histograma para visualizar la distribución de los datos.

In [None]:
plt.hist(edades)

Esto todavía está un poco lejos de parecerse a una distribución normal como la tenemos en nuestra mente. Para conseguir eso, podemos configurar nuestro histograma.

In [None]:
plt.hist(edades,
         bins=100)

# bins también puede recibir una secuencia de valores en los que se ajustará el histograma.

`bins`: Indica el número de columnas en que se divide nuestro espacio muestral.

Otra herramienta muy útil en probabilidad y estadística es la visualización de la distribución acumulativa.

In [None]:
plt.hist(edades, bins=100, cumulative=True)

## <span style="color:steelBlue"> **Gráfica de Pastel** </span>

Para la gráfica de pastel, la configuración es muy similar a la configuración de un gráfico de barras. Primero se indican las etiquetas de cada porción del pastel, luego los valores asociados.

In [None]:
langs = ["Python", "C++", "Java", "C#", "Go"]
votes = [50, 25, 14, 6, 17]
plt.pie(votes, labels=langs)

Una opción muy interesante que se puede aplicar al gráfico de pastel es el parámetro `explodes`. Este parámetro recibe una lista que indica qué porción del pastel está separada y qué tan separada se encuentra.

Por otro lado `autopct` imprime los porcentajes del pastel que ocupa cada etiqueta. Se puede indicar el formato del porcentaje con la siguiente expresión `%.2f%%`.

In [None]:
explodes = [0,0,0,0.2,0]
plt.pie(votes, labels=langs, explode=explodes, autopct="%.2f%%")

## <span style="color:steelBlue"> **Personalización de Gráficas** </span>

Hasta ahora hemos visto cómo configurar las gráficas de acuerdo a las particularidades de cada una. Sin embargo, no se ha abordado una parte fundamental: Indicar títulos, leyendas y aplicar estilos a nuestra gráfica.

Primero se importa el módulo `style` de la biblioteca `matplotlib` para poder tener acceso a [todos los estilos](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html) que nos ofrece esta biblioteca.

In [None]:
from matplotlib import style

# Voy a utilizar el tema oscuro pq me gusta ese c:
style.use("dark_background")

Luego defino los datos que voy a graficar. En este caso, se trata de los ingresos anuales de una persona.

In [None]:
# Se utiliza la notación por comprensión para generar la lista de años
años = [2014 + x for x in range(8)]
ingresos = [55, 56, 62, 61, 72, 72, 63, 75]

Ahora, se establecen los rangos en que se dividirá nuestro eje vertical de la siguiente forma:

In [None]:
division_ingresos = [x for x in range(50,80, 2)]

Posteriormente se genera el objeto de gráfica con la función `plot`, donde se le pasan los valores del eje *x*, el eje *y* y la etiqueta `label` (más adelante verémos para que es este último parámetro).

Finalmente, se agregan los títulos con las siguientes funciones del módulo `plt`.
- `title`: Genera el título principal de nuestro gráfico. Se pueden indicar características adicionales como:
  - `fontsize`: Tamaño de fuente
  - `fontname`: Indicar tipos de fuente que estén instalados en el sistema.
- `legend`: De acuerdo con la cadena que se le pasó al parámetro `label` de la función `plot`, se genera un cuadro para indicar el color y nombre de una gráfica (muy útil cuando se tienen muchas gráficas).
- `xlabel`, `ylabel`: Indican las etiquetas para el eje *x* y el eje *y*, respectivamente.
- `yticks`: Recibe la lista con los valores en que se dividirá el eje *y*, seguido de la lista de etiquetas para cada marca.

In [None]:
plt.plot(años, ingresos, label='Ingresos')

plt.title("Mis Ingresos (en MXN)", fontsize=25, fontname="Latin Modern Roman")
plt.legend()
plt.xlabel("Año")
plt.ylabel("Ingreso Anual en MXN")

plt.yticks(division_ingresos, [f"{x}k MXN" for x in division_ingresos])

## <span style="color:steelBlue"> **Gráficas 3D** </span>
### <span style="color:lightSeaGreen"> **Gráfica de Dispersión** </span>

A lo largo de este apunte se vieron las diversas formas en que se pueden generar gráficas personalizadas con apoyo de la biblioteca matplotlib. Sin embargo, hasta ahora solo se han realizado gráficas en dos dimensiones. Matplotlib cuenta con módulos y métodos para hacer gráficas bidimensionales interactivas. A continuación, se verá cómo realizar este tipo de gráficas.

Es importante mencionar que en *Jupyter Notebook* no es posible interactuar con las gráficas 3D. Para poder hacerlo, es necesario que el código se ejecute en un arhcivo con extensión *.py*.

Para generar una gráfica 3D, lo primero que se tiene que definir es un handler para que almacene los ejes sobre los que se va a realizar la gráfica.

In [None]:
style.use("default")

ax = plt.axes(projection="3d")

x = np.random.random(100)
y = np.random.random(100)
z = np.random.random(100)

ax.scatter(x,y,z)
ax.set_title("3D Plot")

Una vez que se generó el espacio de trabajo, se procede a definir los valores a graficar. En este caso, se utilizó la función `random` para generar 100 puntos aleatorios.

Finalmente, se aplica el método `scatter` sobre el handler y se le pasan los valores de $x$, $y$ y $z$ a graficar. Por último, se coloca un título con el método `set_title`.

### <span style="color:lightSeaGreen"> **Superficies** </span>

Una gráfica 3D interactiva siempre es atractiva, pero algo mucho más atractivo es una gráfica 3D interactiva de una superficie.

Para generar una superficie interactiva, se realizan los siguientes pasos:

In [None]:
ax = plt.axes(projection="3d")

x = np.arange(-5,5,0.1)
y = np.arange(-5,5,0.1)

X, Y = np.meshgrid(x,y)

Z = np.sin(X) * np.cos(Y)

ax.plot_surface(X,Y,Z, cmap="Spectral")
ax.set_title("3D Plot")

Al igual que en la gráfica 2D, primero se define el handler `ax` para nuestro espacio de trabajo. Luego, se definen los intervalos de nuestro espacio (`x` y `y`).

Después, se asigna a `X` y `Y` los valores válidos para nuestro espacio de trabajo mediante la función `meshgrid`, que genera la cuadrícula bidimensional.

Posteriormente, se establece la relación que guardan las variables `X` y `Y` respecto a la variable a graficar (`Z`).

Por último, se grafican los datos con la función `plot_surface` y se pasan como argumentos las variables `X`, `Y` y `Z` y el formato de coloreo tipo espectral con `cmap="Spectral"`. Se le agrega el título con el método `set_title`.