<a href="https://colab.research.google.com/github/Vokturz/Curso-Python-BCCh/blob/main/clase5/Clase5_Visualizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualización

La visualización es una parte esencial de cualquier análisis de datos, ya que facilita la comprensión de complejas estructuras de datos y resalta patrones, tendencias y anomalías en los datos. En sí, la visualización nos permite

1. Una comprensión rápida de los datos
2. Descubrimiento de patrones
3. Tomar mejores decisiones

La librería más común para la visualización de datos es [**Matplotlib**](https://matplotlib.org/). Adicionalmente, miraremos la librería [**Seaborn**](https://seaborn.pydata.org/), que está basada en Matplotlib y proporciona una interfas de alto nivel para la creación de gráficos más atractivos.

## Matplotlib

![](https://matplotlib.org/stable/_images/sphx_glr_scatter_demo2_001.png)
> *Ejemplo de un gráfico realizado con matplotlib*

Matplotlib es la librería más usada en cuanto visualización. Tiene una enorme versatilidad, permitiendole al usuario crear desde histogramas y diagramas de dispersión hasta gráficos tridimensionales. Para importar el módulo que permite realizar gráficos debemos importar `pyplot` desde `matplotlib`, la forma más usual de hacer esto es:
```python
import matplotlib.pyplot as plt

x = [1,2,3,4,5]
y = [1,2,3,4,5]

plt.plot(x, y) # gráfico de línea
plt.show() # mostramos el gráfico
```

Algunos de los tipos de gráficos que se pueden crear con Matplotlib son:

1. `plot`: Líneas
2. `hist`: Histograma
3. `scatter`: Dispersión
4. `bar` y `barh`: Barras (y barras horizontales)
5. `pie`: Torta
6. `boxplot`: Diagramas de caja
7. `errorbar`: Gráficos de error
8. `imshow`: Imágenes

Pueden visitar la [documentación de Matplotlib](https://matplotlib.org/stable/api/pyplot_summary.html#adding-data-to-the-plot) para más información.

Adicionalmente a crear un gráfico, podemos personalizarlo modificando la escala del gráfico (por ejemplo, pasar a escala logarítmica uno de los ejes), cambiar las etiquetas de los ejes, agregar un título, una leyenda, etc.



In [None]:
import numpy as np
import matplotlib.pyplot as plt

# generaramos 1000 elementos con media 0 y std 1
x = np.random.normal(0, 1,  1000)
# generamos 1000 elementos con media 1 y std 1
y = np.random.normal(1, 1,  1000)

In [None]:
plt.hist(x, bins=20)
plt.show()

In [None]:
# Matplotlib genera un nuevo color por cada elemento agregado al gráfico
plt.hist(x, bins=20)
plt.hist(y, bins=20)
plt.show()

In [None]:
# Podemos embellecer un poco nuestros histogramas
plt.hist(x, bins=20,
         alpha=0.5, # alpha agrega opacidad
         label="x", # una etiqueta para la leyenda
         color="purple") # Nosotros mismos elegimos el color

# El color puede ser un nombre, así como un código hexadecimal
plt.hist(y, bins=20, alpha=0.5, label="y", color="#74d5ff")

plt.legend(loc="upper left", # Leyenda ubicada en la esquina superior izquierda
           title="Valores") # Título para la leyenda
plt.title("Título del gráfico")
plt.xlabel("Etiqueta eje X")
plt.ylabel("Frequencia")
plt.show()

In [None]:
plt.scatter(x, y, s=5)
# sabemos que el punto 0,1 debería ser el centro
plt.scatter(0, 1, marker="x", color="red")

plt.grid() # agregamos una grilla
plt.xlim([-2, 2]) # modificamos los límites del eje x
plt.xlabel("Etiqueta eje X")
plt.ylabel("Etiqueta eje Y")
plt.show()

In [None]:
# Podemos  modificar el tamaño
fig, ax = plt.subplots(figsize=(5,3))
plt.scatter(x, y, s=5)
plt.scatter(0, 1, marker="x", color="red")
plt.grid()
plt.xlim([-2, 2])
plt.xlabel("Etiqueta eje X")
plt.ylabel("Etiqueta eje Y")
plt.show()

In [None]:
# Similar, pero usando el elemento ax (del tipo axes)
fig, ax = plt.subplots(figsize=(5,3))
print(type(ax))
ax.scatter(x, y, s=5)
ax.scatter(0, 1, marker="x", color="red")
ax.grid()
ax.set_xlim([-2, 2])
ax.set_xlabel("Etiqueta eje X")
ax.set_ylabel("Etiqueta eje Y")
plt.show()

En Matplotlib, los `axes` (ejé en inglés) representan un gráfico (o subgráfico) dentro de una figura. Básicamente, corresponde a el espacio donde se dibujan los puntos de datos. La diferencia entre usar directamente `plt.` y `ax.` está en que el último te da más control, sobre todo en figuras que se componen de más de un gráfico

### Integración con Pandas

Pandas integra Matplotlib directamente, de forma que podemos graficar usando los nombres de las columnas. Para ejemplificar, cargaremos el conjunto de datos de la Flor Iris, uno de los primeros conjunto de datos en la literatura, y ampliamente usado para ejemplificar

<div>
<img src="https://github.com/Vokturz/Curso-Python-BCCh/blob/main/clase5/iris_dalle3.png?raw=true" width=400/>
</div>

In [None]:
import pandas as pd
df_iris = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/pandas/tests/io/data/csv/iris.csv")
df_iris.sample(5) # Una muestra de 5 elementos

In [None]:
df_iris.plot.scatter("SepalLength", "SepalWidth")

In [None]:
# Podemos intentar agregar color según Name
for name in df_iris["Name"].unique(): # para cada nombre único
  df_name = df_iris[df_iris["Name"]==name]
  df_name.plot.scatter("SepalLength", "SepalWidth")

In [None]:
print(df_iris["Name"].unique())

In [None]:
# Podemos agregar color según Name
# Debemos inicializar una figura, y decirle que grafique siempre en el mismo ax
fig, ax = plt.subplots() # tamaño por defecto

# Asignamos colores
colors = {"Iris-setosa": "purple",
          "Iris-versicolor" : "orange",
          "Iris-virginica" : "green"}

# Asignamos marcadores
markers = {"Iris-setosa": "o",
          "Iris-versicolor" : "s", #squares
          "Iris-virginica" : "x"}

for name in df_iris["Name"].unique(): # para cada nombre único
  df_name = df_iris[df_iris["Name"]==name]
  df_name.plot.scatter("SepalLength", "SepalWidth",
                       ax=ax, # que grafique sobre ax
                       color=colors[name], # que use el color asignado
                       marker=markers[name], # que use el marcador asignado
                       label=name) # que
ax.set_title("Iris Dataset")
ax.legend()