# <span style="color:gold">**Seaborn**</span>
***

### **Editado por: Kevin Alexander Gómez**
#### Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)
***

### **Descripción**

En este tutorial, le daremos un vistazo a <span style="color:gold">Seaborn</span>, una librería de Python para la visualización de datos.

Este Notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología.
***

Empezaremos importando el módulo de `seaborn`:
> Usaremos `sns` como una referencia abreviada de la librería.\
> También importaremos `matplotlib.pyplot` y `pandas`.\
> Usaremos la información geoquímica de `rocas.csv` para crear los gráficos.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
data = pd.read_csv("files/rocas.csv")

In [None]:
data.head()

En Seaborn, existen diferentes tipos de gráficos que podemos utilizar:

<img src="https://seaborn.pydata.org/_images/function_overview_8_0.png" alt="Tipos de gráficos en Seaborn" width="700"/>

Para este tutorial, nos centraremos en `scatterplot`, `lineplot`, `histplot`, `kdeplot`, `boxplot`, `violinplot` y `barplot`.

Al crear figuras en Seaborn, usaremos los siguientes parámetros:
- `data`: es el cuadro (DataFrame de Pandas) que contiene la información.
- `ax`: hace referencia a la figura sobre la cual colocaremos el gráfico.
- `x`, `y`: son los ejes del gráfico y representan una columna de la información.

### **1. Diagrama de dispersión usando `scatterplot`**
***
Crearemos un diagrama de dispersión con los datos de hierro total (FeOT) y manganeso (MnO):

In [None]:
sns.scatterplot(data=data, x="FeOT", y="MnO")
plt.show()

Podemos incluir el gráfico en un `subplot` usando la referencia `ax`:

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))
sns.scatterplot(ax=ax, data=data, x="FeOT", y="MnO")
plt.show()

Mejoraremos la calidad del gráfico:
- Modificando el tamaño de los puntos con el parámetro `s`.
- Agregando un borde oscuro a los puntos con el parámetro `edgecolor`.
- Cambiando el tamaño del texto a través del parámetro `fontsize`.
- Agregando un título con `set_title`.
- Por último, agregaremos una grilla con el método `grid`.

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))
sns.scatterplot(ax=ax, data=data, x="FeOT", y="MnO", s=12, edgecolor="black")

ax.set_xlabel("FeOT (%)", fontsize=15)
ax.set_ylabel("MnO (%)", fontsize=15)
ax.set_title("Diagrama FeOT - MnO", fontsize=20)

ax.grid()
plt.show()

### **2. Figura de líneas usando `lineplot`**
***
En un taladro de perforación, se obtuvieron las siguientes leyes de Au (en g/T) cada 1 m:\
0.20, 0.25, 0.35, 0.21, 1.20, 0.80, 2.10, 0.40, 0.24, 12.40, 5.60, 2.50.

Usando un diagrama de líneas con `lineplot`, mostraremos la distribución de las leyes de Au a lo largo del taladro:

In [None]:
au = [0.2, 0.25, 0.35, 0.21, 1.2, 0.8, 2.1, 0.4, 0.24, 12.4, 5.6, 2.5]
distancia = [i for i in range(len(au))]

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.lineplot(ax=ax, x=distancia, y=au)

ax.set_xlabel("Distancia (m)", fontsize=16)
ax.set_ylabel("Au (g/T)", fontsize=16)
ax.set_title("Ley de Au en el taladro", fontsize=20)

plt.show()

### **3. Histograma o `histplot`**
***
Usaremos los valores de sílice (SiO2) para crear el histograma:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.histplot(ax=ax, data=data, x="SiO2")

ax.set_xlabel("SiO2 (%)", fontsize=16)
ax.set_ylabel("Frecuencia", fontsize=16)
ax.set_title("Distribución de sílice en las muestras", fontsize=20)

plt.show()

### **4. Distribución de probabilidad usando `kdeplot`**
***
Visualizaremos el histograma que creamos en la sección anterior pero ahora, usaremos un diagrama de distribución de probabilidad.

Reusando el bloque de código anterior, cambiamos `histplot` por `kdeplot` y activamos el parámetro `fill=True` para colorear el área debajo de la curva:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.kdeplot(ax=ax, data=data, x="SiO2", fill=True)

ax.set_xlabel("SiO2 (%)", fontsize=16)
ax.set_ylabel("Frecuencia", fontsize=16)
ax.set_title("Distribución de sílice en las muestras", fontsize=20)

plt.show()

### **5. Distribución de datos usando `boxplot` y `violinplot`**
***
Usaremos `boxplot` para observar la distribución de valores de SiO2 y Al2O3:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.boxplot(data=data[["SiO2", "Al2O3"]])

ax.set_ylabel("Concentración (%)", fontsize=16)
ax.set_title("Distribución de valores de SiO2 y Al2O3", fontsize=20)

plt.show()

Podemos cambiar la orientación con el parámetro `orient`:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.boxplot(data=data[["SiO2", "Al2O3"]], orient="h")

ax.set_xlabel("Concentración (%)", fontsize=16)
ax.set_title("Distribución de valores de SiO2 y Al2O3", fontsize=20)

plt.show()

Si deseamos tener un `boxplot` y a la vez observar la distribución de probabilidad, usaremos un `violinplot`.

Reusando el bloque de código anterior, cambiamos `boxplot` por `violinplot`:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.violinplot(data=data[["SiO2", "Al2O3"]], orient="h")

ax.set_xlabel("Concentración (%)", fontsize=16)
ax.set_title("Distribución de valores de SiO2 y Al2O3", fontsize=20)

plt.show()

### **6. Diagrama de barras usando `barplot`**
***
Se tienen 5 vetas A, B, C, D y E de oro con las siguientes leyes de Au en promedio (g/T): 2.50, 3.15, 2.25, 5.46 y 3.84.

Usando un diagrama de barras, compararemos las leyes de las vetas:

In [None]:
vetas = [2.5, 3.15, 2.25, 5.46, 3.84]
nombres = ["A", "B", "C", "D", "E"]

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(x=nombres, y=vetas)

ax.set_ylabel("Ley de Au (g/T)", fontsize=16)
ax.set_title("Leyes promedio de vetas de Au", fontsize=20)

plt.show()

### **7. Gráficos usando categorías como colores**
***
La data geoquímica que tenemos se divide en 2 tipos de rocas: peridotitas y granodioritas:

In [None]:
data.sample(5)

Reusando el código del histograma, compararemos la distribución de sílice de ambos tipos de rocas:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.histplot(ax=ax, data=data, x="SiO2")

ax.set_xlabel("SiO2 (%)", fontsize=16)
ax.set_ylabel("Frecuencia", fontsize=16)
ax.set_title("Distribución de sílice en las muestras", fontsize=20)

plt.show()

Notamos que existen 2 modas en el histograma. Podemos diferenciar el histograma usando una variable categórica que, en este caso, será el tipo de roca (columna `Nombre`).

Reusando el código del bloque anterior, agregaremos el parámetro `hue` (color) y `palette` para colorear ambos histogramas de verde y rojo:

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
sns.histplot(ax=ax, data=data, x="SiO2", hue="Nombre", palette={"Peridotita": "green", "Granodiorita": "red"})

ax.set_xlabel("SiO2 (%)", fontsize=16)
ax.set_ylabel("Frecuencia", fontsize=16)
ax.set_title("Distribución de sílice en las muestras", fontsize=20)

plt.show()