<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG103 - Visualización de datos en Geología**</span>

Bienvenido al curso!!!

Vamos a revisar ejemplos de <span style="color:gold">visualización de datos</span> en Geología usando código en Python. <br>
Es necesario que tengas un conocimiento previo en programación con Python, estadística y geología general.

<span style="color:gold; font-size:20px">**Seaborn** </span>

***
- [¿Qué es Seaborn?](#parte-1)
- [Diagrama de dispersión usando `scatterplot`](#parte-2)
- [Figura de líneas usando `lineplot`](#parte-3)
- [Histograma o `histplot`](#parte-4)
- [Distribución de probabilidad usando `kdeplot`](#parte-5)
- [Distribución de datos usando `boxplot` y `violinplot`](#parte-6)
- [Diagrama de barras usando `barplot`](#parte-7)
- [Gráficos usando categorías como colores](#parte-8)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es Seaborn?**</span>
***
<span style="color:gold">Seaborn</span> es una herramienta de visualización de datos basada en Matplotlib. <br>
Esta librería proporciona funcionalidades para crear gráficos estadísticos atractivos y informativos.

Algunas de las ventajas de Seaborn sobre Matplotlib son:
- **Mayor facilidad de uso:** <br>
Es mucho más fácil de usar que Matplotlib. <br>
Con Seaborn, puedes crear gráficos estadísticos con solo unas pocas líneas de código.

- **Mejores opciones de estilo:** <br>
Tiene una variedad de opciones de estilo predeterminadas que hacen que los gráficos sean más atractivos visualmente. <br>
Además, Seaborn permite personalizar fácilmente la apariencia de los gráficos para adaptarlos a tus necesidades.

- **Funciones estadísticas incorporadas:** <br>
Incluye varias funciones estadísticas que son útiles para explorar y visualizar datos. <br>
Ejemplos: regresión lineal, diagramas de caja, diagramas de violín, etc.

<span style="color:#43c6ac">Seaborn es una herramienta muy útil para cualquier persona que trabaje con datos geológicos y quiera visualizarlos de una manera atractiva e informativa.</span>

Para usar Seaborn, primero empezaremos importando el módulo del mismo nombre, `seaborn`:

> Usaremos `sns` como una referencia abreviada de la librería. <br>
> También importaremos `matplotlib.pyplot` y `pandas`. <br>
> Usaremos la información geoquímica de `rocas.csv` para crear los gráficos.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
data = pd.read_csv("files/rocas.csv")

In [None]:
data.head()

En Seaborn, existen diferentes tipos de gráficos que podemos utilizar pero, para este notebook, nos centraremos en las funciones `scatterplot`, `lineplot`, `histplot`, `kdeplot`, `boxplot`, `violinplot` y `barplot`.

<img src="https://seaborn.pydata.org/_images/function_overview_8_0.png" alt="Tipos de gráficos en Seaborn" width="500"/>

La creación de figuras con Seaborn es similar a Matplotlib, teniendo en cuenta los siguientes parámetros:
- `data`: referencia el DataFrame de Pandas que contiene la información.
- `ax`: hace referencia a la subfigura sobre el cual colocaremos el gráfico.
- `x`, `y`: son los ejes del gráfico y representan columnas dentro de `data`.
***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Diagrama de dispersión usando `scatterplot`**
***
Crearemos un diagrama de dispersión con los datos de hierro total (FeOT) y manganeso (MnO):

In [None]:
# Figura principal
fig = plt.figure(figsize=(6, 5))

# Diagrama de dispersión
sns.scatterplot(data=data, x="FeOT", y="MnO")

# Mostrar la figura
plt.show()

Agregamos algunos detalles para mejorar la calidad del gráfico:

- Usaremos `subplots` en vez de `figure`.
- Modificando el tamaño de los puntos con el parámetro `s`.
- Agregando un borde oscuro a los puntos con el parámetro `edgecolor`.
- Cambiando el tamaño del texto a través del parámetro `fontsize`.
- Agregando un título con `set_title`.
- Por último, agregaremos una grilla con el método `grid` y la colocaremos debajo de los puntos con el método `set_axisbelow(True)`.

In [None]:
# Figura principal (1 fila y 2 columnas)
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 4))

# Diagrama de dispersión por defecto
sns.scatterplot(ax=ax1, data=data, x="FeOT", y="MnO")

# Diagrama de dispersión modificado
sns.scatterplot(ax=ax2, data=data, x="FeOT", y="MnO", s=10, edgecolor="black", alpha=0.8)

# Texto en la figura
ax2.set_xlabel("FeOT (%)", fontsize=10)
ax2.set_ylabel("MnO (%)", fontsize=10)
ax2.set_title("Diagrama FeOT - MnO", fontsize=12)

# Grilla
ax2.grid(alpha=0.5)
ax2.set_axisbelow(True)

# Mostrar la figura
plt.show()

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Figura de líneas usando `lineplot`**
***
Si en un taladro de perforación, tenemos las siguientes leyes de Au (en g/t) cada 1 m:

In [None]:
au = [0.2, 0.25, 0.35, 0.21, 1.2, 0.8, 2.1, 0.4, 0.24, 12.4, 5.6, 2.5] # Au (g/t) cada 1 m
distancia = [i for i in range(len(au))] # Metros

Usando un diagrama de líneas con `lineplot`, mostraremos la distribución de las leyes de Au a lo largo del taladro:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(2.5, 5))

# Figura de líneas (el parámetro orient cambia la dirección de la figura)
sns.lineplot(ax=ax, x=au, y=distancia, orient="y")

# Invertir el eje y
ax.invert_yaxis()

# Texto
ax.set_title("Ley de Au en el taladro", fontsize=10)
ax.set_xlabel("Au (g/T)", fontsize=9)
ax.set_ylabel("Profundidad (m)", fontsize=9)

# Grilla
ax.grid(alpha=0.75)

plt.show()

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Histograma o `histplot`**
***
Usaremos los valores de sílice (SiO2) para crear el histograma:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(9, 4))

# Histograma
sns.histplot(ax=ax, data=data, x="SiO2", color="orange")

# Texto
ax.set_title("Distribución de sílice en las muestras", fontsize=14)
ax.set_xlabel("SiO2 (%)", fontsize=11)
ax.set_ylabel("Frecuencia", fontsize=11)

# Grilla
ax.grid()
ax.set_axisbelow(True)

# Muestra la figura
plt.show()

***

<a id="parte-5"></a>

### <span style="color:lightgreen">**Distribución de probabilidad usando `kdeplot`**
***
Visualizaremos el histograma que creamos en la sección anterior pero ahora, usaremos un diagrama de distribución de probabilidad.

Reusando el bloque de código anterior, compararemos `histplot` y `kdeplot` y activaremos el parámetro `fill=True` para colorear el área debajo de la curva:

In [None]:
# Figura principal
fig, (ax1, ax2) = plt.subplots(nrows=2, ncols=1, figsize=(9, 7))

# Histograma
sns.histplot(ax=ax1, data=data, x="SiO2", color="orange")
# Texto en el histograma
ax1.set_title("Histograma - Sílice", fontsize=14)
ax1.set_xlabel("SiO2 (%)", fontsize=11)
ax1.set_ylabel("Frecuencia", fontsize=11)

# KDE plot
sns.kdeplot(ax=ax2, data=data, x="SiO2", fill=True, color="orange")
# Texto en kdeplot
ax2.set_title("Distribución de densidad de probabilidad - Sílice", fontsize=14)
ax2.set_xlabel("SiO2 (%)", fontsize=11)
ax2.set_ylabel("Probabilidad", fontsize=11)

# Grilla
for ax in (ax1, ax2):
    ax.grid()
    ax.set_axisbelow(True)

# Muestra la figura
plt.tight_layout()

***

<a id="parte-6"></a>

### <span style="color:lightgreen">**Distribución de datos usando `boxplot` y `violinplot`**
***
Usaremos `boxplot` para observar la distribución de valores de SiO2 y Al2O3:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(9, 4))

# Boxplot (orientación horizonal "h")
sns.boxplot(data=data[["SiO2", "Al2O3"]], orient="h")

# Texto
ax.set_title("Distribución de valores de SiO2 y Al2O3", fontsize=14)
ax.set_xlabel("Concentración (%)", fontsize=11)

# Grilla
ax.grid(lw=1)
ax.set_axisbelow(True)

# Muestra la figura
plt.show()

Si deseamos tener un `boxplot` y a la vez observar la distribución de probabilidad, usaremos un `violinplot`.

Reusando el bloque de código anterior, solamente cambiamos `boxplot` por `violinplot`:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(9, 4))

# Violinplot
sns.violinplot(data=data[["SiO2", "Al2O3"]], orient="h")

# Texto
ax.set_title("Distribución de valores de SiO2 y Al2O3", fontsize=14)
ax.set_xlabel("Concentración (%)", fontsize=11)

# Grilla
ax.grid(lw=1)
ax.set_axisbelow(True)

# Muestra la figura
plt.show()

***

<a id="parte-7"></a>

### <span style="color:lightgreen">**Diagrama de barras usando `barplot`**
***
Se tienen 5 vetas A, B, C, D y E con las siguientes leyes de Au en promedio (g/t):

In [None]:
leyes = [2.5, 3.15, 2.25, 5.46, 3.84] # g/t
vetas = ["A", "B", "C", "D", "E"] # string

Usando un diagrama de barras, compararemos las leyes de las vetas:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(9, 4))

# Diagrama de barras
sns.barplot(ax=ax, x=vetas, y=leyes, width=0.6, alpha=0.9)

# Texto
ax.set_title("Leyes promedio de vetas de Au", fontsize=14)
ax.set_ylabel("Ley de Au (g/T)", fontsize=11)

# Grilla
ax.grid(alpha=0.5, c="black", lw=0.5)
ax.set_axisbelow(True)

plt.show()

***

<a id="parte-8"></a>

### <span style="color:lightgreen">**Gráficos usando categorías como colores**
***
La data geoquímica que tenemos se divide en varios tipos de rocas:

In [None]:
# Muestra los tipos de rocas únicos
data["Nombre"].unique()

In [None]:
# Muestra 10 filas aleatorias
data.sample(10)

Reusando el código del histograma, compararemos la distribución de sílice de los diferentes tipos de roca:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(11, 4))

# Histograma
sns.histplot(ax=ax, data=data, x="SiO2")

# Texto
ax.set_title("Distribución de sílice en las muestras", fontsize=14)
ax.set_xlabel("SiO2 (%)", fontsize=11)
ax.set_ylabel("Frecuencia", fontsize=11)

# Grilla
ax.grid()
ax.set_axisbelow(True)

# Muestra la figura
plt.show()

Notamos que existen varias modas en el histograma. Podemos diferenciar el histograma usando una variable categórica que, en este caso, será el tipo de roca (columna `Nombre`).

Reusando el código del bloque anterior, agregaremos el parámetro `hue` (color) y `palette` para colorear los diferentes histogramas:

In [None]:
# Paleta de colores
palette = {"basalt": "blue",
           "andesite": "green",
           "dacite": "orange",
           "rhyolite": "red"
          }

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(11, 4))

# Histograma coloreado por Nombre
sns.histplot(ax=ax, data=data, x="SiO2", alpha=0.5,
             hue="Nombre", # Colorea la figura en base a la columna de Nombre
             palette=palette # Paleta de colores
            )

# Texto
ax.set_title("Distribución de sílice en las muestras", fontsize=14)
ax.set_xlabel("SiO2 (%)", fontsize=11)
ax.set_ylabel("Frecuencia", fontsize=11)

# Grilla
ax.grid()
ax.set_axisbelow(True)

# Muestra la figura
plt.show()

Vamos a parametrizar el código de este histograma para convertirlo en un widget de Jupyter:

In [None]:
import ipywidgets as widgets

In [None]:
# Código parametrizado en base a la variable de columna
def histograma(col, xmin=0, xmax=100):
    # Figura principal
    fig, ax = plt.subplots(figsize=(9, 4))
    
    # Histograma coloreado por Nombre
    sns.histplot(ax=ax, data=data, x=col, hue="Nombre", palette=palette)
        
    # Texto
    ax.set_title(f"Distribución de {col} en las muestras", fontsize=14)
    ax.set_xlabel(f"{col} (%)", fontsize=11)
    ax.set_ylabel("Frecuencia", fontsize=11)
    
    # Grilla
    ax.grid()
    ax.set_axisbelow(True)

    # Límites de la figura
    ax.set_xlim(xmin, xmax)
    
    # Muestra la figura
    plt.show()

# Función interactiva
widgets.interact(histograma, col=list(data.columns[1:]),
                 xmin=(0, 100, 0.5),
                 xmax=(0, 100, 0.5));

***