# **Visualización de Datos en Python**
***

### **Editado por: Kevin Alexander Gómez**
#### Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)
***

### **Descripción**

Usando este manual, desarrollarás código en Python orientado a la visualización de datos.

Este Notebook es parte del [**Manual de Python aplicado a la Geología**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología.

## **Índice**
***

1. [Ventajas de la visualización de datos en Python](#parte1)
2. [Seaborn](#parte2)
3. [Pyrolite](#parte3)
4. [Mplstereonet](#parte4)

***

<a id="parte1"></a>

## **1. Ventajas de la visualización de datos en Python**
***
La **visualización de datos** consiste en intentar entender los datos a través de un contexto visual de tal manera que podamos detectar patrones, tendencias y correlaciones.\
Puedes revisar diferentes estilos de visualización en la página de [DataVizProject](https://datavizproject.com/).

Las principales ventajas de realizar visualizaciones dentro de Python son:
- Acceso a múltiples <span style="color:lightgreen">librerías</span> (e.g. `Matplotlib`, `Seaborn`, `Mplstereonet`, etc.) con diferentes funcionalidades y aplicaciones en diferentes disciplinas.
- <span style="color:lightgreen">Escalabilidad</span> y  <span style="color:lightgreen">automatización</span> con el potencial de generar decenas de gráficos usando solamente unas pocas líneas de código.
- Amplia gama de figuras y estilos de visualización con un alto nivel de <span style="color:lightgreen">personalización</span>, lo que permite la creación de nuevos tipos de figuras.




<a id="parte2"></a>

## **2. Seaborn**
***
**Esta librería posee una interface de alto nivel para la creación de figuras atractivas. Usa menos líneas de código comparado con Matplotlib.**

En los siguientes ejemplos, usaremos información geoquímica de **peridotitas** y **granodioritas** para crear diferentes tipos de gráficos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(context="notebook", style="ticks")

La información se encuentra en un archivo CSV llamado `rocas.csv`.\
Esta información ha sido procesada previamente y proviene de una base de datos geoquímica de uso público llamada [GEOROC](http://georoc.mpch-mainz.gwdg.de/georoc/Start.asp).\
Abriremos estos archivos a través de la librería `Pandas` y usaremos la función `read_csv`.
> Si al ejecutar `read_csv` ocurren problemas para leer el archivo, puedes probar usando `encoding="ISO-8859-1"` (por defecto se usa `encoding="utf-8"`).

In [None]:
rocas = pd.read_csv("files/rocas.csv", encoding="ISO-8859-1")

In [None]:
rocas

Revisaremos la información general del cuadro usando el método `info`:

In [None]:
rocas.info()

<br>

En resumen, el cuadro contiene una columna llamada `Nombre` que representa la clasificación petrográfica y está representada por valores de tipo `string` (señalado como `object`).\
Las columnas: `SiO2`, `Al2O3`, `FeOT`, `CaO`, `MgO`, `Na2O`, `K2O`, `MnO` y `TiO`, representan concentraciones geoquímicas (en wt%) y están representadas por valores numéricos de tipo `float`.\
Y por último, el cuadro contiene 4566 muestras, y no presenta valores vacíos o nulos.

A continuación, usaremos esta información para generar algunos gráficos.

### **2.1. Visualizando la distribución de datos con `boxplot` y `violinplot`**

Empezaremos separando el cuadro en dos y usaremos los nombres `prd` y `grn` para referenciar a las muestras de peridotita y granodiorita respectivamente.\
Crearemos una copia de cada cuadro usando el método `copy`:

In [None]:
prd = rocas[rocas["Nombre"] == "Peridotita"].copy()
grn = rocas[rocas["Nombre"] == "Granodiorita"].copy()

Para observar la distribución de los datos geoquímicos en las muestras, usaremos dos tipos de figuras:
- `boxplot`: muestra la distribución cuantitativa de los datos y sus cuartiles, también estableces un máximo y mínimo en base al rango intercuartílico.\
    Los puntos que se alejan del rango se consideran *outliers*.

<img src="resources/boxplot.png" alt="Las 4 fases en el análisis de datos" width="700"/>

- `violinplot`: cumple las mismas funciones del `boxplot` pero además muestra una distribución de densidad de los datos.

<img src="resources/box_violinplot.png" alt="Las 4 fases en el análisis de datos" width="500"/>

Primero, crearemos un boxplot para las muestras de peridotita:

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(18, 10))

sns.boxplot(ax=axs[0], data=prd[["SiO2", "Al2O3", "FeOT", "CaO", "MgO"]], orient="h", flierprops={"marker":"o", "markersize": 4})
axs[0].grid()
axs[0].set_xlabel("%", fontsize=18)

sns.boxplot(ax=axs[1], data=prd[["Na2O", "K2O", "MnO", "TiO"]], orient="h", flierprops={"marker":"o", "markersize": 4})
axs[1].grid()
axs[1].set_xlabel("%", fontsize=18)

fig.suptitle("Boxplot para las muestras de peridotita", y=0.92, fontsize=25)
plt.show()

Los gráficos en `boxplot` nos ayudan a visualizar mejor la distribución de los datos, pero podemos mejorarlo usando `violinplot`:


In [None]:
fig, axs = plt.subplots(1, 2, figsize=(18, 10))

sns.violinplot(ax=axs[0], data=prd[["SiO2", "Al2O3", "FeOT", "CaO", "MgO"]], orient="h")
axs[0].grid()
axs[0].set_xlabel("%", fontsize=18)

sns.violinplot(ax=axs[1], data=prd[["Na2O", "K2O", "MnO", "TiO"]], orient="h")
axs[1].grid()
axs[1].set_xlabel("%", fontsize=18)

fig.suptitle("Violinplot para las muestras de peridotita", y=0.92, fontsize=25)
plt.show()

### **2.2. Visualizando la matriz de correlación con `heatmap`**



Ahora, crearemos una matriz de correlación para las muestras de peridotita usando el método `corr`:

In [None]:
prd.corr()

Esta matriz nos muestra la correlación de Pearson por cada par de columnas en el cuadro.\
Usaremos esta matriz para crear una visualización agradable de las diferentes correlaciones en el cuadro.

In [None]:
# Matriz de correlación
corr = prd.corr()

# Generamos una matriz triangular
mask = np.triu(np.ones_like(corr, dtype=bool))

# Creamos la figura
fig, ax = plt.subplots(figsize=(10, 8))

# Creamos un mapa de colores divergentes
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Creamos un mapa de calor usando la matriz triangular y el mapa de colores
sns.heatmap(corr, mask=mask, cmap=cmap,
            vmin=-1, vmax=1, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .9, "label": "Correlación de Pearson"}, annot=True)

# Remueve los ticks
ax.tick_params(left=False, bottom=False)

# Título
ax.set_title("Matriz de correlación (Peridotita)", fontsize=18, x=0.55)

plt.show()

Vamos a filtrar aquellas correlaciones mayores a 0.7 y menores a -0.7:

In [None]:
# Filtrando aquellos pares con una correlación alta
corr = corr.where((corr > 0.7) | (corr < -0.7), 0)

# Matriz triangular
mask = np.triu(np.ones_like(corr, dtype=bool))

# Figura
fig, ax = plt.subplots(figsize=(10, 8))
cmap = sns.diverging_palette(230, 20, as_cmap=True)
sns.heatmap(corr, mask=mask, cmap=cmap,
            vmin=-1, vmax=1, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .9, "label": "Correlación de Pearson"}, annot=True)
ax.tick_params(left=False, bottom=False)
ax.set_title("Matriz de correlación (Peridotita)", fontsize=18, x=0.55)
plt.show()

Ahora, crearemos diagramas de dispersión para visualizar estos 3 pares.

### **2.2. Diagrama de dispersión con `scatterplot`**
Colocaremos estos pares en una lista de tuplas llamada `pares`:

In [None]:
pares = [("CaO", "Al2O3"), ("MgO", "Al2O3"), ("MgO", "CaO")]

Y lo usaremos dentro de la función `scatterplot` para crear una figura con 3 diagramas de dispersión:

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(16, 6))

for par, ax in zip(pares, axs):
    sns.scatterplot(ax=ax, data=prd, x=par[0], y=par[1], edgecolor="black", marker="o", s=12)
    ax.grid()
    
fig.suptitle("Diagramas de dispersión para pares de elementos con alta correlación (Peridotita)", fontsize=20)

plt.tight_layout()

Por último, agregaremos los valores de estos pares con las muestras de granodiorita.

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(16, 6))

for par, ax in zip(pares, axs):
    sns.scatterplot(ax=ax, data=rocas, x=par[0], y=par[1], marker="o", hue="Nombre", s=12, edgecolor="black", palette=["green", "red"], legend=False)
    ax.grid()

fig.suptitle("Diagramas de dispersión para pares de elementos con alta correlación", fontsize=20)    

# Leyenda personalizada
plt.scatter([], [], color="g", marker="o", edgecolor="black", label="Peridotita")    
plt.scatter([], [], color="r", marker="o", edgecolor="black", label="Granodiorita")
plt.legend(title="Tipo de roca", frameon=True, markerscale=1.5)

plt.tight_layout()

### **2.3. Histograma y Distribuciones de probabilidad con `histplot` y `kdeplot`**

Podemos observar la distribución univariable de datos geoquímicos usando un **histograma** o una **distribución de probabilidad**.

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(ax=axs[0], data=rocas, x="CaO", hue="Nombre", bins=20, alpha=0.6, edgecolor="black", linewidth=.5, palette=["green", "red"])
axs[0].set_title("Histograma", fontsize=20)

sns.kdeplot(ax=axs[1], data=rocas, x="CaO", hue="Nombre", fill=True, cut=0, palette=["green", "red"])
axs[1].set_title("Distribución de probabilidad", fontsize=20)

plt.tight_layout()

También es posible observar la distribución bivariable

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(ax=axs[0], data=rocas, x="SiO2", y="FeOT", hue="Nombre", alpha=0.8, palette=["green", "red"])
axs[0].set_title("Histograma", fontsize=20)
axs[0].grid()

sns.kdeplot(ax=axs[1], data=rocas, x="SiO2", y="FeOT", hue="Nombre", fill=True, cut=0, palette=["green", "red"])
axs[1].set_title("Distribución de probabilidad", fontsize=20)
axs[1].grid()

plt.tight_layout()

<a id="parte3"></a>

## **3. Pyrolite**
***
**Pyrolite es una librería que te permite crear diagramas ternarios a partir de información geoquímica.**

Podemos verificar que tenemos `pyrolite` instalado usando el siguiente comando:

In [None]:
!pip show pyrolite

Ahora, importaremos la función `pyroplot` del módulo `plot`:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(context="notebook", style="ticks")
from pyrolite.plot import pyroplot

In [None]:
rocas = pd.read_csv("files/rocas.csv")
prd = rocas[rocas["Nombre"] == "Peridotita"].copy()
grn = rocas[rocas["Nombre"] == "Granodiorita"].copy()

Y crearemos un diagrama ternario, para esto tenemos que usar el método `pyroplot` en el cuadro que contenga la información geoquímica:

In [None]:
fig, ax = plt.subplots(figsize=(6, 6))

ax1 = prd[["SiO2", "Al2O3", "FeOT"]].pyroplot.scatter(ax=ax, c="green", s=5, marker="o")

ax1.grid(axis="r", linestyle="--", linewidth=1)

plt.suptitle("Diagrama ternario $SiO_{2} - Al_{2}O_{3} - FeOT$", fontsize=18)
plt.show()

Podemos establecer límites en el diagrama ternario usando el método `set_ternary_lim`.\
Además, podemos cambiar la etiqueta de cada esquina usando `set_tlabel`, `set_llabel` y `set_rlabel`:

In [None]:
fig, ax = plt.subplots(figsize=(6, 6))

ax1 = prd[["SiO2", "Al2O3", "FeOT"]].pyroplot.scatter(ax=ax, c="green", s=5, marker="o")

ax1.set_ternary_lim(tmin=0.5, tmax=1.0,
                    lmin=0.0, lmax=0.5, 
                    rmin=0.0, rmax=0.5)

ax1.set_tlabel("$SiO_{2}$")
ax1.set_llabel("$Al_{2}O_{3}$")
ax1.set_rlabel("$FeOT$")

ax1.grid()

plt.suptitle("Diagrama ternario $SiO_{2} - Al_{2}O_{3} - FeOT$", fontsize=18, y=1.01)
plt.show()

También podemos graficar distribuciones de probabilidad usando el método `density`:

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(15, 6))

prd[["Na2O", "CaO", "K2O"]].pyroplot.density(ax=axs[0])

prd[["Na2O", "CaO", "K2O"]].pyroplot.density(ax=axs[1], contours=[0.95, 0.66, 0.33], linewidths=[1, 2, 3], linestyles=["-.", "--", "-"], colors=["purple", "green", "blue"])

plt.suptitle("Diagrama ternario $Na_{2}O - Ca_{2}O - K_{2}O$", fontsize=20)
plt.tight_layout()

Ahora, crearemos una figura que muestre la relación `SiO2 - Al2O3 - CaO` para las muestras de peridotita y granodiorita:

In [None]:
fig, ax = plt.subplots(figsize=(8, 8))

ax1 = prd[["SiO2", "Al2O3", "CaO"]].pyroplot.scatter(c="g", s=5, marker="o", ax=ax, alpha=0.7, label="Peridotita")
prd[["SiO2", "Al2O3", "CaO"]].pyroplot.density(ax=ax, contours=[0.95, 0.66, 0.33], colors=["blue"]*3, alpha=0.6)

grn[["SiO2", "Al2O3", "CaO"]].pyroplot.scatter(c="r", s=5, marker="o", ax=ax, alpha=0.7, label="Granodiorita")
grn[["SiO2", "Al2O3", "CaO"]].pyroplot.density(ax=ax, contours=[0.95, 0.66, 0.33], colors=["purple"]*3, alpha=0.6)

plt.suptitle("$SiO_{2} - Al_{2}O_{3} - CaO$", fontsize=20)
plt.legend(prop={'size': 12}, markerscale=4, frameon=True, loc=0)
plt.grid(linewidth=.5)
plt.tight_layout()

Por último, crearemos otra figura que muestre la relación `SiO2 - Al2O3 - (FeOT + MgO)` para las muestras de peridotita y granodiorita.\
Para esto, crearemos una columna llamada `FeOT + MgO` en ambos cuadros:

In [None]:
prd["FeOT + MgO"] = prd["FeOT"] + prd["MgO"]
grn["FeOT + MgO"] = grn["FeOT"] + grn["MgO"]

Ahora, podemos usar esta nueva columna en la figura:

In [None]:
fig, ax = plt.subplots(figsize=(8, 8))

ax1 = prd[["SiO2", "Al2O3", "FeOT + MgO"]].pyroplot.scatter(c="g", s=5, marker="o", ax=ax, alpha=0.6, label="Peridotita")
prd[["SiO2", "Al2O3", "FeOT + MgO"]].pyroplot.density(ax=ax, contours=[0.95, 0.66, 0.33], colors=["blue"]*3, alpha=0.6)

grn[["SiO2", "Al2O3", "FeOT + MgO"]].pyroplot.scatter(c="r", s=5, marker="o", ax=ax, alpha=0.6, label="Granodiorita")
grn[["SiO2", "Al2O3", "FeOT + MgO"]].pyroplot.density(ax=ax, contours=[0.95, 0.66, 0.33], colors=["purple"]*3, alpha=0.6)

ax1.set_ternary_lim(0.3, 1.0, 0.0, 0.7, 0.0, 0.7)

plt.suptitle("$SiO_{2} - Al_{2}O_{3} - (FeOT + MgO)$", fontsize=20)
plt.legend(prop={'size': 12}, markerscale=4, frameon=True, loc=0)
plt.grid(linewidth=.5)
plt.tight_layout()

<a id="parte4"></a>

## **4. Mplstereonet**
***
**Esta librería permite crear figuras estereográficas equiangulares (red de Wulff) y equiareales (red de Schmidtt).**

Empezaremos revisando si `mplstereonet` se encuentra instalado:

In [None]:
!pip show mplstereonet

Ahora, importaremos `mplstereonet` y cargaremos el archivo `data_estructural.csv`:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mplstereonet

In [None]:
datos = pd.read_csv("files/data_estructural.csv")
datos.head()

### **4.1. Diagrama de círculos máximos o Diagrama Beta**
Este diagrama es utilizado para la representación de elementos planos.\
En la siguiente figura, usaremos la función `plane` para representar el plano. Esta función debe tener una dirección o rumbo (`strike`) y un buzamiento (`dip`).\
También es posible agregar el cabeceo de una línea o (también llamado `rake`) a partir de una dirección, buzamiento y ángulo de cabeceo (`rake_angle`).

Asignaremos las columnas de dirección y buzamiento a dos variables llamadas `strike` y `dip`:

In [None]:
strike = datos.direccion
dip = datos.buzamiento
rake = datos.cabeceo

Para crear la figura estereográfica usaremos el método `add_subplot` y la opción `projection="stereonet"`.
> Nota: usaremos `constrained_layout=True` para mantener las etiquetas de los ángulos en posición correcta.

In [None]:
fig = plt.figure(figsize=(5, 5), constrained_layout=True)
ax = fig.add_subplot(111, projection="equal_angle_stereonet")

ax.plane(strike, dip, c="black", linewidth=0.5)
ax.grid()

plt.show()

### **4.2. Diagrama de polos o Diagrama Pi**
Usado cuando las medidas a representar en el diagrama son muy numerosas.\
En la siguiente figura, usaremos la función `pole` para representar el polo. Esta función debe tener una dirección (`strike`) y buzamiento (`dip`).

In [None]:
fig = plt.figure(figsize=(5, 5), constrained_layout=True)
ax = fig.add_subplot(111, projection="equal_angle_stereonet")

ax.pole(strike, dip, c="red", markersize=5)
ax.grid()

plt.show()

### **4.3. Diagrama de densidad de polos**

Usando la red de Schmidt (equiareal), podemos hacer un recuento directo de los polos y calcular su valor estadístico por unidad de superficie, determinando las direcciones y buzamiento predominantes.

In [None]:
fig = plt.figure(figsize=(5, 5), constrained_layout=True)
ax = fig.add_subplot(111, projection="equal_area_stereonet")

cax = ax.density_contourf(strike, dip, measurement="poles", cmap="gist_earth", sigma=1.5)
ax.density_contour(strike, dip, measurement="poles", colors="black", sigma=1.5)
   
ax.pole(strike, dip, c="red", ms=5)
ax.grid(linewidth=0.5)
# fig.colorbar(cax, orientation="horizontal")

plt.show()

### **4.4. Stereonet interactiva**

Usando una herramienta de visualización interactiva, crearemos una red estereográfica en donde podemos alterar los valores de rumbo, buzamiento y cabeceo de un plano.

In [None]:
import ipywidgets as widgets

In [None]:
def stereonet(rotation, strike, dip, rake):
    fig = plt.figure(figsize=(6, 6), constrained_layout=True)
    
    ax = fig.add_subplot(111, projection="equal_angle_stereonet", rotation=rotation)
    
    ax.plane(strike, dip, color="green", linewidth=2)
    ax.pole(strike, dip, color="red", ms=10)
    ax.rake(strike, dip, rake, color="blue", ms=10)

    ax.grid()
    
    plt.show()
    
widgets.interact(stereonet,
                 rotation=widgets.IntSlider(min=0, max=360, step=5, value=0, description="Rotación"),
                 strike=widgets.IntSlider(min=0, max=360, step=5, value=90, description="Rumbo"),
                 dip=widgets.IntSlider(min=0, max=90, step=1, value=45, description="Buzamiento"),
                 rake=widgets.IntSlider(min=-90, max=90, step=1, value=45, description="Cabeceo"));

***