<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG301 - Geoestadística** </span>

Bienvenido al curso!!!

Vamos a revisar las bases de la <span style="color:gold">geoestadística</span> usando ejemplos en Python. <br>
Es necesario que tengas un conocimiento previo en programación con Python, estadística y geología general.

<span style="color:gold; font-size:20px">**Introducción al Variograma** </span>
***
- [¿Qué es la estacionariedad?](#parte-1)
- [Semivariograma](#parte-2)
- [Ejemplo de variograma usando `geostatspy`](#parte-3)
- [En conclusión...](#parte-4)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es la estacionariedad?**</span>
***

Todo estudio estadístico requiere de una toma repetida de muestras (e.g. muestras de agua o aire en una estación de monitoreo). <br>
Sin embargo, <span style="color:#43c6ac">en el subsuelo no podemos tomar muestras repetidas de un mismo lugar</span>.

En vez de hacer un análisis estadístico a través del tiempo, lo realizamos a través del <span style="color:#43c6ac">espacio</span>, asumiendo lo siguiente:

- Las medidas estadísticas (e.g. media, varianza, etc.) son <span style="color:#43c6ac">invariantes</span> a lo largo del área de interés.
- El área de interés está compuesto por <span style="color:#43c6ac">el mismo tipo de material</span> (e.g. estratos de roca).

Esto se conoce como la <span style="color:gold">decisión de estacionariedad</span>. <br>
Es importante tener en cuenta que la estacionariedad depende en gran medida de la <span style="color:#43c6ac">escala</span>.

***
<span style="color:gold"> **¿Continuidad espacial?** </span>

La continuidad espacial representa la correlación que existe entre diferentes valores a lo largo del espacio (separados por una distancia).

Sin continuidad espacial, la correlación es nula y los valores serán aleatorios sin importar a que distancia se encuentren. <br>
Por el contrario, un espacio totalmente homogéneo tiene una continuidad espacial perfecta, pues todos sus valores se encuentran correlacionados.
***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Semivariograma**</span>
***

Para cuantificar la continuidad espacial, tenemos que hacer uso del <span style="color:gold">semivariograma</span>, que es una <span style="color:#43c6ac">función de la diferencia entre valores sobre la distancia</span>. <br>
Se calcula la mitad de la diferencia cuadrática media entre cada par de puntos dentro del área de interés, separados de acuerdo a un intervalo específico:

<center> 
    $\Large \gamma_{x}(\normalsize h\Large)\,\,\, = \frac{1}{2N(h)} \sum^{N(h)}_{i=1}{(z(u_{i}) - z(u_{i} + h))^2} $
</center>

Donde:

- $h$ es el paso o distancia de separación entre puntos
- $\gamma_{x}(h)$ es la función semivariograma para una distancia h
- $N$ es el número total de pares de muestras usadas por cada distancia $h$
- $z$ es el valor de la variable asociada a la posición de las muestras
- $u_{i}$ es la posición del punto inicial

En la práctica, se usa el termino <span style="color:gold">variograma</span> para describir el semivariograma.

El variograma permite <span style="color:#43c6ac">analizar el comportamiento espacial de una variable sobre un área definida</span>, obteniendo como resultado una figura experimental que refleja la distancia máxima de influencia de un punto sobre otro y también aplicado a diferentes distancias.

***
<span style="color:gold">**Covarianza** </span>

La covarianza es una medida de la similitud vs. la distancia y también se calcula para diferentes distancias $h$. <br>
EL variograma se puede relacionar directamente con la covarianza:


<center> 
    $\Large C_{x}(\normalsize h\Large)\,\, = \sigma^{2}_{x} - \gamma_{x}(\normalsize h\Large)\,\,$ 
</center>
<font size="2" color="#43c6ac">
    <center> 
        $covarianza \,\,\,\,\,\, varianza \,\,\,\,\, variograma$ 
    </center>
</font>

Donde:
- $h$ es el paso o distancia de separación entre puntos
- $C_{x}(h)$ es la covarianza entre muestras separadas por una distancia $h$
- $\sigma^{2}_{x}$ es la varianza de la variable
- $\gamma_{x}(h)$ es el variograma para una distancia $h$

Si se usa una varianza estandarizada i.e. $\sigma^{2}_{x}=1$, entonces:

<center> 
    $\Large C_{x}(\normalsize h\Large)\,\,\, = 1 - \gamma_{x}(\normalsize h\Large)\,\,$ 
</center>
<font size="2" color="#43c6ac">
    <center> 
        $covarianza \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, variograma$ 
    </center>
</font>
<font size="2" color="#43c6ac">
    <center> 
        $\,estandarizada \,\,\,\,\,\,\,\,\,\,\,\, estandarizado$ 
    </center>
</font>

***
<span style="color:gold">**Sill, rango y efecto pepita** </span>

El valor a partir del cual el gráfico del variograma comienza a "aplanarse" es conocido como <span style="color:gold">sill</span> o <span style="color:gold">meseta</span>. <br>
Es necesario graficar el sill para conocer el grado de correlación en el variograma.

La distancia $h$ a partir de la cual el variograma alcanza el valor del sill se conoce como <span style="color:gold">rango</span> o <span style="color:gold">alcance</span>. <br>
Más allá de esta distancia, los puntos dejan de tener correlación espacial.

<center> 
    $ \Large C_{x}(\normalsize h=rango\Large)\, = \,\,\sigma^{2}_{x} \,\,- \,\,\gamma_{x}(\normalsize h=rango\Large)\,\, = \,\,0 $ 
</center>
<font size="2" color="#43c6ac">
    <center> 
        $covarianza \,\,\,\,\,\,\,\,\,\,\,\,\,\,\, varianza \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, sill \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, $ 
    </center>
</font>

<br>

El valor del variograma para $h = 0$ tiende a ser positivo debido al Error Fundamental (FSE) y también es conocido como <span style="color:gold">efecto pepita</span>.

<center> 
    $ \Large C_{x}(\normalsize h=0\Large)\, = \,\,C_{0} = \gamma_{x}(\normalsize h=0\Large)\,\, $ 
</center>
<font size="2" color="43c6ac">
    <center> 
        $efecto\,pepita \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, $
    </center>
</font>

<br>

***
<span style="color:gold">**Correlograma**</span>

El correlograma es una alternativa al variograma tradicional que muestra la correlación entre puntos separados por una distancia $h$. <br>
La correlación suele disminuir conforme aumenta la distancia hasta llegar a cero. <br>
La relación entre la covarianza y el correlograma es el siguiente:

<center>
    $ \Large \rho_{x}(\normalsize h\Large)\,\,\, = \frac{C_{x}(h)}{\sigma^{2}_{x}} $ 
</center>

Donde:
- $\rho_{x}(h)$ es la función correlograma
- $h$ es el paso o distancia de separación entre puntos
- $C_{x}(h)$ es la covarianza
- $\sigma^{2}_{x}$ es la varianza

Si se usa una varianza estandarizada $\sigma^{2}_{x}=1$, entonces:

<center> 
    $ \Large \rho_{x}(\normalsize h\Large)\,\,\, = 1 - \gamma_{x}(\normalsize h\Large) $ 
</center>

<br>

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Ejemplo de variograma usando `geostatspy`**</span>
***

<span style="color:gold">**Procesamiento de datos**</span>

Importamos las librerías:

In [None]:
import geostatspy.GSLIB as GSLIB
import geostatspy.geostats as geostats

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Y cargamos el archivo `data_variograma.csv`:

In [None]:
data = pd.read_csv("files/data_variograma.csv")

In [None]:
data.head()

Revisamos la información:

In [None]:
# Resumen estadístico general
data.describe().T

In [None]:
# Tipos de datos en las columnas
data.dtypes

In [None]:
# Elementos únicos en la columna Facies
data["Facies"].unique()

En resumen, tenemos las siguientes columnas:

- `X`, `Y` : coordenadas
- `Facies` : arenisca y lutita
- `Porosidad` : porosidad en fracción (%)
- `Permeabilidad` : permeabilidad en mDarcy

Ahora, separaremos la información en dos DataFrames de acuerdo al tipo de Facies:

In [None]:
arenisca = data[data["Facies"] == "arenisca"].copy()
lutita = data[data["Facies"] == "lutita"].copy()

Y usamos `describe` para obtener un resumen estadístico por cada Facies:

In [None]:
arenisca.describe().T

In [None]:
lutita.describe().T

Podemos notar que las Facies presentan diferencias significativas, por lo cual deben analizadas por separado.

***
<span style="color:gold">**Transformación de datos**</span>

Antes de crear variogramas usando la información, debemos realizar una transformación de los variables de Porosidad y Permeabilidad para que se asemejen a una distribución normal.

Esta transformación tiene las siguientes finalidades:

- Elimina la dependencia de las variables con respecto a sus unidades de medida
- Al tener una distribución normal, pueden ser usados en Simulación Secuencial Gaussiana
- Ayuda en el tratamiento de outliers
- Facilita la interpretación del variograma

Para hacer la transformación, usaremos la función `nscore` del módulo `geostatspy`:

In [None]:
geostats.nscore

La función tiene los siguientes parámetros principales:

- `df`: el DataFrame con la información
- `vcol`: la columna de la variable que se va a transformar
- `wcol`: lista de ponderaciones en caso sea necesario aplicar declustering

La función devuelve tres resultados:

- Un DataFrame con la variable transformada
- Un arreglo de Numpy con los valores originales de la variable
- Un arreglo de Numpy con los pesos utilizados para transformar los valores originales

Aplicando la función para cada cada tipo de facies y para cada tipo:

In [None]:
# nscore para el DataFrame general con todas las facies
data["NPor"] = geostats.nscore(data, "Porosidad")[0]
data["NPerm"] = geostats.nscore(data, "Permeabilidad")[0]

# nscore para las facies de arenisca
arenisca["NPor"] = geostats.nscore(arenisca, "Porosidad")[0]
arenisca["NPerm"] = geostats.nscore(arenisca, "Permeabilidad")[0]

# nscore para las facies de lutita
lutita["NPor"] = geostats.nscore(lutita, "Porosidad")[0]
lutita["NPerm"] = geostats.nscore(lutita, "Permeabilidad")[0]

Y ahora observamos los datos transformados:

In [None]:
data.head()

In [None]:
arenisca.head()

In [None]:
lutita.head()

Ahora, graficaremos las distribuciones de porosidad y permeabilidad para ambas Facies:

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(20, 8))

# Gráfico sin transformar
axs[0].hist(data=arenisca, x="Porosidad", bins=np.linspace(0, 0.4, 50), density=True,
            alpha=0.2, color="red", label="Arenisca", edgecolor="black")
axs[0].hist(data=lutita, x="Porosidad", bins=np.linspace(0, 0.4, 50), density=True,
            alpha=0.2, color="blue", label="Lutita", edgecolor="black")
axs[0].set_xlim(0.05, 0.25)
axs[0].set_title("Porosidad - Arenisca y Lutita", fontsize=20)
axs[0].set_xlabel("Porosidad (%)", fontsize=18)
axs[0].set_ylabel("Frecuencia", fontsize=18)
axs[0].legend(fontsize=14)
axs[0].grid()

# Gráfico nscore
axs[1].hist(data=arenisca, x="NPor", bins=np.linspace(-3, 3, 40), density=True,
            alpha=0.2, color="red", label="Arenisca")
axs[1].hist(data=lutita, x="NPor", bins=np.linspace(-3, 3, 40), density=True,
            alpha=0.2, color="blue", label="Lutita")
axs[1].set_xlim(-3, 3)
axs[1].set_title("Porosidad Nscore - Arenisca y Lutita", fontsize=20)
axs[1].set_xlabel("Porosidad Nscore", fontsize=18)
axs[1].set_ylabel("Densidad", fontsize=18)
axs[1].legend(fontsize=14)
axs[1].grid()

plt.show()

Observamos que la función `nscore` realizó una transformación correcta de los valores de Porosidad de ambas Facies a una distribución normal.

***
<span style="color:gold">**Cálculo del variograma** </span>

Empezaremos graficando la distribución espacial de los valores de Porosidad y Permeabilidad usando la función `locmap_st`:

In [None]:
GSLIB.locmap_st

La función `locmap_st` utiliza los siguientes parámetros:

- `df`: el DataFrame con la información
- `xcol`, `ycol`, `vcol`: nombre de las columnas para las coordenadas X, Y y la variable de interés
- `xmin`, `xmax`, `ymin`, `ymax`, `vmin`, `vmax`: valores mínimos y máximos para las coordenadas X, Y y la variable de interés
- `title`: título de la figura
- `xlabel`, `ylabel`: nombre de los ejes X e Y
- `vlabel`: nombre de la variable de interés
- `cmap`: mapa de colores para la figura

In [None]:
# Mapa de color
cmap = plt.cm.plasma

# Figura
plt.figure(figsize=(8, 5))

plt.subplot(231)
GSLIB.locmap_st(data, "X", "Y", "NPor", 0, 1000, 0, 1000, -3, 3,
                "Porosidad Nscore - Facies Arenisca y Lutita", "X (m)", "Y (m)", "Porosidad Nscore", cmap)

plt.subplot(232)
GSLIB.locmap_st(arenisca, "X", "Y", "NPor", 0, 1000, 0, 1000, -3, 3,
                "Porosidad Nscore - Facies Arenisca", "X (m)", "Y (m)", "Porosidad Nscore", cmap)

plt.subplot(233)
GSLIB.locmap_st(lutita, "X", "Y", "NPor", 0, 1000, 0, 1000, -3, 3,
                "Porosidad Nscore - Facies Lutita", "X (m)", "Y (m)", "Porosidad Nscore", cmap)

plt.subplot(234)
GSLIB.locmap_st(data, "X", "Y", "NPerm", 0, 1000, 0, 1000, -3, 3,
                "Permeabilidad Nscore - Facies Arenisca y Lutita", "X (m)", "Y (m)", "Permeabilidad Nscore", cmap)

plt.subplot(235)
GSLIB.locmap_st(arenisca, "X", "Y", "NPerm", 0, 1000, 0, 1000, -3, 3,
                "Permeabilidad Nscore - Facies Arenisca", "X (m)", "Y (m)", "Permeabilidad Nscore", cmap)

plt.subplot(236)
GSLIB.locmap_st(lutita, "X", "Y", "NPerm", 0, 1000, 0, 1000, -3, 3,
                "Permeabilidad Nscore - Facies Lutita", "X (m)", "Y (m)", "Permeabilidad Nscore", cmap)

plt.subplots_adjust(left=0.0, bottom=0.0, right=2.0, top=1.8, wspace=0.4, hspace=0.3)
plt.show()

Notamos que existen dos zonas con una mayor densidad de datos, sin embargo estas solo representan una fracción del área total, en este tutorial nos centraremos en calcular el variograma para distancias de 100 metros.

También podemos observar que el espaciamiento entre las muestras es de aproximadamente 100 metros, el espacio total es de 1000 metros así que usaremos una extensión aproximada de 700 metros equivalente a 14 distancias de separación de 50 metros.

Ahora, usaremos la función `gamv` del programa de cálculo de variograma experimental:

In [None]:
geostats.gamv

La función `gamv` contiene los siguientes parámetros:

- `df`: el DataFrame con la información
- `xcol`, `ycol`, `vcol`: nombre de las columnas para las coordenadas X, Y y la variable de interés
- `tmin`, `tmax`: valores mínimos y máximos de la variable de interés (en caso sea necesario filtrar)
- `xlag`: paso o distancia de separación entre puntos
- `xltol`: tolerancia de separación entre puntos
- `nlag`: número de pasos
- `azm`: azimut o dirección del variograma
- `atol`: tolerancia de azimut
- `bandwh`: ancho de banda horizontal dentro del cual se consideran válidos los datos para el cálculo del variograma
- `isill`: colocamos el valor de 1 para estandarizar el sill

Y devuelve los siguientes resultados:

- La coordenada de cada punto del variograma.
- El valor del variograma para cada punto.
- El número de pares utilizados para el cálculo del variograma en cada punto.

El cálculo del variograma será isotrópico, es decir, su valor no será sensitivo a la dirección del variograma.

In [None]:
# Sin valores mínimos y máximos para la variable
tmin, tmax = -9999, 9999
# Separación de 50 +- 50 metros y 14 intervalos
lag_dist, lag_tol, nlag = 50, 50, 14
# Dirección norte y ancho de banda sin límite
azm, atol, bandwh = 0, 90, 9999
# Variograma estandarizado
isill = 1

In [None]:
# Variogramas de porosidad
# Arenisca
lag, por_ar_gamma, por_ar_npair = geostats.gamv(arenisca, "X", "Y", "NPor", tmin, tmax,
                                                lag_dist, lag_tol, nlag, azm, atol, bandwh, isill)
# Lutita
lag, por_lt_gamma, por_lt_npair = geostats.gamv(lutita, "X", "Y", "NPor", tmin, tmax,
                                                lag_dist, lag_tol, nlag, azm, atol, bandwh, isill)
# Total
lag, por_gamma, por_npair = geostats.gamv(data, "X", "Y", "NPor", tmin, tmax,
                                          lag_dist, lag_tol, nlag, azm, atol, bandwh, isill)

# Variogramas de permeabilidad
# Arenisca
lag, perm_ar_gamma, perm_ar_npair = geostats.gamv(arenisca, "X", "Y", "NPerm", tmin, tmax,
                                                  lag_dist, lag_tol, nlag, azm,atol, bandwh, isill)
# Lutita
lag, perm_lt_gamma, perm_lt_npair = geostats.gamv(lutita, "X", "Y", "NPerm", tmin, tmax,
                                                  lag_dist, lag_tol, nlag, azm, atol, bandwh, isill)
# Total
lag, perm_gamma, perm_npair = geostats.gamv(data, "X", "Y", "NPerm", tmin, tmax,
                                            lag_dist, lag_tol, nlag, azm, atol, bandwh, isill)

Ahora, graficaremos los variogramas:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 5))

# Variograma de la porosidad
ax1.plot(lag, por_gamma, ".", color="black", label="Todos", markersize=16)
ax1.plot(lag, por_ar_gamma, ".", color="orange", label="Arenisca", markersize=16)
ax1.plot(lag, por_lt_gamma, ".", color="green", label="Lutita", markersize=16)
ax1.plot([0, 2000], [1., 1.], color="black")

ax1.set_xlabel(r"Separación $fh$, (m)", fontsize=18)
ax1.set_ylabel(r"$\gamma f(h)$", fontsize=20)
ax1.set_title("Variograma Isotrópico - Porosidad NSCORE", fontsize=20)
ax1.set_xlim([0, 700])
ax1.set_ylim([0, 2.])
ax1.legend(loc="upper left", fontsize=18)
ax1.grid(True)

# Variograma de la permeabilidad
ax2.plot(lag, perm_gamma, ".", color="black", label="Todos", markersize=16)
ax2.plot(lag, perm_ar_gamma, ".", color="orange", label="Arenisca", markersize=16)
ax2.plot(lag, perm_lt_gamma, ".", color="green", label="Lutita", markersize=16)
ax2.plot([0, 2000], [1., 1.], color = 'black')

ax2.set_xlabel(r"Separación $fh$, (m)", fontsize=18)
ax2.set_ylabel(r"$\gamma f(h)$", fontsize=20)
ax2.set_title("Variograma Isotrópico - Permeabilidad NSCORE", fontsize=20)
ax2.set_xlim([0, 700])
ax2.set_ylim([0, 2.])
ax2.legend(loc="upper left", fontsize=18)
ax2.grid(True)

plt.subplots_adjust(left=0.0, bottom=0.0, right=2.0, top=1.2, wspace=0.15, hspace=0.3)
plt.show()

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...** </span>
***
- <span style="color:#43c6ac">El variograma es una herramienta geoestadística usada para analizar la variabilidad espacial de un fenómeno. Proporciona información sobre cómo los valores de una variable cambian a medida que la distancia entre los puntos aumenta.</span>
- El rango de la arenisca es mayor que el de la lutita tanto para porosidad como para permeabilidad.
- El variograma de la lutita presenta mayor ruido y esto puede deberse a que sus puntos se encuentran más alejados.
- La continuidad espacial de la arenisca es mayor que el de la lutita.
  
***