<span style="color:lightgreen; font-size:30px">**PG101 - Fundamentos de Estadística**</span>
***
<span style="color:gold; font-size:30px">**Variables aleatorias**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>
***

Bienvenido al curso PG101 - Fundamentos de Estadística!!!

Vamos a revisar las bases de la <span style="color:gold">estadística</span> usando ejemplos en Python.\
Es necesario que tengas un conocimiento previo en programación con Python y visualización de datos con Matplotlib.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

<span style="font-size:20px"> **Índice** </span>
***
- [¿Qué es una variable aleatoria?](#parte-1)
- [Distribuciones de probabilidad](#parte-2)
- [Variables aleatorias en geología](#parte-3)
- [En conclusión...](#parte-4)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es una variable aleatoria?**</span>
***

Una <span style="color:gold">variable aleatoria</span> es una función que asigna un número a cada uno de los posibles resultados de un experimento aleatorio.\
En otras palabras, es una variable cuyo valor depende del resultado de un evento aleatorio.

Por ejemplo, si se lanza un dado, la variable aleatoria puede ser el número que aparece en el dado después de lanzarlo.\
Los posibles resultados son 1, 2, 3, 4, 5 o 6, y cada uno tiene la misma probabilidad de ocurrir, por lo que la variable aleatoria asociada toma valores en este conjunto de números.

Las variables aleatorias se pueden clasificar como discretas o continuas, según el conjunto de valores que pueden tomar:
- Las variables aleatorias discretas toman valores aislados y contables, como en el ejemplo anterior.
- Las variables aleatorias continuas pueden tomar cualquier valor dentro de un rango continuo, como la altura o el peso de una persona.

La distribución de probabilidad de una variable aleatoria es una descripción matemática de las posibles valores que puede tomar la variable y las probabilidades asociadas a cada uno de ellos.\
La función de distribución de probabilidad de una variable aleatoria discreta se llama función de masa de probabilidad, mientras que la de una variable aleatoria continua se llama función de densidad de probabilidad.

<span style="color:#43c6ac">Las variables aleatorias son una herramienta importante en estadística, ya que permiten modelar y analizar la variabilidad de los datos y hacer inferencias estadísticas sobre la población a partir de muestras de datos.</span>

<a id="parte-2"></a>

### <span style="color:lightgreen">**¿Qué son las distribuciones de probabilidad?**</span>
***

Las <span style="color:gold">distribuciones de probabilidad</span> son modelos matemáticos que describen la probabilidad de ocurrencia de diferentes resultados en un experimento aleatorio.

Para describir una distribución aleatoria en geología, se puede utilizar una variedad de herramientas y técnicas estadísticas.\
En Python, es posible utilizar bibliotecas como `numpy`, `matplotlib`, `scipy` o `statsmodels` para analizar los datos y visualizar la distribución de una variable aleatoria.

En el notebook anterior, usamos medidas estadísticas como la media o la desviación estándar, y gráficos como el histograma, para describir las características de una distribución de probabilidad.

Vamos a revisar nuevas funciones que nos ayudarán a entender mejor las distribuciones de probabilidad.\
Empezaremos abriendo el archivo `rocas.csv`:


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
rocas = pd.read_csv("files/rocas.csv")

Recordemos que al graficar un histograma, podemos observar la distribución de los datos, pero divididos en intervalos:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Histograma
ax.hist(rocas["SiO2"], bins=100, edgecolor="black")

# Etiquetas
ax.set_xlabel("Porcentaje(%)", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Un <span style="color:gold">cuantil</span> es un punto específico en una distribución de datos, para seleccionar un cuantil (por ejemplo, la mediana o también llamado cuantil 0.5) en nuestra distribución, usaremos la función `quantile` de `numpy`:

In [None]:
np.quantile(rocas["SiO2"], q=0.5)

Esto quiere decir, que la mediana o el cuantil 0.5 de nuestra distribución tiene un valor de 58.37% de SiO2.

El <span style="color:gold">percentil</span> es similar pero toma un valor de 0 a 100 (porcentaje), y se evalúa con la función `percentile`:

In [None]:
np.percentile(rocas["SiO2"], q=50)

***

Además de un histograma dividido en intervalos, existen otras formas de observar la distribución de probabilidad de nuestros datos.

Para transformar el histograma en un histograma acumulativo, usaremos los parámetros `cumulative=True` y `histtype="stepfilled"`:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Histograma acumulativo
ax.hist(rocas["SiO2"], bins=100, cumulative=True, histtype="stepfilled", edgecolor="black")

# Etiquetas
ax.set_xlabel("Porcentaje (%)", fontsize=15)
ax.set_ylabel("Frecuencia acumulada", fontsize=13)
ax.set_title("Histograma acumulativo de SiO2", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Un <span style="color:gold">histograma acumulativo</span> es una representación gráfica de la distribución acumulada de los datos en un conjunto.

Es similar a un histograma regular en el sentido de que muestra cómo se distribuyen los datos en un rango de valores, pero en lugar de mostrar las frecuencias de los datos en cada intervalo individual, muestra las frecuencias acumuladas de los datos en o por debajo de cada intervalo.

Es una herramienta útil para visualizar cómo se distribuyen los datos en un conjunto y cuántos valores se encuentran por encima o por debajo de ciertos umbrales.

Usando Scipy, podemos crear una <span style="color:gold">función de distribución acumulada (CDF)</span>, que nos permita obtener el valor de probabilidad acumulada para un valor de SiO2 específico.

> En este caso, el CDF es empírico, debido a que lo vamos a construir en base a datos observados o medidas experimentales, en contraposición a una distribución teórica.

Empezaremos usando Seaborn (a través de la función `sns.kdeplot`) para visualizar el CDF:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Gráfico de la CDF
sns.kdeplot(ax=ax, data=rocas, x="SiO2", color="blue", cumulative=True,
            fill=True, alpha=0.5, cut=0)

# Etiquetas
ax.set_xlabel("Porcentaje (%)", fontsize=15)
ax.set_ylabel("Probabilidad acumulada", fontsize=13)
ax.set_title("Función de distribución acumulada (CDF) empírica de SiO2", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

La función `ECDF` del módulo `statsmodels.distributions.empirical_distribution`, nos permite calcular el valor de probabilidad de nuestra CDF empírica para un valor específico de la variable.

Por ejemplo, calcularemos la probabilidad de obtener valores de porcentaje de SiO2 menores o iguales a 50%:

In [None]:
from statsmodels.distributions.empirical_distribution import ECDF

In [None]:
# Creamos el objeto que representa la CDF de SiO2
cdf = ECDF(rocas["SiO2"])
# Y evaluamos la CDF empírica para un valor de 60% de SiO2
cdf(60)

Esto quiere decir, que aprox. un 59.1% de los datos son menores o iguales a 60% en la columna de SiO2.

***

Además de la CDF, también podemos crear una <span style="color:gold">función de densidad de probabilidad (PDF)</span>, que describe la probabilidad relativa de que una variable aleatoria tome ciertos valores, es decir, describe cómo se distribuyen los valores de la variable en una escala continua.

Primero, graficaremos la PDF y luego, evaluaremos la densidad de probabilidad para un valor de 48% de SiO2:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Gráfico de la PDF
sns.kdeplot(ax=ax, data=rocas, x="SiO2", color="blue",
            fill=True, alpha=0.5, cut=0)
ax.axvline(x=48, c="red", lw=1)

# Etiquetas
ax.set_xlabel("Porcentaje (%)", fontsize=15)
ax.set_ylabel("Densidad de probabilidad", fontsize=13)
ax.set_title("Función de densidad de probabilidad (PDF) empírica de SiO2", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

In [None]:
from scipy.stats import gaussian_kde

In [None]:
# Creamos una aproximación gaussiana de nuestra distribución de datos para generar la pdf
pdf = gaussian_kde(rocas["SiO2"])
# Evaluamos el pdf para un valor de SiO2 de 60%
pdf.evaluate(60)

Algunos usos de las PDFs son:

- **Estimar la probabilidad de que una variable aleatoria tome un valor específico:** \
La PDF proporciona una descripción matemática de cómo se distribuyen los valores de una variable aleatoria en una escala continua.\
Por lo tanto, es posible calcular la probabilidad de que la variable tome un valor específico integrando la PDF en un rango que incluya el valor de interés.

- **Comparar diferentes distribuciones de probabilidad:** \
La PDF se puede utilizar para comparar diferentes distribuciones de probabilidad y determinar cuál es más adecuada para describir los datos observados.\
La forma de la PDF proporciona información sobre la forma de la distribución de probabilidad, como su simetría, asimetría y curtosis.

- **Modelar datos:** \
La PDF se puede utilizar como modelo para describir la distribución de probabilidad subyacente de un conjunto de datos.\
Esto es útil para simular datos o para estimar los parámetros de un modelo de probabilidad específico.

- **Realizar pruebas de hipótesis:** \
La PDF se utiliza en las pruebas de hipótesis para calcular los p-valores y determinar si los datos observados son consistentes con una hipótesis específica.

<span style="color:#43c6ac">En geología, las PDFs se pueden utilizar para estudiar las distribuciones de tamaños de partículas, modelar variables aleatorias geológicas, analizar datos, estimar incertidumbres, etc.</span>

<a id="parte-3"></a>

### <span style="color:lightgreen">**Variables aleatorias en geología**</span>
***

En geología, las variables aleatorias se utilizan para modelar y analizar una amplia gama de fenómenos naturales que muestran variabilidad y aleatoriedad.

Algunos ejemplos de variables aleatorias en geología son:

- **Distribución de tamaños de partículas:** \
En geología, la distribución de tamaños de partículas es una variable aleatoria que se utiliza para describir la distribución de los granos en una muestra de roca o sedimento.\
La función de distribución de probabilidad más comúnmente utilizada para este propósito es la ley de potencias, que describe la relación entre la fracción de partículas en un determinado rango de tamaño y el tamaño de las partículas.

- **Variabilidad de la mineralogía:** \
La mineralogía de una muestra de roca es una variable aleatoria que puede ser modelada utilizando técnicas de análisis de imágenes y estadísticas.\
Se pueden obtener distribuciones de probabilidad de la abundancia relativa de cada mineral, lo que puede proporcionar información sobre la génesis y evolución de la roca.

- **Propiedades físicas de los suelos:** \
En geología, las propiedades físicas de los suelos, como la porosidad, la permeabilidad y la densidad, son variables aleatorias que pueden ser modeladas utilizando técnicas estadísticas.\
Estas variables son importantes para la comprensión de la hidrología y la geotecnia.

- **Frecuencia y magnitud de los terremotos:** \
La frecuencia y magnitud de los terremotos son variables aleatorias que se utilizan para modelar la actividad sísmica en una región determinada.\
Se pueden utilizar distribuciones de probabilidad para describir la ocurrencia de terremotos y la magnitud de los mismos.

- **Composición química de las rocas:** \
La composición química de las rocas es una variable aleatoria que se utiliza para estudiar la génesis y evolución de las rocas.\
Se pueden utilizar técnicas estadísticas para modelar la distribución de los elementos químicos y para identificar patrones y tendencias en la composición de las rocas.

Estos son tan solo algunos de los muchos ejemplos de variables aleatorias que existen en el campo de las Geología, por ahora, nos centraremos en las variables aleatorias geoquímicas.

***

Empezaremos visualizando la distribución de probabilidad de la columna de sílice (SiO2), para el caso de la granodiorita:
> Al ser la sílice una variable aleatoria continua, el gráfico de su distribución será de densidad de probabilidad.

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma
df = rocas[rocas["Nombre"] == "Granodiorita"]
sns.kdeplot(ax=ax, data=df, x="SiO2", color="blue", fill=True, alpha=0.5, cut=0)

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Densidad", fontsize=15)
ax.set_title(f"Distribución de densidad de probabilidad de SiO2\nGranodiorita", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Notamos que la distribución de probabilidad de SiO2 de la granodiorita tiene una forma de campana, más conocida como <span style="color:gold">distribución normal o gaussiana</span>, usada ampliamente en estadística debido a su importancia teórica y a su capacidad para modelar muchos fenómenos naturales en Geociencias.

<span style="color:#43c6ac">La forma de la distribución normal es una campana simétrica, que está determinada por dos parámetros: la media μ y la desviación estándar σ.</span>\
La media indica el centro de la distribución y la desviación estándar indica la dispersión de los datos alrededor de la media.

La función de densidad de probabilidad (PDF) de una distribución normal se puede escribir como:

<center> $\Large f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ </center>

\
Donde x es el valor de la variable aleatoria, μ es la media y σ es la desviación estándar.

Algunas de las características de la distribución normal son:

- La distribución normal es una distribución continua, simétrica alrededor de la media μ y unimodal.
- El 68.3% de los datos se encuentran dentro de una desviación estándar de la media, el 95.4% dentro de dos desviaciones estándar y el 99.7% dentro de tres desviaciones estándar.
- La distribución normal tiene una media, una mediana y una moda idénticas.
- La distribución normal tiene una propiedad aditiva: si se suman dos variables aleatorias normales independientes, el resultado también es una variable aleatoria normal.
- La distribución normal tiene una propiedad multiplicativa: si se multiplican dos variables aleatorias independientes, el resultado tiene una distribución log-normal.

***

Ahora, abriremos el archivo `assay.csv` en la carpeta `files`, y seleccionaremos la columna `AU_gpt` del taladro `DH010` para visualizar su distribución de densidad de probabilidad.

In [None]:
# Cargando los datos
dh = pd.read_csv("files/assay.csv")
au = dh[dh["ID"] == "DH010"]["AU_gpt"]

In [None]:
### Distribución de densidad de probabilidad
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma
sns.kdeplot(ax=ax, x=au, color="#ff9900", fill=True, alpha=0.5, cut=0)

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Densidad", fontsize=15)
ax.set_title(f"Distribución de densidad de probabilidad de AU_gpt", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Notamos que los valores de Au en el taladro siguen una <span style="color:gold">distribución log-normal</span>.

La distribución log-normal es una distribución de probabilidad continua que se utiliza para modelar variables aleatorias que son el resultado de la transformación logarítmica de una variable con distribución normal.\
En otras palabras, si una variable X tiene una distribución normal, entonces la variable Y = exp(X) tendrá una distribución log-normal.

<span style="color:#43c6ac">La distribución log-normal se caracteriza por tener solo valores positivos y una cola larga hacia la derecha.</span>

La función de densidad de probabilidad (pdf) de una distribución log-normal se puede escribir como:

<center> $\Large f(y) = \frac{1}{y\sigma\sqrt{2\pi}}\, e^{-\frac{(\ln y - \mu)^2}{2\sigma^2}}$ </center>

\
Donde y es el valor de la variable aleatoria, μ es la media y σ es la desviación estándar de la variable logarítmica correspondiente a Y.

Algunas de las características de la distribución normal son:

- La distribución log-normal es una distribución continua, unimodal y asimétrica positiva.
- Los valores de la variable aleatoria deben ser estrictamente positivos, ya que la distribución se define en términos del logaritmo natural de la variable aleatoria.
- La forma de la distribución log-normal depende de dos parámetros: la media (μ) y la desviación estándar (σ) de la variable logarítmica correspondiente a la variable aleatoria.
- A medida que el valor de σ se vuelve más grande, la distribución se extiende hacia la derecha y se vuelve más asimétrica.
- La distribución log-normal se utiliza comúnmente para modelar variables aleatorias que son el resultado de la transformación logarítmica de una variable normal, como la concentración geoquímica de elementos.

Si tomamos el logaritmo de los valores de Au en el gráfico, observamos lo siguiente:

In [None]:
### Distribución de densidad de probabilidad
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma
sns.kdeplot(ax=ax, x=np.log10(au), color="#ff9900", fill=True, alpha=0.5, cut=0)

# Etiquetas
ax.set_xlabel("log(%)", fontsize=15)
ax.set_ylabel("Densidad", fontsize=15)
ax.set_title(f"Distribución de densidad de probabilidad de log(AU_gpt)", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

<span style="color:#43c6ac">*Las variables aleatorias son muy comunes en geología, ya que muchos procesos geológicos son inherentemente aleatorios, como por ejemplo: la distribución de tamaños de partículas, la permeabilidad de las rocas y la porosidad.*</span>\
*La distribución de probabilidad de una variable aleatoria puede ser usada para caracterizar la variabilidad de una propiedad geológica.*

*La función de densidad de probabilidad (PDF) es muy útil en geología para describir la distribución de una propiedad geológica en un área determinada.\
La función de distribución acumulada (CDF) es una herramienta valiosa en geología para cuantificar la probabilidad de que una propiedad geológica tome un valor determinado.*

*La distribución normal es una de las distribuciones de probabilidad más comunes utilizadas en geología, ya que muchos procesos geológicos se pueden modelar como variables aleatorias gaussianas.\
La distribución lognormal es otra distribución de probabilidad común en geología, y se utiliza para describir las distribuciones de variables que no pueden ser negativas, como la permeabilidad y la porosidad.*

***