<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG101 - Fundamentos de Estadística**</span>

Bienvenido al curso!!!

Vamos a revisar las bases de la <span style="color:gold">estadística</span> usando ejemplos en Python. <br>
Es necesario que tengas un conocimiento previo en programación con Python y visualización de datos con Matplotlib.


<span style="color:gold; font-size:20px">**Estadística descriptiva** </span>

***
- [¿Qué es la estadística descriptiva?](#parte-1)
- [Medidas de tendencia central](#parte-2)
- [Medidas de dispersión](#parte-3)
- [Gráficos estadísticos](#parte-4)
- [Automatización del análisis descriptivo](#parte-5)
- [En conclusión...](#parte-6)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es la estadística descriptiva?**</span>
***

La <span style="color:gold">estadística descriptiva</span> es una rama de la estadística que se enfoca en la recolección, análisis, interpretación y presentación de datos. <br>
Su objetivo principal es describir y resumir los datos de una muestra o población con el fin de obtener una comprensión más clara y completa de los mismos.

Algunos de los métodos utilizados en estadística descriptiva incluyen la media, la mediana, la moda, la desviación estándar, los percentiles, los boxplot, entre otros.

<span style="color:#43c6ac">En geología, la estadística descriptiva se utiliza para analizar datos geológicos como los resultados de análisis químicos de rocas y minerales, mediciones de propiedades físicas como la densidad, la porosidad y la permeabilidad, datos de exploración y perforación, entre otros.</span>


***
**Pregunta: Dentro del contexto de la Geología, ¿qué es la población y qué es una muestra?**

En geología, la <span style="color:gold">población</span> se refiere al conjunto completo de datos geológicos que se quiere estudiar, como por ejemplo, la composición química de las rocas, la distribución de minerales en una zona, la concentración de contaminantes en el suelo, la densidad de fósiles en una formación geológica, entre otros. <br>
La población puede ser grande o pequeña, dependiendo del alcance del estudio.

Por otro lado, la <span style="color:gold">muestra</span> es un subconjunto de la población que se utiliza para obtener información sobre la población completa. <br>
La muestra puede ser seleccionada de diferentes maneras, dependiendo del objetivo del estudio y de las características de la población. <br>
<span style="color:#43c6ac">Es importante que la muestra sea representativa de la población para que las conclusiones obtenidas a partir de ella puedan ser generalizadas a la población completa.</span>

<a id="parte-2"></a>

### <span style="color:lightgreen">**Medidas de tendencia central**</span>
***

Las medidas de tendencia central son un conjunto de estadísticas que se utilizan para describir el valor central o típico de un conjunto de datos.

Estas medidas proporcionan una forma de resumir la información contenida en un conjunto de datos, identificando un valor único que representa una posición central o típica dentro del conjunto.

En este notebook, usaremos la data del archivo `rocas.csv`, ubicado en la carpeta `files`:

In [None]:
import pandas as pd
rocas = pd.read_csv("files/rocas.csv")
rocas.head()

**Pregunta: ¿Cuántos tipos de rocas hay?** <br>
Respuesta: podemos calcular el número de categorías en una columna de valores categóricos usando el método `unique`:

In [None]:
rocas["Nombre"].unique() # Tipos únicos de rocas

In [None]:
len(rocas["Nombre"].unique()) # Total de tipos

Tenemos 4 tipos de roca: andesita, basalto, dacita y riolita.

A continuación, revisaremos las columnas de valores numéricos: <br>
Podemos calcular el <span style="color:gold">promedio</span> de cada columna numérica usando el método `mean`:
> Usaremos el parámetro `numeric_only=True` para omitir el cálculo de la media de valores categóricos (e.g. `Nombre`).

In [None]:
rocas.head()

In [None]:
# Media
rocas.mean(numeric_only=True)

Adicionalmente, podemos calcular los <span style="color:gold">percentiles</span> de cada distribución de datos.

> **<span style="color:gold">¿Qué son los percentiles?</span>** <br>
> Los percentiles son medidas que indican la posición relativa de un valor dentro de un conjunto de datos. <br>
> El percentil n es un valor bajo el cual cae el n% de los datos del conjunto. <br>
> Por ejemplo, el percentil 50, también conocido como la **mediana**, divide los datos de manera que el 50% de los valores son menores que él.

Para calcular la <span style="color:gold">mediana</span>, podemos usar el método `median` o también la función `np.quantile`:

In [None]:
# Mediana
rocas.median(numeric_only=True)

Para elegir el percentil de la mediana, usaremos el valor `q=0.5`:

In [None]:
# Mediana con percentiles
rocas.quantile(numeric_only=True, q=0.5)

También usaremos el método `mode` para calcular la <span style="color:gold">moda</span> de la columna `Nombre` de valores categóricos:

In [None]:
rocas["Nombre"].mode()

La muestra más abundante en el dataset es el basalto (basalt).

Por último, podemos calcular el total de muestras por tipo de roca usando el método `value_counts`:

In [None]:
rocas["Nombre"].value_counts()

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Medidas de dispersión**</span>
***

Las medidas de dispersión son un conjunto de estadísticas que se utilizan para describir la variabilidad o la dispersión de un conjunto de datos.

Estas medidas proporcionan información sobre la amplitud de la distribución de los datos y cuánto varían los valores individuales con respecto a la medida de tendencia central.

Las medidas de dispersión a usar en este notebook son: varianza, desviación estándar, coeficiente de variación y rango.

Empezaremos calculando la <span style="color:gold">varianza</span> y la <span style="color:gold">desviación estándar</span>, usaremos los métodos `var` y `std` respectivamente:

In [None]:
# Varianza
rocas.var(numeric_only=True)

Recordemos que la desviación estándar es la raíz cuadrada de la varianza:

In [None]:
# Desviación estándar
rocas.std(numeric_only=True)

El <span style="color:gold">coeficiente de variación</span> lo obtenemos al dividir la desviación estándar entre la media:

In [None]:
# Coeficiente de variación
rocas.std(numeric_only=True) / rocas.mean(numeric_only=True)

Notamos que la columna de `MnO` tiene un alto coeficiente de variación (~168%), por lo que a continuación, agruparemos los datos de acuerdo a la columna de `Nombre` y calcularemos nuevamente el coeficiente:

In [None]:
# Coeficiente de variación por grupos
rocas.groupby("Nombre").std() / rocas.groupby("Nombre").mean()

Notamos que el coeficiente de variación de `MnO` para cada litología es diferente. De forma similar, las medidas estadísticas de cada grupo son diferentes.

Los <span style="color:gold">máximos y mínimos</span> de cada columna numérica también se pueden obtener usando los métodos `max` y `min` respectivamente:

In [None]:
rocas.max(numeric_only=True)

In [None]:
rocas.min(numeric_only=True)

Para finalizar, calcularemos el <span style="color:gold">rango</span> de cada columna de datos numéricos:

> El rango de un conjunto de datos se calcula restando el valor máximo del valor mínimo.

In [None]:
rocas.max(numeric_only=True) - rocas.min(numeric_only=True)

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Gráficos estadísticos**</span>
***

Ahora, vamos a resumir los resultados de las medidas de tendencia central y dispersión a través de gráficos estadísticos.

Antes de empezar, tenemos la siguiente pregunta:

<span style="color:gold">**¿Es posible generar un nuevo DataFrame que contenga los datos de media, máximo, mínimo, varianza, desviación estándar, coeficiente de variación y rango para cada columna numérica?**</span> <br>
La respuesta es sí y, para lograrlo, usaremos el método `agg`.

Empezaremos seleccionando las columnas numéricas del DataFrame usando el método `select_dtypes` junto al parámetro `include=np.number`:

In [None]:
import numpy as np

In [None]:
# Tabla conteniendo solo las columnas numéricas
tabla = rocas.select_dtypes(include=np.number).copy()
tabla.head()

Para crear nuevas columnas con las medidas de tendencia central y dispersión mencionadas anteriormente, debemos pasar una lista conteniendo las funciones a utilizar.

In [None]:
# Función breve para calcular el coeficiente de variación
def cv(datos):
    return datos.std() / datos.mean()

# Función breve para calcular el rango
def rango(datos):
    return datos.max() - datos.min()

# Lista de funciones
funciones = ["mean", "min", "max", "var", "std", cv, rango]

Ahora, aplicamos el método `agg` pasando dicha lista de funciones: 

In [None]:
# Tabla resumen
tabla_resumen = tabla.agg(funciones)
tabla_resumen

Notamos que la tabla resultante tiene por columnas a los valores geoquímicos y por filas a las medidas estadísticas. <br>
Podemos alternar este orden usando el atributo `T`:

In [None]:
# Tabla resumen
tabla_resumen = tabla_resumen.T
tabla_resumen

Por último, renombraremos las columnas de las medidas estadísticas:

In [None]:
columnas = list(tabla_resumen.columns)
nombres = ["Media", "Mínimo", "Máximo", "Varianza", "Desv. Estándar", "Coef. de variación", "Rango"]

# Renombramos las columnas
tabla_resumen.rename(columns=dict(zip(columnas, nombres)), inplace=True)
tabla_resumen

De la tabla de resumen notamos lo siguiente:

- Existen una alta variabilidad en las columnas numéricas. Geoquímicamente, esto significa que las muestras provienen de 2 o más litologías diferentes. Esto es fácilmente verificable con la columna de `Nombre`, que contiene 4 diferentes tipos de roca.
- El coeficiente de variación tiene valores significativos (mayores a 0.5) en las columnas de `CaO`, `K2O`, `FeOT`, `MgO`, `MnO` y `TiO2`.
- La columna de `MnO` presenta la mayor variabilidad entre todas las demás columnas.

Para tener una mejor comprensión de los datos, debemos generar gráficos estadísticos para cada columna con la finalidad de comprobar que existen poblaciones diferentes en cada una de los variables geoquímicas.

In [None]:
import matplotlib.pyplot as plt

Empezaremos generando un <span style="color:gold">histograma</span> para la columna de SiO2.

<span style="color:#43c6ac">Un histograma es un tipo de gráfico que se utiliza en estadística para representar la distribución de frecuencias de un conjunto de datos numéricos.</span> <br>
El eje horizontal del histograma representa los valores de los datos y se divide en intervalos o "bins" (contenedores). <br>
El eje vertical representa la frecuencia o el número de observaciones que caen dentro de cada intervalo.

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma
ax.hist(rocas["SiO2"], bins=100, edgecolor="black")

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Límite
ax.set_xlim(0, 100)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)
ax.set_axisbelow(True) # Coloca la grilla debajo del histograma

plt.show()

Notamos una distribución irregular en los valores de SiO2, con al menos 4 modas en 50%, 60%, 64% y 71% aproximadamente.

Podemos separar los valores de SiO2 de acuerdo al tipo de roca, y así obtener una mejor representación de los datos. <br>
Empezaremos visualizando un <span style="color:gold">diagrama de barras</span> con la cantidad de muestras por tipo de roca.

<span style="color:#43c6ac">Un diagrama de barras es un tipo de gráfico que se utiliza para representar datos discretos o categóricos.</span> <br>
En un diagrama de barras, se dibujan barras rectangulares de altura proporcional a la frecuencia o el valor de cada categoría. <br>
Las barras se colocan horizontal o verticalmente y están separadas entre sí por espacios iguales.


In [None]:
# Información de entrada para la figura
value_counts = rocas["Nombre"].value_counts()
x, height = value_counts.index, value_counts.values

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(6, 5))

# Diagrama de barras
barra = ax.bar(x, height, color=["blue", "green", "red", "orange"])

# Etiquetas
ax.set_title("Cantidad de muestras por tipo de roca", fontsize=14, y=1.05)

# Eliminar el cuadro externo
for spine in ax.spines:
    ax.spines[spine].set_visible(False)

# Elimina las etiquetas del eje y
ax.set_yticklabels([]) 

# Oculta las marcas en los ejes inferior e izquierdo
ax.tick_params(bottom=False, left=False)

# Frecuencia encima de cada barra
for bar in barra:
    ax.text(bar.get_x() + bar.get_width() / 2,
            bar.get_height() + 100,
            int(bar.get_height()), ha="center", fontsize=12)

plt.show()

Tenemos más de 7,000 muestras de basalto, más de 6,000 muestras de andesita, alrededor de 5,000 muestras de riolita y más de 4,000 muestras de dacita.

Ahora, crearemos un histograma por cada tipo de roca, y lo colocaremos dentro de una misma figura:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma
ax.hist(rocas["SiO2"], bins=100, edgecolor="black")

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Límite
ax.set_xlim(0, 100)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)
ax.set_axisbelow(True) # Coloca la grilla debajo del histograma

plt.show()

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 4))

# Histograma por cada tipo de roca
for tipo, color in zip(["basalt", "andesite", "dacite", "rhyolite"], ["blue", "green", "orange", "red"]):
    df = rocas[rocas["Nombre"] == tipo] # Filtrar las filas para cada tipo de roca
    ax.hist(df["SiO2"], bins=100, edgecolor="black", color=color, alpha=0.5, label=tipo)

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Leyenda
ax.legend(fontsize=11, title="Litología")

# Límite
ax.set_xlim(0, 100)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)
ax.set_axisbelow(True)

plt.show()

Diferenciando el histograma por tipo de roca, notamos claramente las diferentes distribuciones de valores de SiO2 entre basalto, andesita, dacita y riolita.

Ahora, crearemos otro histograma para los valores de Al2O3 y teniendo en cuenta las diferentes litologías. <br>
Para esto, crearemos una función llamada `histograma` que genera la figura:

> Pasaremos un argumento `col` que representa el nombre de la columna en string.

In [None]:
clase_color = {"basalt": "blue",
               "andesite": "green",
               "dacite": "orange",
               "rhyolite": "red"
              }

def histograma(col):
    # Figura principal
    fig, ax = plt.subplots(figsize=(10, 4))

    # Histograma
    for clase, color in clase_color.items():
        df = rocas[rocas["Nombre"] == clase]
        ax.hist(df[col], bins=100, edgecolor="black", color=color, alpha=0.5, label=clase)

    # Etiquetas
    ax.set_xlabel("%", fontsize=12)
    ax.set_ylabel("Frecuencia", fontsize=12)
    ax.set_title(f"Histograma de {col}", fontsize=15)

    # Leyenda
    ax.legend(fontsize=12)
    ax.set_axisbelow(True)
    
    # Grilla
    ax.grid(c="black", alpha=0.5, lw=0.5)

    plt.show()

Y ejecutamos la función para la columna de Al2O3:

In [None]:
histograma("Al2O3")

Los valores de Al2O3 suelen variar entre 9 a 20%, y las rocas que varían de menor a mayor concentración de Al2O3 son: riolita, basalto, dacita y andesita.

Ahora, debemos buscar una forma de automatizar la visualización de cada columna.

***

<a id="parte-5"></a>

### <span style="color:lightgreen">**Automatización del análisis descriptivo**</span>
***

Para acelerar el análisis descriptivo, podemos crear widgets de Jupyter para automatizar la visualización de histogramas.

Usaremos la función `interact` para agregar interactividad a la función `histograma` creada anteriormente:

In [None]:
import ipywidgets as widgets

In [None]:
widgets.interact(histograma, col=list(tabla.columns));

Podemos mejorar la visualización del histograma cambiando las distribuciones de frecuencias por <span style="color:gold">distribuciones de densidad de probabilidad</span>.

> Nota: las distribuciones de probabilidad serán explicadas en el siguiente notebook.

Volveremos a crear la función `histograma`, pero esta vez implementaremos dicha variante del histograma. <br>
También agregaremos una línea vertical que representará la media de cada distribución.

In [None]:
import seaborn as sns

In [None]:
def histograma(col):
    # Figura principal
    fig, ax = plt.subplots(figsize=(10, 4))

    # Histograma
    for clase, color in clase_color.items():
        df = rocas[rocas["Nombre"] == clase]
        sns.kdeplot(ax=ax, data=df, x=col, color=color, fill=True, alpha=0.4,
                    cut=0, label=clase, legend=True)
        ax.axvline(np.mean(df[col]), c=color, lw=1.5)

    # Etiquetas
    ax.set_xlabel("%", fontsize=12)
    ax.set_ylabel("Densidad", fontsize=12)
    ax.set_title(f"Distribuciones de densidad de {col}", fontsize=15)

    # Leyenda
    ax.legend(fontsize=12)

    # Grilla
    ax.grid(c="black", alpha=0.5, lw=0.5)

    plt.show()

In [None]:
widgets.interact(histograma, col=list(tabla.columns));

Observando las distribuciones de densidad notamos lo siguiente:

- `SiO2`: los valores más bajos (40 a 60%) corresponden al basalto, seguido por andesita (50 a 65%), dacita (58 a 75%) y riolita (63% a 81%). <br>
<span style="color:#43c6ac">Esto se debe a que el basalto es una roca máfica (bajo contenido de silice), la andesita es una roca intermedia (contenido de silice moderado) y la dacita y la riolita son félsicas (alto contenido de sílice).</span>
- `Al2O3`: los valores más bajos (8 a 17%) corresponden a riolita, seguido por basalto (9 a 21%), dacita (10 a 20%) y andesita (11 a 21%).
- `CaO`: los valores son más altos para el basalto (4 a 15%), seguido por andesita (0 a 12%), dacita (0 a 7%) y riolita (0 a 5%).
- `Na2O`: los valores son parecidos entre diferentes tipos de roca (de 0 a 7%), pero existe una distribución de menor a mayor en el siguiente orden: basalto, andesita, riolita y dacita.
- `K2O`: los valores para la riolita son los más altos (0 a 8%), seguido por dacita (0 a 6%), andesita (0 a 5%) y basalto (0 a 4%).
- `FeOT`: los valores son altos para el basalto (5 a 17%), seguido por andesita (3 a 13%), dacita (0 a 10%) y riolita (0 a 6%).
- `MgO`: los valores más altos los tiene el basalto (entre 2 y 12%), seguido por andesita (0 a 9%), dacita (0 a 5%) y riolita (0 a 2%).
- `MnO`: los valores de basalto, andesita, dacita y riolita son similares (menores a 1%).
- `TiO2`: los valores son altos y dispersos para el basalto (0 a 4%), seguido por andesita (0 a 2%), dacita (0 a 2%) y riolita (0 a 1%).
***

<a id="parte-6"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

- <span style="color:#43c6ac">El análisis descriptivo es una herramienta usada en Geología para el estudio de datos geológicos. Nos ayuda a comprender y caracterizar los datos geológicos de una manera significativa y fácil de entender.</span>

- Esta técnica se utiliza para resumir y describir los datos en términos de medidas de tendencia central, como la media, y medidas de dispersión, como la desviación estándar o el coeficiente de variación.

- La visualización de datos es una técnica importante en el análisis descriptivo en geología.

- Los geólogos pueden utilizar gráficos como histogramas, diagramas de barras o de cajas, gráficos de dispersión y mapas para representar visualmente los datos geológicos.

---