<span style="color:lightgreen; font-size:30px">**PG101 - Fundamentos de Estadística**</span>
***
<span style="color:gold; font-size:30px">**Estadística descriptiva**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>
***

Bienvenido al curso PG101 - Fundamentos de Estadística!!!

Vamos a revisar las bases de la <span style="color:gold">estadística</span> usando ejemplos en Python.\
Es necesario que tengas un conocimiento previo en programación con Python y visualización de datos con Matplotlib.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

<span style="font-size:20px"> **Índice** </span>
***
- [¿Qué es la estadística descriptiva?](#parte-1)
- [Medidas de tendencia central](#parte-2)
- [Medidas de dispersión](#parte-3)
- [Gráficos estadísticos](#parte-4)
- [Automatización del análisis descriptivo](#parte-5)
- [En conclusión...](#parte-6)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es la estadística descriptiva?**</span>
***

La <span style="color:gold">estadística descriptiva</span> es una rama de la estadística que se enfoca en la recolección, análisis, interpretación y presentación de datos.\
Su objetivo principal es describir y resumir los datos de una muestra o población con el fin de obtener una comprensión más clara y completa de los mismos.

Algunos de los métodos utilizados en estadística descriptiva incluyen la media, la mediana, la moda, la desviación estándar, los percentiles, los boxplot, entre otros.

<span style="color:#43c6ac">En geología, la estadística descriptiva se utiliza para analizar datos geológicos como los resultados de análisis químicos de rocas y minerales, mediciones de propiedades físicas como la densidad, la porosidad y la permeabilidad, datos de exploración y perforación, entre otros.</span>

***

**Pregunta: Dentro del contexto de la Geología, ¿qué es la población y qué es una muestra?**

En geología, la <span style="color:gold">población</span> se refiere al conjunto completo de datos geológicos que se quiere estudiar, como por ejemplo, la composición química de las rocas, la distribución de minerales en una zona, la concentración de contaminantes en el suelo, la densidad de fósiles en una formación geológica, entre otros.\
La población puede ser grande o pequeña, dependiendo del alcance del estudio.

Por otro lado, la <span style="color:gold">muestra</span> es un subconjunto de la población que se utiliza para obtener información sobre la población completa.\
La muestra puede ser seleccionada de diferentes maneras, dependiendo del objetivo del estudio y de las características de la población.\
<span style="color:#43c6ac">Es importante que la muestra sea representativa de la población para que las conclusiones obtenidas a partir de ella puedan ser generalizadas a la población completa.</span>



<a id="parte-2"></a>

### <span style="color:lightgreen">**Medidas de tendencia central**</span>
***

Las medidas de tendencia central son un conjunto de estadísticas que se utilizan para describir el valor central o típico de un conjunto de datos.

Estas medidas proporcionan una forma de resumir la información contenida en un conjunto de datos, identificando un valor único que representa una posición central o típica dentro del conjunto.

En este notebook, usaremos la data del archivo `rocas.csv`, ubicado en la carpeta `files`:

In [None]:
import pandas as pd
rocas = pd.read_csv("files/rocas.csv")
rocas.head()

**Pregunta: ¿Cuántos tipos de rocas hay?** \
Respuesta: podemos calcular el número de categorías en una columna de valores categóricos usando el método `unique`:

In [None]:
rocas["Nombre"].unique()

Tenemos 3 tipos de roca: Peridotita, Granodiorita y Andesita.

A continuación, revisaremos las columnas de valores numéricos:\
Podemos calcular el <span style="color:gold">promedio</span> de cada columna numérica usando el método `mean`:
> Usaremos el parámetro `numeric_only=True` para omitir el cálculo de la media de valores categóricos (e.g. `Nombre`).

In [None]:
# Media
rocas.mean(numeric_only=True)

Adicionalmente, podemos calcular los <span style="color:gold">percentiles</span> de cada distribución de datos.\
El percentil 50 es también conocido como <span style="color:gold">mediana</span>, y lo calculamos con el método `median` o la función `np.quantile`:

In [None]:
# Mediana
rocas.median(numeric_only=True)

Para elegir el percentil de la mediana, usaremos el valor `q=0.5`:

In [None]:
import numpy as np
# Mediana con percentiles
rocas.quantile(numeric_only=True, q=0.5)

También calcularemos la <span style="color:gold">moda</span> de la columna `Nombre` de valores categóricos.\
Para esto, usaremos el método `mode`:

In [None]:
rocas["Nombre"].mode()

La andesita es la muestra más abundante en el dataset.

Por último, podemos calcular el total de muestras por tipo de roca usando los métodos `groupby` y `count`:

In [None]:
rocas.groupby("Nombre")["SiO2"].count()

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Medidas de dispersión**</span>
***

Las medidas de dispersión son un conjunto de estadísticas que se utilizan para describir la variabilidad o la dispersión de un conjunto de datos.

Estas medidas proporcionan información sobre la amplitud de la distribución de los datos y cuánto varían los valores individuales con respecto a la medida de tendencia central.

Las medidas de dispersión a usar en este notebook son: varianza, desviación estándar, coeficiente de variación y rango.

Empezaremos calculando la <span style="color:gold">varianza</span> y la <span style="color:gold">desviación estándar</span>, usaremos los métodos `var` y `std` respectivamente:

In [None]:
# Varianza
rocas.var(numeric_only=True)

Recordemos que la desviación estándar es la raíz cuadrada de la varianza:

In [None]:
# Desviación estándar
rocas.std(numeric_only=True)

El <span style="color:gold">coeficiente de variación</span> lo obtenemos al dividir la desviación estándar entre la media:

In [None]:
# Coeficiente de variación
rocas.std(numeric_only=True) / rocas.mean(numeric_only=True)

Los <span style="color:gold">máximos y mínimos</span> de cada columna numérica también se pueden obtener usando los métodos `max` y `min` respectivamente:

In [None]:
rocas.max(numeric_only=True)

In [None]:
rocas.min(numeric_only=True)

Para finalizar, calcularemos el <span style="color:gold">rango</span> de cada columna de datos numéricos:
> El rango de un conjunto de datos se calcula restando el valor máximo del valor mínimo.

In [None]:
rocas.max(numeric_only=True) - rocas.min(numeric_only=True)

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Gráficos estadísticos**</span>
***

Ahora, vamos a resumir los resultados de las medidas de tendencia central y dispersión a través de gráficos estadísticos.

Antes de empezar, tenemos la siguiente pregunta:

<span style="color:gold">**¿Es posible generar un DataFrame que contenga los datos de media, máximo, mínimo, varianza, desviación estándar, coeficiente de variación y rango para cada columna numérica?**</span> \
La respuesta es sí y, para lograrlo, usaremos el método `agg`.

Empezaremos seleccionando las columnas numéricas del DataFrame usando el método `select_dtypes` junto al parámetro `include=np.number`:

In [None]:
# Tabla conteniendo solo las columnas numéricas
tabla = rocas.select_dtypes(include=np.number).copy()
tabla.head()

Para crear nuevas columnas con las medidas de tendencia central y dispersión mencionadas anteriormente, debemos pasar una lista conteniendo las funciones a utilizar.

In [None]:
# Función breve para calcular el coeficiente de variación
def cv(datos): return datos.std() / datos.mean()

# Función breve para calcular el rango
def rango(datos): return datos.max() - datos.min()

# Lista de funciones
funciones = [np.mean, np.max, np.min, np.var, np.std, cv, rango]

Ahora, aplicamos el método `agg` pasando dicha lista de funciones: 

In [None]:
# Tabla resumen
tabla_resumen = tabla.agg(funciones)
tabla_resumen

Notamos que la tabla resultante tiene por columnas a los valores geoquímicos y por filas a las medidas estadísticas.\
Podemos alternar este orden usando el atributo `T`:

In [None]:
# Tabla resumen
tabla_resumen = tabla_resumen.T
tabla_resumen

Por último, renombraremos las columnas de las medidas estadísticas:

In [None]:
nombres = ["Media", "Máximo", "Mínimo", "Varianza", "Desv. Estándar", "Coef. de variación", "Rango"]

# Renombramos las columnas
tabla_resumen.rename(columns=dict(zip(list(tabla_resumen.columns), nombres)), inplace=True)
tabla_resumen

De la tabla de resumen notamos lo siguiente:
- Existen valores altos de SiO2 cercanos al 85% y valores bajos cercanos a 25%. Geoquímicamente, esto significa que las muestras provienen de 2 o más litologías diferentes. Esto es fácilmente verificable con la columna de `Nombre`, que contiene 3 diferentes tipos de roca. 
- El coeficiente de variación tiene valores significativos (mayores a 0.5) en las columnas de CaO, MgO, Na2O, K2O, MnO, TiO2.
- La columna de MgO presenta la mayor variabilidad entre todas las demás columnas.

Para poder entender mejor los datos, debemos generar gráficos estadísticos para cada columna con la finalidad de determinar si existen 2 o más poblaciones diferentes en cada una de los variables geoquímicas.

In [None]:
import matplotlib.pyplot as plt

Empezaremos generando un <span style="color:gold">histograma</span> para la columna de SiO2.

<span style="color:#43c6ac">Un histograma es un tipo de gráfico que se utiliza en estadística para representar la distribución de frecuencias de un conjunto de datos numéricos.</span> \
El eje horizontal del histograma representa los valores de los datos y se divide en intervalos o "bins" (contenedores).\
El eje vertical representa la frecuencia o el número de observaciones que caen dentro de cada intervalo.

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Histograma
ax.hist(rocas["SiO2"], bins=100, edgecolor="black")

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Notamos una distribución irregular en los valores de SiO2, con al menos 3 modas en 45%, 54% y 58% aproximadamente.

Podemos separar los valores de SiO2 de acuerdo al tipo de roca, y así obtener una mejor representación de los datos.\
Empezaremos visualizando un <span style="color:gold">diagrama de barras</span> con la cantidad de muestras por tipo de roca.

<span style="color:#43c6ac">Un diagrama de barras es un tipo de gráfico que se utiliza para representar datos discretos o categóricos.</span>\
En un diagrama de barras, se dibujan barras rectangulares de altura proporcional a la frecuencia o el valor de cada categoría.\
Las barras se colocan horizontal o verticalmente y están separadas entre sí por espacios iguales.


In [None]:
# Información de entrada para la figura
value_counts = rocas["Nombre"].value_counts()
x, height = value_counts.index, value_counts.values

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(6, 5))

# Diagrama de barras
barra = ax.bar(x, height, color=["green", "blue", "red"])

# Etiquetas
ax.set_title("Tipo de Roca", fontsize=18)

# Eliminar el cuadro externo
for spine in ax.spines:
    ax.spines[spine].set_visible(False)
ax.set_yticklabels([])
ax.tick_params(bottom=False, left=False)

# Frecuencia encima de cada barra
for bar in barra:
    ax.text(bar.get_x() + bar.get_width() / 2,
            bar.get_height() + 100,
            int(bar.get_height()), ha="center", fontsize=12)

plt.show()

Tenemos alrededor de 6000 muestras de andesita, cerca de 3000 muestras de granodiorita, y 1571 de peridotita.

Ahora, crearemos un histograma por cada tipo de roca, y lo colocaremos dentro de una misma figura:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(13, 4))

# Histograma
for tipo, color in zip(rocas["Nombre"].unique(), ["green", "blue", "red"]):
    df = rocas[rocas["Nombre"] == tipo]
    ax.hist(df["SiO2"], bins=100, edgecolor="black", color=color, alpha=0.6, label=tipo)

# Etiquetas
ax.set_xlabel("%", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)
ax.set_title("Histograma de SiO2", fontsize=18)

# Leyenda
ax.legend(fontsize=15)

# Grilla
ax.grid(c="black", alpha=0.5, lw=0.5)

plt.show()

Diferenciando el histograma por tipo de roca, notamos claramente las diferentes distribuciones de valores de SiO2 para la peridotita, granodiorita y andesita.

La distribución de la andesita parece presentar 2 modas y puede diferenciarse aún más, pero este trabajo se realizará en otro notebook del proyecto.

Ahora, crearemos otro histograma para los valores de Al2O3 y teniendo en cuenta las diferentes litologías.\
Para esto, crearemos una función llamada `histograma` que genera la figura:
> Pasaremos un argumento `col` que representa el nombre de la columna en string.

In [None]:
def histograma(col):
    # Figura principal
    fig, ax = plt.subplots(figsize=(13, 4))

    # Histograma
    for tipo, color in zip(rocas["Nombre"].unique(), ["green", "blue", "red"]):
        df = rocas[rocas["Nombre"] == tipo]
        ax.hist(df[col], bins=100, edgecolor="black", color=color, alpha=0.5, label=tipo)

    # Etiquetas
    ax.set_xlabel("%", fontsize=15)
    ax.set_ylabel("Frecuencia", fontsize=15)
    ax.set_title(f"Histograma de {col}", fontsize=18)

    # Leyenda
    ax.legend(fontsize=15)

    # Grilla
    ax.grid(c="black", alpha=0.5, lw=0.5)

    plt.show()

Y ejecutamos la función para la columna de Al2O3:

In [None]:
histograma("Al2O3")

Los valores de Al2O3 para la andesita y granodiorita son similares (12 a 22%) en comparación con la peridotita (0 a 5%)

Ahora, debemos buscar una forma de automatizar la visualización de cada columna.
***

<a id="parte-5"></a>

### <span style="color:lightgreen">**Automatización del análisis descriptivo**</span>
***

Para acelerar el análisis descriptivo, podemos crear widgets de Jupyter para automatizar la visualización de histogramas.

Usaremos la función `interact` para agregar interactividad a la función `histograma` creada anteriormente:

In [None]:
import ipywidgets as widgets

In [None]:
widgets.interact(histograma, col=list(tabla.columns));

Podemos mejorar la visualización del histograma cambiando las distribuciones de frecuencias por <span style="color:gold">distribuciones de densidad de probabilidad</span>.\

> Nota: las distribuciones de probabilidad serán explicadas en el siguiente notebook.

Volveremos a crear la función `histograma`, pero esta vez implementaremos dicha variante del histograma.\
También agregaremos una línea vertical que representará la media de cada distribución.

In [None]:
import seaborn as sns

In [None]:
def histograma(col):
    # Figura principal
    fig, ax = plt.subplots(figsize=(13, 4))

    # Histograma
    for tipo, color in zip(rocas["Nombre"].unique(), ["green", "blue", "red"]):
        df = rocas[rocas["Nombre"] == tipo]
        sns.kdeplot(ax=ax, data=df, x=col, color=color, shade=True, alpha=0.4,
                    cut=0, label=tipo, legend=True)
        ax.axvline(np.mean(df[col]), c=color, lw=1.5)

    # Etiquetas
    ax.set_xlabel("%", fontsize=15)
    ax.set_ylabel("Densidad", fontsize=15)
    ax.set_title(f"Distribuciones de densidad de {col}", fontsize=18)

    # Leyenda
    ax.legend(fontsize=15)

    # Grilla
    ax.grid(c="black", alpha=0.5, lw=0.5)

    plt.show()

In [None]:
widgets.interact(histograma, col=list(tabla.columns));

Observando las distribuciones de densidad notamos lo siguiente:
- `SiO2`: los valores más bajos (30 a 50%) corresponden a peridotitas, seguido por granodioritas (50 a 65%) y andesitas (55 a 78%).\
<span style="color:#43c6ac">Esto se debe a que las peridotitas son rocas ultramáficas (bajo contenido de silice), mientras que la andesitas y granodioritas son rocas intermedias a félsicas (contenido de silice moderado a alto).</span>
- `Al2O3`: los valores para la granodiorita y andesita son similares (entre 12 y 22%), mientras que para la peridotita los valores son bajos (entre 0 y 9%).
- `FeOT`: los valores son más altos para la peridotita (4 a 18%), seguido por la andesita (3 a 12%) y la granodiorita (0 a 10%).
- `CaO`: los valores son más altos para la andesita (0 a 12%), seguido por la granodiorita (0 a 7%) y la peridotita (0 a 6%).
- `MgO`: los valores para la peridodita son muy altos (entre 20 y 52%), mientras que los valores son bajos para la andesita (0 a 10%) y la granodiorita (0 a 5%).
- `Na2O`: los valores para la peridotita son muy bajos (0 a 3%), mientras que los valores son altos para la granodiorita y la andesita (1 a 6%).
- `K2O`: los valores para la granodiorita son los más altos (0 a 6%), seguido por la andesita (0 a 4%) y para el caso de la peridotita (0 a 1%), los valores son los más bajos y presentan una menor variabilidad.
- `MnO`: los valores para la peridotita, andesita y granodiorita son similares (menores a 1%).
- `TiO2`: los valores son más altos para andesita (0 a 2%), seguido por la granodiorita (0 a 1%) y la peridotita (menos de 1%).
***

<a id="parte-6"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

<span style="color:#43c6ac">*El análisis descriptivo es una herramienta importante en la geología para resumir, describir y analizar los datos geológicos.*</span>\
*Ayuda a comprender y caracterizar los datos geológicos de una manera significativa y fácil de entender.\
Se utiliza para resumir y describir los datos en términos de medidas de tendencia central, como la media, y medidas de dispersión, como la desviación estándar o el coeficiente de variación.*

<span style="color:#43c6ac">*La visualización de datos es una técnica importante en el análisis descriptivo en geología.*</span>\
*Los geólogos pueden utilizar gráficos como histogramas, diagramas de barras o de cajas, gráficos de dispersión y mapas para representar visualmente los datos geológicos.*

***