<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG101 - Fundamentos de Estadística**</span>

Bienvenido al curso!!!

Vamos a revisar las bases de la <span style="color:gold">estadística</span> usando ejemplos en Python. <br>
Es necesario que tengas un conocimiento previo en programación con Python y visualización de datos con Matplotlib.


<span style="color:gold; font-size:20px">**Datasaurus** </span>

***
- [¿Qué es el Datasaurus?](#parte-1)
- [Análisis descriptivo del Datasaurus](#parte-2)
- [Visualización del Datasaurus](#parte-3)
- [En conclusión...](#parte-4)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es el Datasaurus?**</span>
***

<span style="color:gold">Datasaurus</span> es un conjunto de datos sintéticos creado por Alberto Cairo para ilustrar la importancia de visualizar datos antes de analizarlos estadísticamente. 

> El dataset original, conocido como `Datasaurus Dozen`, incluye 13 conjuntos de datos que tienen las mismas estadísticas agregadas, pero diferentes patrones cuando se grafican. El más conocido de estos conjuntos de datos tiene la forma de un dinosaurio, de ahí el nombre `Datasaurus`.

El objetivo principal de este dataset es **destacar que las estadísticas resumen pueden ser engañosas si no se complementan con visualizaciones**. Aunque dos conjuntos de datos puedan compartir las mismas estadísticas, sus distribuciones pueden ser radicalmente diferentes. Por lo tanto, la visualización de datos es una herramienta esencial para identificar patrones, tendencias y anomalías que las estadísticas simples pueden pasar por alto.

La visualización de datos es crucial en el análisis de datos por varias razones:
- <span style="color:lightgreen">**Revelar patrones:** </span> las visualizaciones pueden mostrar patrones que no son evidentes en las estadísticas agregadas.
- <span style="color:lightgreen">**Detectar anomalías:** </span> las anomalías o outliers pueden ser fácilmente identificados a través de gráficos.
- <span style="color:lightgreen">**Comunicar información:** </span> las visualizaciones son una forma efectiva de comunicar hallazgos complejos de manera sencilla y comprensible.
- <span style="color:lightgreen">**Tomar decisiones informadas:** </span> las decisiones basadas en datos visualizados son generalmente más informadas y precisas.

El objetivo de este notebook es proporcionar un análisis descriptivo del dataset Datasaurus utilizando Python. Exploraremos tanto las estadísticas básicas como las visualizaciones para entender mejor los datos y resaltar la importancia de la visualización en el análisis de datos.

***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Análisis descriptivo del Datasaurus**</span>
***

Empezaremos importando las librerías necesarias:

In [None]:
import pandas as pd # Manipulación de datos tabulares
import matplotlib.pyplot as plt # Visualización de datos
import seaborn as sns # Visualización de datos de alta calidad
import ipywidgets as widgets # Interactividad en Jupyter

Empezaremos leyendo el archivo `datasaurus.csv` alojado en la carpeta `files`.
> Almacenaremos el contenido de la tabla en una variable llamada `data`.

In [None]:
data = pd.read_csv("files/datasaurus.csv")

Podemos observar las 5 primeras filas del DataFrame usando el método `head`:

In [None]:
data.head()

Para obtener una visión general de los datos cargados, utilizaremos el método `info`:
> Este método proporciona un resumen conciso del DataFrame, incluyendo el índice, las columnas, los tipos de datos y el uso de memoria.

In [None]:
data.info()

Notamos que la tabla tiene 3 columnas:
- `dataset`: esta es una columna categórica que indica el conjunto de datos al que pertenece cada fila. Cada valor en esta columna representa un nombre específico para un subconjunto del dataset (Ejemplo: `dino`).
- `x`: columna numérica que contiene las coordenadas del eje X. Estas coordenadas representan las posiciones horizontales de los puntos en el gráfico correspondiente a cada fila del dataset.
- `y`: columna numérica que contiene las coordenadas del eje Y. Estas coordenadas representan las posiciones verticales de los puntos en el gráfico correspondiente a cada fila del dataset.



Vamos a mostrar los valores únicos presentes en la columna `dataset`:
> Utilizaremos el método `unique`, el cual devuelve una lista con todos los valores únicos de una columna categórica.

In [None]:
print("dataset - Valores únicos")
print("----------------")
for cat in data["dataset"].unique():
    print(cat)

print("----------------")
# Cantidad de categorías únicas en el dataset
total = len(data["dataset"].unique())
print(f"Total de subconjuntos: {total}")

Existen 13 subconjuntos en la columna de `dataset`.

Ahora, usaremos el método `describe` para obtener un resumen estadístico de las columnas numéricas:

In [None]:
data.describe()

Dado que el dataset se divide en varios subconjuntos, vamos a ejecutar el método `describe` para cada uno de ellos, separando previamente los datos de acuerdo al subconjunto al cual pertenecen (determinado por la columna `dataset`). 

> Para ello, utilizaremos el método `groupby`, que permite agrupar filas en una tabla en base a una columna categórica.

In [None]:
data.groupby("dataset").describe().T

Observamos que la media y la desviación estándar de las columnas `x` e `y` tienen valores similares para cada subconjunto.

Sin embargo, para una comprensión más profunda de los datos, es esencial crear gráficos que permitan visualizar la distribución y los patrones en cada subconjunto.

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Visualización del Datasaurus**</span>
***

Vamos a empezar creando un diagrama de cajas (usando la función de Seaborn llamada `boxplot`) para visualizar la distribución de las variables `x` e `y` en cada subconjunto del dataset. Esto nos permitirá comparar visualmente la forma de la distribución en cada subconjunto de datos.

También agregaremos una dispersión de puntos usando la función `stripplot` de Seaborn.
> Esta función dibuja los puntos a lo largo de una línea en la dirección del eje categórico, lo que puede resultar en una superposición si hay muchos puntos.

In [None]:
# Figura principal
fig, axs = plt.subplots(nrows=2, ncols=1, figsize=(12, 6))

#### Gráficos de la columna "x" ####
# Boxplot
sns.boxplot(data=data, x="dataset", y="x", hue="dataset", width=0.4,
            legend=False, ax=axs[0], showfliers=False)
# Superponer stripplot para mostrar la distribución de los datos
sns.stripplot(data=data, x="dataset", y="x", color="black",
              alpha=0.6, size=2, ax=axs[0])
# Ubicar los ticks del eje X en la parte superior
axs[0].xaxis.set_ticks_position("top")
axs[0].set_ylabel("x", fontsize=16) # Texto

#### Gráficos de la columna "y" ####
# Boxplot
sns.boxplot(data=data, x="dataset", y="y", hue="dataset", width=0.4,
            legend=False, ax=axs[1], showfliers=False)
# Superponer stripplot para mostrar la distribución de los datos
sns.stripplot(data=data, x="dataset", y="y", color="black",
              alpha=0.6, size=2, ax=axs[1])
axs[1].set_ylabel("y", fontsize=16) # Texto

#### Detalles adicionales ####
for ax in axs.flatten():
    # Límites de la figura
    ax.set_ylim(0, 100)
    # Grilla
    ax.grid(lw=0.5, color="black", alpha=0.5)
    ax.set_axisbelow(True)
    ax.set_xlabel("") # Esconder la etiqueta del eje X

# Mostrar la figura
plt.tight_layout()

Notamos que los datos de cada subconjunto se distribuyen de manera diferente. 

Para profundizar en este análisis, también crearemos un diagrama de violín (usando la función de Seaborn llamada `violinplot`) para visualizar la distribución completa de los datos, incluyendo la densidad y la variabilidad de las variables x e y en cada subconjunto:

In [None]:
# Figura principal
fig, axs = plt.subplots(nrows=2, ncols=1, figsize=(12, 6))

#### Gráficos de la columna "x" ####
# Violinplot
sns.violinplot(data=data, x="dataset", y="x", hue="dataset", width=0.4,
               cut=0, legend=False, ax=axs[0])
# Ubicar los ticks del eje X en la parte superior
axs[0].xaxis.set_ticks_position("top")
axs[0].set_ylabel("x", fontsize=16) # Texto

#### Gráficos de la columna "y" ####
# Violinplot
sns.violinplot(data=data, x="dataset", y="y", hue="dataset", width=0.4,
               cut=0, legend=False, ax=axs[1])
axs[1].set_ylabel("y", fontsize=16) # Texto

#### Detalles adicionales ####
for ax in axs.flatten():
    # Límites de la figura
    ax.set_ylim(0, 100)
    # Grilla
    ax.grid(lw=0.5, color="black", alpha=0.5)
    ax.set_axisbelow(True)
    ax.set_xlabel("") # Esconder la etiqueta del eje X

# Mostrar la figura
plt.tight_layout()

Observamos de manera definitiva que la forma de las distribuciones es diferente en cada subconjunto. 

Para obtener una visión más detallada de la relación entre las variables `x` e `y`, vamos a crear gráficos de dispersión. Comenzaremos con el subconjunto `dino`:

In [None]:
# Seleccionamos uno de los datasets
df = data[data["dataset"] == "dino"]

# Figura principal
fig, ax = plt.subplots(figsize=(5, 5), subplot_kw={"aspect":1})

# Gráfico de dispersión
ax.scatter(data=df, x="x", y="y", s=15)

# Límites de la figura
ax.set_xlim(0, 100)
ax.set_ylim(0, 100)

# Grilla
ax.grid(lw=0.5, c="black", alpha=0.6)
ax.set_axisbelow(True)

# Texto
ax.set_title("Dataset - dino")
ax.set_xlabel("x")
ax.set_ylabel("y")

# Mostrar la figura
plt.show()

Una vez creado el código para el gráfico de dispersión, vamos a automatizar la creación de estos gráficos utilizando los widgets de Jupyter.

> Para ello, encapsularemos el código del gráfico en una función llamada `scatter_dataset`, parametrizándola según el subconjunto seleccionado de la columna `dataset`.

In [None]:
# Gráfico de dispersión para un dataset específico
def scatter_dataset(ds):
    # Seleccionamos uno de los datasets
    df = data[data["dataset"] == ds]
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(5, 5), subplot_kw={"aspect":1})
    
    # Gráfico de dispersión
    ax.scatter(data=df, x="x", y="y", s=15)
    
    # Límites de la figura
    ax.set_xlim(0, 100)
    ax.set_ylim(0, 100)
    
    # Grilla
    ax.grid(lw=0.5, c="black", alpha=0.6)
    ax.set_axisbelow(True)
    
    # Texto
    ax.set_title(f"Dataset - {ds}")
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    
    # Mostrar la figura
    plt.show()

El método `interact` nos permite interactuar de manera directa con una función, facilitando la creación de interfaces interactivas en Jupyter Notebook.

In [None]:
widgets.interact(scatter_dataset, ds=list(data["dataset"].unique()));

Para finalizar, crearemos una figura que grafique todos los subconjuntos juntos. Esto nos permitirá comparar visualmente la distribución de los valores de `x` e `y` en cada subconjunto dentro de una misma visualización:

In [None]:
# Figura principal
fig, axs = plt.subplots(nrows=3, ncols=5, figsize=(14, 9), sharex=True, sharey=True)

# Gráficos de dispersión
for i, ds in enumerate(data["dataset"].unique()):
    ax = axs.flatten()[i]
    # Seleccionamos el subconjunto
    df = data[data["dataset"] == ds]
    # Ploteamos los datos
    ax.scatter(data=df, x="x", y="y", s=15)
    # Colocamos un título
    ax.set_title(ds)
    # Colocamos una grilla
    ax.grid(lw=0.5, c="k", alpha=0.5)
    ax.set_axisbelow(True)
    # Límites de la figura
    ax.set_xlim(0, 100)
    ax.set_ylim(0, 100)

# Ocultar los subplots vacíos
for j in range(len(data["dataset"].unique()), len(axs.flatten())):
    fig.delaxes(axs.flatten()[j])

# Título superior
fig.suptitle("Datasaurus - Visualización de los subconjuntos", fontsize=18, y=0.96)

# Mostrar la figura
plt.show()

<a id="parte-3"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

- <span style="color:#43c6ac">**Importancia de la visualización:** </span> <br>
Aunque los conjuntos de datos pueden compartir estadísticas agregadas similares, su representación visual puede ser completamente diferente.

- **Datasaurus como ejemplo:** <br>
El dataset `Datasaurus` demuestra que las visualizaciones pueden revelar patrones, tendencias y anomalías que las estadísticas simples pueden pasar por alto.

- **Herramientas en Python:** <br>
Librerías como `pandas` y `matplotlib` facilitan tanto el análisis descriptivo como la visualización de datos.

- **Eficiencia en el análisis de datos:** <br>
La combinación de análisis estadístico y visualización proporciona una comprensión más completa y precisa de los datos.

---