---
title: "Métodos No Paramétricos"
subtitle: "Explorando lo anormal"
author: "Grupo 3: Joaquín Bustamante, Alessandro Braghetto, Ignacio Ibáñez, Vicente Salgado, Cinthya Vergara, Cristóbal Zecchetto"
format: 
  revealjs:
    logo: logo_uai.png
    footer: "Bioestadística - Presentación Grupo 3"
    theme: simple 
    transition: slide
    slide-number: true
    preview-links: auto  
    css: estilo.css
    logo-class: "custom-logo"  # Añade esta
    
---

# Parte 1 - Métodos No Paramétricos {background-color="#3c923c"} 

---




## Introducción a los Métodos No Paramétricos {.medium}

<br>


| Aspecto | Descripción |
|---------|-------------|
| Definición | Test estadísticos sin supuestos de distribución específica |
| Cálculo | Basados en rangos y recuentos |
| Datos | Trabajan con valores ordinales, rangos, nominales |
| **Propiedades**      | - Flexibles: No requieren normalidad ni homocedasticidad <br>- Útiles para datos no normales o con valores atípicos. <br>- Robustez ante outliers. <br>- Permiten análisis de datos ordinales y de rango. <br>- Aplicaciones en estudios pequeños (tamaños de muestra).|

:::{.fragment}
::: {.callout-tip appearance="minimal"}
<span style="display: block; text-align: center;">

### 🔬 Relevancia en bioestadística

- Ofrecen *flexibilidad*, *robustez* y *aplicabilidad* en **datos no ideales**
- Análisis exploratorio de datos biológicos
- Estudios con variabilidad natural alta
- Investigaciones con muestras limitadas
</span>
:::
:::

---

## Recomendaciones de Uso {.medium}

:::: {.columns}
::: {.column width="45%"}
### 🎯 Utilizar cuando 
- Datos no normales
- Outliers significativos
- Escalas ordinales
- Relaciones no lineales
- Muestras pequeñas
:::

::: {.column width="45%"}
### ⚠️ Evitar su Uso
- Datos normalmente distribuidos
- Relaciones claramente lineales
- Muestras grandes y balanceadas
- Diseños anidados
:::
:::

:::{.fragment}
::: {.callout-tip appearance="minimal"}
<span style="display: block; text-align: center;">

### 💡 Ventajas Clave

- 🎯 Sin supuestos distribucionales

- 📊 Aplicables a datos ordinales

- 💪 Robustos ante outliers

- 📈 Útiles en muestras pequeñas

</span>
:::
:::

:::{.notes}
**En bioestadística, ofrecen *flexibilidad*, *robustez* y *aplicabilidad* a una amplia gama de situaciones comunes en la investigación biológica. Su capacidad para manejar *datos no ideales* es de valor entre los investigadores en este campo.**

:::

---

### Resumen 
| Característica                | Descripción                                                            |
|-------------------------------|------------------------------------------------------------------------|
| Definición                    | Métodos estadísticos que no asumen distribuciones específicas de los datos. |
| Supuestos                     | No requieren normalidad ni igualdad de varianzas.                      |
| Robustez                      | Son más robustos frente a outliers y distribuciones sesgadas.          |
| Ejemplos                      | Mann-Whitney U, Wilcoxon, Kruskal-Wallis, Friedman.                   |
| Uso                           | Útiles para datos ordinales o cuando las muestras son pequeñas.        |
| Potencial de poder estadístico | Pueden tener menor poder que los métodos paramétricos cuando se cumplen los supuestos. |

:::{.fragment}

:::{.callout-caution}
### NOTA
Es posible separar los test de acuerdo a la relación entre las *muestras* de acuerdo a si son **Independientes** o **Pareadas**. 
:::
:::

--- 

## Tests de Muestras Independientes {.medium}

<br>

:::{.small-table}

| **Test**                      | **Descripción**                                 | **Uso**                                 | **Tipo de Variables que se Comparan**               |
|-------------------------------|-------------------------------------------------|-----------------------------------------|----------------------------------------------------|
| **Chi-cuadrado**              | Evalúa la asociación entre dos variables categóricas. | Análisis de tablas de contingencia.    | Categórica vs. Categórica                           |
| **Mann-Whitney U**            | Compara dos grupos independientes en una variable continua u ordinal. | Alternativa a la prueba t para dos muestras independientes. | Continua u ordinal vs. Categórica (grupos independientes) |
| **Kruskal-Wallis**            | Compara las medianas de tres o más grupos independientes. | Análisis de preferencias entre grupos independientes. | Continua u ordinal vs. Categórica (tres o más grupos) |
| **Spearman**                  | Mide la correlación entre dos variables sin asumir normalidad. | Análisis de correlación no paramétrica. | Continua u ordinal vs. Continua u ordinal          |

:::

<br>

::: {.callout-note }

### Muestra Independiente: 
Datos de un grupo **NO están relacionados** con los datos de otro grupo. Cada grupo es diferente y las observaciones en un grupo no afectan a las del otro.
:::

---

## Tests de Muestras Pareadas {.medium}

<br>

:::{.small-table}

| **Test**                           | **Descripción**                                                    | **Uso**                                       | **Tipo de Variables que se Comparan**      |
|---------------------------------------|-------------------------------------------------------------------|-----------------------------------------------|---------------------------------------------|
| **Wilcoxon de rango con signo**                        | Compara dos grupos relacionados (antes y después).               | Alternativa a la prueba t para muestras pareadas. | Continua u ordinal vs. Categórica (grupos pareados) |
| **Friedman**                                     | Compara tres o más grupos relacionados.                           | Alternativa a ANOVA de medidas repetidas.    | Continua u ordinal vs. Categórica (grupos pareados) |

:::

<br>

::: {.callout-note}

### Muestras Pareadas 
Los datos se recogen en pares, donde cada observación de un grupo está emparejada con una observación correspondiente en el otro grupo. 

Esto suele ocurrir en estudios donde se mide lo mismo en el mismo sujeto antes y después de un tratamiento, o donde se emparejan sujetos similares en diferentes condiciones. Por ejemplo: 

- Mediciones antes y después

- Estudios de casos y controles

- Diseños de medidas repetidas
:::


# Parte 2 - Caso de Estudio {background-color="#3514c6"} 

---

## Caso: Estudio de Picaflores {.medium}

- Comparamos dos especies de picaflores (A y B)

- Variables de interés:

    - **Frecuencia de Alimentación**: Número de veces que cada especie se alimenta en un periodo determinado (*visita a flores*).

    - **Tipo de Flor Visitada**: Clasificación de las flores que eligen para alimentarse, categorizadas como Tipo A, Tipo B y Tipo C.


<br>

::: {.fragment}  

<div style="border: 2px solid #76b041; padding: 8px; background-color: #f9f9f9; font-size: 1.0em; text-align: center;">
  <strong>OBJETIVO: El objetivo de este estudio es comparar el comportamiento de dos especies de picaflores, Especie A y Especie B, en relación a su frecuencia de alimentación y el tipo de flor que visitan.</strong>
</div>

:::


In [None]:
#| echo: false
#| output: false

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats 
from scipy.stats import mannwhitneyu
from scipy.stats import ttest_ind
from tabulate import tabulate

import seaborn as sns
import matplotlib.pyplot as plt

# Definir una paleta personalizada inspirada en picaflores
hummingbird_palette = ["#76b041",  # Verde esmeralda
                       "#4f83cc",  # Azul iridiscente
                       "#ff6361",  # Rojo rubí
                       "#ffa600",  # Amarillo dorado
                       "#9b59b6"]  # Morado vibrante

# Usar la paleta personalizada en seaborn
sns.set_palette(sns.color_palette(hummingbird_palette))

def generate_hummingbird_data(n_samples, scale_a, scale_b):
    species_a = np.random.exponential(scale=scale_a, size=n_samples)
    species_b = np.random.exponential(scale=scale_b, size=n_samples)
    
    feeding_freq = np.concatenate([species_a, species_b]) + np.random.normal(0.5, 0.2, 2*n_samples)
    feeding_freq = np.round(feeding_freq).astype(int)
    feeding_freq = np.clip(feeding_freq, 1, None)
    
    flower_types = np.random.choice(['Tipo A', 'Tipo B', 'Tipo C'], 2*n_samples)
    
    df = pd.DataFrame({
        'Especie': ['A'] * n_samples + ['B'] * n_samples,
        'Frecuencia_Alimentacion': feeding_freq,
        'Tipo_Flor': flower_types
    })
    
    return df

np.random.seed(42)
df_picaflores = generate_hummingbird_data(100, 1, 3)

In [None]:
#| echo: false
#| output: false

# Generar el resumen
summary = df_picaflores.groupby(['Especie', 'Tipo_Flor']).agg(
    N=('Frecuencia_Alimentacion', 'size'),
    F_A_Media=('Frecuencia_Alimentacion', 'mean'),
    Desviacion_Estandar=('Frecuencia_Alimentacion', 'std')
).reset_index()

# Mostrar el resumen en el formato solicitado
print("| Especie | Tipo de Flor | N  | *F.A.* Media    | Desviación Estándar |")
print("|---------|--------------|----|------------------|----------------------|")
for index, row in summary.iterrows():
    print(f"| {row['Especie']}       | {row['Tipo_Flor']}      | {row['N']}  | {row['F_A_Media']:.1f}              | {row['Desviacion_Estandar']:.1f}                  |")

---

## Distribución de los Datos {.smaller}

::: {.columns}
::: {.column width="50%"}
- La distribución no sigue una distribución normal.
- El Q-Q plot muestra desviaciones de la normalidad.

:::
::: {.column width="50%"}

<div style="border: 2px solid #76b041; padding: 10px; background-color: #f9f9f9; font-size: 1.5em; text-align: center;">
  <strong>¿Qué test podemos usar en este caso?</strong>
</div> 
:::
:::

::: {.columns}
::: {.column width="100%"}

In [None]:
#| echo: false
#| output: true

import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats 

plt.figure(figsize=(10, 3.5))

plt.subplot(1, 2, 1)
sns.histplot(data=df_picaflores, x='Frecuencia_Alimentacion', hue='Especie', kde=True)
plt.title('Distribución de Frecuencia de Alimentación')

plt.subplot(1, 2, 2)
stats.probplot(df_picaflores['Frecuencia_Alimentacion'], plot=plt)
plt.title('Q-Q Plot de Frecuencia de Alimentación')

plt.tight_layout()
plt.show()

:::
:::

--- 

## Mann-Whitney U - Grupos {.smaller}

::: {.columns}
::: {.column width="50%"}
*Test no paramétrico que se utiliza para comparar dos grupos independientes cuando los datos no siguen una distribución normal.*

-   Compara dos grupos independientes
-   No requiere distribución normal
-   Evalúa diferencias en medianas

:::{.callout-tip}
### Uso en el estudio
Comparar frecuencias de alimentación entre especies A y B
:::
::: {.callout-note}
### Hipótesis Nula ($H_0$)
No hay diferencia en la distribución de frecuencias de alimentación entre las dos especies
:::

:::
::: {.column width="50%"}


In [None]:
#| echo: false
#| output: true

from scipy.stats import mannwhitneyu
from scipy import stats

# Filtrar los datos por especie
freq_a = df_picaflores[df_picaflores['Especie'] == 'A']['Frecuencia_Alimentacion']
freq_b = df_picaflores[df_picaflores['Especie'] == 'B']['Frecuencia_Alimentacion']

# Realizar el test de Mann-Whitney U
stat, p_value = stats.mannwhitneyu(freq_a, freq_b)
print(f'Mann-Whitney U Test: U={stat}, p={p_value:.4f}')

# Mostrar resultados
print(f'Estadístico U: {stat}')
print(f'Valor p: {p_value}')

# Graficar boxplot
plt.figure(figsize=(7,5))
sns.boxplot(x='Especie', y='Frecuencia_Alimentacion', data=df_picaflores)
plt.title('Comparación de Grupos A y B')
plt.ylabel('Valores')
plt.xlabel('Grupo')
plt.grid(True)

# Agregar anotación de significancia
alpha = 0.05
if p_value < alpha:
    plt.text(0.5, max(df_picaflores['Frecuencia_Alimentacion']) * 0.9, 'p < 0.05 (significativo)', ha='center', color='tomato')
else:
    plt.text(0.5, max(df_picaflores['Frecuencia_Alimentacion']) * 0.9, 'p >= 0.05 (no significativo)', ha='center', color='blue')

plt.show()

:::
:::


---

## Wilcoxon Signed-Rank - Antes y Después {.smaller}

::: {.columns}
::: {.column width="50%"}
*Test no paramétrico utilizado para comparar dos muestras relacionadas o medidas repetidas en un mismo grupo*

- Las diferencias entre pares son continuas y simétricas

- Los datos son pareados

- No requiere normalidad en los datos

- Escala ordinal o superior

:::{.callout-tip}
### Uso en el estudio
Comparar cambios en preferencias de flores en cada especie
:::
::: {.callout-note}
### Hipótesis Nula ($H_0$)
La mediana de las diferencias entre pares es cero
:::
:::
::: {.column width="50%"}

In [None]:
#| echo: false
#| output: true

# Generar datos de ejemplo
np.random.seed(42)
n_samples = 100

# Generar datos para especie A (antes)
#df_a = generate_hummingbird_data(n_samples, scale_a=1, scale_b=3)
#df_a = df_picaflores
freq_a_antes = df_picaflores[df_picaflores['Especie'] == 'A']['Frecuencia_Alimentacion'].values

# Generar datos para especie A (después)
freq_a_despues = freq_a_antes + np.random.normal(loc=1, scale=0.5, size=n_samples)  # Aumento en frecuencia

# Generar datos para especie B (antes)
#df_b = generate_hummingbird_data(n_samples, scale_a=1.5, scale_b=2)
freq_b_antes = df_picaflores[df_picaflores['Especie'] == 'B']['Frecuencia_Alimentacion'].values

# Generar datos para especie B (después)
freq_b_despues = freq_b_antes + np.random.normal(loc=1, scale=0.5, size=n_samples)  # Aumento en frecuencia

# Crear un DataFrame para facilitar la comparación
df = pd.DataFrame({
    'Antes_A': freq_a_antes,
    'Después_A': freq_a_despues,
    'Antes_B': freq_b_antes,
    'Después_B': freq_b_despues
})

# Realizar el test de Wilcoxon para especie A
stat_a, p_value_a = stats.wilcoxon(freq_a_antes, freq_a_despues)

# Realizar el test de Wilcoxon para especie B
stat_b, p_value_b = stats.wilcoxon(freq_b_antes, freq_b_despues)

# Mostrar resultados
print(f'Especie A - Wilcoxon Test: Estadístico W={stat_a}, p={p_value_a:.4f}')
print(f'Especie B - Wilcoxon Test: Estadístico W={stat_b}, p={p_value_b:.4f}')

# Graficar boxplot para ambas especies
plt.figure(figsize=(7, 5))

# Crear una lista de datos para el boxplot
data_to_plot = [freq_a_antes, freq_a_despues, freq_b_antes, freq_b_despues]
labels = ['Antes A', 'Después A', 'Antes B', 'Después B']

sns.boxplot(data=data_to_plot)
plt.title('Comparación Antes y Después del Tratamiento')
plt.ylabel('Frecuencia de Alimentación')
plt.xlabel('Condición')
plt.xticks(ticks=range(len(labels)), labels=labels)
plt.grid(True)

# Agregar anotación de significancia para especie A
alpha = 0.05
if p_value_a < alpha:
    plt.text(0.5, max(freq_a_despues) * 0.95, 'p < 0.05 \n(significativo)', ha='center', color='tomato')
else:
    plt.text(0.5, max(freq_a_despues) * 0.95, 'p >= 0.05\n (no significativo)', ha='center', color='blue')

# Agregar anotación de significancia para especie B
if p_value_b < alpha:
    plt.text(3, max(freq_b_despues) * 0.95, 'p < 0.05\n (significativo)', ha='center', color='tomato')
else:
    plt.text(3, max(freq_b_despues) * 0.95, 'p >= 0.05\n (no significativo)', ha='center', color='blue')

plt.show()

:::
:::

---

## Friedman Test - Preferencias {.smaller}

::: {.columns}
::: {.column width="50%"}
*Busca comparar 3 o más grupos relacionados cuando los datos no cumplen con los supuestos de normalidad.*

- Datos ordinales o continuos
- Muestras relacionadas o medidas repetidas
- No requiere normalidad
- Bloques completos aleatorios

:::{.callout-tip}
### Uso en el estudio
Medir la frecuencia de alimentación de un grupo de picaflores en diferentes tipos de flores (*las flores son vistitadas por picaflores que se repiten en las visitas*).
:::
::: {.callout-note}
### Hipótesis Nula ($H_0$)
La mediana de las frecuencias de visitas a las diferentes flores es igual para todas las especies de picaflores.
:::
:::
::: {.column width="50%"}

In [None]:
#| echo: false
#| output: true

# Crear una tabla dinámica
pivot_table = df_picaflores.pivot_table(values='Frecuencia_Alimentacion', 
                                         index='Especie', 
                                         columns='Tipo_Flor', 
                                         aggfunc='mean')

# Realizar el Friedman Test
stat, p_value = stats.friedmanchisquare(*[pivot_table[col] for col in pivot_table.columns])

# Mostrar resultados
print(f'Friedman Test: Estadístico = {stat}, p = {p_value:.4f}')

# Graficar el heatmap
plt.figure(figsize=(7, 5))
sns.heatmap(pivot_table, annot=True, cmap='YlGnBu')
plt.title(f'Preferencias de Alimentación por Especie y Tipo de Flor\nFriedman Test: p={p_value:.4f}')
plt.ylabel('Especie')
plt.xlabel('Tipo de Flor')
plt.show()

# Interpretar resultados
if p_value < 0.05:
    print("Hay diferencias significativas entre las preferencias de alimentación por tipo de flor.")
else:
    print("No hay diferencias significativas entre las preferencias de alimentación por tipo de flor.")

:::
:::

---

## Kruskal-Wallis Test -  Grupos Independientes {.smaller}

::: {.columns} 
::: {.column width="60%"}
*Busca determinar si hay diferencias estadísticamente significativas entre 3 o más grupos independientes.*

- Comparar las medianas de 3 o más grupos independientes
- Extensión de Mann-Whitney U
- Es considerado la versión no paramétrica del ANOVA de una vía

:::{.callout-tip}
### Uso en el estudio
Determinar si hay diferencias significativas en la frecuencia de alimentación entre los tipos de flores que visitan los picaflores
:::
::: {.callout-note}
### Hipótesis Nula ($H_0$)
 Las medianas de la frecuencia de alimentación entre los diferentes tipos de flores (Tipo A, Tipo B y Tipo C) son iguales para las especies de picaflores A y B.
:::
:::

::: {.column width="40%"}

In [None]:
# Realizar el test de Kruskal-Wallis
species = df_picaflores['Especie'].unique()
flower_visits = [df_picaflores[df_picaflores['Especie'] == sp]['Frecuencia_Alimentacion'] for sp in species]

h_statistic, p_value = stats.kruskal(*flower_visits)
# Preparar datos para la visualización
flower_counts = df_picaflores.groupby(['Especie', 'Tipo_Flor'])['Frecuencia_Alimentacion'].sum().unstack(fill_value=0)

# Crear figura y ejes
fig, ax = plt.subplots(figsize=(7, 6))

# Graficar en los ejes especificados
flower_counts.plot(kind='barh', width=0.8, ax=ax)

# Personalizar el gráfico
ax.set_title(f'Preferencia de Flores por Especie\nKruskal-Wallis: H={h_statistic:.2f}, p={p_value:.4f}')
ax.set_ylabel('Especie')
ax.set_xlabel('Número de Visitas')
ax.grid(axis='x', linestyle='--', alpha=0.7)  # Agregar grid para mejor legibilidad

# Ajustar leyenda
ax.legend(title='Tipo de Flor', bbox_to_anchor=(0.5, -0.1), loc='upper center', ncol=3)  # Leyenda centrada debajo del gráfico

# Ajustar márgenes
plt.tight_layout()

# Mostrar el gráfico
plt.show()
# Imprimir resultados
#print(f"Estadístico H de Kruskal-Wallis: {h_statistic:.4f}")
#print(f"Valor p: {p_value:.4f}")

if p_value < 0.05:
    print("Hay diferencias significativas entre al menos dos especies.")
else:
    print("No hay evidencia suficiente para concluir que existen diferencias.")

:::
:::

# Parte 3: Ejemplo T-Test vs algunos Test No Paramétricos {background-color="#ff6361"} 

---


## Simulación: Comportamiento Alimenticio de Picaflores {.medium}

::: {.callout-tip}
### 🔍 Objetivo del Simulación:
Analizar uso de pruebas estadísticas en patrones de alimentación en picaflores considerando:

- Dos especies diferentes (A y B)
- Múltiples tipos de flores
- Frecuencia de alimentación como variable respuesta
:::
::: {.callout-note}
### ⚗️ Metodología:

- Tamaño de muestra: n=30 por grupo 
- Mediciones repetidas por especie y tipo de flor
- Registro de frecuencias de alimentación
:::

::: {.callout-important}
### 📝 Diferentes Aspectos de los Datos:
- T-test/Mann-Whitney: Comparación entre especies
- Friedman/Kruskal-Wallis: Comparación entre tipos de flores
:::

--- 

## Análisis Comparativo de Métodos Estadísticos {.smaller}

:::: {.columns}
::: {.column width="50%"}
**🧪 Pruebas Realizadas:**

1. **Comparación Entre Especies:**
   - T-test (paramétrico)
   - Mann-Whitney U (no paramétrico)

2. **Comparación Entre Tipos de Flores:**
   - Friedman (no paramétrico)
   - Kruskal-Wallis (no paramétrico)

:::

::: {.column width="50%"}
**📈 Resultados:**

- T-test: Infiere significancia a pesar de la falta de normalidad, lo que puede ser engañoso.
- Mann-Whitney U, Friedman, y Kruskal-Wallis: Son más apropiados y confiables en este contexto.

In [None]:
#| echo: false
#| output: false

import pandas as pd
from scipy import stats
import numpy as np
from statsmodels.stats.power import TTestIndPower, FTestAnovaPower
from tabulate import tabulate

# Simulaciones
np.random.seed(42)
n_samples = 30

# Asegurarnos de que hay datos repetidos por especie y tipo de flor
df_picaflores_extra = pd.concat([df_picaflores] * 3, ignore_index=True)

# Filtrar el DataFrame para asegurarnos de que tenemos un número igual de observaciones
df_grouped = df_picaflores_extra.groupby('Tipo_Flor')

# Asegurarse de que cada tipo de flor tenga la misma cantidad de datos
min_size = df_grouped.size().min()  # Encuentra el tamaño mínimo de los grupos
data = [group['Frecuencia_Alimentacion'].sample(min_size).values for name, group in df_grouped]

# Test de Friedman (no paramétrico)
f_stat, f_p_value = stats.friedmanchisquare(*data)

# T-test (paramétrico) y Mann-Whitney U test (no paramétrico)
species_a = df_picaflores_extra[df_picaflores_extra['Especie'] == 'A']['Frecuencia_Alimentacion'].sample(min_size).values
species_b = df_picaflores_extra[df_picaflores_extra['Especie'] == 'B']['Frecuencia_Alimentacion'].sample(min_size).values
t_stat, t_p_value = stats.ttest_ind(species_a, species_b)
u_stat, u_p_value = stats.mannwhitneyu(species_a, species_b)

# Kruskal-Wallis H-test (no paramétrico)
h_stat, h_p_value = stats.kruskal(*data)

# Calcular el poder
power_t = TTestIndPower().power(effect_size=0.5, nobs1=n_samples, alpha=0.05)  # Ejemplo de efecto de tamaño 0.5

# Crear tabla de resultados
results = [
    ["T-test", "Paramétrico", f"{t_stat:.4f}", f"{t_p_value:.4f}", f"{power_t:.4f}"],
    ["Mann-Whitney U", "No Paramétrico", f"{u_stat:.4f}", f"{u_p_value:.4f}", "N/A"],
    ["Friedman", "No Paramétrico", f"{f_stat:.4f}", f"{f_p_value:.4f}", "N/A"],
    ["Kruskal-Wallis H", "No Paramétrico", f"{h_stat:.4f}", f"{h_p_value:.4f}", "N/A"]
]

# Mostrar tabla
print(tabulate(results, headers=["Test", "Tipo", "Estadístico", "p-valor", "Poder"], tablefmt="pipe"))

:::
:::


| Test             | Tipo           |   Estadístico |   p-valor | Poder   |
|:-----------------|:---------------|--------------:|----------:|:--------|
| T-test           | Paramétrico    |       -9.6187 |    0      | 0.4779  |
| Mann-Whitney U   | No Paramétrico |     7769.5    |    0      | N/A     |
| Friedman         | No Paramétrico |        0.2466 |    0.884  | N/A     |
| Kruskal-Wallis H | No Paramétrico |        0.6086 |    0.7376 | N/A     |


---

## Conclusiones {.smaller}

::: {.columns}
::: {.column width="50%"}

-  **Verificación de supuestos**: Fundamental revisar normalidad antes de aplicar tests. 

- **Diseño experimental**: Es crucial para evitar problemas como pseudoreplicación. 

- **Métodos no paramétricos**: Más robustos ante violaciones de normalidad. 

- **Limitaciones**: No son soluciones universales. 

- **Precaución en la interpretación**: Cuidado al aplicar métodos paramétricos en datos no normales. 
:::
::: {.column width="50%"}

- **Estructura de datos**: Respetar jerarquías y repeticiones en el análisis. 

- **Complementariedad de métodos**: Usar ambos enfoques para una visión más completa. 

- **Métodos avanzados**: Considerar modelos mixtos o técnicas de remuestreo en diseños complejos. 

- **Tamaño de muestra**: Métodos paramétricos son más robustos con muestras grandes, pero los no paramétricos siguen siendo seguros. 

:::
:::

:::{.fragment}
::: {.callout-tip appearance="simple"}
### 🎓 Consejo Final
La elección entre pruebas paramétricas y no paramétricas debe basarse en:

- 📊 Naturaleza de los datos
- 💡Objetivos del estudio
- 🎯Requerimientos de precisión
:::
:::

---

## Referencias 

1. ARROYO, Mary TK, et al. Extreme drought affects visitation and seed set in a plant species in the central Chilean Andes heavily dependent on hummingbird pollination. Plants, 2020, vol. 9, no 11, p. 1553.
2. SIEGEL, Sidney. Nonparametric statistics. The American Statistician, 1957, vol. 11, no 3, p. 13-19.
3. Zimmerman, D. W. (1987). Comparative Power of Student T Test and Mann-Whitney U Test for Unequal Sample Sizes and Variances. The Journal of Experimental Education, 55(3), 171–174. https://doi.org/10.1080/00220973.1987.10806451
S

# Gracias por su Atención {background-color="#9b59b6"} 


# Parte 4 (Bonus) - Limitaciones de los Métodos No Paramétricos {background-color="#ff6361"} 

--- 

## Limitaciones de los Métodos No Paramétricos {.smaller}

Aunque los métodos no paramétricos son útiles en muchas situaciones, también tienen limitaciones:

- 🎯 **Poder estadístico variable:** Aunque son robustos con muestras pequeñas, pueden tener menor poder estadístico en muestras grandes en comparación con métodos paramétricos.

- 🧮 **Manejo de estructuras complejas:** Aunque pueden ajustarse a datos con estructuras complejas, su aplicación puede ser limitada en diseños experimentales altamente sofisticados, donde se requieren modelos más específicos.

- 🔢 **Anidamiento:** A pesar de su flexibilidad, el manejo de muestras anidadas puede ser un desafío, especialmente si los datos no están bien estructurados.

- 🔄 **Pseudoreplicación:** La pseudoreplicación puede llevar a interpretaciones erróneas de los resultados, lo que requiere atención en el diseño experimental.

--- 

## Muestras Anidadas y Métodos No Paramétricos {.smaller}

Las muestras anidadas ocurren cuando las observaciones están agrupadas en niveles jerárquicos.

::: {.columns}
::: {.column width="50%"}

```{mermaid}
flowchart LR
    subgraph Bosque2[Bosque 2]
        direction TB;  
        ArbolC[Árbol C] --> Picaflor1[Picaflor 1]
        ArbolC --> Picaflor2[Picaflor 2]
        ArbolD[Árbol D] --> Picaflor3[Picaflor 3]
        ArbolD --> Picaflor4[Picaflor 4]
    end

    subgraph Bosque1[Bosque 1]
        direction TB;  
        ArbolA[Árbol A] --> Picaflor5[Picaflor 5]
        ArbolA --> Picaflor6[Picaflor 6]
        ArbolB[Árbol B] --> Picaflor7[Picaflor 7]
        ArbolB --> Picaflor8[Picaflor 8]
    end

    classDef default fill:#fff,stroke:#333,stroke-width:1px;
    classDef arbol fill:#f0f0f0,stroke:#333,stroke-width:1px;
    classDef picaflor fill:#fff,stroke:#2ecc71,stroke-width:1px,stroke-dasharray: 5 5;
    classDef bosque fill:#fff,stroke:#333,stroke-width:2px;

    class ArbolA,ArbolB,ArbolC,ArbolD arbol;
    class Picaflor1,Picaflor2,Picaflor3,Picaflor4,Picaflor5,Picaflor6,Picaflor7,Picaflor8 picaflor;
    class Bosque1,Bosque2 bosque;

    %% Ajustar espacio entre nodos
    linkStyle default stroke:#333,stroke-width:1px;

```

:::
::: {.column width="50%"}
**Ejemplo**: Medir la frecuencia de alimentación de picaflores en diferentes árboles dentro de distintos bosques

**Problema**: Los métodos no paramétricos tradicionales no manejan fácilmente esta estructura jerárquica.

**Solución**: 

- Usar métodos mixtos no paramétricos (ej. GLMM con distribución no normal)

- Análisis por niveles (ej. Kruskal-Wallis por bosque, luego por árbol)

:::
:::

--- 

## Pseudoreplicación y Métodos No Paramétricos {.smaller}

- Las mediciones de datos no son independientes, pero se tratan como si lo fueran.

- **Ejemplo**: Medir repetidamente la frecuencia de alimentación del mismo picaflor en diferentes momentos del día.

::: {.columns}
::: {.column width="50%"}

In [None]:
#| echo: false
#| output: true

np.random.seed(42)
n_birds = 5
n_measurements = 10

bird_effects = np.random.normal(0, 2, n_birds)
time_effects = np.linspace(-1, 1, n_measurements)

data = []
for bird in range(n_birds):
    for time in range(n_measurements):
        feeding_freq = 10 + bird_effects[bird] + time_effects[time] + np.random.normal(0, 0.5)
        data.append({'Picaflor': f'Picaflor {bird+1}', 'Tiempo': time, 'Frecuencia': feeding_freq})

df_pseudo = pd.DataFrame(data)

plt.figure(figsize=(6, 4))
for bird in df_pseudo['Picaflor'].unique():
    bird_data = df_pseudo[df_pseudo['Picaflor'] == bird]
    plt.plot(bird_data['Tiempo'], bird_data['Frecuencia'], 'o-', label=bird)

plt.xlabel('Tiempo')
plt.ylabel('Frecuencia de Alimentación')
plt.title('Pseudoreplicación: Mediciones Repetidas por Picaflor')
plt.legend()
plt.show()

:::
::: {.column width="50%"}

**Problema**: Los métodos no paramétricos estándar asumen independencia entre observaciones.

    - Inflación del tamaño de muestra aparente

    - Aumento del riesgo de error Tipo I (falsos positivos)

**Soluciones**:

    - Usar métodos que consideren la dependencia (ej. modelos mixtos)

    - Agregar datos por unidad experimental antes del análisis
    
    - Usar métodos de permutación que respeten la estructura de los datos

:::
:::

--- 

## Ejemplo: Manejo de Pseudoreplicación {.smaller}

Comparemos un enfoque *incorrecto* versus un enfoque *correcto*:

::: {.columns}
::: {.column width="50%"}

In [None]:
#| echo: false
#| output: true

# Enfoque incorrecto (ignorando pseudoreplicación)
incorrect_stat, incorrect_p = stats.mannwhitneyu(
    df_pseudo[df_pseudo['Picaflor'].isin(['Picaflor 1', 'Picaflor 2'])]['Frecuencia'],
    df_pseudo[df_pseudo['Picaflor'].isin(['Picaflor 3', 'Picaflor 4', 'Picaflor 5'])]['Frecuencia']
)

# Enfoque correcto (agregando datos por picaflor)
df_aggregated = df_pseudo.groupby('Picaflor')['Frecuencia'].mean().reset_index()
correct_stat, correct_p = stats.mannwhitneyu(
    df_aggregated[df_aggregated['Picaflor'].isin(['Picaflor 1', 'Picaflor 2'])]['Frecuencia'],
    df_aggregated[df_aggregated['Picaflor'].isin(['Picaflor 3', 'Picaflor 4', 'Picaflor 5'])]['Frecuencia']
)

print(f"Enfoque incorrecto p-valor: {incorrect_p:.4f}")
print(f"Enfoque correcto p-valor: {correct_p:.4f}")

plt.figure(figsize=(7, 5))
sns.boxplot(x='Picaflor', y='Frecuencia', data=df_pseudo)
plt.title('Distribución de Frecuencias por Picaflor')
plt.show()

:::
::: {.column width="50%"}

**Incorrecto**: Ignorar la dependencia entre mediciones, lo que lleva a un análisis potencialmente erróneo.

**Correcto**: Agrupar los datos para reflejar la variabilidad entre los picaflores, asegurando que se cumple la independencia de las observaciones.

- El enfoque incorrecto produce un p-valor artificialmente bajo

- El enfoque correcto proporciona un resultado más conservador y preciso

:::
:::
