 # 1. (Pruebas para comparar dos distribuciones)

## Comparación de Distribuciones: Prueba de Hipótesis

En este laboratorio, exploraremos cómo comparar dos distribuciones utilizando pruebas de hipótesis en Python. Examinaremos dos pruebas estadísticas populares: la **prueba de Chi-Cuadrado** y la **prueba de Kolmogorov-Smirnov**. Ambas pruebas son útiles para evaluar si dos conjuntos de datos siguen distribuciones similares. Usaremos las bibliotecas `scipy.stats` y `statsmodels` para realizar estas pruebas en Python.

### 1. Prueba de Chi-Cuadrado

La prueba de Chi-Cuadrado es una prueba no paramétrica que permite evaluar si hay diferencias significativas entre las frecuencias observadas y esperadas en una muestra de datos categóricos. Esta prueba es útil para comparar distribuciones en datos discretos.

#### ¿Cómo Funciona?
La prueba calcula un estadístico `chi^2` que mide la distancia entre las frecuencias observadas y las frecuencias esperadas bajo la hipótesis nula. Si el valor `chi^2` es suficientemente alto, podemos rechazar la hipótesis nula de que las distribuciones son iguales.

#### Aplicación en Python

Para aplicar la prueba de Chi-Cuadrado en Python, utilizamos la función `chi2_contingency` de `scipy.stats`. Este método toma una tabla de contingencia (matriz de frecuencias) como entrada y devuelve el valor `chi^2` y el valor-p asociado, entre otros valores.

In [2]:
import numpy as np
from scipy.stats import chi2_contingency

# Definimos nuestras muestras
observed_data = np.array([[10, 20, 30], [6, 15, 28]])  # Ejemplo de frecuencias observadas

# Realizamos la prueba de Chi-Cuadrado
chi2, p, dof, expected = chi2_contingency(observed_data)

print("Estadístico Chi-Cuadrado:", chi2)
print("p-valor:", p)
print("Grados de libertad:", dof)
print("Frecuencias esperadas:\n", expected)

Estadístico Chi-Cuadrado: 0.6800857042324314
p-valor: 0.7117398225515237
Grados de libertad: 2
Frecuencias esperadas:
 [[ 8.80733945 19.26605505 31.9266055 ]
 [ 7.19266055 15.73394495 26.0733945 ]]


**Interpretación**: Si el valor-p es menor que el nivel de significancia elegido (por ejemplo, 0.05), podemos rechazar la hipótesis nula, indicando que las distribuciones de las muestras son significativamente diferentes.

## 2. Prueba de Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov (KS) es una prueba no paramétrica para comparar dos distribuciones continuas. Es particularmente útil para muestras pequeñas y no requiere que las muestras sigan una distribución específica (es decir, es una prueba de bondad de ajuste general).

### ¿Cómo Funciona?
La prueba de KS calcula la distancia máxima entre las funciones de distribución acumulativa de las dos muestras. Si esta distancia es suficientemente grande, podemos rechazar la hipótesis nula de que ambas muestras provienen de la misma distribución.

### Aplicación en Python

Para realizar la prueba de Kolmogorov-Smirnov en Python, usamos la función `ks_2samp` de `scipy.stats`, que toma dos muestras como argumentos y devuelve el estadístico KS y el valor-p.

In [3]:
from scipy.stats import ks_2samp

# Definimos nuestras muestras
sample1 = np.random.normal(0, 1, 100)
sample2 = np.random.normal(0, 1, 100)

# Realizamos la prueba de Kolmogorov-Smirnov
ks_statistic, p_value = ks_2samp(sample1, sample2)

print("Estadístico KS:", ks_statistic)
print("p-valor:", p_value)

Estadístico KS: 0.15
p-valor: 0.21117008625127576


**Interpretación**: Al igual que con la prueba de Chi-Cuadrado, si el valor-p es menor que el nivel de significancia, podemos rechazar la hipótesis nula y concluir que las distribuciones de las muestras son diferentes.

# Conclusión

Ambas pruebas, Chi-Cuadrado y Kolmogorov-Smirnov, son útiles para comparar distribuciones, aunque aplican a diferentes tipos de datos (categóricos y continuos, respectivamente). En Python, estas pruebas se pueden realizar fácilmente utilizando `scipy.stats`, permitiéndonos evaluar la similitud entre distribuciones en pocos pasos.
