<a href="https://colab.research.google.com/github/JCaballerot/Estadistica_para_la_ciencia_de_datos/blob/main/pruebas_hipotesis/hypotesisTesting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 align="center"><font size="5">PRUEBAS DE HIPÓTESIS</font></h1>


## 1. Pruebas para una media


**Z-test**

Asumiendo que se conoce la varianza de la población, el Z-test es apropiado para grandes muestras (n>30).

**T-test de una muestra**

Es utilizado cuando la desviación estándar de la población es desconocida y el tamaño de la muestra es pequeño. La estadística de prueba T se calcula de manera similar al Z-test, pero usando la desviación estándar de la muestra
𝑠
s en lugar de
𝜎
σ.

---

**Ejercicio: Z-test de una muestra**

Verificar si la media de ventas diarias de una tienda es de 100 unidades.

In [1]:
import numpy as np
from statsmodels.stats.weightstats import ztest

# Datos de muestra
data = np.random.normal(105, 15, 50)  # Datos simulados

In [None]:
# Z-test de una muestra
z_statistic, p_value = ztest(data, value=100)

# Resultados
print("Z-statistic:", z_statistic)
print("P-value:", p_value)


## 2. Pruebas para dos medias


**U de Mann-Whitney**

Este test no paramétrico compara las medianas de dos muestras independientes. Es útil especialmente cuando las distribuciones de las muestras no cumplen con los supuestos de normalidad.

---


**Ejercicio: U de Mann-Whitney**

Comparar los resultados de dos métodos de enseñanza diferentes en cuanto a las calificaciones obtenidas.

In [None]:
import numpy as np
from scipy.stats import mannwhitneyu

# Datos de muestra
group1 = np.random.uniform(50, 90, 30)
group2 = np.random.uniform(55, 95, 30)


In [None]:
# U de Mann-Whitney
u_statistic, p_value = mannwhitneyu(group1, group2)

# Resultados
print("U-statistic:", u_statistic)
print("P-value:", p_value)


## 3.  Pruebas de Distribución


**Test de Kolmogorov-Smirnov (KS):**

Este test compara una muestra contra una distribución de referencia para determinar si ambas distribuciones son diferentes. La estadística de prueba KS mide la distancia máxima entre las funciones de distribución acumulativa de ambas distribuciones.

---

**Ejercicio: Test de Kolmogorov-Smirnov**

Determinar si las calificaciones de una clase siguen una distribución normal.

In [5]:
import numpy as np
from scipy import stats

# Datos de muestra
data1 = np.random.normal(75, 10, 40)  # Simulación con distribución normal


In [None]:
# Test de Kolmogorov-Smirnov
ks_statistic, p_value = stats.kstest(data, 'norm', args=(np.mean(data), np.std(data)))

# Resultados
print("KS-statistic:", ks_statistic)
print("P-value:", p_value)

## 4. Correlaciones

**Correlación de Pearson**

Mide la relación lineal entre dos variables cuantitativas. Es adecuada cuando ambas variables están normalmente distribuidas. El coeficiente de Pearson varía entre -1 y 1, donde 1 indica una correlación positiva perfecta, -1 una correlación negativa perfecta, y 0 ninguna correlación.

**Correlación de Spearman**

Mide la relación monótona entre dos variables, ya sea lineal o no. Es útil cuando las variables no cumplen los supuestos de normalidad requeridos por Pearson. Al igual que Pearson, el coeficiente de Spearman varía entre -1 y 1.

**Ejercicio: Correlación de Pearson**

Determinar la relación entre el tiempo de estudio y las calificaciones obtenidas por los estudiantes.


In [None]:
import numpy as np
from scipy.stats import pearsonr

# Datos de muestra
study_hours = np.random.normal(5, 1.5, 100)  # 100 registros
grades = 10 + (2 * study_hours) + np.random.normal(0, 2, 100)  # Dependencia lineal con ruido


In [None]:
# Correlación de Pearson
correlation, p_value = pearsonr(study_hours, grades)

# Imprimir resultados
print("Coeficiente de correlación de Pearson:", correlation)
print("P-value:", p_value)

**Ejercicio: Correlación de Spearman**

Evaluar la relación entre las horas de ejercicio por semana y la sensación general de bienestar reportada.

In [None]:
import numpy as np
from scipy.stats import spearmanr

# Datos de muestra
exercise_hours = np.random.uniform(0, 10, 100)  # 100 registros
wellbeing_scores = np.sqrt(exercise_hours) * 10 + np.random.normal(0, 5, 100)  # Relación no lineal


In [None]:
# Correlación de Spearman
correlation, p_value = spearmanr(exercise_hours, wellbeing_scores)

# Imprimir resultados
print("Coeficiente de correlación de Spearman:", correlation)
print("P-value:", p_value)


---
## Gracias por completar este laboratorio!!