# üß†üìäüß™ Estad√≠stica inferencial: Pruebas de hip√≥tesis

---

## Objetivos acad√©micos

1. **Comprender los fundamentos de la estad√≠stica inferencial** y el papel de las pruebas de hip√≥tesis en la toma de decisiones basadas en datos.

2. **Identificar y formular hip√≥tesis nula y alternativa** en diferentes contextos reales, distinguiendo entre pruebas de una y dos colas, y entre muestras independientes y relacionadas.

3. **Aplicar correctamente pruebas t de Student** (para una muestra, dos muestras independientes y muestras emparejadas) utilizando Python y la librer√≠a `scipy.stats`.

4. **Interpretar el valor-p y el nivel de significancia ($\alpha$)** para tomar decisiones informadas sobre la aceptaci√≥n o rechazo de la hip√≥tesis nula.

5. **Visualizar y analizar la distribuci√≥n muestral y regiones cr√≠ticas** mediante gr√°ficos, para fortalecer la comprensi√≥n conceptual de los procedimientos estad√≠sticos y sus resultados.

---

## Configuraci√≥n

In [None]:
import matplotlib.pyplot as plt
from scipy.stats import ttest_1samp, ttest_rel, ttest_ind,  norm
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
sns.set_style("whitegrid")

In [None]:
def plot_two_tail_test(mu=0, sigma=1, alpha=0.05):
    """
    Grafica una prueba de hip√≥tesis de dos colas para una distribuci√≥n normal.
    
    Par√°metros:
    - mu: media de la distribuci√≥n bajo H‚ÇÄ
    - sigma: desviaci√≥n est√°ndar
    - alpha: nivel de significancia total (√°rea de las dos colas)
    """
    # Valores cr√≠ticos para los extremos
    z_critico = norm.ppf(1 - alpha/2)
    
    # Rango de valores x para graficar
    x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)
    y = norm.pdf(x, mu, sigma)

    # Gr√°fica
    plt.figure(figsize=(10, 6))
    plt.plot(x, y, label='Distribuci√≥n bajo H‚ÇÄ', color='blue')

    # Sombrar colas
    x_izq = np.linspace(mu - 4*sigma, mu - z_critico*sigma, 100)
    x_der = np.linspace(mu + z_critico*sigma, mu + 4*sigma, 100)

    plt.fill_between(x_izq, norm.pdf(x_izq, mu, sigma), color='red', alpha=0.4, label='Œ±/2')
    plt.fill_between(x_der, norm.pdf(x_der, mu, sigma), color='red', alpha=0.4)

    # L√≠neas punteadas en los valores cr√≠ticos
    plt.axvline(mu - z_critico*sigma, color='red', linestyle='--', label='Z cr√≠ticos')
    plt.axvline(mu + z_critico*sigma, color='red', linestyle='--')

    # Anotaciones y formato
    plt.title(f'Prueba de Dos Colas (Œ± = {alpha})')
    plt.xlabel('Valor')
    plt.ylabel('Densidad de probabilidad')
    plt.legend()
    plt.grid(True)
    plt.show()


def plot_one_tail_test(mu=0, sigma=1, alpha=0.05, tail='right'):
    """
    Grafica una prueba de hip√≥tesis de una cola (derecha o izquierda) para una distribuci√≥n normal.
    
    Par√°metros:
    - mu: media bajo H‚ÇÄ
    - sigma: desviaci√≥n est√°ndar
    - alpha: nivel de significancia
    - tail: 'right' para cola superior (mayor que), 'left' para cola inferior (menor que)
    """
    # Valor cr√≠tico z
    if tail == 'right':
        z_critico = norm.ppf(1 - alpha)
    elif tail == 'left':
        z_critico = norm.ppf(alpha)
    else:
        raise ValueError("El par√°metro 'tail' debe ser 'right' o 'left'.")

    # Rango de valores para x
    x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)
    y = norm.pdf(x, mu, sigma)

    # Graficar distribuci√≥n
    plt.figure(figsize=(10, 6))
    plt.plot(x, y, label='Distribuci√≥n bajo H‚ÇÄ', color='blue')

    # Sombrar la cola correspondiente
    if tail == 'right':
        x_col = np.linspace(mu + z_critico*sigma, mu + 4*sigma, 100)
        plt.fill_between(x_col, norm.pdf(x_col, mu, sigma), color='red', alpha=0.4, label='Œ±')
        plt.axvline(mu + z_critico*sigma, color='red', linestyle='--', label='Z cr√≠tico')
    else:  # tail == 'left'
        x_col = np.linspace(mu - 4*sigma, mu + z_critico*sigma, 100)
        plt.fill_between(x_col, norm.pdf(x_col, mu, sigma), where=(x_col < mu + z_critico*sigma),
                         color='red', alpha=0.4, label='Œ±')
        plt.axvline(mu + z_critico*sigma, color='red', linestyle='--', label='Z cr√≠tico')

    # Texto y formato
    cola_txt = 'derecha' if tail == 'right' else 'izquierda'
    plt.title(f'Prueba de Una Cola ({cola_txt}, Œ± = {alpha})')
    plt.xlabel('Valor')
    plt.ylabel('Densidad de probabilidad')
    plt.legend()
    plt.grid(True)
    plt.show()



En estad√≠stica, el **par√°metro poblacional** m√°s com√∫n es la media ($\mu$), que representa el valor promedio de toda una poblaci√≥n. Sin embargo, en la vida real casi nunca podemos conocer el valor exacto de $\mu$ porque ser√≠a necesario medir a **todos** los individuos, lo cual suele ser costoso o imposible üïµÔ∏è‚Äç‚ôÇÔ∏èüîç. Por eso, tomamos una **muestra** y calculamos la media muestral ($\bar{x}$), que es un **estad√≠stico**. Este valor nos sirve como una **estimaci√≥n** de la media real de la poblaci√≥n. As√≠, usamos lo que observamos en la muestra para hacer inferencias sobre el gran universo que no podemos ver completamente üåé‚ú®.


> Un **estad√≠stico** es un valor calculado a partir de una muestra, usado para estimar par√°metros de una poblaci√≥n.



La **distribuci√≥n muestral** es la distribuci√≥n de un estad√≠stico (como la media o la proporci√≥n) calculado a partir de muchas muestras tomadas de la misma poblaci√≥n. Esta idea es fundamental porque nos permite entender c√≥mo var√≠a un estad√≠stico de muestra en muestra, y as√≠ estimar la incertidumbre de nuestras mediciones. Gracias a la distribuci√≥n muestral, podemos hacer **inferencias** sobre los par√°metros poblacionales, es decir, sacar conclusiones sobre toda la poblaci√≥n a partir de los resultados obtenidos en una muestra. Esto es la base de la estad√≠stica inferencial y de las pruebas de hip√≥tesis.

In [None]:
PATH="https://raw.githubusercontent.com/zyntonyson/bootcamp_ds_da/refs/heads/main/datasets/weight-height.csv"
weight_height=pd.read_csv(PATH)

weight_height=weight_height.query("Gender =='Female'")

#Valor 'Poblacional'
weight_height[['Height','Weight']].mean()


In [None]:
# Obtener una muestra de tama√±o n
def get_sample(df, n,col='Weight'):
    sample = df.sample(n=n,)[col]
    return sample.values.tolist(), float(sample.mean())


get_sample(weight_height,20)

¬øQu√© tan diferentes pueden ser los valores de la media $\bar x$ ?, ¬øC√≥mo se distribuyen?

In [None]:
N= 10000   # Cantidad de muestras
n= 25  # Tama√±o de la muestras

samples=[]
for i in range(N):
    _,mean_value=get_sample(weight_height,n)
    samples.append(mean_value)


In [None]:
media = weight_height.Weight.mean()

sns.histplot(samples, kde=True, color='skyblue')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.title(f'Distribuci√≥n de las medias muestrales {N} muestras de tama√±o {n}')
plt.axvline(media, color='red', linestyle='--', label=f'Media = {media:.2f}')
plt.legend()
plt.show()

Las **distribuciones muestrales** nos muestran c√≥mo pueden variar los resultados de una muestra a otra üìä. Gracias a esto, podemos saber si el valor que observamos en nuestra muestra es algo com√∫n o raro dentro de todas las posibilidades. As√≠, cuando hacemos una **prueba de hip√≥tesis** üß™, usamos la distribuci√≥n muestral para decidir si los datos apoyan o no una idea sobre la poblaci√≥n. ¬°Por eso, entender las distribuciones muestrales es clave para tomar decisiones confiables en estad√≠stica! ‚úÖ

## üìä Pruebas de Hip√≥tesis

### üß™ ¬øQu√© es una prueba de hip√≥tesis?
Es un procedimiento que usamos para tomar decisiones sobre una poblaci√≥n, basados en una muestra. Las **pruebas de hip√≥tesis** nos ayudan a tomar decisiones usando datos. Imagina que tienes una idea o suposici√≥n sobre una poblaci√≥n (por ejemplo, que una medicina funciona mejor que otra). Con una muestra, calculas si los resultados que ves son tan extremos que ser√≠a raro que ocurrieran solo por casualidad. Si es as√≠, tienes motivos para dudar de tu suposici√≥n inicial y considerar la alternativa. As√≠, las pruebas de hip√≥tesis son como un filtro que nos dice cu√°ndo los datos son lo suficientemente convincentes para cambiar de opini√≥n. üîçü§î

**Elementos de la prueba de hip√≥tesis**

- **Hip√≥tesis:** Son las afirmaciones que queremos poner a prueba. La hip√≥tesis nula (H‚ÇÄ) suele indicar que no hay efecto o diferencia, mientras que la alternativa (H‚ÇÅ) plantea lo contrario.

- **Estad√≠stico de prueba:** Es el valor calculado a partir de los datos de la muestra que nos ayuda a decidir si aceptamos o rechazamos H‚ÇÄ. 

- **Alfa (Œ±):** Es el nivel de significancia, es decir, la probabilidad m√°xima de cometer un error al rechazar H‚ÇÄ cuando en realidad es cierta. Com√∫nmente se usa Œ± = 0.05.
    > El m√°s com√∫n es **Œ± = 0.05** (es decir, aceptamos un 5% de riesgo de equivocarnos al rechazar H‚ÇÄ).

- **Valor-p:** Es la probabilidad de obtener un resultado igual o m√°s extremo que el observado, suponiendo que H‚ÇÄ es cierta. Nos indica qu√© tan compatibles son los datos con la hip√≥tesis nula.

- **Regla de decisi√≥n:** Es el criterio para tomar una decisi√≥n. Si el valor-p es menor que Œ±, rechazamos H‚ÇÄ; si es mayor o igual, no la rechazamos.
    > - **Si p < Œ±**, rechazamos H‚ÇÄ ‚Üí *hay evidencia suficiente* para preferir H‚ÇÅ.
    > - **Si p ‚â• Œ±**, no rechazamos H‚ÇÄ ‚Üí *no hay evidencia suficiente* para cambiar de idea.

**Ejemplo 1:**  

---

Queremos saber si un nuevo m√©todo de estudio mejora el puntaje promedio de los estudiantes, que hist√≥ricamente es de 70 puntos.
  
  **Datos:**  
  Disponemos de una muestra de calificaciones de estudiantes que usaron el nuevo m√©todo de estudio.
  
  - **Hip√≥tesis nula (H‚ÇÄ):** El promedio con el nuevo m√©todo es igual o menor a 70 ($\mu \leq 70$).
  - **Hip√≥tesis alternativa (H‚ÇÅ):** El promedio con el nuevo m√©todo es mayor a 70 ($\mu > 70$).
  
  - **Nivel de significancia ($\alpha$):** 0.05
  
  - **Regla de decisi√≥n:**  
    - Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que el m√©todo mejora el promedio).
    - Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que mejora).

**Ejemplo 2:**  

---

Una empresa de videojuegos quiere saber si dos versiones de un juego generan diferentes niveles de satisfacci√≥n en los usuarios.

**Datos:**  
Se recolectan las calificaciones de satisfacci√≥n (de 1 a 10) de dos grupos de jugadores: uno que jug√≥ la versi√≥n A y otro la versi√≥n B.

- **Hip√≥tesis nula (H‚ÇÄ):** No hay diferencia en la satisfacci√≥n promedio entre las dos versiones ($\mu_A = \mu_B$).
- **Hip√≥tesis alternativa (H‚ÇÅ):** Hay una diferencia en la satisfacci√≥n promedio entre las dos versiones ($\mu_A \neq \mu_B$).

- **Nivel de significancia ($\alpha$):** 0.05

- **Regla de decisi√≥n:**  
  - Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que las versiones generan distinta satisfacci√≥n).
  - Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que hay diferencia).

---

### üîÑ Pruebas de dos colas (Diferencia)

Un nuevo medicamento podr√≠a afectar la presi√≥n arterial. ¬øAumenta o disminuye? No lo sabemos, solo queremos saber si cambia respecto al valor habitual.

**Datos:**  
Se mide la presi√≥n arterial de un grupo de pacientes despu√©s de tomar el medicamento y se compara con el valor promedio hist√≥rico de 120.

**Hip√≥tesis:**
- **H‚ÇÄ:** Œº = 120  (el medicamento no cambia la presi√≥n arterial)
- **H‚ÇÅ:** Œº ‚â† 120  (el medicamento cambia la presi√≥n arterial, ya sea aument√°ndola o disminuy√©ndola)

**Nivel de significancia ($\alpha$):** 0.05

**Regla de decisi√≥n:**  
- Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que el medicamento cambia la presi√≥n arterial).
- Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que hay un cambio).

In [None]:
plot_two_tail_test(120,10,0.05)

---

### ‚û°Ô∏è Pruebas de una cola (Mayor que o menor que)

Supongamos que una escuela implementa un nuevo curso de matem√°ticas y quiere saber si este curso realmente ayuda a los estudiantes a obtener **mayores calificaciones** que el promedio hist√≥rico, que es de 70 puntos. Para ello, se toma una muestra de calificaciones de estudiantes que participaron en el curso nuevo y se compara con el promedio anterior.

**Ejemplo:**
> ¬øLos estudiantes de un curso nuevo obtienen **mayores calificaciones** que el promedio hist√≥rico?

**Datos:**  
Se toma una muestra de calificaciones de estudiantes que participaron en el curso nuevo y se compara con el promedio hist√≥rico de 70.

**Hip√≥tesis:**
- **H‚ÇÄ:** Œº ‚â§ 70  (el curso no mejora las calificaciones o incluso las empeora)
- **H‚ÇÅ:** Œº > 70  (el curso mejora las calificaciones)

**Nivel de significancia ($\alpha$):** 0.05

**Regla de decisi√≥n:**  
- Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que el curso mejora las calificaciones).
- Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que mejora).

In [None]:
plot_one_tail_test(70,7,0.05,'right')


---

Sup√≥n que un grupo de bi√≥logos marinos est√° monitoreando la poblaci√≥n de una especie de pez en una reserva natural. El promedio hist√≥rico de peces por kil√≥metro cuadrado es de 189. Tras implementar nuevas medidas de conservaci√≥n, quieren saber si la densidad poblacional ha **disminuido** (por ejemplo, debido a factores ambientales adversos).

**Ejemplo:**
> ¬øLa densidad actual de la especie marina es **menor** que el promedio hist√≥rico?

**Datos:**  
Se toma una muestra de densidades (peces/km¬≤) en diferentes zonas de la reserva y se compara con el promedio hist√≥rico de 189.

**Hip√≥tesis:**
- **H‚ÇÄ:** Œº ‚â• 189  (la densidad no ha disminuido o incluso ha aumentado)
- **H‚ÇÅ:** Œº < 189  (la densidad ha disminuido)

**Nivel de significancia ($\alpha$):** 0.05

**Regla de decisi√≥n:**  
- Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que la densidad ha disminuido).
- Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que disminuy√≥).

In [None]:
plot_one_tail_test(189,15,0.05,'left')

---

## Ejemplos resueltos

### Prueba de hip√≥tesis para una muestra

---


Un grupo de bi√≥logos marinos est√° monitoreando la poblaci√≥n de una especie de tortuga en una reserva natural. El promedio hist√≥rico de tortugas por kil√≥metro cuadrado es de 50. Tras un evento ambiental importante, quieren saber si la densidad actual de tortugas **es diferente** al valor hist√≥rico, es decir, si ha cambiado (puede ser mayor o menor). Se realiza un conteo de especies en una muestra de seccione.

**Hip√≥tesis:**
- **H‚ÇÄ:** Œº = 50  (la densidad de tortugas no ha cambiado respecto al promedio hist√≥rico)
- **H‚ÇÅ:** Œº ‚â† 50  (la densidad de tortugas es diferente al promedio hist√≥rico)

**Nivel de significancia ($\alpha$):** 0.05

In [None]:
abundacia = [50, 47, 51, 56, 47, 47, 56, 52, 46, 51, 46, 46, 49, 38, 39, 45, 43, 50, 43, 41, 55, 47, 48, 41, 45]
mu=np.array(abundacia).mean()
std = np.array(abundacia).std()

stat, p = ttest_1samp(abundacia, 50)

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

In [None]:
plot_two_tail_test(mu,std,0.05)

Ahora supongamos que queremos probar con el mismo $\alpha$ que la poblaci√≥n a disminuido

- **H‚ÇÄ (nula):** Œº ‚â• 50  (la densidad de tortugas no ha disminuido o incluso ha aumentado)
- **H‚ÇÅ (alternativa):** Œº < 50  (la densidad de tortugas ha disminuido)

In [None]:
stat, p = ttest_1samp(abundacia, 50, alternative='less')

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p (una cola, Œº < 50): {p:.4f}")

In [None]:
stat, p = ttest_1samp(abundacia, 50)

# Para una cola izquierda (Œº < 50), divide el valor p entre 2 y revisa que el estad√≠stico t sea negativo
if stat < 0:
    p_one_tail = p / 2
else:
    p_one_tail = 1 - (p / 2)

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p (una cola, Œº < 50): {p_one_tail:.4f}")

In [None]:
plot_one_tail_test(mu,std,0.05,'left')

### üìä Comparar medias de dos poblaciones (independientes)


---

Una empresa manufacturera quiere optimizar la calidad de su l√≠nea de producci√≥n. Actualmente trabaja con dos proveedores diferentes de materia prima (Proveedor A y Proveedor B) y desea saber si existe una diferencia significativa en el peso promedio de las piezas producidas con insumos de cada proveedor. Para ello, toma una muestra aleatoria de piezas fabricadas con materia prima de cada proveedor y compara sus medias.

**Hip√≥tesis:**
- **H‚ÇÄ (nula):** Œº‚ÇÅ = Œº‚ÇÇ  (el peso promedio de las piezas es igual para ambos proveedores)
- **H‚ÇÅ (alternativa):** Œº‚ÇÅ ‚â† Œº‚ÇÇ  (el peso promedio de las piezas es diferente entre los proveedores)

**Nivel de significancia ($\alpha$):** 0.01

**Regla de decisi√≥n:**  
- Si el valor-p < 0.01, rechazamos H‚ÇÄ (hay evidencia de que los proveedores producen piezas con diferente peso promedio).
- Si el valor-p ‚â• 0.01, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que hay diferencia).

In [None]:
proveedor_a =[57.49, 64.58, 61.64, 57.35, 62.57, 60.49, 64.84, 56.49, 58.36, 58.04, 52.68, 61.48, 61.31, 60.03, 58.83, 52.92, 57.9, 58.29]
proveedor_b =[55.99, 59.19, 62.02, 69.43, 60.87, 61.29, 59.63, 50.41, 59.87, 60.3, 72.32, 59.04, 61.51, 59.83, 54.16]


alfa= 0.05
stat, p = ttest_ind(proveedor_a, proveedor_b)

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

In [None]:
stat, p = ttest_ind(proveedor_a, proveedor_b,equal_var=False)

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

---

Un equipo de nutri√≥logos est√° evaluando dos planes alimenticios diferentes para deportistas. El objetivo es saber si el **Plan A** genera un mayor consumo cal√≥rico promedio diario que el **Plan B**. Para ello, se selecciona una muestra aleatoria de deportistas que siguen cada plan y se registra su consumo cal√≥rico diario.

**Hip√≥tesis:**
- **H‚ÇÄ (nula):** Œº‚ÇÅ ‚â§ Œº‚ÇÇ  (el consumo cal√≥rico promedio con el Plan A es igual o menor que con el Plan B)
- **H‚ÇÅ (alternativa):** Œº‚ÇÅ > Œº‚ÇÇ  (el consumo cal√≥rico promedio con el Plan A es mayor que con el Plan B)

**Nivel de significancia ($\alpha$):** 0.01

**Regla de decisi√≥n:**  
- Si el valor-p < 0.01, rechazamos H‚ÇÄ (hay evidencia de que el Plan A genera mayor consumo cal√≥rico promedio).
- Si el valor-p ‚â• 0.01, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que el Plan A es superior).

In [None]:
plan_b =[3089, 3126, 3153, 3080, 3125, 3126, 3140, 3089, 3087, 3133, 3127, 3126, 3129, 3103, 3126, 3127, 3102, 3167, 3132, 3090, 3136]
plan_a =[3185, 3212, 3217, 3188, 3214, 3206, 3212, 3228, 3196, 3189, 3187, 3188, 3199, 3205, 3204, 3212, 3200, 3222, 3196, 3241, 3209, 3187, 3184, 3207, 3197]

stat, p = ttest_ind(plan_a, plan_b,equal_var=False,alternative='greater')

print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")



### üîÅ Muestras emparejadas (antes y despu√©s)

---


Un equipo de psic√≥logos desea evaluar si un taller de desarrollo personal tiene efecto en los puntajes de un test de personalidad. Para ello, aplican el test a un grupo de participantes **antes** y **despu√©s** de asistir al taller. Se quiere saber si, en promedio, los puntajes **cambian** tras la intervenci√≥n.

**Hip√≥tesis:**
- **H‚ÇÄ (nula):** Œº_d = 0  (no hay diferencia en el puntaje promedio antes y despu√©s del taller)
- **H‚ÇÅ (alternativa):** Œº_d ‚â† 0  (hay diferencia en el puntaje promedio antes y despu√©s del taller)

donde Œº_d es la media de las diferencias (despu√©s - antes).

**Nivel de significancia ($\alpha$):** 0.20

**Regla de decisi√≥n:**  
- Si el valor-p < 0.10, rechazamos H‚ÇÄ (hay evidencia de que el taller afecta los puntajes).
- Si el valor-p ‚â• 0.10, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que hay un cambio).

In [None]:

previo_taller=[106.4, 104.3, 99.3, 92.4, 86.4, 96.0, 107.7, 101.9, 88.8, 101.6, 103.5, 92.0, 101.4, 100.5, 89.7, 103.2, 105.0, 109.7, 109.5, 87.6]
post_taller =[91.6, 104.6, 104.6, 104.6, 134.7, 105.1, 110.2, 108.6, 105.9, 97.2, 106.8, 93.0, 97.9, 95.6, 100.7, 120.8, 83.2, 106.2, 85.5, 95.8]

stat,p= ttest_rel(post_taller,previo_taller)
print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

---

Un grupo de investigadores quiere evaluar si un nuevo m√©todo de afinaci√≥n reduce la desviaci√≥n en la frecuencia de instrumentos musicales. Para ello, miden la desviaci√≥n de la frecuencia (en Hz) de cada instrumento **antes** y **despu√©s** de aplicar el nuevo m√©todo de afinaci√≥n. Se busca determinar si, en promedio, la desviaci√≥n **disminuye** tras la intervenci√≥n.

**Hip√≥tesis:**
- **H‚ÇÄ (nula):** Œº_d ‚â• 0  (la desviaci√≥n promedio despu√©s de la afinaci√≥n es igual o mayor que antes)
- **H‚ÇÅ (alternativa):** Œº_d < 0  (la desviaci√≥n promedio despu√©s de la afinaci√≥n es menor que antes)

donde Œº_d es la media de las diferencias (despu√©s - antes).

**Nivel de significancia ($\alpha$):** 0.05

**Regla de decisi√≥n:**  
- Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que el m√©todo de afinaci√≥n reduce la desviaci√≥n).
- Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que la desviaci√≥n disminuye).

In [None]:
previo =[364.2, 327.3, 286.2, 299.2, 349.5, 298.7, 332.8, 326.6, 301.5, 402.2, 347.8, 252.1, 331.7, 301.2, 355.7, 296.5, 320.9, 343.2, 356.2, 281.8]
post = [313.0, 307.9, 301.5, 388.6, 339.6, 279.6, 358.0, 401.4, 362.2, 270.3, 307.6, 370.6, 299.5, 341.0, 352.9, 291.6, 322.9, 208.3, 288.1, 315.9]

stat,p= ttest_rel(post,previo, alternative='less')
print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

---

Un grupo de analistas pol√≠ticos quiere saber si, despu√©s de una campa√±a de comunicaci√≥n, la opini√≥n favorable promedio sobre un pol√≠tico ha **aumentado** respecto al valor registrado antes de la campa√±a. Para ello, se encuesta a un grupo de personas **antes** y **despu√©s** de la campa√±a, usando la misma escala de opini√≥n .

**Hip√≥tesis:**
- **H‚ÇÄ (nula):** Œº_d ‚â§ 0  (la opini√≥n favorable promedio despu√©s de la campa√±a es igual o menor que antes)
- **H‚ÇÅ (alternativa):** Œº_d > 0  (la opini√≥n favorable promedio despu√©s de la campa√±a es mayor que antes)

donde Œº_d es la media de las diferencias (despu√©s - antes).

**Nivel de significancia ($\alpha$):** 0.05

**Regla de decisi√≥n:**  
- Si el valor-p < 0.05, rechazamos H‚ÇÄ (hay evidencia de que la campa√±a mejor√≥ la opini√≥n sobre el pol√≠tico).
- Si el valor-p ‚â• 0.05, no rechazamos H‚ÇÄ (no hay evidencia suficiente para afirmar que la opini√≥n mejor√≥).

In [None]:
previo =[42.7, 43.5, 41.5, 42.6, 42.1, 43.5, 41.4, 41.4, 41.6, 40.5, 41.6, 41.5]
post = [42.2, 42.5, 42.1, 44.3, 42.9, 42.4, 43.0, 42.8, 42.7, 43.3, 43.4, 42.5]


stat, p= ttest_rel(post,previo, alternative='greater')
print(f"Estad√≠stico t: {stat:.2f}")
print(f"Valor p: {p:.4f}")

---


## En resumen:

1. **Las pruebas de hip√≥tesis son fundamentales en estad√≠stica inferencial**  
   Permiten tomar decisiones sobre poblaciones a partir de muestras, evaluando si los resultados observados pueden atribuirse al azar o reflejan un efecto real.

2. **Existen diferentes tipos de pruebas seg√∫n el contexto**  
   Se abordan pruebas para una muestra, dos muestras independientes y muestras emparejadas, as√≠ como pruebas de una y dos colas, dependiendo de la pregunta de investigaci√≥n.

3. **La formulaci√≥n de hip√≥tesis nula y alternativa es clave**  
   Cada situaci√≥n requiere definir claramente la hip√≥tesis nula (H‚ÇÄ) y la alternativa (H‚ÇÅ), lo que gu√≠a la interpretaci√≥n de los resultados y la toma de decisiones.

4. **El valor-p y el nivel de significancia ($\alpha$) determinan la decisi√≥n**  
   Se utiliza el valor-p para comparar con $\alpha$ y decidir si se rechaza o no la hip√≥tesis nula, interpretando correctamente el resultado en el contexto del problema.

5. **El uso de Python y visualizaciones facilita el an√°lisis estad√≠stico**  
   El notebook muestra c√≥mo aplicar pruebas t de Student con `scipy.stats` y c√≥mo visualizar distribuciones y regiones cr√≠ticas, ayudando a comprender los conceptos y resultados.

---