# Semana 11: Análisis estadístico de datos

## 🔎 Prueba de Hipótesis
La prueba de hipótesis es una técnica estadística que nos permite tomar decisiones sobre una población a partir de los datos obtenidos en una muestra. A través de este proceso, contrastamos una afirmación (hipótesis nula) con una alternativa (hipótesis alternativa) usando evidencia estadística.

### 📌 ¿Cómo funciona?
1. **Formular las hipótesis:**
   - Hipótesis nula: No hay efecto o diferencia (por ejemplo, "el promedio de estatura es 170 cm").
   - Hipótesis alternativa: Existe un efecto o diferencia (por ejemplo, "el promedio de estatura es distinto de 170 cm").
2. **Elgir un nivel de significacia a**
3. **Calcular una prueba estadistica**
4. **Obtener un valor P**
5. **Tomar una decisión:**
   - Si $P < a$ rechazamos la hipótesis nula.
   - Si $P \geq a$ no rechazamos la hipótesis nula.

In [1]:
import numpy as np
from scipy.stats import ttest_1samp

# Simulamos una muestra de estaturas (cm)
np.random.seed(0)
muestra_estaturas = np.random.normal(loc=172, scale=5, size=30)

# Prueba de hipótesis
estadistico, p_valor = ttest_1samp(muestra_estaturas, popmean=170)

print(f"Estadístico t: {estadistico:.2f}")
print(f"Valor p: {p_valor:.4f}")


Estadístico t: 4.20
Valor p: 0.0002


## 🎯 Muestras aleatorias y medias muestrales
Obtener una muestra aleatoria de una población y calcular su media es una práctica común en estadística para inferir propiedades poblacionales.

In [2]:
import numpy as np

poblacion = np.random.normal(loc=170, scale=10, size=10000)  # Altura promedio = 170 cm
muestra = np.random.choice(poblacion, size=100)

media_muestral = np.mean(muestra)
print(f"Media muestral: {media_muestral:.2f}")


Media muestral: 170.16


## ⚗️ Formular hipótesis de dos colas
Ningún dato obtenido experimentalmente confirmará ninguna hipótesis. Esta es nuestra limitación fundamental. Los datos solo pueden contradecir la hipótesis o, por el contrario, mostrar que los resultados son extremadamente improbables (suponiendo que la hipótesis sea verdadera).

Una hipótesis estadística dice algo sobre un parámetro de distribución. Las hipótesis típicas en este curso serán sobre las medias de las poblaciones estadísticas y se verán así:
- La media de una población es igual a un valor determinado.
- Las medias de dos poblaciones soniguales entre sí.
- La media de una población es mayor que (o menor que) un cierto valor.
- La media de una población es mayor que (o menor que) la media de otra población estadística.

**Ejemplo:**
Queremos probar si el promedio de propinas en un restaurante es diferente a $3.

- Hipotesis nula: la media poblacional es 3.
- Hipotesis alternativa: la media poblacional es diferente de 3.

In [3]:
from scipy import stats
import seaborn as sns

tips = sns.load_dataset("tips")
estadistico, p_valor = stats.ttest_1samp(tips['tip'], popmean=3)

print(f"Estadístico t: {estadistico:.2f}")
print(f"Valor p: {p_valor:.4f}")

Estadístico t: -0.02
Valor p: 0.9845


## 🧪 Formular hipótesis de una cola
¿Cuáles son las hipótesis típicas que probamos?

- La media de una población estadística es igual a un valor determinado.
- Las medias de dos poblaciones estadísticas son iguales entre sí.
- La media de una población estadística es mayor (o menor) que un valor determinado.
- La media de una población estadística es mayor que (o menor que) la media de otra población estadística.

**Ejemplo:** ¿La propina promedio es mayor que $2.5?

- Hipotesis nula: μ ≤ 2.5
- Hipotesis alterntativa: μ > 2.5

In [4]:
estadistico, p_valor = stats.ttest_1samp(tips['tip'], popmean=2.5)
p_valor_una_cola = p_valor / 2

print(f"Valor p una cola: {p_valor_una_cola:.4f}")

Valor p una cola: 0.0000


## 👥 Hipótesis sobre la igualdad de las medias de dos poblaciones
A veces necesitas comparar las medias de dos poblaciones estadísticas diferentes.

Si quieres saber si el gasto promedio varía para los clientes que vienen de diferentes canales, no es suficiente con simplemente comparar los números para un período determinado. Hasta que realices la prueba correcta no puedes decir que la diferencia entre las medias es aleatoria y tampoco puedes decir que la diferencia es lo suficientemente grande como para afirmar que el gasto entre las dos poblaciones de verdad varía (es decir, que la diferencia es significativa).

**Ejemplo:** Comparar la propina promedio entre hombres y mujeres.

In [5]:
tips_hombres = tips[tips['sex'] == 'Male']['tip']
tips_mujeres = tips[tips['sex'] == 'Female']['tip']

estadistico, p_valor = stats.ttest_ind(tips_hombres, tips_mujeres, equal_var=False)

print(f"Valor p: {p_valor:.4f}")

Valor p: 0.1378


## 💻📖 Pongamos a prueba nuestro conocimiento
En el siguiente [link](https://drive.google.com/drive/folders/1L2LhkXGouM4q856KzG2aNDgBeqkDfE-K?usp=sharing) encontraran la actividad que se realizará.