# Semana 11: An√°lisis estad√≠stico de datos

## üîé Prueba de Hip√≥tesis
La prueba de hip√≥tesis es una t√©cnica estad√≠stica que nos permite tomar decisiones sobre una poblaci√≥n a partir de los datos obtenidos en una muestra. A trav√©s de este proceso, contrastamos una afirmaci√≥n (hip√≥tesis nula) con una alternativa (hip√≥tesis alternativa) usando evidencia estad√≠stica.

### üìå ¬øC√≥mo funciona?
1. **Formular las hip√≥tesis:**
   - Hip√≥tesis nula: No hay efecto o diferencia (por ejemplo, "el promedio de estatura es 170 cm").
   - Hip√≥tesis alternativa: Existe un efecto o diferencia (por ejemplo, "el promedio de estatura es distinto de 170 cm").
2. **Elgir un nivel de significacia a**
3. **Calcular una prueba estadistica**
4. **Obtener un valor P**
5. **Tomar una decisi√≥n:**
   - Si $P < a$ rechazamos la hip√≥tesis nula.
   - Si $P \geq a$ no rechazamos la hip√≥tesis nula.

In [1]:
import numpy as np
from scipy.stats import ttest_1samp

# Simulamos una muestra de estaturas (cm)
np.random.seed(0)
muestra_estaturas = np.random.normal(loc=172, scale=5, size=30)

# Prueba de hip√≥tesis
estadistico, p_valor = ttest_1samp(muestra_estaturas, popmean=170)

print(f"Estad√≠stico t: {estadistico:.2f}")
print(f"Valor p: {p_valor:.4f}")


Estad√≠stico t: 4.20
Valor p: 0.0002


## üéØ Muestras aleatorias y medias muestrales
Obtener una muestra aleatoria de una poblaci√≥n y calcular su media es una pr√°ctica com√∫n en estad√≠stica para inferir propiedades poblacionales.

In [2]:
import numpy as np

poblacion = np.random.normal(loc=170, scale=10, size=10000)  # Altura promedio = 170 cm
muestra = np.random.choice(poblacion, size=100)

media_muestral = np.mean(muestra)
print(f"Media muestral: {media_muestral:.2f}")


Media muestral: 170.16


## ‚öóÔ∏è Formular hip√≥tesis de dos colas
Ning√∫n dato obtenido experimentalmente confirmar√° ninguna hip√≥tesis. Esta es nuestra limitaci√≥n fundamental. Los datos solo pueden contradecir la hip√≥tesis o, por el contrario, mostrar que los resultados son extremadamente improbables (suponiendo que la hip√≥tesis sea verdadera).

Una hip√≥tesis estad√≠stica dice algo sobre un par√°metro de distribuci√≥n. Las hip√≥tesis t√≠picas en este curso ser√°n sobre las medias de las poblaciones estad√≠sticas y se ver√°n as√≠:
- La media de una poblaci√≥n es igual a un valor determinado.
- Las medias de dos poblaciones soniguales entre s√≠.
- La media de una poblaci√≥n es mayor que (o menor que) un cierto valor.
- La media de una poblaci√≥n es mayor que (o menor que) la media de otra poblaci√≥n estad√≠stica.

**Ejemplo:**
Queremos probar si el promedio de propinas en un restaurante es diferente a $3.

- Hipotesis nula: la media poblacional es 3.
- Hipotesis alternativa: la media poblacional es diferente de 3.

In [3]:
from scipy import stats
import seaborn as sns

tips = sns.load_dataset("tips")
estadistico, p_valor = stats.ttest_1samp(tips['tip'], popmean=3)

print(f"Estad√≠stico t: {estadistico:.2f}")
print(f"Valor p: {p_valor:.4f}")

Estad√≠stico t: -0.02
Valor p: 0.9845


## üß™ Formular hip√≥tesis de una cola
¬øCu√°les son las hip√≥tesis t√≠picas que probamos?

- La media de una poblaci√≥n estad√≠stica es igual a un valor determinado.
- Las medias de dos poblaciones estad√≠sticas son iguales entre s√≠.
- La media de una poblaci√≥n estad√≠stica es mayor (o menor) que un valor determinado.
- La media de una poblaci√≥n estad√≠stica es mayor que (o menor que) la media de otra poblaci√≥n estad√≠stica.

**Ejemplo:** ¬øLa propina promedio es mayor que $2.5?

- Hipotesis nula: Œº ‚â§ 2.5
- Hipotesis alterntativa: Œº > 2.5

In [4]:
estadistico, p_valor = stats.ttest_1samp(tips['tip'], popmean=2.5)
p_valor_una_cola = p_valor / 2

print(f"Valor p una cola: {p_valor_una_cola:.4f}")

Valor p una cola: 0.0000


## üë• Hip√≥tesis sobre la igualdad de las medias de dos poblaciones
A veces necesitas comparar las medias de dos poblaciones estad√≠sticas diferentes.

Si quieres saber si el gasto promedio var√≠a para los clientes que vienen de diferentes canales, no es suficiente con simplemente comparar los n√∫meros para un per√≠odo determinado. Hasta que realices la prueba correcta no puedes decir que la diferencia entre las medias es aleatoria y tampoco puedes decir que la diferencia es lo suficientemente grande como para afirmar que el gasto entre las dos poblaciones de verdad var√≠a (es decir, que la diferencia es significativa).

**Ejemplo:** Comparar la propina promedio entre hombres y mujeres.

In [5]:
tips_hombres = tips[tips['sex'] == 'Male']['tip']
tips_mujeres = tips[tips['sex'] == 'Female']['tip']

estadistico, p_valor = stats.ttest_ind(tips_hombres, tips_mujeres, equal_var=False)

print(f"Valor p: {p_valor:.4f}")

Valor p: 0.1378


## üíªüìñ Pongamos a prueba nuestro conocimiento
En el siguiente [link](https://drive.google.com/drive/folders/1L2LhkXGouM4q856KzG2aNDgBeqkDfE-K?usp=sharing) encontraran la actividad que se realizar√°.