# 游빍 Distribuci칩n T-Student

Se utiliza principalmente en el campo de la inferencia estad칤stica cuando se trabaja con muestras de datos peque침as y la desviaci칩n est치ndar de la poblaci칩n es desconocida.

### Distribuci칩n t de Student

La **distribuci칩n t de Student** se usa para modelar datos cuando la muestra es peque침a o la varianza poblacional es desconocida. Fue desarrollada por **William Sealy Gosset** bajo el seud칩nimo *Student*.

Es una distribuci칩n **continua y sim칠trica** centrada en cero, similar a la Normal, pero con **colas m치s gruesas**, lo que significa una mayor probabilidad de observar valores extremos.

**F칩rmula de la funci칩n de densidad:**

$$f(t) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi}\, \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu + 1}{2}}$$

donde:
- $t$: valor de la variable aleatoria continua,
- $\nu$ (nu): grados de libertad. Este es su **par치metro 칰nico**, que define la forma de la curva. En la mayor칤a de los casos de muestreo, se calcula como el tama침o de la muestra menos uno ($\nu = n - 1$),
- $\Gamma$: funci칩n gamma (extiende el concepto de factorial para n칰meros reales y no enteros).

---
### Estad칤sticos Asociados

- **Media ($\mu$):** 0 (igual que la Normal Est치ndar).
- **Varianza ($\sigma^2$):** $$\frac{\nu}{\nu - 2}$$, v치lida solo si $\nu > 2$. Esta varianza es mayor que 1, lo que explica las "colas m치s pesadas".

---
### Forma e Interpretaci칩n

- **Forma:** Muy similar a la campana de Gauss (Distribuci칩n Normal Est치ndar $N(0,1)$), sim칠trica respecto a cero.
- **Diferencia clave:** Las "colas m치s pesadas" indican que los valores extremos son m치s probables que en la Normal.
- **Par치metro 칰nico:** A diferencia de la Normal que depende de $\mu$ y $\sigma$, la t de Student se define 칰nicamente por los **grados de libertad ($\nu$)**, que determinan su anchura y forma.

**Forma:** Es muy similar a la Campana de Gauss (Distribuci칩n Normal Est치ndar $N(0, 1)$), ya que tambi칠n es sim칠trica respecto a cero y tiene forma de campana.

**Diferencia Clave ("Colas m치s Pesadas"):** La distribuci칩n $t$-Student tiene "colas m치s gordas" o "m치s pesadas". Esto significa que los valores extremos (raros) son un poco m치s probables en la distribuci칩n $t$ que en la Normal.

**Par치metro 칔nico:** A diferencia de la Normal que usa $\mu$ y $\sigma$, la $t$-Student se define por un 칰nico par치metro que determina su forma: los grados de libertad.

## Usos de la Distribuci칩n

La distribuci칩n $t$ fue desarrollada por William Sealy Gosset ("Student") para corregir los problemas de usar la Normal Est치ndar en las pruebas de calidad de la cerveza con pocas muestras.

> Pruebas fiables con pocas muestras para determinar la calidad de la cerveza en Guinness, como no tenia permiso de publicar sus resultados usaba el seudonimo "Student" (estudiante).

**Prueba $t$ (T-Test)**

Es la base para comparar las medias de dos grupos peque침os de datos (por ejemplo, si un nuevo fertilizante realmente hace que las plantas crezcan m치s alto que el antiguo).

**Intervalos de Confianza**

Se usa para calcular un rango de valores donde es probable que se encuentre la verdadera media de una poblaci칩n, especialmente si la muestra es peque침a y la desviaci칩n est치ndar de la poblaci칩n es desconocida.

**Incertidumbre de la Estimaci칩n**

Es la herramienta correcta cuando no conocemos el verdadero valor de la desviaci칩n est치ndar poblacional ($\sigma$) y tenemos que estimarlo usando la desviaci칩n est치ndar de la muestra ($s$). La distribuci칩n $t$ compensa esta incertidumbre con sus colas m치s anchas.

# 游빍 Ejercicio de ejemplo: Distribuci칩n T-Student

## El Misterio de las Galletas

Escenario: Una famosa marca de galletas, "ChocoChispas," afirma que cada uno de sus paquetes contiene, en promedio, 40 chispas de chocolate. Sin embargo, un grupo de estudiantes de estad칤stica sospecha que la cantidad real es menor. Para investigarlo, compran una muestra de 15 paquetes de galletas y cuentan meticulosamente las chispas en cada uno.

El objetivo es utilizar una prueba t de Student para determinar si la evidencia de la muestra apoya la sospecha de los estudiantes de que el n칰mero promedio de chispas es, en realidad, inferior a 40.

Hip칩tesis:

Hip칩tesis Nula $H_0$: El promedio de chispas de chocolate por paquete es 40. ($\mu$ = 40)
Hip칩tesis Alternativa $H_1$: El promedio de chispas de chocolate por paquete es menor que 40. ($\mu$ < 40)


In [1]:
# Importar las bibliotecas
import numpy as np
from scipy import stats

In [2]:
# Registrar datos

# Datos de la muestra: chispas de chocolate contadas en 15 paquetes
chispas_por_paquete = [38, 35, 42, 39, 37, 41, 36, 38, 34, 39, 43, 37, 36, 38, 39]

# Convertir la lista a un array de Numpy
muestra = np.array(chispas_por_paquete)

# Imprimir datos para revisar
print("Datos de la muestra (chispas por paquete):")
print(muestra)
print(f"N칰mero de paquetes en la muestra (n): {len(muestra)}")

Datos de la muestra (chispas por paquete):
[38 35 42 39 37 41 36 38 34 39 43 37 36 38 39]
N칰mero de paquetes en la muestra (n): 15


In [3]:
# Calcular el promedio (media) y la desviaci칩n est치ndar de la muestra
media_muestral = np.mean(muestra)
desviacion_estandar_muestral = np.std(muestra, ddof=1) # Usamos ddof=1 para la desviaci칩n est치ndar muestral

print(f"Promedio de la muestra (x팫): {media_muestral:.2f}")
print(f"Desviaci칩n Est치ndar de la muestra (s): {desviacion_estandar_muestral:.2f}")


Promedio de la muestra (x팫): 38.13
Desviaci칩n Est치ndar de la muestra (s): 2.50


## Realizar la Prueba t de Student

Usando la funci칩n ttest_1samp de SciPy para comparar el promedio de la muestra con el promedio poblacional que estamos probando (el valor de la hipotesis nula $\mu$ = 40 )

In [4]:
# Valor de la hip칩tesis nula (el promedio que afirma la empresa)
mu_0 = 40

# Nivel de significancia (alfa), com칰nmente 0.05
alfa = 0.05

# Realizar la prueba t de Student para una muestra
t_statistic, p_value = stats.ttest_1samp(
    a=muestra,
    popmean=mu_0,
    alternative='less'  # Hip칩tesis alternativa: la media es MENOR que popmean
)

print(f"Estad칤stico t calculado: {t_statistic:.4f}")
print(f"Valor p (p-value): {p_value:.4f}")

Estad칤stico t calculado: -2.8880
Valor p (p-value): 0.0060


##  Interpretaci칩n de los Resultados y Conclusi칩n

El resultado de la prueba nos da dos valores importantes: el estad칤stico t y el valor p. La regla de decisi칩n es:

Si el valor p es menor o igual que nuestro nivel de significancia (풤), rechazamos la hip칩tesis nula.

Si el valor p es mayor que nuestro nivel de significancia (풤), no tenemos evidencia suficiente para rechazar la hip칩tesis nula.



In [6]:
# Comparar el valor p con el nivel de significancia (alfa)
print(f"Nivel de significancia (풤): {alfa}")
print(f"Valor p calculado: {p_value:.4f}")

if p_value <= alfa:
    print("\nConclusi칩n: 춰Rechazamos la Hip칩tesis Nula!")
    print("La evidencia sugiere que el n칰mero promedio de chispas de chocolate por paquete es significativamente menor que 40.")
else:
    print("\nConclusi칩n: No podemos rechazar la Hip칩tesis Nula.")
    print("No hay evidencia estad칤stica suficiente para afirmar que el promedio de chispas sea menor que 40.")

Nivel de significancia (풤): 0.05
Valor p calculado: 0.0060

Conclusi칩n: 춰Rechazamos la Hip칩tesis Nula!
La evidencia sugiere que el n칰mero promedio de chispas de chocolate por paquete es significativamente menor que 40.
