# Pruebas de decisión estadística para el caso de una sola muestra

## Introducción

Las pruebas estadísticas de este tipo generalmente informan si la muestra bajo estudio pertenece a una población determinada o no. En último término, contrastar los valores observados de una sola variable en una muestra en relación a los valores que toma dicha variable en la población. 

## La distribución binomial. La prueba binomial

Existen poblaciones formadas tan sólo por dos categorías ($P$ y $Q$).

La *distribución binomial* es la distribución muestral de las proporciones que se pueden observar en muestras aleatorias extraídas de una población que se caracteriza por estar compuesta por dos categorías de casos. La prueba binomial, al ser una prueba que mide la bondad del ajuste, nos dice si cabe esperar que las proporciones que se observan en una muestra puede pertenecer a una población que tiene un valor específico de $ P $.

$$ p(x) = \binom{N}{x}P^xQ^{n-x} $$
donde:
$$ \binom{N}{x} = \frac{N!}{x!(N-x)!}$$

Por lo que se refiere a la forma de la distribución binomial, esta depende de los valores que tomen $ N $ y $ P $. Cuando $ P = Q = 0.5 $, la distribución será simétrica, y cuando $ N $ tiende al infinito, la distribución binomial tiende a aproximarse a la distribución normal.

In [2]:
# Lanzamos un dado 4 veces y queresmos saber la probabilidad de que en dos lanzamientos salga 5.

N = 4
x = 2
P = 1/6
Q = 5/6

a = (N * 3 * 2 * 1) / ((x * 1) * (N - x))
b = P**2
c = Q**(N-x)
print(a*b*c)

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html#scipy.stats.binom
from scipy.stats import binom
print(binom.pmf(x, N, P))

# distribución acumulada P <=2
binom.cdf(x, N, P)

0.11574074074074076
0.11574074074074078


0.9837962962962963

## La prueba de chi-cuadrado ($\chi^2$) para una sola muestra

La técnica ($\chi^2$) es del tipo de las que miden la bondad del ajuste cuando se dispone del *número observado* de respuestas y el *número esperado* basado en la hipótesis nula. La prueba mide la existencia o no de una diferencia significativa entre ambas frecuencias. Cuanto mayor sea el valor de ($\chi^2$), mayor será la probabilidad de que las frecuencias observadas no provengan de la población en la que se basa la hipotesis nula.

$$ \chi^2 = \displaystyle\sum_{i=1}^{K} \frac{(0_i - E_i)^2}{E_i} $$

Para cada valor de *df* (grados de libertad) existe un valor diferente de chi-cuadrado. El valor de *df* refiere al mínimo de observaciones que pueden variar libremente después de haber establecido determinadas restricciones inherentes a la propia naturaleza de los datos.

Algunos autores señalan el requisito de que cada frecuencia esperada debe ser al menos 5 para poder calcular $ \chi^2 $


In [29]:
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html
from scipy.stats import chi2

# Valor de chi cuadrado para 5 grados de libertad y probabilidad 0.99 (1 - 0.01)
df = 5
print(chi2.ppf(0.01, df))

# Probabilidad para valor de chi cuadrado 55.4 con 5 grados de libertad (función inversa a la anterior)
print(chi2.cdf(55.4, df))

0.5542980767282772
0.9999999998919997


## Distribuciones muestrales de las medias

Al calcular las medias de todas las muestras del mismo tamaño extraídas de una población se obtiene una **distribución muestral** de las medias. La medida del error muestral que indica la magnitud de las desviaciones de los estadísticos de la muestra alrededor de sus respectivos parámetros se denomina **error típico**. Pues bien, el error típico de la media es una medida de la variabilidad de las medias de las muestras, alrededor de la media de la población. Mientras la **desviación típica** mide la variabilidad de los valores alrededor de su media, el error típico de la media mide la variabilidad de las medias muestrales alrededor de la media de la población.

El valor del error típico se puede interpretar de la misma forma que la desviación típica.


In [34]:
# Ejercicio

# Población normal, media: 60.000, sd = 20.000, x = 70.000, alfa = 0.05, n = 300

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html
from scipy.stats import norm

# La región crítica viene determinada por la distribución normal = 1.65
print(abs(norm.ppf(0.05,0,1)))

# Calculamos varianza de la distribución muestral (que no es igual a la de la población que viene dada en el enunciado)

s = 20000 / (300**(1/2))

z = (70000 - 60000) / s

z # Es mucho más grande que el valor crítico. Se rechaza hipótesis nula.


1.6448536269514729


8.660254037844387

No siempre podemos trabajar con la desviación típica de la población (por la sencilla razón de que se desconoce). Una posible solución es sustituir la desviación típica de la población $\sigma$ por la desviación típica de la muestra $s$. En la fórmula de $z$ podemos sustituir el cociente por: $$ \frac{s}{\sqrt{N}} $$
Esta sustitución ofrece resultados razonables cuando el tamaño de la muestra es suficientemente grande. En caso de contar con una muestra pequeña se puede utilizar una prueba estadística alternativa llamada $ t $ de Student:
$$ t = \frac{\overline{X} - \mu} {s / \sqrt{N - 1}} $$

Para el caso de $t$, el numerador y el denominador son variables aleatorias porque $s$ es un estadístico en lugar de un parámetro. Cuando $ N $ es suficientemente grande (100 o más), $t$ es aproximadamente igual a $z$, ya que mayor es la aproximación de $s$ a $\sigma$

## Estimación puntual y por intervalo de parámetros

### Intervalo de proporciones. Intervalos de confianza

### Estimación de medias

### Determinación del tamaño de la muestra

In [None]:
# Ejercicios