# Pruebas de decisión estadística para el caso de una sola muestra

## Introducción

Las pruebas estadísticas de este tipo generalmente informan si la muestra bajo estudio pertenece a una población determinada o no. En último término, contrastar los valores observados de una sola variable en una muestra en relación a los valores que toma dicha variable en la población. 

## La distribución binomial. La prueba binomial

Existen poblaciones formadas tan sólo por dos categorías ($P$ y $Q$).

La *distribución binomial* es la distribución muestral de las proporciones que se pueden observar en muestras aleatorias extraídas de una población que se caracteriza por estar compuesta por dos categorías de casos. La prueba binomial, al ser una prueba que mide la bondad del ajuste, nos dice si cabe esperar que las proporciones que se observan en una muestra puede pertenecer a una población que tiene un valor específico de $ P $.

$$ p(x) = \binom{N}{x}P^xQ^{n-x} $$
donde:
$$ \binom{N}{x} = \frac{N!}{x!(N-x)!}$$

Por lo que se refiere a la forma de la distribución binomial, esta depende de los valores que tomen $ N $ y $ P $. Cuando $ P = Q = 0.5 $, la distribución será simétrica, y cuando $ N $ tiende al infinito, la distribución binomial tiende a aproximarse a la distribución normal.

In [1]:
# Lanzamos un dado 4 veces y queresmos saber la probabilidad de que en dos lanzamientos salga 5.

N = 4
x = 2
P = 1/6
Q = 5/6

a = (N * 3 * 2 * 1) / ((x * 1) * (N - x))
b = P**2
c = Q**(N-x)
print(a*b*c)

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html#scipy.stats.binom
from scipy.stats import binom
print(binom.pmf(x, N, P))

# distribución acumulada P <=2
binom.cdf(x, N, P)

0.11574074074074076
0.11574074074074078


0.9837962962962963

## La prueba de chi-cuadrado ($\chi^2$) para una sola muestra

La técnica ($\chi^2$) es del tipo de las que miden la bondad del ajuste cuando se dispone del *número observado* de respuestas y el *número esperado* basado en la hipótesis nula. La prueba mide la existencia o no de una diferencia significativa entre ambas frecuencias. Cuanto mayor sea el valor de ($\chi^2$), mayor será la probabilidad de que las frecuencias observadas no provengan de la población en la que se basa la hipotesis nula.

$$ \chi^2 = \displaystyle\sum_{i=1}^{K} \frac{(0_i - E_i)^2}{E_i} $$

Para cada valor de *df* (grados de libertad) existe un valor diferente de chi-cuadrado. El valor de *df* refiere al mínimo de observaciones que pueden variar libremente después de haber establecido determinadas restricciones inherentes a la propia naturaleza de los datos.

Algunos autores señalan el requisito de que cada frecuencia esperada debe ser al menos 5 para poder calcular $ \chi^2 $


In [2]:
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html
from scipy.stats import chi2

# Valor de chi cuadrado para 5 grados de libertad y probabilidad 0.99 (1 - 0.01)
df = 5
print(chi2.ppf(0.01, df))

# Probabilidad para valor de chi cuadrado 55.4 con 5 grados de libertad (función inversa a la anterior)
print(chi2.cdf(55.4, df))

0.5542980767282772
0.9999999998919997


## Distribuciones muestrales de las medias

Al calcular las medias de todas las muestras del mismo tamaño extraídas de una población se obtiene una **distribución muestral** de las medias. La medida del error muestral que indica la magnitud de las desviaciones de los estadísticos de la muestra alrededor de sus respectivos parámetros se denomina **error típico**. Pues bien, el error típico de la media es una medida de la variabilidad de las medias de las muestras, alrededor de la media de la población. Mientras la **desviación típica** mide la variabilidad de los valores alrededor de su media, el error típico de la media mide la variabilidad de las medias muestrales alrededor de la media de la población.

El valor del error típico se puede interpretar de la misma forma que la desviación típica.


In [3]:
# Ejercicio

# Población normal, media: 60.000, sd = 20.000, x = 70.000, alfa = 0.05, n = 300

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html
from scipy.stats import norm

# La región crítica viene determinada por la distribución normal = 1.65
print(abs(norm.ppf(0.05,0,1)))

# Calculamos varianza de la distribución muestral (que no es igual a la de la población que viene dada en el enunciado)

s = 20000 / (300**(1/2))

z = (70000 - 60000) / s

z # Es mucho más grande que el valor crítico. Se rechaza hipótesis nula.


1.6448536269514729


8.660254037844387

No siempre podemos trabajar con la desviación típica de la población (por la sencilla razón de que se desconoce). Una posible solución es sustituir la desviación típica de la población $\sigma$ por la desviación típica de la muestra $s$. En la fórmula de $z$ podemos sustituir el cociente por: $$ \frac{s}{\sqrt{N}} $$
Esta sustitución ofrece resultados razonables cuando el tamaño de la muestra es suficientemente grande. En caso de contar con una muestra pequeña se puede utilizar una prueba estadística alternativa llamada **$ t $ de Student**:
$$ t = \frac{\overline{X} - \mu} {s / \sqrt{N - 1}} $$

Para el caso de $t$, el numerador y el denominador son variables aleatorias porque $s$ es un estadístico en lugar de un parámetro. Cuando $ N $ es suficientemente grande (100 o más), $t$ es aproximadamente igual a $z$, ya que mayor es la aproximación de $s$ a $\sigma$

In [4]:
# Ejercicio

# 20 cursos. Media 65/100. Últimos dos años media 57/100 con sd 10/100.

df = 20 - 1
alfa = 0.05

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
from scipy.stats import t

# ppf(q, df, loc=0, scale=1)
# Percent point function (inverse of cdf — percentiles).

t_critic = t.ppf(alfa, df, loc=0, scale=1) 

## Calculate the t-statistics
t = (57 - 65) / (10 / 19**(1/2))

print(t_critic, t)

# Como el t obtenido es mayor se rechaza hipótesis nula. El nivel académico ha sufrido un descenso significativo.


-1.7291328115213678 -3.487119154832539


## Estimación puntual y por intervalo de parámetros
Con frecuencia hay que estimar parámetros de la población por su relevancia teórica y práctica. Además, a veces la prueba de hipótesis no es posible en la resolución de problemas prácticos, sencillamente porque no es posible especificar el valor hipotético del parámetro.

> La prueba de significación tal como se usa corrientemente en las ciencias de la conducta es inferencia estadística de baja calidad, y que incluso la buena inferencia estadística en la investigación básica es corrientemente sólo una forma conveniente de dejar de lado, en lugar de resolver, el problema de la inferencia científica.
>
>  *The Significance Test Controversy*, Morrison y Denkel, 1970

Tenemos dos tipos básicos de estimación:
- Estimación puntual
- Estimación por intervalo

Una ventaja de la estimación por intervalo es que la amplitud del intervalo indica la bondad de la eficiencia de la estimación. Otra ventaja es que se puede adscribir una probabilidad determinada a la estimación.

### Intervalo de proporciones. Intervalos de confianza

Para realizar una estimación por intervalo de una proporción se necesita conocer la tendencia central, variabilidad y forma de la distribución muestral de las proporciones.

Una vez conocida la proporción (o la media) $p$ de la muestra, podemos estimar la proporción $P$ de la población, dado que aquella es un estimador no *sesgado* de ésta. Se dice que una estimación no está sesgada cuando su distribución muestral es exactamente igual al valor del parámetro que se ha estimado. Esto es, el valor esperado de la estimación a la larga es el propio parámetro.

Cuando se conoce la proporción $P$ de la población, el error típico se calcula: $$ \sigma_p = \sqrt{PQ / N} $$
Cuando no se conoce la proporción $P$: $$ s_p = \sqrt{pq / N} $$
Conocidos pues $p$ y $s_p$, juntos con los correspondientes valores típicos de $z$, se pueden conocer los límites de confianza.
$$ lc = p \pm z(s_p) $$
En un intervalo de confianza se contiene una prueba implícita para cada posible valor del parámetro. La hipótesis alternativa se establece de forma que el valor del parámetro que se desea estimar quede dentro del intervalo de confianza para el nivel de probabilidad elegido.

### Estimación de medias
De igual modo que se ha hecho en el punto anterior, la estimación puntual de medias puede trasnformarse en una estimación por intervalo de tales parámetros. Cuando $N$ es suficientemente grande, la distribución apropiada es la distribución normal:
$$ lc = \overline{X} \pm z(s_\overline{x}) $$
Cuando el tamaño de $N$ es pequeño y se desconoce la desviación típica $\sigma$, la distribución muestral de la media no es normal. En tal caso se sigue la distribución $t$ de Student con $N-1$ grados de libertad:
$$ lc = \overline{X} \pm t(s_\overline{x}) $$

### Determinación del tamaño de la muestra
La fórmula que recoge el cálculo de los límites de confianza para la estimación de un parámetro puede servirnos también para calcular el tamaño de la muestra. Si contamos con:
- el nivel de confianza que queremos utilizar ($z$)
- el grado de exactitud con el que deseamos estimar ($e$)
- una estimación razonable de los valores de los parámetros (conjetura para establecer $\sigma$)

Ya podemos calcular el tamaño:
$$ \overline{X} \pm z \sigma / \sqrt{n} $$
$$ z \sigma / \sqrt{n} = e $$
$$ \sqrt{n} = z \sigma / e $$
$$ n = \sqrt{z \sigma / e} $$



In [6]:
# Ejercicios

# 2.  Jóvenes y población de españa. Nivel de significancia 0,01 (X2 13,277)

import pandas as pd

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html
from scipy.stats import chi2_contingency

data = {'Muy partidario':  [3, 3],
        'Bastante partidario': [10, 10],
        'Poco partidario': [15, 19],
        'Nada partidario': [42, 56],
        'No sabe': [30, 12]
        }

tabla = pd.DataFrame (data)
chi2_contingency(tabla)[1]

# El valor de p es mayor a 0,01. No es significativa la diferencia

0.03742603053512872