# El empleo de las pruebas de decisión estadística en la investigación social. Distribuciones muestrales.

## Introducción
Los métodos de la estadística inferencial nos señalan los procedimientos que hemos de seguir para poder extraer conclusiones válidas y fiables, a partir de la evidencia que suministran las muestras. La lógica de tales procedimientos indica las condiciones bajo las que se han de obtener la evidencia buscada, y las pruebas estadísticas determinan cuál ha de ser el tamaño de las diferencias reales en la población de la que hemos obtenido la muestra.

Dos son los problemas que trata de resolver la estadística inferencial en torno a las pruebas estadísticas:
- Determinar en términos de probabilidad, si las **diferencias observadas entre dos muestras** significan que las **poblaciones** de las que se han obtenido las muestras **son realmente diferentes**.
- Determinar si es probable que un **valor obtenido** a partir de una muestra **pertenece realmente a una población**. 

Estas dos pruebas de comparación sirven de base para desarrollar los fundamentos de las ***pruebas de decisión estadística*** (*test of hypotheses*).

En el desarrollo de las técnicas estadísticas modernas, las primeras que aparecieron fueron aquellas que establecieron un buen número de restricciones sobre la naturaleza de la población de la que se obtenían los valores. Tales técnicas se denominaron: **paramétricas**:
> *Si los supuestos acerca de la forma de la población son ciertos, entonces se puede concluir que...*

Más recientemente se han desarrollado otras técnicas de inferencia que no exigen tantas restricciones. Tales técnicas **aparamétricas**, o de "libre distribución", permiten obtener conclusiones con menos condiciones.
> *Con independencia de la forma de la población, se puede concluir que...*


## El uso de las pruebas de decisión estadística en la investigación
Los procedimientos que se siguen en las pruebas de decisión estadística están completamente estandarizados y son los siguientes:

1. Formulación de las hipótesis estadísticas, esto es, la de la hipótesis nula ($H_0$) y de la hipótesis alternativa ($H_1$).
2. Elección de una prueba estadística (con su modelo estadístico asociado) para contrastar $H_0$.
3. Especificación de un nivel de significación ($\alpha$) y un tamaño de muestra (n).
4. Encontrar (o asumir) la distribución muestral de la prueba estadística en el supuesto de $H_0$.
5. En base a los puntos anteriores, definiciónde la región de rechazo de la hipótesis nula.
6. Cálculo del valor de la prueba estadística, utilizando los datos obtenidos a partir de la muestra. Si dicho valor se encuentra dentro de la región de rechazo, la decisión que se toma es la de rechazar $H_0$; si por el contrario, dicho valor se encuentra fuera de la región de rechazo, la decisión que se toma es que no se puede rechazar $H_0$ al nivel de significación elegido.

### El nivel de significación
De manera esquemática, el procedimiento de selección del nivel de significación ($\alpha$) (y el tamaño de muestra (n)) es como sigue: antes de obtener los datos se especifica el conjunto de todas las muestras posibles que pueden ocurrir cuando la hipótesis nula ($H_0$) es verdadera. A partir de dicho conjunto especificamos un subconjunto de muestras que son tan extremas que, si $H_0$ es verdadera, la probabilidad de que la muestra que observamos se encuentre entre ellas es muy pequeña. Si en la investigación que se lleva a cabo observamos una muestra que esté incluida en dicho subconjunto, rechazamos la hipótesis nula ($H_0$).

El procedimiento consiste en rechazar $H_0$ en favor de $H_1$ cuando la prueba estadística dé lugar a un valor cuya probabilidad de que ocurra bajo $H_0$ es igual o menor que una probabilidad muy pequeña que denominamos $\alpha$ o *nivel de significación*.

La decisión de elegir uno de los dos tipos de hipótesis estadísticas, comporta siempre un cierto riesgo de equivocarse, esto es, de no seleccionar la hipótesis verdadera:
- *error Tipo I*: rechazar la hipótesis nula cuando de hecho era verdadera.
- *error Tipo II*: aceptar la hipótesis nula cuando de hecho era falsa.

La probabilidad de cometer un error Tipo I se llama *riesgo $\alpha$*. Cuánto mayor sea $\alpha$, más probable resultará rechazar una $H_0$ que es verdadera. El riesgo es conocido y se fija *a priori*.

El error Tipo II se suele representar por $\beta$. Es siempre desconocido y varía en relación inversa al valor de $\alpha$.

De una forma ideal, los valores concretos de $\alpha$ y $\beta$ deben ser establecidos por el investigador y servirán para determinar el tamaño *n* de la muestra que se ha de elegir para calcular la prueba estadística seleccionada.

La potencia (*power*) de una prueba de decisión estadística se define como la probabilidad de rechazar la $H_0$ cuando de hecho es falsa. La potencia caracteriza la capacidad que tiene una prueba de decisión estadística de no equivocarse al rechazar la hipótesis nula.
$$Potencia = 1 - \beta$$

<img src="https://upload.wikimedia.org/wikipedia/commons/9/93/Beta-Fehler.png" alt="Error Tipo I / II"	title="Error Tipo I / II" style="background-color:white" />

Representación de los valores posibles de la probabilidad de un error tipo II (rojo) en el ejemplo de un test de significancia estadística para el parámetro μ. El error tipo II depende del parámetro μ. Cuanto más cerca se encuentre este del valor supuesto bajo la hipótesis nula, mayor es la probabilidad de ocurrencia del error tipo II. Debido a que el verdadero valor de μ es desconocido al hacer la presunción de la hipótesis alternativa, la probabilidad del error tipo II, en contraste con el error tipo I (azul), no se puede calcular.

En resumen:
1. El nivel de significación **$\alpha$** es la probabilidad de que una prueba estadística producirá un valor bajo el cual **se rechazará la hipótesis nula, cuando de hecho es verdadera** (Error Tipo I).
2. La probabilidad de que una prueba estadística produzca un valor bajo el cual **se acepte la hipótesis nula cuando en realidad es falsa** viene dada por **$\beta$**.
3. La **potencia** de una prueba estadística, **1 - $\beta$**, representa la **probabilidad de rechazar la hipótesis nula cuando es falsa** y, por lo tanto, debiera ser rechazada.
4. La potencia está relacionada con la naturaleza de la prueba estadística elegida y con la propia naturaleza de la hipótesis alternativa. **Cuando $H_1$ tiene dirección se emplea una prueba estadística unilateral que es más poderosa que una prueba bilateral**.
5. En términos generales, se puede afirmar que **la potencia de una prueba estadística aumenta cuando se incrementa el tamaño muestral de n**.

### La distribución muestral

#### El teorema del límite central

#### Tendencia central, variabilidad y forma de una distribución muestral

### La región de rechazo. Pruebas unilaterales y pruebas bilaterales


## Elección de una prueba de decisión estadística apropiada
