# Contraste de Hipótesis

Dentro de la inferencia estadística, un contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población. 

Ejemplo. Contraste de hipótesis bilateral para la media, sabiendo varianza poblacional y con una sola muestra.

*En una población para la cual la std es 29, contrasta la hipótesis de que μ=347, con un nivel de significación del 1%, mediante una muestra de 200 individuos en la que se obtiene una media de 352.*

## Introducción

Cuando hacemos inferencia estadística es porque no tenemos los datos de toda la población (prácticamente siempre) y trabajamos con muestras que nos ayudan a estimar, con un error, estos parámetros poblacionales que no podemos llegar a conocer.

Es decir, cuando nuestro propósito es llegar a conocer ciertas características de la población a partir de la muestra de la que disponemos, estamos haciendo el proceso de inferencia.

- Llamamos **población estadística**, universo o colectivo al conjunto de referencia del que extraemos las observaciones, es decir, el conjunto de todas las posibles unidades experimentales. 
- Llamamos **muestra** a un subconjunto de elementos de la población que habitualmente utilizaremos para realizar un estudio estadístico. El número de elementos que componen la muestra es a lo que llamamos tamaño muestral y se suele representar por la letra minúscula n.

Cuando queremos referirnos a las características que presentan estos conjuntos de datos y cómo medirlas, trabajamos con tres términos clave, el estadístico, el parámetro y el estimador:

- Un **estadístico** es una medida usada para describir alguna característica de una muestra y un **parámetro** es una medida usada para describir las mismas características pero de la población. Cuando el estadístico se calcula en una muestra con idea de hacer inferencia sobre la misma característica en la población, se le llama **estimador**.


![paramest.PNG](attachment:paramest.PNG)


Lo que hacemos en contraste de hipótesis es comparar un estadístico de la muestra (que si podemos obtener) con un hipotético parámetro de la población (que solo podemos estimar).

## Pasos a la hora de realizar un contraste de hipótesis

**1. Identificación del parámetro a estudiar**

En primer lugar hemos de analizar el problema que se plantea y determinar qué parámetro poblacional queremos contrastar. Esto va a definir nuestra forma de trabajar de aquí en adelante. Hay mucha literatura sobre contraste de hipótesis y métodos distinos para trabajar con según qué parámetro ( μ, p, σ^2, σ...).

*En el caso de nuestro ejemplo el parámetro a estudiar es la media poblacional μ a la que le dan un valor de 347*  (Este valor no coincide con la media de la muestra que hemos sacado)

**2. Especificación de hipótesis nula y alternativa**

En cualquier contraste de hipótesis tendremos 2 alternativas complementarias en las que se especificarán distintos valores de un parámetro poblacional y a la vista de los datos habremos de optar por una de ellas. Por ejemplo, si deseamos conocer si el valor de un parámetro μ puede ser igual a 25 o por el contrario es inadmisible a la vista de los datos que disponemos, nuestras hipótesis serán: μ=25 y μ≠25.

Estas 2 hipótesis que hemos señalado no jugarán el mismo papel dentro de cualquier contraste de hipótesis, y por tanto cada una de ellas recibirá un nombre específico:

- Hipótesis nula, a la que habitualmente nos referimos como Ho.
- Hipótesis alternativa, a la que habitualmente nos referimos como HA o H1.

A la hipótesis nula siempre se le concederá el beneficio de la duda e intentaremos encontrar en nuestra muestra evidencias en contra de ella. Así, **al terminar el contraste habremos de optar por aceptar H0 (si no tenemos evidencia suficiente en su contra) o rechazarla (si los datos hacen que la descartemos)**, como en un juicio.

Podemos hablar de un contraste **unilateral** o **bilateral** en función de cómo se plantean las hipótesis:

| Unilateral | Bilateral |
|------------|-----------|
| H0: μ ≤ k  | H0: μ = k |
| H1: μ > k  | H1: μ ≠ k |
| H0: μ ≥ k  |           |
| H1: μ < k  |           |

*En el caso del ejemplo, nuestras hipótesis se enunciarían así (bilateral):*
                        
                                                    H0 : µ = 347

                                                    H1 : µ ≠ 347
                                          

**3. Fijar un valor para el nivel de significación (α)**

La interpretación de este parámetro sería: Máxima probabilidad de equivocarnos que estamos dispuestos a asumir en caso de que rechacemos la hipótesis nula.

En la práctica totalidad de estudios estadísticos el valor que se suele elegir para α es 0.05, aunque también suelen tomarse α = 0.01 o α = 0.10 dependiendo de si queremos asumir menos o más riesgo de equivocarnos, respectivamente, en caso de rechazar la hipótesis nula.

Los tipos de error que podemos cometer quedarían reflejados en esta tabla.

![errortyp.PNG](attachment:errortyp.PNG)


'Alfa' es el nivel de significación.

'1 - Beta' es la potencia de contraste

'1 - Alfa' es el nivel de confianza

La única forma de disminuir alfa y beta simultáneamente es aumentando el tamaño de nuestra muestra, cosa que no suele ser posible. Por esto, tendremos que decidir si disminuimos alfa o la aumentamos en función del problema con el que nos encontremos.

- En el caso de un juicio buscaremos reducir alfa por la presunción de inocencia. Preferimos cometer Error 2.
- En el caso de contrastar efectos de un medicamento cuando nuestra Ho es que no son dañinos. Preferimos cometer Error 1.

*Muchas veces te dan un nivel de significación deseado, como en nuestro ejemplo, donde α = 0.01*

**4. Obtener el valor del estadístico de contraste para la muestra elegida**

En el caso de los contrastes de hipótesis sobre la media podemos utilizar los valores de los estadísticos de contraste para decidir qué hacemos con la hipótesis nula. 

Tenemos que tipificar nuestra distribución.

Si tenemos una distribución normal  N(Mu, sigma), llamamos tipificar la variable al proceso de convertirla en una Normal Estándar N(0,1), lo cual nos permitirá poder consultarla en las tablas.

Si X →  N(Mu, sigma), entonces: Z = (X - Mu) / sigma →  N(0,1)

Es decir, los valores X de la distribución original pasan a ser los valores Z de la distribución estandarizada N(0,1).

- Prueba Z: Cuando conocemos la varianza poblacional.

![ztest.PNG](attachment:ztest.PNG)


- Prueba T: Cuando no conocemos la varianza poblacional.

![ttest.PNG](attachment:ttest.PNG)


![image.png](attachment:image.png)


Habiendo calculado nuestro estadístico z o t tenemos que comprobar si está en la región de aceptación o en la de rechazo de la Ho.

In [1]:
#En nuestro ejemplo conocemos la std y la muestra es mayor que 30 por lo que usaremos la prueba z 
#hallamos el resultado de nuestro estadístico z
import numpy as np

media_muestra = 352
Mu = 347
std_pob = 29
n = 200

z = (media_muestra - Mu) / (std_pob / np.sqrt(n))
z

2.4382992454708536

**5. Determinar la región de aceptación y la región de rechazo**

En este paso utilizamos el nivel de significación para estimar los valores de nuestra distribución de contraste. Si el estadístico está dentro de la región de aceptación, no podemos rechazar la Ho. Si el estadítico está en la región de rechazo, rechazamos Ho.


![image.png](attachment:image.png)


En la imagen vemos cómo pintar estas regiones en un contraste bilateral. Para calcular el valor de zα /2 y -zα /2 hemos de calcular la probabilidad acumulada hasta zα /2 y consultar el valor del punto crítico en una [tabla de distribución normal](https://es.slideshare.net/nriverapazos/tabladistrnorm).




*En nuestro ejemplo nuestra distribución pintada también sería bilateral y nuestro α = 0.01, así que la distribución acumulada hasta nuestro zα /2 sería: 1 - α /2 = 0.995.*

*Si consultamos el valor 0.995 en la tabla vemos que: zα /2 = 2.575 y, por lo tanto, - zα /2 = -2.575*



**6. ¿Rechazamos la hipótesis nula?**

Si hemos calculado nuestra región de aceptación y de rechazo y nuestro estadístico solo tenemos que ver en qué región se encuentra este para determinar qué hacemos con la Ho.

*En el caso del ejemplo hemos determinado que nuestra región de acceptación es (-2.575, 2.575) y el valor de nuestro estadístico es z = 2.438, por lo que no podemos rechazar la hipótesis nula y nos arriesgamos a cometer un error del tipo 2 pero tenemos un nivel de confianza muy alto, seguramente no fallemos.*

- 6.1 Alternativa

Otra forma rechazar o no la hipótesis en un contraste de hipótesis para la media es calculando el intervalo de conn
fianza y ver si la media muestral está dentro; sin tipificar la distribución ni estadísticos de contraste.

                                    C.I.:(media_muestral - zα /2 * σ/√n, media_muestral + zα /2 * σ/√n)
                                    
También podemos calcular el p value que se define como la probabilidad correspondiente al estadístico de ser posible bajo la Ho. Si cumple con la condición de ser menor al nivel de significancia impuesto arbitrariamente, entonces la Ho será rechazada. Para calcularlo cogemos el valor de la tabla de la distribución correspondiente al estadístico de contraste y lo restamos a 1 (unilateral). En el caso bilateral= (1- valor de la tabla) *2

También podemos utilizar [calculadora de p values](https://www.graphpad.com/quickcalcs/pValue2/)

In [2]:
#En el caso del ejemplo, si calculamos el intervalo de confianza (C.I.).

ci =(352 - 2.575 * 29/(np.sqrt(200)), 352 + 2.575 * 29/(np.sqrt(200)))
ci

(346.7196801114895, 357.2803198885105)

Nuestra media muestral era de 352, por lo que está dentro del C.I. y no podemos rechazar la Ho. Obtenemos el mismo resultado que calculando estadísticos de contraste 