# Prueba de hipótesis
La prueba de hipótesis ayuda a juzgar si existe una diferencia significativa entre el tamaño de la muestra y el parámetro general, Los pasos a seguir son:
1. Establecer una hipótesis nula $H_0$ y una hipotesis alternativa $H_1$
2. Seleccionar el nivel de significacia
3. Seleccionar el estadístico de prueba
4. Formular la regla de decisión
5. Interpretar los resultados y tomar una decisión

### Tipos de pruebas:
1. **Distirbución t de student:** Se usa para estimar una media de población normalmente distribuida  a partir de una muestra pequeña que sigue una distribución normal y que desconocemos su desviación estandar
2. **Coeficiente de Pearson** Se usa para medir la dependencia lineal (correlación) entre dos variables aleatorias cuantitativas.
3. **Análisis de la varianza (ANOVA):** Debemos de saber la varianza de nuestras distribuciones. Se usa para comparar las varianzas entre las medias de distintos grupos.

### Tipos de errores
Las concluisiones a las que llegamos se basan en una muestra y es posible caer en errores, estos se clasifican de acuerdo a la siguiente tabla:

|  |$H_0$ verdadera  |  $H_0$ falsa  | 
|:-------------------:|---|---|
| Rechazamos $H_0$ | Error tipo I  | Decisión correcta | 
|  No rechazamos $H_0$   | Decisión correcta| Error tipo II| 

Se puede cuantificar la probabildiad de cometer dichos errores donde:
- P(Error tipo I) = $\alpha$
- P(Error tipo II) = $\beta$



In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind

In [2]:
#usaremos la base de datos de las fores irir
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
iris = pd.read_csv(url, names=names)
iris.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### Tipos de prueba: 
### 1) Prueba t de Student (para 2 muestras independientes)

Esta prueba permite comparar promedios en dos grupos de muestras pequeñas (menores a 30) que cumplen con una distribución normal. Esto para comparar si las poblaciones son iguales o no


Las hipótesis que ocupa son: <font color='blue'>Este es el paso 1 de establecer las hipotesis</font>

$H_0:$ $\mu_1 = \mu_2$ Las distribuciones son iguales

$H_1:$ $\mu_1 \neq \mu_2$ Las distribuciones son distintas


Realizaremos a continuación una pruba con un nivel de confianza del 95% ($\alpha = 0.05$): <font color='blue'> Este es el paso 2, establecer el nivel de confianza</font>


Esta prueba requiere calcular un estadístico de prueba: <font color='blue'> Este es el paso 3, establecer el estadístico de prueba</font>
$$t = \dfrac{\bar{x}_1-\bar{x}_2}{\sqrt{\sigma_1^2/N_1 + \sigma_2^2/N_2}}$$


La hipotesis nula $H_0$ se rechaza si $t_{(1- \alpha/2)(N_1 + N_2 -2)} == t_{c} < |t|$ donde $t_c$ es un valor crítico que dependerá de $\alpha, N_1$ y $N_2$.<font color='blue'> Este es el paso 4, establecer la regla de decición</font>

In [16]:
# obtenemos las muestras de 20 elementos cada una
sepal_length_sample = iris['sepal-length'].sample(n=20)
sepal_width_sample =  iris['sepal-width'].sample(n=20)


# Tamano de muestras
n_1 = len(sepal_length_sample)
n_2 = len(sepal_width_sample)

# calculamos las medias muestrales
x_1 = sepal_length_sample.mean()
x_2 = sepal_width_sample.mean()

# calculamos las desviaciones estandar
s_length = sepal_length_sample.std()
s_width = sepal_width_sample.std()

In [17]:
# calculamos el estadístico
t_stat = (x_1 - x_2)/(np.sqrt(s_length**2/n_1 + s_width**2/n_2))
t_stat

15.616294859638272

In [None]:
# el valor crítico t_c lo podemos encontrar en las tablas t-student
# donde se ocupan los grados de libertad gl = N_1 + N_2 - 2 
# y el valor de alfa/2 = 0.025 
t_c = 2.0244

Como $t_c < t$ entonces se rechaza la hipótesis nula y podemos decir que las distribuciones son distintas. <font color='blue'> Este es el paso 5, la toma de decisión</font>

Otra regla de decisión que se ocupa para la prueba es con ayuda del p-valor que es un estadístico que nos indica la importancia del resultado. Si p-valor < $\alpha$ entonces se rechaza la hipótesis nula.

In [19]:
ttest_ind(sepal_length_sample, sepal_width_sample)

Ttest_indResult(statistic=15.61629485963827, pvalue=4.0175326140640575e-18)

Donde el primer valor es el estadístico t calculado anteriormente, mientras que el segundo valor es el p-valor.

Como $p = 4.01\times 10^{-18} << \alpha = 0.05$, entonces rechazamos la hipótesis nula y nos vamos por la alternativa.



### 2. Prueba de correlación y coeficiente de Pearson

Esta prueba nos permite saber que tan correlacionadas están dos variables. LAS Hipótesis son:

$H_0$: No están correlaciondas
$H_1$: Si están correlacionadas

Con un nivel de confianza del 95% ($\alpha = 0.05%$).

Y la siguiente regla de decisión: si el $p-valor < \alpha$, se rechaza la hipótesis nula.

In [29]:
#calculamos las correlaciones
iris.corr(method = 'pearson')

  iris.corr(method = 'pearson')


Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width
sepal-length,1.0,-0.109369,0.871754,0.817954
sepal-width,-0.109369,1.0,-0.420516,-0.356544
petal-length,0.871754,-0.420516,1.0,0.962757
petal-width,0.817954,-0.356544,0.962757,1.0


Observamos que la correlación entre sepal-length  y sepal-width es de -0.109; es decir, es casi inexistente. Podemos calcular ésta misma correlación junto con su p-value con el siguiente comando de scipy, el cual, para calcular el p-valor, establece las mismas hipótesis que las que tenemos nosotros:

In [28]:
#calculamos nuevamente el coef. de pearson o correlación con su p-valor
st.pearsonr(iris['sepal-length'], iris['sepal-width'])

PearsonRResult(statistic=-0.10936924995064937, pvalue=0.1827652152713699)

Al obtener un p-valor > $\alpha$ aceptamos la hipótesis nula de que las variables no están correlacionadas.

### 3. Prueba de análisis de varianza (ANOVA)
Esta prueba nos permite saber que tan similares son dos distribuciones por medio de sus varianzas.Las hipótesis son:

$H_0$: Las distribuciones son similares
$H_1$: Las distribuciones son diferentes

El nivel de confianza es del 95%.


La regla de decisión es la misma que las anteriores pruebas, si el $p-valor < \alpha$, se rechaza la hipótesis nula.

In [27]:
f_oneway(iris['sepal-length'], iris['sepal-width'])

F_onewayResult(statistic=1335.7678308241748, pvalue=3.9878381148486907e-112)

Al obtener un p-valor < $\alpha$ rechazamos la hipótesis nula, por lo que hay diferencia entre ambas distribuciones.