# Prueba de hipótesis
La prueba de hipótesis ayuda a juzgar si existe una diferencia significativa entre el tamaño de la muestra y el parámetro general, Los pasos a seguir son:
1. Establecer una hipótesis nula $H_0$ y una hipotesis alternativa $H_1$
2. Seleccionar el nivel de significacia
3. Seleccionar el estadístico de prueba
4. Formular la regla de decisión
5. Interpretar los resultados y tomar una decisión

### Tipos de pruebas:
1. **Distirbución t de student:** Se usa para estimar una media de población normalmente distribuida  a partir de una muestra pequeña que sigue una distribución normal y que desconocemos su desviación estandar
2. **Coeficiente de Pearson** Se usa para medir la dependencia lineal (correlación) entre dos variables aleatorias cuantitativas.
3. **Análisis de la varianza (ANOVA):** Debemos de saber la varianza de nuestras distribuciones. Se usa para comparar las varianzas entre las medias de distintos grupos.

### Tipos de errores
Las concluisiones a las que llegamos se basan en una muestra y es posible caer en errores, estos se clasifican de acuerdo a la siguiente tabla:

|  |$H_0$ verdadera  |  $H_0$ falsa  | 
|:-------------------:|---|---|
| Rechazamos $H_0$ | Error tipo I  | Decisión correcta | 
|  No rechazamos $H_0$   | Decisión correcta| Error tipo II| 

Se puede cuantificar la probabildiad de cometer dichos errores donde:
- P(Error tipo I) = $\alpha$
- P(Error tipo II) = $\beta$



In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind

In [2]:
#usaremos la base de datos de las fores irir
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
iris = pd.read_csv(url, names=names)
iris.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Tipos de pruebas:
1. Distribución t de Student

Vamos a suponer las siguientes hipótesis:

$H_0:$ La distribución de los datos de sepal-length es igual a la de sepal-width

$H_1:$ Las distribuciones de los son distintas

Esta prueba implica ocupar una serie de fórmulas, la primera es el error estandar:
$$SE = \dfrac{\sigma}{N}$$

In [7]:
#error estandar para una muestra de N=10
se_length = iris.std()['sepal-length']/np.sqrt(10)
se_width = iris.std()['sepal-width']/np.sqrt(10)

  se_length = iris.std()['sepal-length']/np.sqrt(10)
  se_width = iris.std()['sepal-width']/np.sqrt(10)


La segunda es la desviación de error estandar:
$$SED = \sqrt{\sigma_1^2/N_1 + \sigma_2^2/N_2}$$

In [8]:
sed = np.sqrt(se_length**2 + se_width**2)

La tercera fórmula es el valor del estadístico t-student:
$$t = \dfrac{\bar{x}_1-\bar{x}_2}{SED}$$

In [11]:
t_stat = (iris.mean()['sepal-length'] - iris.mean()['sepal-width'])/sed
t_stat

  t_stat = (iris.mean()['sepal-length'] - iris.mean()['sepal-width'])/sed


9.436693738890318

Ahora calculamos el valor del estadístico p

In [12]:
p = ttest_ind(iris['sepal-length'], iris['sepal-width'])
p

Ttest_indResult(statistic=36.548157693982006, pvalue=3.987838114848222e-112)

Observemos que $p<<t_{stat}$ por lo que nuestras distribuciones son diferentes. Nuestra hipótesis nula es que las distribuciones eran iguales por lo que la rechazamos y nos quedamos con la hipótesis alternativa.

2. Prueba de correlación y coeficiente de Pearson