# Tipos de prueba de hipotesis

## Importar librerias

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind

## Base de datos a utilizar

In [3]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris = pd.read_csv(url, names=names)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Distribucion t de Student

**Calculo del Error Estandar**
$$SE = \frac{\sigma }{\sqrt{N}}$$

Vamos a seleccionar dos variables numericas de iris para ver si hay diferencia en la distribucion de ambos. Vamos a elegir el sepalo length y sepalo width

In [4]:
# Error estandar de la longitud del sepalo para una muestra de 10
std_length = iris.sepal_length.std()/np.sqrt(10)
std_length

0.2618575017646526

In [5]:
# Error estandar del ancho delsepalo para una muestra de 10
std_width = iris.sepal_width.std()/np.sqrt(10)
std_width

0.13711456043966944

**Calculo de la Desviacion del error estandar**
$$SED = \sqrt{\frac{\sigma_{1}^2}{N_{1}} + \frac{\sigma_{2}^2}{N_{2}}}$$

In [6]:
sed = np.sqrt((std_length**2) + (std_width)**2)
sed

0.2955837511010861

**Calculo de t**

$$t = \frac{(\bar{x_{1}} - \bar{x_{2}})}{SED}$$

In [7]:
t_stat = (iris.sepal_length.mean() - iris.sepal_width.mean())/sed
t_stat

9.43669373889032

**Calculo de p**

In [8]:
p = ttest_ind(iris['sepal_length'], iris['sepal_width'])
p

Ttest_indResult(statistic=36.548157693982006, pvalue=3.987838114848222e-112)

**Conclusiones**

El valor de t (9.43) es mucho mayor que el p-value (e-112) por tanto deducimos que las distribuciones de las variables son diferentes. Se rechaza la hipotesis nula (La distribucion de las variables son iguales)

ATENCION: Para la prueba de t Student lo que se compara son los valores t_calculado con el t_tabulado, siendo que sí |t_calculado|>|t_tabulado| se rechaza la Ho (ojo! se compara el valor absoluto).

## Correlacion y Coeficiente de Pearson

Veamos la correlacion que hay entre las variables sepal length y sepal width

In [10]:
iris['sepal_length'].corr(iris['sepal_width'])

-0.10936924995064935

- Este resultado (-0.10) indica que la correlacion entre ambas variables es inexistente

Vamos a calcular el coeficiente de pearson entre ambas variables

In [11]:
st.pearsonr(iris['sepal_length'], iris['sepal_width'])

(-0.10936924995064928, 0.1827652152713699)

- El resultado muestra el p-value (0.18 y el coeficiente de correlacion (-0.1).
- La hipotesis nula es que no hay correlacion entre las variables. como p-value es mayor al umbral (0.05) decimos que aceptamos la hipotesis nula. Las variables no estan correlacionadas
- Cuando sube length, no sube width. Cuando baja length, no baja width.
- Son variables independientes.

[Documentacion](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html)

## Analisis de Varianza (ANOVA)

Nos ayuda a hacer un analisis por varianza. Nos ayuda a determinar si hay una diferencia entre la distribucion de dos variables

In [12]:
f_oneway(iris['sepal_length'], iris['sepal_width'])

F_onewayResult(statistic=1335.7678308241748, pvalue=3.9878381148486907e-112)

- Como p-value es mucho menor que el nivel de significancia (0.05) rechazamos la hipotesis nula de que las medias de ambas distribuciones sean similares.
- Si hay diferencia entre la distribucion de las dos variables.

### Requerimientos que deben cumplir las muestras

a) **Cada muestra tiene una distribución normal, lo cual lo podemos comprobar, realizando una prueba de normalidad, con el siguiente código:**

In [14]:
# libreria para probar la normalidad de las muestras
from scipy.stats import normaltest

# funcion para probar la normalidad de la muestra
def Normalidad(df):
  S,p = normaltest(df)
  alfa = 0.05
  print('p =',p)
  if p<alfa:
    print('No existen evidencias estadísticas para suponer normalidad')
  else:
    print('Existen evidencias estadísticas para suponer normalidad')
  return p

In [15]:
Normalidad(iris['sepal_length'])

p = 0.05682424941067306
Existen evidencias estadísticas para suponer normalidad


0.05682424941067306

In [16]:
Normalidad(iris['sepal_width'])

p = 0.1672407178723714
Existen evidencias estadísticas para suponer normalidad


0.1672407178723714

b) **Prueba de homocedasticidad: La varianza de las muestras es homogénea.Se puede realizar con dos librerias levene o barlett de scipy.stats**

In [17]:
from scipy.stats import levene
alfa = 0.05
stat,p = levene(iris['sepal_length'],iris['sepal_width'])
print('p=',p)
if p<alfa:
    print('No existen evidencias estadísticas para suponer igualdad de varianza ')
else:
    print('Existen evidencias estadísticas  para suponer igualdad de varianza')

p= 2.657761409361793e-14
No existen evidencias estadísticas para suponer igualdad de varianza 


[Documentacion](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html)