[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/jhermosillo/diplomado_CDD2019/blob/master/Estadistica%20de%20Datos/notebook/Pruebas_hipotesis_usando_Python.ipynb)

# 2.9. Pruebas de hipótesis usando Python
---
![alt text](https://www.monografias.com/trabajos91/prueba-hipotesis-medias-excel-y-winstats/image002.png)

Bueno, probablemente todos los que somos principiantes o en nivel intermedio en ciencia de datos o los estudiantes de estadística escucharon sobre estas palabras de moda en estas áreas y esto es las prueba de hipótesis.

En esta sección se dará una breve introducción sobre este tema que puede causar muchos dolores de cabeza al estar aprendiendo acerca del manejo de datos.

Se abordan todos esos conceptos y con ejemplos usando Python.

* # ¿Qué es una prueba de hipótesis? 
* ## ¿Porqué debemos usarlas? 
* ## ¿Cuáles son las bases de las hipótesis?
* ## ¿Cuáles son los parámetros importantes de dichas pruebas?


![alt text](https://luminousmen.com/media/demystifying-hypothesis-testing.jpg)

Empecemos por la primera pregunta...

* ## ¿Qué es una prueba de hipótesis?

Las pruebas de hipótesis son métodos estadísticos que son utilizados para la toma de decisiones **estadísticas**, utilizando datos experimentales. En palabras burdas, es el pan de cada día de las estadísticas inferenciales y una habilidad crítica en el repertorio de un científico de datos. Demostramos el concepto con scripts Python muy simples.


* ## ¿Porqué usamos las pruebas de hipótesis?

La prueba de hipótesis es un procedimiento esencial en estadística. Una prueba de hipótesis evalúa dos afirmaciones mutuamente excluyentes sobre una **población** para determinar qué afirmación es mejor respaldada por los datos de la *muestra*. Cuando decimos que un hallazgo es estadísticamente significativo, es gracias a una prueba de hipótesis.

### La prueba de hipótesis es una herramienta crítica en estadística inferencial, para determinar cuál podría ser el valor de un parámetro de **población**. A menudo sacamos esta conclusión basada en un análisis de datos de muestra....

Con la cuestión de la toma de decisiones basada en datos:

   * empresariales, científicos, tecnológicos, sociales y políticos, etc... 
    
El concepto de prueba de hipótesis se ha convertido en algo sumamente importante para comprender y aplicar en el contexto adecuado.

#### Hay una gran cantidad de pruebas utilizadas en el análisis estadístico para este propósito. Puede ser confuso. Consulte este excelente [artículo](https://towardsdatascience.com/statistical-tests-when-to-use-which-704557554740) para obtener una descripción completa de qué prueba usar en qué situación.

* ## ¿Cuales son las bases de las hipótesis? 

   * ### Hipótesis Nula
   * ### Hipótesis Alterna
   
La hipótesis nula es, en general, lo **aburrido** (esperado), es decir, supone que nada interesante sucede / sucedió.

La hipótesis alterna es donde la acción es, es decir, alguna observación / fenómeno es real (es decir, no es una casualidad)...

---

Hipótesis nula (H0): - En la estadística inferencial, la hipótesis nula es una declaración general o posición predeterminada de que no hay relación entre dos fenómenos medidos, o no hay asociación entre grupos

En otras palabras, es una suposición básica o basada en el dominio o el conocimiento del problema.

Ejemplo: la producción de una empresa es = 50 unidades / por día, etc.

---

Hipótesis alterna (H1): - Es la hipótesis contraria a la hipótesis nula. Por lo general, se considera que las observaciones son el resultado de un efecto real (con cierta cantidad de variación de probabilidad superpuesta)

Ejemplo: la producción de una empresa es ! = 50 unidades / por día, etc.

---
## Por lo tanto, el proceso de prueba de hipótesis consiste en formular preguntas sobre los datos en función de la información recopilada y probarlas utilizando métodos estadísticos.

---
### A continuación mostramos un pequeño ejemplo utilizando la prueba estadística Shapiro - Wilks
Esta prueba comprueba si una muestra presenta una distribución normal(H0) o no (H1). Mayor información de la librería pueden consultar el siguiente [artículo](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html) y el [artículo](https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test) siguiente para la prueba estadística. 

In [None]:
# Example of the Shapiro-Wilk Normality Test
from scipy.stats import shapiro
import seaborn as sns
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = shapiro(data)
print('stat=%.3f, p=%.3f' % (stat, p))

#El valor crítico de shapiro para n = 10 es  cv = 0.842
#El estadistico calculado es stat = 0.895
#Aquí podemos ver que stat > cv  <- Aceptamos H1 (Rechazamos H0)

#Recordemos este planteamiento. Nuestros datos no son Gaussianos (H0), Nuestos datos son Gaussianos (H1)

#Del mismo estadístico tenemos que "The W statistic needs to be greater than the critical value for the 
#null hypothesis that the samples are drawn from a Gaussian distribution not to be rejected"


if p > 0.05:
    print('Probably Gaussian')
else:
    print('Probably not Gaussian')
    
sns.distplot(data)


#Lo más recomendable es siempre basarnos en el valor del estadístico calculado (stat)
#y tener un conocimiento de los valores críticos

#Recordemos lo siguiente de la tabla de confusión

#FF <- H0    FV <- Error Tipo 1
#VF <- ET2   VV <- H1

#Cuando ustedes tienen conocimiento de los estadísticos y los valores críticos

#lo ideal es realizar esta comparación para las pruebas de hipótesis
# Si STAT <= CV  <- Aceptamos H0 (Rechazamos H1)
# Si STAT >  CV  <- Aceptamos H1 (Rechazamos H0)


#Caso contrario, les había explicado que podríamos utilizar
#la evaluación de el valor de p-value  contra el alpha

#Pero al utilizar p-value, las comparaciones pueden ser algo ambigüas, por el simple hecho de
#estar ajustandolo para entender la respuesta de las pruebas de hipótesis.

#Alpha <- Nivel de Significancia o Nivel de Confianza

In [None]:
# Utilizando random para genera números aleatorios.
import numpy as np # importando numpy

np.random.seed(1984) # para poder replicar el random
from scipy import stats

muestras = np.random.normal(0, 1, 50)

#muestras = np.random.beta(2, 4, 1000)
muestras

stat, p = shapiro(muestras)
print('stat=%.3f, p=%.3f' % (stat, p))
alpha = 0.5
if p > alpha:
    print('Sample looks Gaussian (fail to reject H0)')
else:
    print('Sample does not look Gaussian (reject H0)')
    
sns.distplot(muestras)


#En resumen, el p-value tomara la referencia de desigualdad p > a
# Si y solo si el estadístico así lo indica
# La definición de la prueba de shapiro es que si el estadístico es mayor que el valor crítico
# entonces la muestra es gaussiana, aquí estamos trabajando con la hipótesis nula (H0) de que 
# no "sabemos" que tipo de distribución tienen nuestros datos.

# Al ser un caso "especial", H1 debe ser que los datos presentarán una distribución Normal

A partir de aquí surgen diversas cuestiones extrañas...

### ¿Qué son las pruebas estadísticas?
* ### ¿Qué es el valor de la prueba (estadística)? 

    * #### $\alpha$ (nivel de significancia) 
    * #### $(p - value)$ 
    * #### [valor crítico](https://scistatcalc.blogspot.com/2013/09/critical-value-of-w-statistic.html?m=0)
    
    
![alt text](https://iamluminousmen-media.s3.amazonaws.com/media/demystifying-hypothesis-testing/demystifying-hypothesis-testing-3.jpg)


# 2.10. Definición de error Tipo I  y  error Tipo II

* Error tipo I: cuando rechazamos la hipótesis nula, aunque esa hipótesis era cierta. El error tipo I se denota por alfa. En las pruebas de hipótesis, la curva normal que muestra la región crítica se llama región alfa

* Errores de tipo II: cuando aceptamos la hipótesis nula pero es falsa. Los errores de tipo II se denotan por beta. En las pruebas de hipótesis, la curva normal que muestra la región de aceptación se llama región beta.

![alt text](https://dp8v87cz8a7qa.cloudfront.net/45396/5bd20d03240611540492547.png)

---

* Prueba de una cola: - Una prueba de una hipótesis estadística, donde la región de rechazo está en un solo lado de la distribución de muestreo.

Ejemplo: - una universidad tiene ≥ 4000 estudiantes o ciencia de datos ≤ 80% org adoptada.

* Prueba de dos colas: una prueba de dos colas es una prueba estadística en la que el área crítica de una distribución es de dos lados y prueba si una muestra es mayor o menor que un cierto rango de valores. Si la muestra que se prueba cae en cualquiera de las áreas críticas, se acepta la hipótesis alternativa en lugar de la hipótesis nula.

Ejemplo: una universidad! = 4000 estudiantes o ciencias de datos! = 80% org adoptado

---

### ¿Cuál es el proceso?

Normalmente empezamos con un punto de vista simple y empezamos con al hipótesis nula y calculamos (computamos) algunos estadísticos con respecto a nuestras muestras, que se puediera sintetizar de la siguiente manera:

### $\displaystyle\frac{Mejor estimación − Estimación Hipotética}{Error estandar Estimación}$

Donde, la **mejor estimación** proviene de la muestra.. p.ej., la media o algun valor de tendencia central de algún subconjunto de datos de la muestra.

El **error estandar** representa la variabilidad en la estimación y depende de la varianza y del tamaño de la muestra.

A lo que nos lleva a la siguiente pregunta...

### "¿Cuál es la posibilidad de observar el estadístico de prueba, este extremo, para esta muestra (considerando su tamaño y una dinámica probabilística adecuada que la gobierna), puramente aleatoriamente conocida si la hipótesis nula fuera cierta? "

---
## 2.11. Definición de [p-value y alpha](https://blog.minitab.com/blog/adventures-in-statistics-2/understanding-hypothesis-tests-significance-levels-alpha-and-p-values-in-statistics). 


* Esta posibilidad, el valor de probabilidad de observar el estadístico de prueba, es el llamado **valor p (p - value)** y se calcula bajo el supuesto de una cierta distribución de probabilidad (a partir de la cual se genera el estadístico de prueba).

* **Nivel de significancia ($\alpha$)**: se refiere al grado de significancia en el que aceptamos o rechazamos la hipótesis nula. El 100% de precisión no es posible para aceptar o rechazar una hipótesis, por lo que seleccionamos un nivel de 0.05 o 5% (flexible con los datos...), lo que significa que su producción debe tener un 95% de confianza para dar un tipo de resultado similar en cada muestra.



---


## Pruebas de Hipótesis - Paramétricas

### Prueba T (t  de Student)

Una prueba t es un tipo de estadística inferencial que se utiliza para determinar si existe una diferencia significativa entre las medias de dos grupos que pueden estar relacionadas en ciertas características. 

Se usa principalmente cuando los conjuntos de datos, como el conjunto de datos registrados como resultado de lanzar una moneda 100 veces, seguirían una distribución normal y pueden tener variaciones desconocidas. La prueba T se usa como una herramienta de prueba de hipótesis, que permite probar un supuesto aplicable a una población.

---

Nota: Para la comparación de la dispersión se utiliza la prueba Fisher's Test (Comparación de varianzas o desviaciones estandar)

---

* Prueba t de una muestra: La prueba t de una muestra determina si la media muestral es estadísticamente diferente de una media poblacional conocida o hipotética. La prueba t de una muestra es una **prueba paramétrica**.

In [None]:
from scipy.stats import ttest_1samp
import numpy as np
np.random.seed(1984) # para poder replicar el random

ages = np.random.randint(50, size=10)
print(ages)

ages_mean = np.mean(ages)
print(ages_mean)

tset, pval = ttest_1samp(ages, 30)

print("tset",tset)
print("p-values",pval)

if pval < 0.05:    # alpha value is 0.05 or 5%
    print(" we are rejecting null hypothesis")
else:
      print("we are accepting null hypothesis")

## Prueba T de dos muestras

* La prueba t de muestras independientes o la prueba t de 2 muestras compara las medias de dos grupos independientes para determinar si existe evidencia estadística de que las medias poblacionales asociadas son significativamente diferentes.

In [None]:
from scipy.stats import ttest_ind
import numpy as np

np.random.seed(1984) # para poder replicar el random
data1 = np.random.randint(50, size=100)
data2 = np.random.normal(20, 10, 100)

print("data1:")
print(data1)
print("data2:")
print(data2)


print("data1 mean value:",np.mean(data1))
print("data2 mean value:",np.mean(data2))

print("data1 std value:",np.std(data1))
print("data2 std value:",np.std(data2))

ttest,pval = ttest_ind(data1,data2)

print("p-value",pval)
if pval <0.05:
    print("we reject null hypothesis")
else:
    print("we accept null hypothesis")
    
sns.distplot(data1)
sns.distplot(data2)

### ANOVA (F-TEST)

La prueba t funciona bien cuando queremos lidiar con 2 grupos, pero en ocasiones necesitamos comparar más de 2 grupos al mismo tiempo.

Por ejemplo, si uno desea probar si la edad de los votantes está basado en una variable categórica como la raza, necesitamos comparar las medias de cada uno de los niveles o grupo de la variable.

Podríamos aplicar por separado la prueba t para cada grupo de muestras, pero podemos incrementar la probabilidad de tener falsos positivos (Error tipo 1). En análisis de varianza (ANOVA) es una prueba de inferencia estadística que puede ayudar a comparar múltiples grupos al mismo tiempo. 

![alt text](https://3.bp.blogspot.com/-PDWTzbbwx54/XEbYzExO9rI/AAAAAAAAAAM/AOvAPbXYVUcxmVKnWWrtQaiZ0qhIHo9vwCLcBGAs/s1600/ANOVA.png)

In [None]:
# Fetch the dataset using the raw GitHub URL.
!curl --remote-name \
     -H 'Accept: application/vnd.github.v3.raw' \
     --location https://raw.githubusercontent.com/jhermosillo/diplomado_CDD2019/master/Estadistica%20de%20Datos/data/growth.csv

In [None]:
!head -n 5 PlantGrowth.csv

In [None]:
# leer el dataframe usando read_csv
df = pd.read_csv("PlantGrowth.csv", sep=',', header=0)
# mostrar los primeros elementos con head
df

In [None]:
df = df[['weight','group']]
grps = pd.unique(df.group.values)
d_data = {grp:df['weight'][df.group == grp] for grp in grps}
 
F, p = stats.f_oneway(d_data['ctrl'], d_data['trt1'], d_data['trt2'])

print("p-value for significance is: ", p)
if p<0.05:
    print("reject null hypothesis")
else:
    print("accept null hypothesis")

## Links de interes - "Outliers in univariate samples"
* [Critical_Values_Dixon](https://www.researchgate.net/publication/28113620_Critical_values_for_six_Dixon_tests_for_outliers_in_normal_samples_up_to_sizes_100_and_applications_in_science_and_engineering)
* [Dixon Test N7 (Q)](http://www.statistics4u.com/fundstat_eng/cc_outlier_tests_dixon.html)


In [None]:
def q_test_for_smallest_point(dataset):
    return (dataset[1] - dataset[0])/(dataset[-1] - dataset[0])

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline  
import seaborn as sns
from scipy.stats import norm

np.random.seed(1984) # para poder replicar el random
data_norm = norm.rvs(size =  50)



print(data_norm)
alpha = 0.05

cv = 0.2216
#cv = 0.2960 99% o alpha = 0.01

valor_critico = q_test_for_smallest_point(np.sort(data_norm))
print(valor_critico)


ax = sns.distplot(data_norm, color = 'blue')

In [None]:
ax = sns.distplot(data_norm, color = 'blue')
ax.set_title('Distribucion normal')
ax.axvline(x = cv, linestyle = '--', label = 'valor critico')
ax.axvline(x = valor_critico, linestyle = '--', label = 'valor estadistico', color = 'k')
ax.legend()

---

### Prueba chi-cuadrada

La prueba se aplica cuando tiene dos variables categóricas de una sola población. Se utiliza para determinar si existe una asociación significativa entre las dos variables.

Por ejemplo, en una encuesta electoral, los votantes pueden clasificarse por género (masculino o femenino) y preferencia de voto (demócrata, republicano o independiente).

Sin embargo, los dados son un ejemplo de una variable donde se conoce la "distribución esperada". Este no es siempre el caso. A veces, nuestra "distribución esperada" se estima a través de los datos.

Supongamos por un segundo que no conocemos la frecuencia esperada de tiradas de dado. 


Tendríamos que estimar la frecuencia esperada a través de muestras de datos. Realicemos algunas muestras para tratar de determinar la frecuencia de cada tirada. 

Decidí hacer 4 muestras de dados de forma manual (es decir, con dados reales), las primeras 3 muestras fueron de 35 tiradas cada una, y la última muestra de 45 tiradas. Estas son muestras más pequeñas de lo que preferimos, pero quería darnos algunos datos reales para trabajar. Aquí está mi distribución de rollos, con las cuatro muestras denotadas por las letras "a", "b", "c" y "d".

![alt text](https://miro.medium.com/max/564/1*OB7m3-RUrD5rWP74kDUHcw.jpeg)

In [None]:
import numpy as np

a1 = [6, 4, 5, 10]
a2 = [8, 5, 3, 3]
a3 = [5, 4, 8, 4]
a4 = [4, 11, 7, 13]
a5 = [5, 8, 7, 6]
a6 = [7, 3, 5, 9]

dice = np.array([a1, a2, a3, a4, a5, a6])

print(dice)
from scipy import stats

stats.chi2_contingency(dice)

In [None]:
chi2_stat, p_val, dof, ex = stats.chi2_contingency(dice)

print("===Chi2 Stat===")
print(chi2_stat)
print("\n")
print("===Degrees of Freedom===")
print(dof)
print("\n")
print("===P-Value===")
print(p_val)
print("\n")
print("===Contingency Table===")
print(ex)

---
## Pruebas de significancia estadística no paramétricas

Si los datos no tienen la distribución gaussiana familiar, debemos recurrir a la versión no paramétrica de las pruebas de significancia. Estas pruebas funcionan de manera similar, pero son libres de distribución, lo que requiere que los datos valorados reales se transformen primero en datos de rango antes de que se pueda realizar la prueba.

---

## Pruebas de Hipótesis -  No Paramétricas

En esta sección tenemos la contraparte de las pruebas paramétricas, las cuales son:


   * Mann-Whitney U test - Para comparar dos muestras independientes (t de Student)
   * Kruskal-Wallis-Friedman tests - Para comparar más de dos muestras (ANOVA)

Estas pruebas se usan a menudo en muestras de puntajes de habilidades de modelos para confirmar que la diferencia de habilidades entre los modelos de aprendizaje automático es significativa.

### Dataset

In [None]:
# Generamos muestras gaussianas
from numpy.random import seed
from numpy.random import randn
from numpy import mean
from numpy import std
#  # para poder replicar el random
seed(1)
# generamos dos conjuntos de datos univariados
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# resumen
print('data1: mean=%.3f stdv=%.3f' % (mean(data1), std(data1)))
print('data2: mean=%.3f stdv=%.3f' % (mean(data2), std(data2)))

## Mann-Whitney U Test



In [None]:
# Mann-Whitney U test
# Generamos muestras gaussianas
from numpy.random import seed
from numpy.random import randn
from scipy.stats import mannwhitneyu
#from scipy.stats import ttest_ind
import seaborn as sns
#  # para poder replicar el random
seed(1962)
# generamos dos conjuntos de datos univariados
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
#  Comparamos muestras
stat, p = mannwhitneyu(data1, data2)

#ttest,pval = ttest_ind(data1,data2)

print('Statistics=%.3f, p=%.3f' % (stat, p))

#print('Statistics=%.3f, p=%.3f' % (ttest, pval))

# interpretamos
alpha = 0.05
if p > alpha:
	print('Misma distribución (H0)')
else:
	print('Distribución diferente (H1)')
    
sns.distplot(data1)
sns.distplot(data2)

## Kruskal-Wallis H Test

In [None]:
# Kruskal-Wallis H-test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import kruskal
import seaborn as sns
#  # para poder replicar el random
seed(1962)
# generate three independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52
# comparacion
stat, p = kruskal(data1, data2, data3)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# interpretacion
alpha = 0.05
if p > alpha:
	print('Misma Distribucion (H0)')
else:
	print('Distribución diferente (H1)')
    
sns.distplot(data1)
sns.distplot(data2)
sns.distplot(data3)