# Test de Normalidad

Entonces, tiene un conjunto de datos y está a punto de ejecutar algunas pruebas en él, pero primero, debe verificar la normalidad.

Piense en esta pregunta, "Dados mis datos ... si hay una desviación de la normalidad, ¿habrá un impacto material en mis resultados?"

Al hacerlo, hay tres pruebas que quizás desee considerar:

  * La prueba de Shapiro-Wilk;
  * La prueba de Anderson-Darling y;
  * La prueba de Kolmogorov-Smirnov.

Además como todo entra por los ojos, hay algunas medidas visuales a implementar:

  1. Box Plots
  2. QQ Plots

---
Entonces, ¿por qué hacer todas estas pruebas en primer lugar? Voy a citar directamente [de esta publicación](https://stats.stackexchange.com/questions/2492/is-normality-testing-essentially-useless) con validación cruzada, que desglosa cómo pensar sobre las pruebas de normalidad.

> Es un hecho (un poco explícito) que las pruebas de normalidad formales siempre rechazan los enormes tamaños de muestra con los que trabajamos hoy. Incluso es fácil demostrar que cuando n aumenta, incluso la desviación más pequeña de la normalidad perfecta conducirá a un resultado significativo. Y como cada conjunto de datos tiene cierto grado de aleatoriedad, ningún conjunto de datos será una muestra perfectamente distribuida normalmente. Pero en las estadísticas aplicadas, la cuestión no es si los datos / residuos (en el caso de unaregresion) ... son perfectamente normales, sino lo suficientemente normales para que se mantengan las suposiciones.


















## 1.Shapiro-Wilk

Las pruebas de Shapiro-Wilk si una muestra aleatoria proviene de una distribución normal. La hipótesis nula de la prueba es que los datos se distribuyen normalmente. Si el valor p devuelto es menor que 05, entonces se rechaza la hipótesis nula y hay evidencia de que los datos no provienen de una población distribuida normalmente.

Sin embargo, es completamente posible que para p> 0.05 y los datos no provengan de una población normal. El rechazo podría deberse a que el tamaño de la muestra es demasiado pequeño para detectar la no normalidad. Por lo tanto, tenga esto en cuenta al interpretar los resultados.

Además, el método stats.shapiro arrojará una advertencia en las muestras de tamaño> 5000. Por lo tanto, para conjuntos de datos más grandes que ese, es posible que desee elegir otra prueba de normalidad.

Como podemos ver en los ejemplos siguientes, tenemos muestras aleatorias de una variable aleatoria normal donde n = [10, 50, 100, 1000] y la prueba de Shapiro-Wilk puede rechazar alguna de ellas. Por lo tanto, es posible que tengamos que usar alguna medida adicional para ver si la hipótesis nula para de alguna de ellas debería/podria ser rechazada.

In [None]:
from scipy import stats
import matplotlib.pyplot as plt
import numpy as np

# Set style
plt.style.use('ggplot')

# Start with shaprio

# mean = loc, scale = sd, size = n
x_10 = stats.norm.rvs(loc=5, scale=3, size=10)
x_50 = stats.norm.rvs(loc=5, scale=3, size=50)
x_100 = stats.norm.rvs(loc=5, scale=3, size=100)
x_1000 = stats.norm.rvs(loc=5, scale=3, size=1000)

def four_plots():
    plt.subplot(2, 2, 1)
    plt.hist(x_10)
    plt.title('Histograma para: x_10')
    plt.subplot(2, 2, 2)
    plt.hist(x_50)
    plt.title('Histograma para: x_50')
    plt.subplot(2, 2, 3)
    plt.hist(x_100)
    plt.title('Histograma para: x_100')
    plt.subplot(2, 2, 4)
    plt.hist(x_1000)
    plt.title('Histograma para: x_1000')
    plt.suptitle('Muestreo de Variables Aleatorias Normales: x_N', fontsize=14)
    plt.show()
    

plt.figure(figsize=(18,10))
four_plots()

# Perform test
print(stats.shapiro(x_10))
print(stats.shapiro(x_50))
print(stats.shapiro(x_100))
print(stats.shapiro(x_1000))

def accept_reject(shaprio):
    if shaprio[1] > .05 :
        output  = "No rechaces la hipótesis de la normalidad"
    else:
        output = "Rechazar la hipótesis de normalidad"
    return output

print("Para x_10: ", accept_reject(stats.shapiro(x_10)))
print("Para x_50: ",  accept_reject(stats.shapiro(x_50)))
print("Para x_100: ",  accept_reject(stats.shapiro(x_100)))
print("Para x_1000: ",  accept_reject(stats.shapiro(x_1000)))

Veamos el primer método de visualización, el diagrama de caja, para ver si podemos respaldar los resultados de esta prueba. Estas gráficas no deben usarse únicamente para detectar la normalidad, sino para buscar simetría, asimetría y valores atípicos para dar indicaciones de no normalidad. En general, los gráficos de diagrama de caja no son muy informativos para comprender la normalidad y se han incluido para completar estenotebook de la clase.

In [None]:
# hechemos una vistazo a los box plots
def four_box():
    plt.subplot(2, 2, 1)
    plt.boxplot(x_10)
    plt.title('Boxplot para: x_10')
    plt.subplot(2, 2, 2)
    plt.boxplot(x_50)
    plt.title('Boxplot para: x_50')
    plt.subplot(2, 2, 3)
    plt.boxplot(x_100)
    plt.title('Boxplot para: x_100')
    plt.subplot(2, 2, 4)
    plt.boxplot(x_1000)
    plt.title('Boxplot para: x_1000')
    plt.suptitle('Variables normales muestreadas aleatoriamente: x_N', fontsize=14)
    plt.show()
    

plt.figure(figsize=(18,10))
four_box()

Analisis de los boxplots : 

Valores Atipicos ? 
Simetria ? 

¿Qué hay que mirar el gráfico QQ?

El nombre formal es la gráfica de cuantiles-cuantiles (QQ) y determina si dos conjuntos de datos diferentes, el que usted proporciona y un conjunto distribuido normalmente, provienen de una población con distribuciones comunes.

Un cuantil es el porcentaje de puntos por debajo del valor dado. Si las dos distribuciones que se comparan son de una distribución común, los puntos de la grafica QQ aproximadamente se encontrarán en una línea, pero no necesariamente en la línea y = x. Debido a que las muestras tienen una media de 4 y una sd de 3, se usó el parámetro _line = 's'_ para nuestro gráfico. La _s_ es una línea estandarizada para el orden esperado de las estadísticas, escalado por la desviación estándar de nuestras muestras con la media agregada. Básicamente, coloca la línea donde debe estar para comparar nuestros datos con lo que se esperaría de una distribución normal.

In [None]:
# QQ PLOT
import statsmodels.api as sm
import pylab

sm.qqplot(x_10, loc = 4, scale = 3, line='s')
sm.qqplot(x_50, loc = 4, scale = 3, line='s')
sm.qqplot(x_100, loc = 4, scale = 3, line='s')
sm.qqplot(x_1000, loc = 4, scale = 3, line='s')
pylab.show()

La gráfica QQ es una visualización mucho mejor de nuestros datos, brindándonos más certeza sobre la normalidad. A partir del gráfico QQ para x_50 podemos estar más seguros de que nuestros datos son normales, en lugar de depender simplemente del valor p de la prueba de Shapiro-Wilk o el gráfico de caja.

Solo para ver cómo se vería un gráfico QQ en datos que no se distribuyen normalmente, generemos un gráfico para una distribución bimodal.


In [None]:
# Creamos un conjunto de datos bimodal
N = 10000
x_bimodal = np.concatenate((np.random.normal(-1, 1, int(0.1 * N)),
                    np.random.normal(5, 1, int(0.4 * N))))[:, np.newaxis]
# Ahora lo graficamos
res = plt.hist(x_bimodal, bins=100)
sm.qqplot(x_bimodal[:,0], line='s')

Podemos ver claramente de la gráfica QQ, que podemos rechazar cualquier noción de que x_bimodal se recopiló de una muestra normal. Como referencia, aquí hay una visualización de gráficos QQ con diferentes tipos de datos.

![](https://miro.medium.com/max/475/0*EfnZXzw3KDz-HN19.png)

La prueba de Shapiro-Wilk es popular para determinar la normalidad y generalmente funciona muy bien, pero no es universalmente mejor. Debe conocer las limitaciones mencionadas anteriormente y utilizar métodos adicionales para verificar sus resultados.

## 2.Kolmogorov-Smirnov
Las pruebas de Kolmogorov-Smirnov si una distribución muestral se ajusta a una función de distribución acumulada (CDF) de una distribución referenciada. O, si el CDF entre dos muestras diferentes encaja entre sí. Estos no son necesariamente solo para distribuciones normales, pero los usaremos en nuestro ejemplo. Básicamente, estamos probando los datos de la muestra con otra muestra, para comparar sus distribuciones en busca de similitudes.

Similar a Shapiro-Wilk, nuestra hipótesis nula para nuestra muestra es que la distribución es idéntica a la otra distribución con la que la estamos probando. Si p-value < 0.05 podemos rechazar la hipotesis nula y concluir que nuestra distribución muestral no es idéntica a una distribución normal.

























In [None]:
# Prueba de KS contra una distribución normal con media = 5 y sd = 3
print(stats.kstest(x_10, 'norm', args=(5, 3)))
print(stats.kstest(x_50, 'norm', args=(5, 3)))
print(stats.kstest(x_100, 'norm', args=(5, 3)))
print(stats.kstest(x_1000, 'norm', args=(5, 3)))


Parece que nuestros resultados nos dicen que no rechacemos la hipótesis nula para todo x_N, sin embargo, x_50 está justo en la cerca. Probablemente se deba a que x_50 no tiene suficientes datos para juzgar con precisión si procede de la misma distribución. Veamos cómo se vería gráficamente al comparar los CDF de la muestra con una variable normal muestreada con la misma desviación estándar y media.

Ahora tiene más sentido que el valor p estuviera tan cerca de la región de rechazo, dada la gran desviación de las dos líneas CDF. Veamos el mismo gráfico CDF, excepto x_100.




In [None]:
def ks_plot_norm(data):
    length = len(data)
    plt.figure(figsize=(12, 7))
    plt.plot(np.sort(x_100), np.linspace(0, 1, len(x_100), endpoint=False))
    plt.plot(np.sort(stats.norm.rvs(loc=5, scale=3, size=100)), np.linspace(0, 1, len(x_100), endpoint=False))
    plt.legend('top right')
    plt.legend(['Data', 'Valores teoricos'])
    plt.title('Comparando Funciones de distribucion paral a prueba de KS')
    
ks_plot_norm(x_100)

Se ve mucho mejor ahora que la prueba KS tiene más datos para comparar, lo que tiene sentido ya que x_50 tiene menos muestras que x_100.

Realicemos la misma prueba, esta vez con variables uniformes contrastadas con una distribución uniforme. No deberíamos ver rechazada la hipótesis nula.


In [None]:
# probemos con una distribucion uniforme
x_uni = np.random.rand(1000)
stats.kstest(x_uni, lambda x: x)

¿Cómo se vería nuestro gráfico CDF de prueba KS si comparamos nuestro x_100 con los datos bimodales que generamos anteriormente? Deberíamos esperar grandes desviaciones de cada CDF y una prueba KS que rechaza la hipótesis nula.


In [None]:
# generamos una binomial
N = 100
x_bimodal_100 = np.concatenate((np.random.normal(-1, 1, int(0.1 * N)),
                    np.random.normal(5, 1, int(0.4 * N))))[:, np.newaxis]
# Plot the CDFs
def ks_plot_comp(data_1, data_2):
    '''
    Los datos ingresados deben ser del mismo tamaño.
    '''
    length = len(data_1)
    plt.figure(figsize=(12, 7))
    plt.plot(np.sort(data_1), np.linspace(0, 1, len(data_1), endpoint=False))
    plt.plot(np.sort(data_2), np.linspace(0, 1, len(data_2), endpoint=False))
    plt.legend('top right')
    plt.legend(['Data_1', 'Data_2'])
    plt.title('Comparamos dos  funciones de distribucion para la prueba de KS')
    
ks_plot_comp(x_100, x_bimodal_100[:,0])

Podemos ver que x_100 y x_bimodal_100 divergen considerablemente, por lo que la prueba de Kolmogorov-Smirnov proporciona un valor p que rechaza la hipótesis nula.


In [None]:
# Comprueba si las distribuciones son iguales
stats.ks_2samp(x_100, x_bimodal_100[:,0])


## 3.Anderson-Darling

Anderson-Darling prueba si los datos provienen de una distribución particular. La hipótesis nula, similar a las dos pruebas anteriores, es que la muestra proviene de una población que sigue una distribución particular. En este caso, probaremos si nuestros datos provienen de una distribución normal.

La ventaja aquí es que esta es una prueba más sensible para verificar diferentes distribuciones. Sin embargo, los valores críticos deben calcularse para cada distribución, por lo que podría ser más complicado determinar los valores de las diferentes distribuciones. El paquete python permite que estas distribuciones diferentes (normal, exponencial, logística, etc.) se prueben con el parámetro dist.







In [None]:
# Prueba AD
anderson_results_10 = stats.anderson(x_10, dist='norm')
anderson_results_50 = stats.anderson(x_50, dist='norm')
anderson_results_100 = stats.anderson(x_100, dist='norm')
anderson_results_1000 = stats.anderson(x_1000, dist='norm')
print(anderson_results_10)
print(anderson_results_50)
print(anderson_results_100)
print(anderson_results_1000)

Los resultados nos dan los valores p para varios niveles de significancia [15. , 10., 5., 2.5, 1.] por lo que si está trabajando con límites fuera de .05, también puede ver esos resultados.

Aquí nuestro valor p para .05 está fuera de la región de rechazo de 0.784, lo que significa que no podemos rechazar la hipótesis nula de que nuestros datos provienen de una distribución normal. De nuevo lo que hubiéramos esperado

---

Y ahí lo tienes, tres pruebas diferentes y algunas medidas gráficas para ver si tus datos se distribuyen normalmente. Además, algunos métodos para ver si sus datos se distribuyen de diferentes formas.

La principal lección de este notebook es comprender qué significan sus pruebas de normalidad, por qué implementarlas y cuándo ser escéptico con ellas. No existe una mejor prueba de normalidad y es bueno sospechar de los resultados hasta que pueda verificarlos mediante medidas adicionales.