In [1]:
import pandas as pd
import numpy as np
from numpy.random import randn, poisson, seed
import scipy
from scipy.stats import shapiro
import plotly.express as px
import plotly.graph_objects as go

In [2]:
# Generar datos de ejemplo
np.random.seed(42)
data = np.random.normal(loc=50, scale=10, size=1000)

# Crear el histograma
fig = px.histogram(data, nbins=30, histnorm='probability density')

# Agregar la curva de densidad
fig.add_trace(
    go.Scatter(
        x=np.linspace(min(data), max(data), 1000),
        y=scipy.stats.norm.pdf(np.linspace(min(data), max(data), 1000), loc=50, scale=10),
        mode='lines',
        name='Curva de Densidad'
    )
)

fig.show()

In [3]:
min(data), max(data)

(17.58732659930927, 88.52731490654722)

# Shapiro-Wilk Test 

## Shapiro-Wilk test using shapiro() function

In this approach, the user needs to call the shapiro() function with the required parameters from the scipy.stats library to conduct the Shapiro-Wilk test on the given data in the python programming language.

## This is a hypotheses test and the two hypotheses are as follows:

$H_0$ (Accepted): Sample is from the normal distributions.(Po>0.05) <br>
$H_1$ (Rejected): Sample is not from the normal distributions.

### Example 1: Shapiro-Wilk test on the normally distributed sample in Python

In [4]:
# Create data
data = randn(1000)

promedio_data = np.mean(data)
varianza_data = np.std(data)
promedio_data, varianza_data

(0.07083623724915591, 0.9969555252946303)

In [5]:
# Crear el histograma
fig = px.histogram(data, nbins=30, histnorm='probability density')

# Agregar la curva de densidad
fig.add_trace(
    go.Scatter(
        x=np.linspace(min(data), max(data), 1000),
        y=scipy.stats.norm.pdf(np.linspace(min(data), max(data), 1000), loc=promedio_data, scale=varianza_data),
        mode='lines',
        name='Curva de Densidad'
    )
)

fig.show()

In [6]:
# conduct the  Shapiro-Wilk Test
st, p_val = shapiro(data)
st, p_val

(0.9987643361091614, 0.73152756690979)

**Output Interpretation:**

In [7]:
# decition 
if p_val >= 0.05:
    print(f'''
            P-value: {p_val:.3f} 
            No rechazar la hipótesis nula: No se puede rechazar la hipótesis de que los datos provengan 
            de una distribución normal. Es decir, no hay suficiente evidencia para afirmar que la 
            distribución es diferente de la normal.
        ''')
else:
    print(f'''
            P-value: {p_val:.3f} 
            Rechazar la hipótesis nula: Se concluye que los datos no provienen de una distribución normal. 
            Es decir, existe evidencia estadísticamente significativa para afirmar que la distribución de los 
            datos es diferente de la normal.
        ''')


            P-value: 0.732 
            No rechazar la hipótesis nula: No se puede rechazar la hipótesis de que los datos provengan 
            de una distribución normal. Es decir, no hay suficiente evidencia para afirmar que la 
            distribución es diferente de la normal.
        


### Example 2: Shapiro-Wilk test on not normally distributed sample in Python

In [8]:
seed(0)

# Create data
data = poisson(5, 10000)

promedio_data = np.mean(data)
varianza_data = np.std(data)
promedio_data, varianza_data

(4.9757, 2.23166070673837)

In [9]:
# Crear el histograma
fig = px.histogram(data, nbins=30, histnorm='probability density')

# Agregar la curva de densidad
fig.add_trace(
    go.Scatter(
        x=np.linspace(min(data), max(data), 1000),
        y=scipy.stats.norm.pdf(np.linspace(min(data), max(data), 1000), loc=promedio_data, scale=varianza_data),
        mode='lines',
        name='Curva de Densidad'
    )
)

fig.show()

In [10]:
# conduct the  Shapiro-Wilk Test
st, p_val = shapiro(data)
st, p_val


p-value may not be accurate for N > 5000.



(0.9693725109100342, 1.3819605455171346e-41)

In [11]:
# decition 
if p_val >= 0.05:
    print(f'''
            P-value: {p_val:.3f} 
            No rechazar la hipótesis nula: No se puede rechazar la hipótesis de que los datos provengan 
            de una distribución normal. Es decir, no hay suficiente evidencia para afirmar que la 
            distribución es diferente de la normal.
        ''')
else:
    print(f'''
            P-value: {p_val:.3f} 
            Rechazar la hipótesis nula: Se concluye que los datos no provienen de una distribución normal. 
            Es decir, existe evidencia estadísticamente significativa para afirmar que la distribución de los 
            datos es diferente de la normal.
        ''')


            P-value: 0.000 
            Rechazar la hipótesis nula: Se concluye que los datos no provienen de una distribución normal. 
            Es decir, existe evidencia estadísticamente significativa para afirmar que la distribución de los 
            datos es diferente de la normal.
        
