# Teste de Shapiro-Wilk

O teste de Shapiro-Wilk considera as seguintes hipóteses

## Importação de Bibliotecas

In [None]:
pip install --upgrade openpyxl

In [188]:
import pandas as pd
import numpy as np
import random
import statistics
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns

## Amostragem

*Escolha das amostras*

Distribuição Binomial

Distribuição Normal

Distribuição Poisson

Distribuição Lognormal

Amostra aleatória (sem especificação de distribuição)

In [189]:
# Definir a semente para garantir a reprodutibilidade
seeds = list(range(10))
numeros = list(range(7,19))

size_amostra = 10

# Listas para armazenar as amostras geradas
amostras_aleatorias = [] #amostra aleatória simples
amostras_lognormal = []
amostras_binomial = []
amostras_poisson = []
amostras_normal = []

# Gerar as amostras com seeds diferentes
for seed in seeds:
    random_state = np.random.RandomState(seed)
    amostra_aleatoria = random_state.choice(numeros, size_amostra)  # Amostra aleatória de 10 números
    amostra_lognormal = random_state.lognormal(25, 2, size_amostra)  # Distribuição log-normal com média 0 e desvio padrão 1
    amostra_binomial = random_state.binomial(10, 0.5, size_amostra)  # Distribuição binomial com 10 tentativas e probabilidade de sucesso 0.5
    amostra_poisson = random_state.poisson(2, size_amostra)  # Distribuição de Poisson com lambda = 2
    amostra_normal = random_state.normal(6, 1.5, size_amostra)  # Distribuição normal 
    
    amostras_aleatorias.append(amostra_aleatoria)
    amostras_lognormal.append(amostra_lognormal)
    amostras_binomial.append(amostra_binomial)
    amostras_poisson.append(amostra_poisson)
    amostras_normal.append(amostra_normal)




In [190]:
def transforma_lista_em_dataframe(amostras):
    df = pd.DataFrame(amostras)
    df.columns = ['X_i']
    df = df.sort_values(by='X_i').reset_index(drop=True)
    return df

df_aleatorias = transforma_lista_em_dataframe(amostras_aleatorias[0])

In [191]:
df_aleatorias

Unnamed: 0,X_i
0,7
1,9
2,10
3,10
4,10
5,12
6,12
7,14
8,16
9,18


## Calculando Dcalc

In [192]:
try:
    coeficient_table = pd.read_excel(open('Shapiro-Wilk-Tables.xlsx','rb'),sheet_name='SW Table',header=4,nrows=24)
except Exception as e:
    print("Ocorreu um erro ao ler o arquivo XLSX",e)

In [193]:
# Tratamento de valores NaN
coeficient_table = coeficient_table.fillna(0)

$W_{calc}=\frac{b^2}{\sum_{i=1}^{n}(X_i-\overline{X})^2}\quad para\quad i=1,...,n\\
b= \sum_{i}^{\frac{n}{2}}a_{i,n}(X_{(n-i-1)}-X_{(i)})$

In [110]:
df_aleatorias['X_i']

0     7
1     9
2    10
3    10
4    10
5    12
6    12
7    14
8    16
9    18
Name: X_i, dtype: int32

In [249]:
# Calculando b
n = 10
n_sobre_2 = int(n/2)
b = 0

for i in range(5):
    a = coeficient_table.iloc[i,n-1]
    dif = (df_aleatorias['X_i'][n-i-1]-df_aleatorias['X_i'][i])
    b += a*dif



In [260]:
amostras_aleatorias[0]

array([12,  7, 10, 18, 10, 14, 16, 10, 12,  9])

In [267]:
b

9.797600000000001

In [257]:
df_aleatorias

Unnamed: 0,X_i
0,7
1,9
2,10
3,10
4,10
5,12
6,12
7,14
8,16
9,18


In [261]:
media = amostras_aleatorias[0].mean()
media

11.8

In [262]:
numerador = np.power(b,2)

denominador = sum([(amostras_aleatorias[0][i] - media)**2 for i in range(len(df_aleatorias))])

Wcalc = numerador/denominador

Wcalc


0.9448126551181103

In [253]:
denominador

84.4

## Valor crítico
n = 10 e a = 1% (0.01)

Olhando na tabela,
Wc = 0.781

In [265]:
Wc = 0.781
if Wcalc > Wc:
    print(f"{Wcalc} > {Wc:.3f}")
    print("A hipótese nula é aceita, logo os dados são normais")
else:
    print(f"{Wcalc} < {Wc:.3f}")
    print("A hipótese nula é rejeitada, logo os dados não são normais")

0.9448126551181103 > 0.781
A hipótese nula é aceita, logo os dados são normais


Utilizando a biblioteca Stats do Scipy

In [266]:
from scipy import stats

res = stats.shapiro(amostras_aleatorias[0])
res

ShapiroResult(statistic=0.9446595907211304, pvalue=0.6059240698814392)