In [1]:
import numpy as np
import pandas as pd
from instancias_shapiro import amostra_normal, amostra_gamma, amostra_quiquadrada

# Teste de Shapiro-Wilk

In [2]:
coeficientes_Ain = pd.read_csv('Coeficiente_Ain_Shapiro.csv', sep=';', decimal=',')
tabela_Wcrit = pd.read_csv('tabela_Wcrit_Shapiro.csv', sep=';', decimal=',')
coeficientes_Ain

Unnamed: 0,i/n,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,30
0,1,,0.7071,0.7071,0.6872,0.6646,0.6431,0.6233,0.6052,0.5888,...,0.4643,0.459,0.4542,0.4493,0.445,0.4407,0.4366,0.4328,0.4291,0.4254
1,2,,,0.0,0.1677,0.2413,0.2806,0.3031,0.3164,0.3244,...,0.3185,0.3156,0.3126,0.3098,0.3069,0.3043,0.3018,0.2992,0.2968,0.2944
2,3,,,,,0.0,0.0875,0.1401,0.1743,0.1976,...,0.2578,0.2571,0.2563,0.2554,0.2543,0.2533,0.2522,0.251,0.2499,0.2487
3,4,,,,,,,0.0,0.0561,0.0947,...,0.2119,0.2131,0.2139,0.2145,0.2148,0.2151,0.2152,0.2151,0.215,0.2148
4,5,,,,,,,,,0.0,...,0.1736,0.1764,0.1787,0.1807,0.1822,0.1836,0.1848,0.1857,0.1864,0.187
5,6,,,,,,,,,,...,0.1399,0.1443,0.148,0.1512,0.1539,0.1563,0.1584,0.1601,0.1616,0.163
6,7,,,,,,,,,,...,0.1092,0.115,0.1201,0.1245,0.1283,0.1316,0.1346,0.1372,0.1395,0.1415
7,8,,,,,,,,,,...,0.0804,0.0878,0.0941,0.0997,0.1046,0.1089,0.1128,0.1162,0.1192,0.1219
8,9,,,,,,,,,,...,0.053,0.0618,0.0696,0.0764,0.0823,0.0876,0.0923,0.0965,0.1002,0.1036
9,10,,,,,,,,,,...,0.0263,0.0368,0.0459,0.0539,0.061,0.0672,0.0728,0.0778,0.0822,0.0862


In [3]:
# Processo de limpeza dos dados da tabela Wcrit
tabela_Wcrit = tabela_Wcrit.drop(['Unnamed: 10'], axis=1)
tabela_Wcrit = tabela_Wcrit.drop(28)
tabela_Wcrit["tamanho n"] = tabela_Wcrit["tamanho n"].astype(int)
tabela_Wcrit

Unnamed: 0,tamanho n,0.01,0.02,0.05,0.1,0.5,0.9,0.95,0.98,0.99
0,3,0.753,0.758,0.767,0.789,0.959,0.998,0.999,1.0,1.0
1,4,0.687,0.707,0.748,0.792,0.935,0.987,0.992,0.996,0.997
2,5,0.686,0.715,0.762,0.806,0.927,0.979,0.986,0.991,0.993
3,6,0.713,0.743,0.788,0.826,0.927,0.974,0.981,0.936,0.989
4,7,0.73,0.76,0.803,0.838,0.928,0.972,0.979,0.985,0.988
5,8,0.749,0.778,0.818,0.851,0.932,0.972,0.978,0.984,0.987
6,9,0.764,0.791,0.829,0.859,0.935,0.972,0.978,0.984,0.986
7,10,0.781,0.806,0.842,0.869,0.938,0.972,0.978,0.983,0.986
8,11,0.792,0.817,0.85,0.876,0.94,0.973,0.979,0.984,0.986
9,12,0.805,0.828,0.859,0.883,0.943,0.973,0.979,0.984,0.986


In [4]:
def shapiro_wilk(lista_de_valores, tabela_de_coeficientes_Ain, alpha, tabela_Wcrit):
    lista_de_valores = sorted(lista_de_valores)
    # Encontrando o valor de n (tamanho da amostra)
    n = len(lista_de_valores)
    if n > 30 or n < 3:
        return 'Erro: Amostra maior que 30 ou menor que 3.'
    # Encontrando o valor de i
    i_ = [i for i in range(1, (n//2) + 1)]
    # Encontrando o valor de n - (i - 1)
    n_menos_i_menos_1 = []
    for i in i_:
        n_menos_i_menos_1.append(n - (i -1))
    # Encontrando o valor de Ai,n
    Ain = []
    for i in range(1, (n//2) + 1):
        Ain.append(tabela_de_coeficientes_Ain.loc[(i-1, str(n))])
    """Primeiro índice é a linha, o segundo é a coluna. Se i = 1 e n = 24 então na tabela será o valor
       A1,24. (i = 1 corresponde a linha 0)"""

    # Encontrando o valor de X(n-(i-1)) na lista de valores
    X_n_menos_i_menos_1 = []
    for i in range(1, (n//2) + 1):
        X_n_menos_i_menos_1.append(lista_de_valores[n - (i - 1) - 1]) 
    """-1 pois o índice começa em 0, não existe o 24"""


    # Encontrando o valor de Xi na lista de valores
    Xi = []
    for i in i_:
        Xi.append(lista_de_valores[i - 1])

    # Encontrando o valor de Ai,n vezes (X(n-(i-1)) - Xi))))
    
    valores_Bi = []
    soma_Bi = 0
    for i in range(1, (n//2) + 1):
        valores_Bi.append(Ain[i-1] * (X_n_menos_i_menos_1[i-1] - Xi[i-1]))
        soma_Bi += valores_Bi[i-1]
    
    # Encontrando o valor amostral dos desvios absolutos ao quadrado (ou a variância vezes n-1)
    denominador_do_Wcalc = np.var(lista_de_valores, ddof=1) * (n - 1) #ddof=1 para usar a variância amostral
    # Encontrando o valor do Wcalculado
    Wcalc = (soma_Bi**2) / denominador_do_Wcalc
    # Encontrando o valor do Wtabelado (Wcritico)
    Wcrit = tabela_Wcrit.loc[(n-3, str(alpha))] 
    """"n-3 pois estou pegando pelo índice criado pelo dataframe, que começa em 0. Uma amostra de tamanho
    3 corresponde ao índice 0, uma de tamanho 4 corresponde ao índice 1, e assim por diante."""
    
    resultado = []
    if Wcrit < Wcalc:
        print("Wcrit = %.4f < Wcalc = %.4f" % (Wcrit, Wcalc))
        print(f"Aceito a hipótese H0 que a amostra segue uma distribuição normal N({np.mean(lista_de_valores), np.var(lista_de_valores)}).")
        resultado.append(1)
    else:
        print("Wcrit = %.4f > Wcalc = %.4f" % (Wcrit, Wcalc))
        print("Rejeito a hipótese H0 que a amostra segue uma distribuição normal")
        resultado.append(0)
    


    # Criando um dataframe no pandas com todas as colunas
    #df = pd.DataFrame({'i' : i_, 'n - (i - 1)' : n_menos_i_menos_1, 'Ai,n' : Ain, 'X(n-(i-1))' : X_n_menos_i_menos_1,
                        #'Xi' : Xi, 'Valores Bi' : valores_Bi})
    
    return resultado

In [5]:
valores = [15, 16, 18, 19, 20, 22, 23, 23, 24, 24, 25, 28, 28, 29, 30, 30, 31, 32, 32, 34, 36, 36, 39, 46]
alpha = 0.01
shapiro_wilk(valores, coeficientes_Ain, alpha, tabela_Wcrit)

Wcrit = 0.8840 < Wcalc = 0.9776
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((27.5, 55.75)).


[1]

In [6]:
amostra = np.random.normal(loc=10, scale=2, size=28)
shapiro_wilk(amostra, coeficientes_Ain, alpha, tabela_Wcrit)

Wcrit = 0.8960 < Wcalc = 0.9495
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((10.01678159212159, 2.6011015782944007)).


[1]

In [7]:
conjunto_de_amostras_normais = amostra_normal()
resultados = []
for amostra in conjunto_de_amostras_normais:
    resultados.append(shapiro_wilk(amostra, coeficientes_Ain, alpha, tabela_Wcrit))
print(resultados)

Wcrit = 0.8350 < Wcalc = 0.9556
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((9.82823561590022, 5.840652504152585)).
Wcrit = 0.7810 < Wcalc = 0.9678
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((16.090927918619222, 22.374951305235022)).
Wcrit = 0.7640 < Wcalc = 0.9381
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((22.410171864646813, 13.676146678689257)).
Wcrit = 0.7300 < Wcalc = 0.8883
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((26.071781247725625, 30.667450921630643)).
Wcrit = 0.6860 < Wcalc = 0.9635
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((34.12630230990656, 33.422943889991764)).
Wcrit = 0.8140 < Wcalc = 1597517.9083
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((33.823100969369655, 62.735185846667825)).
Wcrit = 0.8140 < Wcalc = 1162029.1440
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((40.25905369080359, 50.14314210937634)).


In [20]:
resultados = []
conjunto_de_amostras_gamma = amostra_gamma()
for amostra in conjunto_de_amostras_gamma:
    resultados.append(shapiro_wilk(amostra, coeficientes_Ain, alpha, tabela_Wcrit))
print(resultados)

Wcrit = 0.9000 < Wcalc = 0.9584
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((2.6741160505587422, 2.152177739723909)).
Wcrit = 0.9000 > Wcalc = 0.8900
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.9000 < Wcalc = 0.9155
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((4.392939778978809, 9.20981417253408)).
Wcrit = 0.9000 > Wcalc = 0.7851
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.9000 < Wcalc = 0.9180
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((1.797062730491835, 1.5967081272934953)).
Wcrit = 0.9000 < Wcalc = 0.9705
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((5.888439901710417, 7.509307350735248)).
Wcrit = 0.9000 > Wcalc = 0.8960
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.9000 > Wcalc = 0.8151
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.9000 < Wcalc = 0.9490
Aceito a hipóte

In [15]:
resultados = []
conjunto_de_amostras_quiquad = amostra_quiquadrada()
for amostra in conjunto_de_amostras_quiquad:
    resultados.append(shapiro_wilk(amostra, coeficientes_Ain, alpha, tabela_Wcrit))
print(resultados)

Wcrit = 0.8880 > Wcalc = 0.8393
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.8880 < Wcalc = 0.8883
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((1.376780597986693, 1.2004127904732431)).
Wcrit = 0.8880 > Wcalc = 0.8149
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.8880 > Wcalc = 0.8681
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.8880 < Wcalc = 0.8910
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((1.7895693268372121, 2.196323374222888)).
Wcrit = 0.8880 < Wcalc = 0.9292
Aceito a hipótese H0 que a amostra segue uma distribuição normal N((1.8313980843978268, 1.987716167200855)).
Wcrit = 0.8880 > Wcalc = 0.8489
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.8880 > Wcalc = 0.8831
Rejeito a hipótese H0 que a amostra segue uma distribuição normal
Wcrit = 0.8880 > Wcalc = 0.8682
Rejeito a hipótese H0 que a amostra segue uma distribui