<a href="https://colab.research.google.com/github/erlonL/testes-inferencia/blob/main/Teste_KolmogorovSmirnov.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Teste de Kolmogorov Smirnov

### Grupo: Erlon Lacerda , Maria Eduarda Bandeira

## Implementação

Xi | Fabs | Fac | Fobs | Zi | Fesp | |Fesp(Xi) - Fobs(Xi)| | |Fesp(Xi) - Fobs(Xi-1)|

Xi: Os valores únicos do conjunto utilizado

Fabs: Quantidade de vezes que esse valor se repete na amostra

Fac: Frequencia acumulada da frequencia absoluta

Fobs: Frequencia acumulada dividido pela quantidade de valores

Zi: valor x seguindo a distribuição normal

Fesp: Valor de Zi na tabela normal

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
# Gerando os valores aleatórios
valores = np.random.normal(10, 25, size=(100)).astype(int)

In [3]:
valores

array([ 28,  -6,  42,  39,  20,  45,   2,  32,  47,   5,  -4,  39,  24,
        -1,  -2,  -6, -21,  30,  28,  12, -10,  39, -13,  21,  -5,  36,
        54,  48,  55,   9,  72, -21,  52,  36,  22,   0, -12,  27,  37,
         0,  16, -24,  18, -14, -53,  41,  22,  -9,   7,  -2,  46,   4,
         6,   9,  43,  39, -24,  -5, -55,  19,  44,  42,  25,  42, -22,
         4,  44,  -3,  -8,  25,  12,   0,  38,  -1,   1,  45, -17, -10,
         0, -37, -10,  42, -10, -27,   0,  15,  -7,  46,  35, -28,   8,
       -20,  17,   6, -12,  35,  50,  17,  37,  29])

In [5]:
# criando uma lista dos valores únicos do conjunto
xi = list(set(valores))

In [6]:
# Informações importantes sobre o conjunto de valores
media = np.mean(valores)
var = np.var(valores)
dp = np.std(valores)
cont = len(valores)
cont_unicos = len(xi)

print(' Média: ', media, '\n', 'Variância: ', var, '\n', 'Desvio Padrão: ', dp, '\n', 'Contagem: ', cont, '\n', 'Contagem de valores unicos: ', cont_unicos)

 Média:  13.31 
 Variância:  656.3939 
 Desvio Padrão:  25.620185401358828 
 Contagem:  100 
 Contagem de valores unicos:  66


In [7]:
tabela = pd.DataFrame()

In [8]:
colunas = ['Xi',
           'Fabs',
           'Fac',
           'Fobs',
           'Zi',
           'Fesp',
           '|Fesp(Xi) - Fobs(Xi)|',
           '|Fesp(Xi) - Fobs(Xi-1)|']

In [9]:
tabela = pd.DataFrame(columns=colunas)

In [10]:
tabela['Xi'] = xi

In [11]:
# Frequência absoluta: contagem de vezes que o valor aparece na amostra
fabs = pd.value_counts(valores)

In [12]:
fabs

 0     5
-10    4
 42    4
 39    4
 28    2
      ..
 18    1
-14    1
-53    1
 41    1
 29    1
Length: 66, dtype: int64

In [13]:
# dicionário para mapear os valores de 'Xi' para 'Fabs'
mapa_valores = dict(zip(fabs.index, fabs.values))

# 'Fabs' com base no mapeamento
tabela['Fabs'] = tabela['Xi'].map(mapa_valores)

In [15]:
# Frequência acumulada
tabela['Fac'] = tabela['Fabs'].cumsum()

In [16]:
# Frequência observada: frequência acumulada dividida pelo número de valores na amostra
tabela['Fobs'] = tabela['Fac'] / cont

In [17]:
# Zi: valor do xi seguindo a distribuição normal
tabela['Zi'] = (tabela['Xi'] - media) / dp

In [18]:
# Frequência esperada: valor do zi na tabela normal
tabela['Fesp'] = stats.norm.cdf(tabela['Zi'])

In [19]:
# diferença entre 'Fesp' e 'Fobs'
tabela['|Fesp(Xi) - Fobs(Xi)|'] = abs(tabela['Fesp'] - tabela['Fobs'])

In [22]:
# diferença entre 'Fesp' e 'Fobs' deslocando 'Fobs' em uma posição
tabela['|Fesp(Xi) - Fobs(Xi-1)|'] = abs(tabela['Fesp'] - tabela['Fobs'].shift(fill_value=0))

In [23]:
tabela

Unnamed: 0,Xi,Fabs,Fac,Fobs,Zi,Fesp,|Fesp(Xi) - Fobs(Xi)|,|Fesp(Xi) - Fobs(Xi-1)|
0,0,5,5,0.05,-0.519512,0.301702,0.251702,0.301702
1,1,1,6,0.06,-0.480481,0.315443,0.255443,0.265443
2,2,1,7,0.07,-0.441449,0.329444,0.259444,0.269444
3,4,2,9,0.09,-0.363385,0.358159,0.268159,0.288159
4,5,1,10,0.10,-0.324354,0.372835,0.272835,0.282835
...,...,...,...,...,...,...,...,...
61,-6,2,94,0.94,-0.753703,0.225514,0.714486,0.694486
62,-5,2,96,0.96,-0.714671,0.237406,0.722594,0.702594
63,-4,1,97,0.97,-0.675639,0.249635,0.720365,0.710365
64,-3,1,98,0.98,-0.636607,0.262190,0.717810,0.707810


In [24]:
Dcalc = max([max(tabela['|Fesp(Xi) - Fobs(Xi-1)|']), max(tabela['|Fesp(Xi) - Fobs(Xi)|'])])
Dcalc

0.7249384558858003

In [25]:
def kolmogorov_smirnov_critico(n):
    # table of critical values for the kolmogorov-smirnov test - 95% confidence
    # Source: https://www.soest.hawaii.edu/GG/FACULTY/ITO/GG413/K_S_Table_one_Sample.pdf
    # Source: http://www.real-statistics.com/statistics-tables/kolmogorov-smirnov-table/
    # alpha = 0.05 (95% confidential level)

    if n <= 40:
        # valores entre 1 e 40
        kolmogorov_critico = [0.97500, 0.84189, 0.70760, 0.62394, 0.56328, 0.51926, 0.48342, 0.45427, 0.43001, 0.40925,
                      0.39122, 0.37543, 0.36143, 0.34890, 0.33760, 0.32733, 0.31796, 0.30936, 0.30143, 0.29408,
                      0.28724, 0.28087, 0.27490, 0.26931, 0.26404, 0.25907, 0.25438, 0.24993, 0.24571, 0.24170,
                      0.23788, 0.23424, 0.23076, 0.22743, 0.22425, 0.22119, 0.21826, 0.21544, 0.21273, 0.21012]
        ks_critico = kolmogorov_critico[n - 1]
    elif n > 40:
        # valores acima de 40:
        kolmogorov_critico = 1.36/(np.sqrt(n))
        ks_critico = kolmogorov_critico
    else:
        pass

    return ks_critico

In [26]:
Dc = kolmogorov_smirnov_critico(cont)
Dc

0.136

In [27]:
if Dc >= Dcalc:
  print("Com 95% de confianca, não temos evidências para rejeitar a hipótese de normalidade dos dados, segundo o teste de Kolmogorov-Smirnov")
else:
  print("Com 95% de confianca, temos evidências para rejeitar a hipótese de normalidade dos dados, segundo o teste de Kolmogorov-Smirnov")

Com 95% de confianca, temos evidências para rejeitar a hipótese de normalidade dos dados, segundo o teste de Kolmogorov-Smirnov


In [28]:
# Testando com a biblioteca padrão
ks_stat, ks_pvalue = stats.kstest(valores, stats.norm.cdf)
print(ks_stat)
print(ks_pvalue)

0.5999683287581669
5.968393694656241e-35
