#Construção dos testes de hipóteses:
* *Passo 1:* Escolher o teste estatístico adequado, dado o intuito do pesquisador
* *Passo 2:* Apresentar a hipótese nula ${H_0}$ e a hipótese alternativa ${H_1}$ do teste.
* *Passo 3:* Fixar o nível de significância (probabilidade de erro do tipo 1) **α**.
* *Passo 4:* Calcular o valor observado da estatística do teste com base na amostra extraída da população.
* *Passo 5:* Determinar a região crítica do teste em função do valor de **α** fixado no passo 3.

#O Teste de Komogorov Smirnov

O Teste de K-S mede a diferença entre: *A Distribuição Real de uma amostra e a Distribuição Esperada*.

Assim, verificamos se a distribuição referente a amostra estudada é Normal.

In [33]:
# @title Importação de bibliotecas
import pandas as pd
import numpy as np
import random
import statistics
import matplotlib.pyplot as plt
import seaborn as sns

In [34]:
#@title Amostragem aleatória
limite_inferior = 32
limite_superior = 42
tamanho_amostra = 500

In [35]:
# @title Amostragem aleatória

import random
random.seed(123)

limite_inferior = 32
limite_superior = 42
tamanho_amostra = 500

#probabilidades da faixa de valores
probabilidades = [1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1]

#normalizar as probabilidades para somar 1
probabilidades_normalizadas = [p / sum(probabilidades) for p in probabilidades]

#gera a amostra aleatória com base nas probabilidades
amostra_aleatoria = []
for _ in range(tamanho_amostra):
    valor = random.choices(range(limite_inferior, limite_superior + 1), weights=probabilidades_normalizadas)[0] #esse [0] é pra tirar o valor único da lista
    amostra_aleatoria.append(valor)

print(amostra_aleatoria)


[33, 34, 36, 34, 40, 33, 37, 36, 40, 34, 36, 36, 35, 32, 37, 34, 38, 33, 36, 37, 40, 34, 34, 39, 32, 40, 37, 35, 40, 39, 36, 39, 35, 38, 37, 39, 36, 36, 39, 37, 38, 38, 38, 40, 37, 38, 36, 33, 39, 35, 39, 40, 38, 35, 36, 36, 33, 37, 37, 36, 35, 34, 38, 32, 36, 35, 37, 39, 40, 38, 42, 41, 38, 35, 37, 35, 42, 37, 39, 33, 34, 35, 35, 36, 35, 37, 37, 34, 33, 36, 34, 37, 32, 37, 33, 38, 36, 42, 35, 37, 39, 36, 36, 38, 41, 40, 37, 38, 38, 36, 35, 33, 40, 33, 37, 37, 34, 38, 40, 39, 36, 34, 42, 37, 38, 39, 36, 33, 34, 38, 36, 40, 39, 42, 38, 36, 39, 33, 37, 40, 37, 34, 37, 37, 36, 40, 36, 35, 37, 35, 36, 36, 41, 33, 35, 35, 42, 40, 35, 37, 34, 36, 36, 37, 41, 39, 37, 39, 37, 39, 39, 35, 39, 37, 37, 36, 35, 37, 34, 38, 40, 39, 38, 37, 38, 34, 33, 40, 36, 38, 37, 36, 39, 36, 39, 39, 35, 42, 33, 36, 37, 39, 35, 37, 36, 41, 34, 35, 39, 36, 41, 33, 36, 34, 37, 41, 36, 38, 35, 37, 37, 35, 38, 37, 40, 35, 41, 35, 32, 38, 39, 37, 33, 42, 34, 40, 40, 35, 40, 37, 40, 40, 39, 36, 37, 42, 36, 36, 38, 33,

In [36]:
amostra_serie = pd.Series(amostra_aleatoria)
amostra_serie.value_counts()

37    82
36    71
39    60
35    54
38    54
34    48
40    45
33    37
41    20
32    15
42    14
dtype: int64

In [37]:
df = amostra_serie.value_counts().reset_index()
df.columns = ['Valor','Frequência']

In [38]:
df = df.sort_values(by='Valor')

In [39]:
df=df.reset_index()
df=df.drop(columns=['index'])

In [40]:
# @title Adicionando Colunas de Frequências
df['Frequência_Acumulada'] = df['Frequência'].cumsum()
df['Frequência_Relativa'] = df['Frequência']/500
df['Frequência_Observada'] = df['Frequência_Relativa'].cumsum()

In [41]:
df

Unnamed: 0,Valor,Frequência,Frequência_Acumulada,Frequência_Relativa,Frequência_Observada
0,32,15,15,0.03,0.03
1,33,37,52,0.074,0.104
2,34,48,100,0.096,0.2
3,35,54,154,0.108,0.308
4,36,71,225,0.142,0.45
5,37,82,307,0.164,0.614
6,38,54,361,0.108,0.722
7,39,60,421,0.12,0.842
8,40,45,466,0.09,0.932
9,41,20,486,0.04,0.972


In [42]:
# @title Calculando estatísticas

Valor = df['Valor']

media = np.mean(Valor)
desvio = np.std(Valor)
erro_padrao = desvio/np.sqrt(len(Valor))
max = np.max(Valor)
min = np.min(Valor)
soma = sum(Valor)
count = len(Valor)
variancia = Valor.var()

info_dados = [media,erro_padrao,desvio,variancia,min,max,soma,count]
strings = ['Média','Erro padrão','Desvio padrão','Variância',
           'Mínimo','Máximo','Soma','Contagem']
for i in range(len(info_dados)):
  print(f'{strings[i]} = {info_dados[i]}')



Média = 37.0
Erro padrão = 0.9534625892455924
Desvio padrão = 3.1622776601683795
Variância = 11.0
Mínimo = 32
Máximo = 42
Soma = 407
Contagem = 11


In [43]:
# @title Novas Colunas

#FrequenciaEsperada
from scipy.stats import norm

df['Z-score'] = (df['Valor'] - media) / desvio
df['Frequência_Acumulada_Esperada'] = norm.cdf(df['Z-score'])
df['|F_esp(Xi)-F_obs(Xi)|'] = abs(df['Frequência_Acumulada_Esperada']-df['Frequência_Observada'])
df['|F_esp(Xi)-F_obs(X{i-1})|'] = abs(df['Frequência_Acumulada_Esperada'] - df['Frequência_Observada'].shift(fill_value=0))

In [44]:
df

Unnamed: 0,Valor,Frequência,Frequência_Acumulada,Frequência_Relativa,Frequência_Observada,Z-score,Frequência_Acumulada_Esperada,|F_esp(Xi)-F_obs(Xi)|,|F_esp(Xi)-F_obs(X{i-1})|
0,32,15,15,0.03,0.03,-1.581139,0.056923,0.026923,0.056923
1,33,37,52,0.074,0.104,-1.264911,0.102952,0.001048,0.072952
2,34,48,100,0.096,0.2,-0.948683,0.171391,0.028609,0.067391
3,35,54,154,0.108,0.308,-0.632456,0.263545,0.044455,0.063545
4,36,71,225,0.142,0.45,-0.316228,0.375915,0.074085,0.067915
5,37,82,307,0.164,0.614,0.0,0.5,0.114,0.05
6,38,54,361,0.108,0.722,0.316228,0.624085,0.097915,0.010085
7,39,60,421,0.12,0.842,0.632456,0.736455,0.105545,0.014455
8,40,45,466,0.09,0.932,0.948683,0.828609,0.103391,0.013391
9,41,20,486,0.04,0.972,1.264911,0.897048,0.074952,0.034952


In [45]:
# @title Dcalc
max_Fesp_Fobs = (df['|F_esp(Xi)-F_obs(Xi)|']).max()
max_Fesp_Fobs1 =(df['|F_esp(Xi)-F_obs(X{i-1})|']).max()
listaMax = [max_Fesp_Fobs,max_Fesp_Fobs1]
Dcalc = np.max(listaMax)
print("Dcalc:", Dcalc) #Dcalc = estatistica de teste

Dcalc: 0.11399999999999999


In [46]:
# @title Dc
#Como o nível de insignificância = 0,05

Dc = 1.36 / np.sqrt(tamanho_amostra)
print("Dc:", Dc)

Dc: 0.06082104898799428


Como:

$D_{calc} > D_{c} \\
0.1139 > 0.0608$

**Não** rejeitamos a hipótese ${H_0}$

Nossa distribuição é **Normal.**

## Aplicação pelo Scipy para Comparação de Resultados

In [47]:
from scipy import stats
import pandas as pd

#se necessário, calcular os Z-scores, dessa forma:
#df['Z-score'] = (df['Valor'] - df['Valor'].mean()) / df['Valor'].std()

#realizar o teste de Kolmogorov-Smirnov
resultado_teste = stats.kstest(df['Z-score'],'norm')

#imprimir o resultado
print("Estatística de teste:", resultado_teste.statistic)
print("Valor p:", resultado_teste.pvalue)

#interpretar o resultado
alpha = 0.05
if resultado_teste.pvalue < alpha:
    print("Hipótese nula rejeitada: a amostra NÃO segue uma distribuição Normal")
else:
    print("Hipótese nula aceita: a amostra segue uma distribuição Normal")


Estatística de teste: 0.10133641715331698
Valor p: 0.9990704734498305
Hipótese nula aceita: a amostra segue uma distribuição Normal


In [48]:
resultado_teste

KstestResult(statistic=0.10133641715331698, pvalue=0.9990704734498305, statistic_location=0.9486832980505138, statistic_sign=-1)

In [52]:
import numpy as np
from scipy import stats
rng = np.random.default_rng()
stats.kstest(stats.uniform.rvs(size=100, random_state=rng),
             stats.norm.cdf)

KstestResult(statistic=0.5012231416669433, pvalue=9.171838567244895e-24, statistic_location=0.0030659662896560524, statistic_sign=-1)