## Teste de ader√™ncia

Utilizado em amostras com vari√°veis dicot√¥micas, testa se a propor√ß√£o de
sucesso observada na amostra (ùëùÃÇ) pertence a uma popula√ß√£o com um
determinado valor de p. 

### Teste Binomial

Em uma amostra de tamanho 20 foram observados 5 sucessos. Testar se p>0.2
com n√≠vel de signific√¢ncia de 5%.

In [47]:
# Importa√ß√£o da fun√ß√£o de teste binomial do SciPy
from scipy.stats import binomtest

# Fun√ß√£o para realizar um teste binomial com sa√≠da formatada
def TesteBinomial(k = int, n = int, p = float, alternativa = 'two-sided', conf = 0.95):
    # Realiza o teste binomial com os par√¢metros fornecidos
    teste = binomtest(k = k, n = n, p = p, alternative = alternativa)

    # Obt√©m o intervalo de confian√ßa da propor√ß√£o
    ic = teste.proportion_ci(conf)

    # Define se a hip√≥tese nula √© aceita ou rejeitada com base no p-valor
    h0 = 'ACEITA' if teste.pvalue > 1 - conf else 'REJEITADA'

    # Define a hip√≥tese alternativa com base no argumento 'alternativa'
    h1 = {
        'two-sided': f'A verdadeira propor√ß√£o √© diferente de {p}',
        "greater": f"A verdadeira propor√ß√£o √© maior que {p}",
        "less": f"A verdadeira propor√ß√£o √© menor que {p}"
    }

    # Mensagem de sa√≠da com resultados e conclus√µes do teste
    mensagem_resultado = f"""
    N√∫mero de sucessos: {k}, N√∫mero de tentativas: {n}, p-valor: {teste.pvalue}
    
    intervalos de confian√ßa {int(100*conf)}%: {ic}
    
    H0: p = {p}
    H1: {h1[alternativa]}
    
    Resultado:
    H0: {h0}
    """
    return mensagem_resultado

In [48]:
# Testando teste binomial
print(TesteBinomial(5,20,0.2,'greater'))


    N√∫mero de sucessos: 5, N√∫mero de tentativas: 20, p-valor: 0.3703517360973313
    
    intervalos de confian√ßa 95%: ConfidenceInterval(low=0.1040808359101361, high=1.0)
    
    H0: p = 0.2
    H1: A verdadeira propor√ß√£o √© maior que 0.2
    
    Resultado:
    H0: ACEITA
    


### Teste Qui-quadrado

Utilizado para testar se a frequ√™ncia observada na amostra difere
significativamente da frequ√™ncia esperada especificada por uma distribui√ß√£o de
probabilidade.

In [49]:
# Importa√ß√µes necess√°rias
from scipy.stats import binom, chisquare, poisson # Distribui√ß√£o binomial, Poisson e teste do Qui-Quadrado
import numpy as np

In [50]:
# Fun√ß√£o para calcular valores esperados de uma distribui√ß√£o Binomial
def binomial_valores_esperados(p, n, total):
    # Calcula as probabilidades de uma distribui√ß√£o binomial e multiplica pelo total
    # 'binom.pmf(i, n, p)' calcula a probabilidade binomial para o valor 'i' dado 'n' tentativas e probabilidade 'p'
    valores = [binom.pmf(i, n, p) * total for i in range(n + 1)]
    
    return valores  # Retorna a lista com os valores esperados

In [51]:
# Fun√ß√£o para calcular valores esperados da distribui√ß√£o Poisson
def poisson_exp(p, n):
    # Cria uma lista vazia para armazenar os valores calculados
    valores = []
    
    # Calcula a probabilidade de Poisson para cada valor de 0 at√© n
    for i in range(0, n + 1):
        # 'poisson.pmf(i, p)' calcula a probabilidade de Poisson para o valor 'i' com par√¢metro 'p'
        valores.append(poisson.pmf(i, p))
    
    # Adiciona o complemento das probabilidades (1 - soma das probabilidades calculadas)
    # Isso √© √∫til para representar a probabilidade de valores maiores que 'n'.
    valores.append(1 - sum(valores))
    
    return valores  # Retorna a lista com os valores esperados


In [52]:
# Fun√ß√£o de teste de ader√™ncia do Qui-Quadrado
def ChiTeste(f_observada, f_esperada):
    # Aplica o teste de ader√™ncia Qui-Quadrado usando as fun√ß√µes do SciPy
    # 'f_obs' s√£o as frequ√™ncias observadas e 'f_exp' as frequ√™ncias esperadas.
    teste = chisquare(f_obs=f_observada, f_exp=f_esperada)
    
    # Formata√ß√£o da mensagem de sa√≠da, com os resultados do teste
    mensagem = f"""
    Estat√≠stica do teste: {teste.statistic}  # Estat√≠stica do teste Qui-Quadrado.
    p-valor: {teste.pvalue}  # p-valor do teste, indicando a probabilidade do resultado ser aleat√≥rio.
    """
    
    return mensagem  # Retorna a mensagem com os resultados

Abaixo, temos o n√∫mero observado de falhas mec√¢nicas, por hora, em uma linha
de montagem, a partir de um experimento com dura√ß√£o de 40 horas. Um
engenheiro afirma que o processo descrito, seguem uma distribui√ß√£o de Poisson
com m√©dia igual a 3.2.Testar com Œ±=0.05.

### Teste de kolmogorov-Smirnov

Avalia se os dados amostrais se aproximam razoavelmente de uma
determinada distribui√ß√£o

cen√°rio:

Voc√™ √© um analista de dados de uma empresa que coleta informa√ß√µes sobre a quantidade de horas que seus funcion√°rios trabalham por semana. Eles t√™m uma pol√≠tica de hor√°rio de trabalho, mas querem saber se a distribui√ß√£o das horas trabalhadas segue um padr√£o espec√≠fico.

A empresa afirma que, com base em estudos anteriores, a distribui√ß√£o das horas semanais de trabalho dos funcion√°rios deveria seguir uma distribui√ß√£o normal, com m√©dia de 40 horas e desvio padr√£o de 5 horas. No entanto, voc√™ suspeita que a distribui√ß√£o real pode ser diferente, talvez devido a mudan√ßas nas pol√≠ticas de trabalho remoto ou outros fatores inesperados.

Objetivo:

Voc√™ deve realizar o teste de Kolmogorov-Smirnov para verificar se a distribui√ß√£o das horas semanais de trabalho segue uma distribui√ß√£o normal com m√©dia de 40 horas e desvio padr√£o de 5 horas. Para isso, voc√™ tem uma amostra de dados de 500 funcion√°rios sobre suas horas trabalhadas nas √∫ltimas semanas.

Hip√≥testes:

- Hip√≥tese nula (H0): As horas semanais seguem uma distribui√ß√£o normal com m√©dia de 40 horas e desvio padr√£o de 5 horas.

- Hip√≥tese alternativa (H1): As horas semanais n√£o seguem uma distribui√ß√£o normal com m√©dia de 40 horas e desvio padr√£o de 5 horas.

In [53]:
# importa√ß√µes
import numpy as np

In [54]:
# simulando dados
dados = np.random.normal(40,5,50)

In [55]:
# Importando teste
from scipy.stats import kstest
# Importa o teste de Kolmogorov-Smirnov da biblioteca SciPy.

# Construindo fun√ß√£o do teste
def KomogorovTest(amostra, densidade, N=20, alternativa='two-sided', metodo='auto', conf=0.95):
    # Realiza o teste de Kolmogorov-Smirnov para comparar a amostra com uma distribui√ß√£o te√≥rica.
    # Par√¢metros:
    # - amostra: os dados emp√≠ricos a serem testados.
    # - densidade: a cdf (fun√ß√£o de distribui√ß√£o acumulada) da distribui√ß√£o te√≥rica (ex: 'norm').
    # - N: n√∫mero de pontos usados na cdf se ela for uma string (default = 20).
    # - alternativa: 'two-sided', 'less' ou 'greater'.
    # - metodo: m√©todo de c√°lculo do p-valor ('auto', 'exact', 'asymp').
    # - conf: n√≠vel de confian√ßa para decis√£o da hip√≥tese nula.

    stats, pvalue = kstest(rvs=amostra, cdf=densidade, N=N, alternative=alternativa, method=metodo)
    # Aplica o teste KS e obt√©m a estat√≠stica e o p-valor.

    print(pvalue)
    # Imprime o p-valor (pode ser removido se quiser retorno limpo).

    saida = f"""
    =========== Informa√ß√µes do Teste ============
    
    - Estat√≠stica do Teste: {stats}
    
    - P-Valor: {pvalue}
    
    - H0: {True if pvalue > 1 - conf else False}
    
    """
    # Formata os resultados e avalia se a hip√≥tese nula √© aceita (com base em p > 1 - conf).

    return saida

In [56]:
# Testando Hip√≥teses:
from scipy.stats import norm

print(KomogorovTest(dados,norm.cdf))

0.0

    
    - Estat√≠stica do Teste: 1.0
    
    - P-Valor: 0.0
    
    - H0: False
    
    


Rejeitamos H0, concluindo que as distribui√ß√µes s√£o diferentes. Em um n√≠vel de confian√ßa de 0,05%

### Teste de Lilliefors

Esse teste √© utilizado para verificar a normalidade dos dados.

Cen√°rio:

Uma equipe de RH est√° analisando o n√∫mero de dias de afastamento m√©dico dos funcion√°rios de uma empresa ao longo de um ano. Eles suspeitam que esse n√∫mero de dias por funcion√°rio segue uma distribui√ß√£o normal, mas n√£o conhecem a m√©dia nem o desvio padr√£o populacional. A equipe deseja verificar se essa suposi√ß√£o de normalidade √© razo√°vel com base nos dados coletados de 60 funcion√°rios selecionados aleatoriamente.

Hip√≥tetse:
- H0: Os dados sobre os funcion√°rios seguem uma distribui√ß√£o Normal

- H1: Os dados sobre os funcion√°rios n√£o seguem uma distribui√ß√£o Normal

In [57]:
# Simulando amostra
dados = norm.rvs(0,1,60)
dados

array([ 0.45052859, -1.49896787, -0.14074084, -1.670475  , -0.78967155,
       -1.06548453,  0.14041997, -0.96775735,  0.00383305, -0.39746301,
       -0.64592981, -0.03946952,  0.15504041, -0.67513617, -0.40684639,
       -0.00807874, -0.01445527, -0.64666024, -2.27731149,  1.00174953,
       -1.77063587,  1.61971343,  0.07166404, -1.89706832,  1.02851702,
       -2.0857723 , -0.34463575, -0.61110228,  0.18750571,  0.61063083,
        1.19408213, -2.42343393,  1.81210423, -0.56325557, -1.22597969,
       -0.55407092,  0.54721181,  1.52962456, -1.0770806 ,  0.32567823,
        0.95179051,  1.08775471, -0.32604493,  1.63592488,  1.35061357,
        0.13072375, -0.86264936,  0.85512686,  1.08679263,  1.01050923,
        0.12332546,  1.20857028, -1.13511577,  0.19423546,  1.17630679,
        0.61868007,  0.16980616, -0.02799717, -0.10938564,  1.90450928])

In [58]:
# Importa√ß√£o do teste
from statsmodels.stats.diagnostic import lilliefors
# Importa o teste de Lilliefors, usado para verificar ader√™ncia a uma distribui√ß√£o (ex: normal).

# Criando fun√ß√£o do teste
def Teste_lilliefors(dados, distribuicao="norm", pvalmethod='table', conf=0.95):
    # Fun√ß√£o que realiza o teste de Lilliefors em um conjunto de dados.
    # Par√¢metros:
    # - dados: vetor com os dados a serem testados.
    # - distribuicao: distribui√ß√£o alvo (default = "norm" para normal).
    # - pvalmethod: m√©todo para p-valor ('table' = usa tabela, 'approx' = aproxima√ß√£o).
    # - conf: n√≠vel de confian√ßa (default = 95%).

    stats, p = lilliefors(dados, distribuicao, pvalmethod)
    # Aplica o teste e retorna estat√≠stica do teste e p-valor.

    saida = f"""
    ============ Informa√ß√µes sobre o Teste ===========
    
    - Estat√≠stica do Teste:{stats}
    
    - P valor: {p}
    
    - H0: {True if p > 1 - conf else False}
    """
    # Formata uma string com os resultados e se a hip√≥tese nula √© aceita ou n√£o.

    return saida

In [59]:
# Testando Hip√≥testes
print(Teste_lilliefors(dados))


    
    - Estat√≠stica do Teste:0.07331358887797457
    
    - P valor: 0.6261865331676557
    
    - H0: True
    
