### dicas para os testes de hipóteses estatísticas mais populares para um projeto de machine learning  com exemplos usando a API Python.

### Cada teste estatístico é apresentado de forma consistente, incluindo:

- O nome do teste.
- O que o teste está verificando.
- As principais premissas do teste.
- Como o resultado do teste é interpretado.
- API Python para usar o teste.



Geralmente, as amostras de dados precisam ser representativas do domínio e grandes o suficiente para expor sua distribuição à análise


Em alguns casos, os dados podem ser corrigidos para atender às premissas, como corrigir uma distribuição quase normal como normal, removendo valores discrepantes ou usar uma correção para os graus de liberdade em um teste estatístico quando as amostras têm variações diferentes


# Teste de Normalidade 

## 1 - Testa de Shapiro-Wilk
       Testa se uma amostra de dados tem uma distribuição Gaussiana.
       Premissas:
          As observações em cada amostra são independentes e indenticamente distribuídas.
          Interpretação
          - HO: a amostra possui um distribuição gaussiana
          - H1: a amostra não possui distribuição Gaussiana

In [4]:
#exanple of the Shapiro-Wilk Normality Test

from scipy.stats import shapiro
data =  [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat , p = shapiro(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p < 0.5:
    print('Probably Gaussian')
else:
    print('Probably not Gaussian')

stat=0.895, p=0.193
Probably Gaussian


##  2- Teste D’Agostino’s K^2 
    Testa se uma amostra de dados tem uma distribuição Gaussiana.
     
    Premissas:
        As observações em cada amostra são independentes e indenticamente distribuídas.
    Interpretação
      - HO: a amostra possui um distribuição gaussiana
      - H1: a amostra não possui distribuição Gaussiana

In [5]:
# Example of the D'Agostino's K^2 Normality Test
from scipy.stats import normaltest
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = normaltest(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
    print('Probably Gaussian')
else:
    print('Probably not Gaussian')

stat=3.392, p=0.183
Probably Gaussian


  "anyway, n=%i" % int(n))


## 3 - Teste Anderson-Darling

 Testa se uma amostra de dados tem uma distribuição Gaussiana.
     
    Premissas:
        As observações em cada amostra são independentes e indenticamente distribuídas.
    Interpretação
      - HO: a amostra possui um distribuição gaussiana
      - H1: a amostra não possui distribuição Gaussiana

In [6]:
# Example of the Anderson-Darling Normality Test
from scipy.stats import anderson
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
result = anderson(data)
print('stat=%.3f' % (result.statistic))
for i in range(len(result.critical_values)):
    sl, cv = result.significance_level[i], result.critical_values[i]
    if result.statistic < cv:
        print('Probably Gaussian at the %.1f%% level' % (sl))
    else:
        print('Probably not Gaussian at the %.1f%% level' % (sl))

stat=0.424
Probably Gaussian at the 15.0% level
Probably Gaussian at the 10.0% level
Probably Gaussian at the 5.0% level
Probably Gaussian at the 2.5% level
Probably Gaussian at the 1.0% level
