<a href="https://colab.research.google.com/github/lari-guimaraes/Estudos_machine_learning/blob/main/Testes_de_hip%C3%B3teses.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Testes de Hipóteses

* Resposta sim ou não, para confirmar ou rejeitar uma afirmação.
* Hipótese: ideia a ser testada
* Hipótese nula (H0)
  * Afirmação que já existia
  * Presumir que é verdadeira até que se prove o contrário
* Hipótese alternativa (H1)
  * O que está tentando provar (tudo o que é diferente da nula)
* Alpha
  * Probabilidade de rejeitar a hipótese nula, quanto menor mais seguro é o resultado (nível de significância) - em geral 0,01 ou 0,05.
  * 5% de chances de concluir que existe uma diferença quando não há diferença real
* Valor de p (p-value)
  * p-value >= alpha: não rejeita H0 (não temos evidências)
  * p-value < alpha: rejeita H0 (temos evidência)
* Erro Tipo I: rejeitar a hipótese nula quando não deveria
* Erro Tipo II: não rejeitar nua quando deveria ter rejeitado

## Bibliotecas






In [None]:
import numpy as np
import math
from scipy.stats import norm

## Base de dados

In [None]:
dados_originais = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                            140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                            147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                             150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                             154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                             157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                             161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                             164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                             168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                             171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                            178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189. , 192.5])

In [None]:
H0_media = np.mean(dados_originais)
H0_media

159.25

In [None]:
H0_desvio_padrao = np.std(dados_originais)
H0_desvio_padrao

13.65

In [None]:
dados_novos = dados_originais * 1.03
dados_novos

array([129.78 , 133.385, 136.99 , 136.99 , 140.595, 140.595, 144.2  ,
       144.2  , 144.2  , 144.2  , 147.805, 147.805, 147.805, 147.805,
       147.805, 147.805, 151.41 , 151.41 , 151.41 , 151.41 , 151.41 ,
       151.41 , 151.41 , 155.015, 155.015, 155.015, 155.015, 155.015,
       155.015, 155.015, 155.015, 158.62 , 158.62 , 158.62 , 158.62 ,
       158.62 , 158.62 , 158.62 , 158.62 , 158.62 , 162.225, 162.225,
       162.225, 162.225, 162.225, 162.225, 162.225, 162.225, 162.225,
       162.225, 165.83 , 165.83 , 165.83 , 165.83 , 165.83 , 165.83 ,
       165.83 , 165.83 , 165.83 , 165.83 , 169.435, 169.435, 169.435,
       169.435, 169.435, 169.435, 169.435, 169.435, 169.435, 173.04 ,
       173.04 , 173.04 , 173.04 , 173.04 , 173.04 , 173.04 , 173.04 ,
       176.645, 176.645, 176.645, 176.645, 176.645, 176.645, 176.645,
       180.25 , 180.25 , 180.25 , 180.25 , 180.25 , 180.25 , 183.855,
       183.855, 183.855, 183.855, 187.46 , 187.46 , 191.065, 191.065,
       194.67 , 198.

In [None]:
H1_media = np.mean(dados_novos)
H1_media

164.0275

In [None]:
H1_desvio_padrao = np.std(dados_novos)
H1_desvio_padrao

14.0595

In [None]:
H1_n = len(dados_novos)
H1_n

100

In [None]:
alpha = 0.05

## Teste de hípotese Z

### teste manual

In [None]:
Z = (H1_media - H0_media) / (H1_desvio_padrao / math.sqrt(H1_n))
Z

3.398058252427187

In [None]:
norm.cdf(Z), norm.ppf(0.9996606701617486)

(0.9996606701617486, 3.3980582524271936)

In [None]:
Z = norm.cdf(Z)
Z

0.9996606701617486

In [None]:
p = 1 - Z
p

0.00033932983825135654

In [None]:
if p < alpha:
  print('Hipótese nula rejeitada')
else:
  print('Hipótese alternativa rejeitada')

Hipótese nula rejeitada


### teste com statsmodels

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
_, p = ztest(dados_originais, dados_novos,
             value = H1_media - H0_media,
             alternative='larger')

In [None]:
p

0.9999993877283934

## Teste de Hípotese T

In [None]:
dados_originais = np.array([149. , 160., 147., 189., 175., 168., 156., 160., 152.])

In [None]:
dados_originais.mean(), np.std(dados_originais)

(161.77777777777777, 12.786953227391823)

In [None]:
dados_novos = dados_originais * 1.02
dados_novos

array([151.98, 163.2 , 149.94, 192.78, 178.5 , 171.36, 159.12, 163.2 ,
       155.04])

In [None]:
dados_novos.mean(), np.std(dados_novos)

(165.01333333333332, 13.042692291939664)

In [None]:
from scipy.stats import ttest_rel

In [None]:
_, p = ttest_rel(dados_originais, dados_novos)
p

4.072922493930298e-10

In [None]:
alpha = 0.01
if p <= alpha:
  print('Hipótese nula rejeitada')
else:
  print('Hipótese alternativa rejeitada')

Hipótese nula rejeitada


## Teste qui quadrado

In [None]:
from scipy.stats import chi2_contingency

In [None]:
#tabela = np.array([[30, 20], [22, 28]])
tabela = np.array([[45,5], [5, 45]])

In [None]:
tabela.shape

(2, 2)

In [None]:
_, p, _, _ = chi2_contingency(tabela)
p

6.190717543917382e-15

In [None]:
alpha = 0.05
if p <= alpha:
  print('Hipótese nula rejeitada')
else:
  print('Hipótese alternativa rejeitada')

Hipótese nula rejeitada


# Seleção de atributos com testes de hipóteses - univariate SelectFdr

Testes estatísticos univariados são aqueles que envolvem uma variável dependente, por exemplo, teste t ou teste z para comparação de médias

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectFdr
from sklearn.feature_selection import chi2
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

In [2]:
dataset = pd.read_csv('/content/drive/MyDrive/Estatística para Ciência de Dados e Machine Learning/Bases de dados/ad.data', header=None)
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1549,1550,1551,1552,1553,1554,1555,1556,1557,1558
0,125,125,1.0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
1,57,468,8.2105,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
2,33,230,6.9696,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
3,60,468,7.8,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
4,60,468,7.8,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.


In [3]:
dataset.shape

(3279, 1559)

In [4]:
X = dataset.iloc[:, 0:1558].values
X

array([[125.    , 125.    ,   1.    , ...,   0.    ,   0.    ,   0.    ],
       [ 57.    , 468.    ,   8.2105, ...,   0.    ,   0.    ,   0.    ],
       [ 33.    , 230.    ,   6.9696, ...,   0.    ,   0.    ,   0.    ],
       ...,
       [ 23.    , 120.    ,   5.2173, ...,   0.    ,   0.    ,   0.    ],
       [  0.    ,   0.    ,   0.    , ...,   0.    ,   0.    ,   0.    ],
       [ 40.    ,  40.    ,   1.    , ...,   0.    ,   0.    ,   0.    ]])

In [5]:
y = dataset.iloc[:,1558].values
y

array(['ad.', 'ad.', 'ad.', ..., 'nonad.', 'nonad.', 'nonad.'],
      dtype=object)

In [6]:
np.unique(y, return_counts=True)

(array(['ad.', 'nonad.'], dtype=object), array([ 459, 2820]))

In [7]:
naive1 = GaussianNB()
naive1.fit(X, y)
previsoes1 = naive1.predict(X)
accuracy_score(y, previsoes1)

0.7813357731015553

In [8]:
selecao = SelectFdr(chi2, alpha=0.01)
X_novo = selecao.fit_transform(X, y)

In [9]:
X.shape, X_novo.shape

((3279, 1558), (3279, 433))

In [11]:
selecao.pvalues_, len(selecao.pvalues_)

(array([2.14710304e-268, 0.00000000e+000, 8.98165813e-150, ...,
        6.03353380e-041, 5.63437216e-012, 9.37945775e-002]), 1558)

In [12]:
np.sum(selecao.pvalues_ <= 0.01)

476

In [13]:
colunas = selecao.get_support()
colunas

array([ True,  True,  True, ...,  True,  True, False])

In [14]:
indices = np.where(colunas == True)
indices

(array([   0,    1,    2,    9,   11,   14,   20,   21,   26,   31,   34,
          36,   49,   58,   59,   64,   65,   69,   70,   86,   91,   95,
          96,  102,  104,  106,  113,  133,  134,  139,  155,  158,  163,
         167,  172,  175,  180,  181,  183,  185,  186,  189,  190,  192,
         193,  224,  242,  246,  248,  249,  251,  259,  264,  265,  266,
         267,  268,  269,  270,  274,  276,  278,  287,  290,  293,  304,
         307,  310,  312,  317,  321,  329,  330,  336,  341,  345,  346,
         350,  351,  355,  356,  357,  359,  366,  367,  370,  372,  381,
         386,  388,  389,  398,  405,  418,  420,  426,  427,  429,  430,
         432,  435,  440,  455,  457,  460,  465,  470,  472,  477,  478,
         482,  508,  511,  518,  528,  532,  533,  540,  542,  548,  551,
         556,  572,  573,  574,  576,  586,  622,  625,  627,  638,  643,
         648,  653,  658,  661,  663,  666,  683,  688,  694,  703,  704,
         709,  711,  720,  723,  729, 

In [15]:
naive2 = GaussianNB()
naive2.fit(X_novo, y)
previsoes2 = naive2.predict(X_novo)
accuracy_score(y, previsoes2)

0.970722781335773

## ANOVA - Análise de Variação

* Comparação entre 3 ou mais grupos (amostras independentes)
* Uma variável quantitativa e uma ou mais variáveis qualitativas
* Distribuição normal (estatística paramétrica)
* Variação entre os grupos comparando a variação dentro dos grupos
* H0: não há diferença estatística
* H1: existe diferença estatística
