# Teste de Hipóteses e Teste t

## Amostra e População

### Definição:

>- População é o conjunto de todos os elementos ou resultados sob investigação. 
>- Amostra é qualquer subconjunto da população

## Teste de Hipóteses

### Motivação:

Introduziremos a ideia de teste de hipóteses por meio de um exemplo "não estatístico".

Suponha que ocorreu um cirme e o detetive responsável pela investigação suspeita do mordomo.

.                 | detetive (decisão) culpado | detetive (decisão) inocente
------------------|------------------|------------------
mordomo culpado  |     acerto       |    erro *tipo II*
mordomo inocente  |   erro *tipo I*  |      acerto

A primeira coisa que devemos ter clara é a afirmação (hipótese) a ser testada. Neste caso, o detetive deve testar a hipótese
>- H0: "o mordomo é inocente"

A hipótese a ser testada é chamada de hipótese nula (geralmente, escolhemos como hipótese nula aquela que gostaríamos de rejeitar).

Caso H0 seja rejeitado, consideramos que uma hipótese alternativa deve ser viável. Para este caso, temos como hipótese alternativa
>- H1: "o mordome é culpado"

Independente das hipóteses, temos sempre duas formas de errar. Definindo assim dois tipos de erros:

>- erro tipo I: rejeitar H0 quando H0 é verdadiro
>- erro tipo II: não rejeitar H0 quando H0 é falso

No nosso exemplo, o **erro tipo I** seria o detetive concluir que o mordomo é *culpado* sendo na verdade *inocente* e o **erro tipo II** seria o detetive concluir que o mordomo é *inocente* quando na verdade é *culpado*.

O objetivo do teste de hipóteses é determinar se a hipótese nula (H0) é provável que seja verdadeira, com base nos dados de amostra. Caso tenha pouca evidência contra H0, aceitamos H0. Se a hipótese nula é improvável, com base nos dados, podemos rejeitar H0 a favor da hipótese alternativa (H1).

Tendo a hipótese nula e hipótese alternativa bem definida, escolheremos um nível de significância (geralmente denotado pela letra grega α). O nível de significância é um limite de probabilidade que determina quando H0 deve ser rejeitado. Após realizar um teste, se a probabilidade de obter um resultado tão extremo quanto o observado for menor do que o nível de significância, rejeitaremos H0 em favor de H1. Essa probabilidade de ver um resultado como extremo ou mais extremo que o observado é conhecida como valor p (p-valor).

### Teste t de uma amostra

O teste t de uma amostra, que é um teste paramétrico, verifica se a média da amostra é estatisticamente diferente da média populacional conhecida ou hipotética.

Vamos executar um exemplo simples.

In [29]:
import numpy as np
import scipy.stats as stats

In [30]:
vetor = np.random.normal(size = 100)

print(vetor)

[ 2.55860935e-01 -2.32185541e-01  1.22826320e+00  6.78918793e-01
 -9.26798100e-01  1.05641919e+00  7.62392946e-01 -3.99475048e-01
 -6.04138847e-01 -2.85564309e-01  3.51150276e-01  1.03508942e+00
 -1.01098463e+00  1.48812310e-01 -1.84227422e+00 -1.32772553e+00
  1.21914420e-01  3.46721291e-01 -1.89203150e-01 -2.87971262e-01
  1.30985180e+00 -1.25841804e+00 -1.19314614e+00  1.26626748e+00
  2.36183621e-01 -5.66273756e-01  2.29916315e-02  1.26763468e+00
 -4.77810544e-01  7.48252294e-02 -9.00351301e-01  8.93009205e-01
 -2.16426590e-01 -1.87430585e-01  1.77406834e+00 -2.36043776e-01
  1.27044629e+00  1.32911701e+00  7.18897329e-02 -2.80963202e-02
 -1.59483302e-01 -1.36658672e+00 -1.28810535e+00  1.32775704e+00
  1.10690974e-01 -3.51575616e-02  5.01092855e-01  1.72923855e-02
  2.74278752e+00  3.29895633e-01  1.67543442e-01  5.08932784e-01
 -1.95091910e-01  1.00202253e-03  2.13769956e+00 -1.54049166e+00
 -1.05092745e+00  9.95230516e-01  6.32269000e-01  2.31350864e+00
  1.21967235e+00 -1.13924

Para realizar um teste teste t de uma amostra podemos usar a função *stats.ttest_1samp()*:

In [31]:
mu_verdadeiro = 0

print("Saída do teste: ", stats.ttest_1samp(vetor, mu_verdadeiro))

Saída do teste:  Ttest_1sampResult(statistic=1.0559049244600627, pvalue=0.2935816056267157)


### Teste de Hipóteses utilizando o R no Python

O teste de hipóteses no python não é muito informativo, devido a isso, utilizaremos o R através do Python para realizar os testes.

In [32]:
import rpy2.robjects.packages as rpackages

**Salvaremos toda a biblioteca "stats" do R**

O comando dir(), a seguir, é interessante para saber quais são as funções que estão presentes. Usaremos len(dir()) para saber quantas funções foram importadas do pacote stats do R.

In [33]:
stats = rpackages.importr('stats')

print(len(dir(stats)))

1143


Vamos executar um exemplo simples para testar a funcionalidade do pacote.

In [34]:
vetor = stats.rnorm(100)
print("Saída do teste: ", stats.t_test(vetor, altenative = "greather"))

Saída do teste:  

	One Sample t-test



data:  c(-0.773049375302106, -1.59884311925108, -1.55756681585288, -0.927946187448633, 0.172873274068049, -0.105062592981286, 0.840012304217368, -1.02484039081922, -0.0156319660072668, 0.480696911196218, 0.0530320523131201, 1.8921854803367, -0.346632572882998, 1.92796274700371, 1.1247385655971, -1.1932680175222, 1.27345581217488, 0.137355967774739, 1.47375055897909, -0.417035041191441, 0.172725224757316, 1.31433970430807, 1.50400561816633, 0.352547538484901, 0.420959658287897, 0.814667250294577, -0.262383525852057, 0.497461499931258, 1.28552178071828, 0.911416550546512, -1.34317268695592, 1.09283523615356, 0.249178798694363, 0.816377969566661, -0.173290046345885, 0.701854465088348, 0.203351692303321, 0.201580702955311, 2.26630248663449, 0.481510288077261, 0.553463567422006, 0.142751548363122, -0.108687976520334, 1.44743774524936, -0.764794372586691, 1.50316468929996, 0.485753634837614, -0.316456561279371, 1.97013409140484, 1.23276752211663, -

O parâmetro alternative = "greather" indica que o teste deve ser unilateral a direita. Para um teste unilateral a esquerda deve se usar alternative = "less". Se não indicar o parâmetro alternative, o R faz um teste bilateral.

In [35]:
teste_t = stats.t_test(vetor)
print("Saída do teste: ", teste_t)

Saída do teste:  

	One Sample t-test



data:  c(-0.773049375302106, -1.59884311925108, -1.55756681585288, -0.927946187448633, 0.172873274068049, -0.105062592981286, 0.840012304217368, -1.02484039081922, -0.0156319660072668, 0.480696911196218, 0.0530320523131201, 1.8921854803367, -0.346632572882998, 1.92796274700371, 1.1247385655971, -1.1932680175222, 1.27345581217488, 0.137355967774739, 1.47375055897909, -0.417035041191441, 0.172725224757316, 1.31433970430807, 1.50400561816633, 0.352547538484901, 0.420959658287897, 0.814667250294577, -0.262383525852057, 0.497461499931258, 1.28552178071828, 0.911416550546512, -1.34317268695592, 1.09283523615356, 0.249178798694363, 0.816377969566661, -0.173290046345885, 0.701854465088348, 0.203351692303321, 0.201580702955311, 2.26630248663449, 0.481510288077261, 0.553463567422006, 0.142751548363122, -0.108687976520334, 1.44743774524936, -0.764794372586691, 1.50316468929996, 0.485753634837614, -0.316456561279371, 1.97013409140484, 1.23276752211663, -

A variável teste_t pode ser tratada como uma lista do python. Assim, por exemplo, para obter apenas o p-valor do teste, bastar buscar o elemento na posição 2 do objeto.

In [36]:
print("O p-valor obtido foi: ",teste_t[2])

O p-valor obtido foi:  [1] 0.01815434



## Referências

[numpy.random.normal](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html)

[scipy.stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html)