In [2]:
library("ggplot2")
library("dplyr")


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




In [3]:
adult <- read.csv("adult.csv")

# Testes de Hipótese

Muitas vezes, quando estamos fazendo alguma análise, queremos provar que **duas médias são diferentes**. <br>
Por exemplo, temos dois grupos de pacientes, um que tomou analgésico e outro que tomou um placebo, e queremos saber se existe diferença na nota que eles atribuem para sua dor antes e depois de tomar o remédio/placebo. <br>
<br>
Esse é o típico cenário em que devemos aplicar um **teste de hipótese**.

### Amostra vs População

![censovssample](img/census-vs-sample.jpg)
Os testes de hipótese precisam ser feitos porque, muitas vezes, nós não temos a totalidade dos dados e sim uma **amostra**.
<br> <br>
Existem teoremas matemáticos que garantem que as médias tiradas de amostras aleatorias de uma população convergem para a própria média da população.
Mas pode ser que, por acaso, vc tenha pegado uma amostra extrema que não representa essa população - **os testes de hipótese são uma forma de verificar qual é essa probabilidade e se ela é considerável**.

Os **testes de hipóteses** têm uma estrutura comum. Eles assumem uma *hipótese nula* e uma *hipótese alternativa*.<br>
Em geral: <br>
$H_0 =$ (hipótese nula) as médias são iguais <br>
$H_A =$ (hipótese alternativa) as médias são diferentes (você pode mudar isso para "maior" ou "menor" também

O que o teste de hipótese nos retorna é o **p-valor**, ele nos dá **a probabilidade de cometer um erro ao falar que $H_A$ está certa** . <br>
Em geral, quando o $p-valor \leq 0.05$ aceitamos $H_A$, pois a probabilidade de "estarmos falando besteira" é menor do que 5%

### Testes paramétricos VS não-paramétricos

![distribuicaonormal](img/normal.jpeg)

Os testes de hipótese podem ser divididos entre paramétricos e não paramétricos.
<br>
Os testes **paramétricos** assumem a **distribuição normal dos dados**, enquanto os **não paramétricos** não possuem tal premissa.<br>
A distribuição normal é a famosa curva de sino, em que a maioria dos valores estão próximos de uma média.

## Kolgomorov-Smirnov

Para saber se devemos ou não aplicar um teste paramétrico ou não paramétrico, precisamos saber se nossos dados seguem ou não uma distribuição normal. Para isso usamos o teste de *Kolgomorov-Smirnov* comparando a nossa amostra com uma distribuição normal.

Nesse teste, as hipóteses são as seguintes:<br>
$H_0 = $ a distribuição é normal <br>
$H_A = $ a distribuição não é normal

Vamos fazer esse teste largura da sépala das flores da espécie iris

In [5]:
ks.test(iris$Sepal.Width,"pnorm", mean(iris$Sepal.Width), sd(iris$Sepal.Width))

“ties should not be present for the Kolmogorov-Smirnov test”



	One-sample Kolmogorov-Smirnov test

data:  iris$Sepal.Width
D = 0.10566, p-value = 0.07023
alternative hypothesis: two-sided


Nosso $p_{valor}$ deu 7%, então podemos considerar a distribuição normal

Vamos ver agora se isso se mantém para as sub-espécies das flores iris

In [6]:
levels(iris$Species)

In [7]:
iris_setosa <- iris %>% filter(Species == "setosa")
iris_versicolor <- iris %>% filter(Species == "versicolor")
iris_virginica <- iris %>% filter(Species == "virginica")

In [11]:
ks_setosa <- ks.test(iris_setosa$Sepal.Width,"pnorm", mean(iris_setosa$Sepal.Width), sd(iris_setosa$Sepal.Width))
ks_versicolor <- ks.test(iris_versicolor$Sepal.Width,"pnorm", mean(iris_versicolor$Sepal.Width), sd(iris_versicolor$Sepal.Width))
ks_virginica <- ks.test(iris_virginica$Sepal.Width,"pnorm", mean(iris_virginica$Sepal.Width), sd(iris_virginica$Sepal.Width))
print(paste("P-valor iris setosa = ",ks_setosa$p.value," | P-valor iris versicolor = ",ks_versicolor$p.value,"| P-valor iris virginica = ", ks_virginica$p.value ))

“ties should not be present for the Kolmogorov-Smirnov test”
“ties should not be present for the Kolmogorov-Smirnov test”
“ties should not be present for the Kolmogorov-Smirnov test”


[1] "P-valor iris setosa =  0.643712515886468  | P-valor iris versicolor =  0.460425126089097 | P-valor iris virginica =  0.386975907628897"


Os valores p foram ainda mais altos, podemos assumir premissas paramétricas

## Teste t e teste z

Existem dois testes mais conhecidos para comparar médias, o teste T e o teste Z. O teste Z é mais usado para comparar uma média amostral com uma média teórica, apesar de poder ser usado para comparar duas médias amostrais também. <br>
O teste Z não é nativo do R, mas aceitando-se $H_A$ de teste T = também aceitaria-se ela via teste Z

#### Teste T - Comparar as flores iris setosa e iris virginica

Vamos aqui aplicar um teste que compara as médias, o teste t. A hipótese nula é de que as médias são iguais e a alternativa é de que são diferentes. <br>
Esse teste precisa saber se as variâncias são iguais ou diferentes. Pra isso vamos aplicar um teste chamado teste F. <br>
Para o teste  F, a hipótese nula é de que as variâncias são diferentes.

In [12]:
f_test <- var.test(iris_setosa$Sepal.Width,iris_virginica$Sepal.Width)

In [13]:
f_test$p.value

Aqui, podemos ver que as variâncias podem ser consideradas iguais

In [14]:
t.test(iris_setosa$Sepal.Width, iris_virginica$Sepal.Width, var.equal = TRUE)


	Two Sample t-test

data:  iris_setosa$Sepal.Width and iris_virginica$Sepal.Width
t = 6.4503, df = 98, p-value = 4.246e-09
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.3143257 0.5936743
sample estimates:
mean of x mean of y 
    3.428     2.974 


O nosso $p_{valor} \leq 5%$, podemos assumir que as médias sejam diferentes

#### Comparando as três médias das flores

Para comparar três ou mais médias, utilizaremos um teste de hipóteses chamado ANOVA (Análise de variância)

In [4]:
anova <- aov(Sepal.Width ~ Species, data=iris)

In [5]:
summary(anova)

             Df Sum Sq Mean Sq F value Pr(>F)    
Species       2  11.35   5.672   49.16 <2e-16 ***
Residuals   147  16.96   0.115                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1