 # Table of Contents
<div class="toc" style="margin-top: 1em;"><ul class="toc-item" id="toc-level0"><li><span><a href="http://localhost:8888/notebooks/08/08.ipynb#Jednovýběrový-t-test" data-toc-modified-id="Jednovýběrový-t-test-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Jednovýběrový t-test</a></span></li><li><span><a href="http://localhost:8888/notebooks/08/08.ipynb#Dvouvýběrový-t-test" data-toc-modified-id="Dvouvýběrový-t-test-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Dvouvýběrový t-test</a></span></li></ul></div>

# Testování statistických hypotéz

V této lekci si na několika příkladech ukážeme a vysvětlíme testování několika nejběžnějších statistických hypotéz. V žádném případě se nejedná o vyčerpávající seznam metod pro všechny situace, ale pouhý základ pro případy, se kterými se ve vědě setkáváme asi nejčastěji. Jako kompletnější a ucelenější seznam metod a situací, ve kterých se různé testování statistických hypotéz používá, lze doporučit [dokument](https://stats.idre.ucla.edu/other/mult-pkg/whatstat/) na stránkách Institute for Digital Research and Education, University of California.

## Jednovýběrový t-test

Nejjednodušším statistickým testem je pravděpodobně jednovýběrový t-test na průměr, ve kterém lze testovat následující alternativní hypotézy:

$H_1:\ \mu\ \ne\ \mu_0$

$H_1:\ \mu\ >\ \mu_0$

$H_1:\ \mu\ <\ \mu_0$

proti nulové hypotéze, která je definovaná takto:

$H_0:\ \mu\ =\ \mu_0$

Při jednovýběrovém t-testu se tedy snažíte na určité hladině pravděpodobnosti dokázat, že skutečný populační průměr $\mu$  je jiný než ten očekávaný, $\mu_0$. Z t-testu tedy vyplývá, zda můžete tvrdit, že prvky vašeho vzorku pocházejí z jiné než předpokládané populace.

Jednovýběrový t-test je vlastně založen na definici intervalu spolehlivosti pro průměr a testovací statistika má následující tvar:

$t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}$

Pokud si vzpomínáte na interval spolehlivosti tak, jak byl definován v předchozí lekci, víte, že hodnota $t$ odpovídá velikosti chyby, kterou při našem odhadu z konkrétního vzorku s určitou pravděpodobností uděláme vlivem náhodných jevů. U statistikého testu tedy chceme naopak vědět hodnotu $t$ v případě hypotetického populačního průměru $\mu_0$. Hodnota $t$ vlastně určuje maximální velikost intervalu spolehlivosti, který ještě neobsahuje hodnotu $\mu_0$ a lze tak zamítnout nulovou hypotézu, neboť ta se zamítá pouze pokud $\mu_0$ leží mimo specifikovaný interval.

Hodnota $t$, neboli testovací statistika, též určuje tzv. p-hodnotu ($p$), což je minimální hladina pravděpodobnosti (statistické významnosti), při které ještě můžeme nulovou hypotézu zamítnout. Pokud bychom tedy vytvořili více než (1-$p$)% interval spolehlivosti, už bychom nemohli $H_0$ zamítnout, neboť by obsahoval i hodnotu $\mu_0$.

V předchozí lekci jste měli za [úkol](../07/ukoly/07_zadani.ipynb) sestavit interval spolehlivosti pro objem piva, který vyteče do lahve z vašeho prehistorického plnícího stroje. Pojďme si teď ověřit, zda není náhodou možné o našem stroji tvrdit, že šidí naše zákazníky a že z něj v průměru vytéká méně než deklarovaných 500 ml.

Nulovou hypotézou v našem případě bude:

$H_0:\ \mu\ =\ 500$

tedy, že stroj nešidí zákazníky a dělá přesně to, co má. Naší alternativní hypotézu pak sestavíme takto:

$H_1:\ \mu\ <\ 500$

tedy, že stroj plní lahve pod míru. 

V tomto konkrétním testu se tedy snažíme na určité hladině pravděpodobnosti dokázat, že náš stroj šidí zákazníky. Pro náš test zvolíme hladinu významnosti 1% a můžeme jej tedy provést například tak, že si sestavíme jednostranný 99% interval spolehlivosti pro průměr a $H_0$ zamítneme, pokud nebude obsahovat deklarovanou hodnotu 500 ml:

In [1]:
# načtení dat
mereni <- read.table("../07/ukoly/plnici_stroj.csv")$Volume

# určení jednostranného 99% intervalu spolehlivosti
x <- mean(mereni) # průměr vzorku
s <- sd(mereni) # směrodatná odchylka vzorku
N <- length(mereni) # počet měření
sem <- s / sqrt(N) # střední chyba průměru
df <- length(mereni) - 1 # počet stupňů volnosti příslušného t-rozdělení
t_99 <- qt(0.99, df = df) # příslušná hodnota t

# interval spolehlivosti
c(
    -Inf
    , x + (t_99 * sem)
)

Hodnota 500 ml tedy do 99% intervalu spolehlivosti patří. Nemůžeme o našem stroji tedy na hladině významnosti 1% tvrdit, že by systematicky šidil naše zákazníky. To je dobrý výsledek, ale mějte na paměti, že to *neznamená* automatické přijmutí nulové hypotézy. Výsledek testu znamená pouze to, že nemáme dostatek důkazů na to, abychom mohli spolehlivé tvrdit, že $H_0$ není pravdivá a platí $H_1$. Hladina významnosti testu je totiž pouze pravděpodobnost chyby prvního řádu (Type I error) za předpokladu, že nulová hypotéza platí. Výsledek testu nám tedy vůbec nic neříká o platnosti nulové hypotézy. Platnost nulové hypotézy je pouze náš předpoklad a test nám v tomto ohledu neposkytuje pro toto žádný důkaz.

Určení intervalu spolehlivosti je tedy jednou z možností jak provést tento test, ale v praxi běžnou metodou je postup přes výpočet testovací statistiky, kterou jsme si výše uvedli jako:

$t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}$

My si ji zde za použití proměnných výše můžeme spočítat například takto:

In [2]:
t <- (x - 500) / sem
t

Odpovídající p-hodnotu bychom pak snadno získali z distribuční funkce:

In [3]:
p <- pt(t, df = df)
p

Toto je tedy minimální hodnota statistické významnosti, na které bychom mohli zamítnout $H_0$. Tato hodnota je větší než námi požadovaná statistická významnost testu (7.2% oproti 1%), a proto nelze $H_0$ v našem případě zamítnout. Stačilo by nám tedy například sestrojit pouze 92.8% interval spolehlivosti na to, aby hodnotu 500 ml neobsahoval:

In [4]:
(1 - p) * 100

V R máme samozřejmě funkce, které nám testování statistických hypotéz usnadňují, a my tak často nebudeme muset ani znát přesný tvar testovací statistiky. V předchozí lekci jsme si již trochu předtavili funkci `t.test`, která umožňuje nejen testování ale i výpočet intervalu spolehlivosti. V našem případě bychom výsledek našeho testu získali jednoduše takto:

In [5]:
t.test(mereni, mu = 500, alternative = "less", conf.level = 0.99)


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.07243
alternative hypothesis: true mean is less than 500
99 percent confidence interval:
     -Inf 505.6495
sample estimates:
mean of x 
 491.5705 


Funkci tedy stačí jako první argument poslat naše data a dále jen dalšími argumenty specifikovat $\mu_0$, tvar alternativní hypotézy a hladinu významnosti. 

Výstupem funkce ve skutečnosti není řetězec, jak by se mohlo zdát, ale objekt:

In [6]:
result <- t.test(mereni, mu = 500, alternative = "less", conf.level = 0.99)
class(result)

vidíme tedy, že se jedná o jakýsi objekt typu `htest`. Pokud jej pošleme funkci `print` jako parameter dostaneme právě výstup nahoře:

In [7]:
print(result)


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.07243
alternative hypothesis: true mean is less than 500
99 percent confidence interval:
     -Inf 505.6495
sample estimates:
mean of x 
 491.5705 



Funkce `print` se totiž dokáže objektu třídy `htest` zeptat na jeho textovou reprezentaci a tu potom vrátí, což je výstup, který vidíme nahoře. Objekt `htest` si můžeme představit jako takový lepší seznam, který obsahuje všechny detaily o výpočtu. Stejně jako u seznamů lze jména jednotlivých položek zjistit pomocí funkce `names`:

In [8]:
names(result)

Objektu se tedy můžeme přímo zeptat na vypočtenou testovací statistiku:

In [9]:
result$statistic

počet stupňů volnosti:

In [10]:
result$parameter

p-hodnotu:

In [11]:
result$p.value

interval spolehlivosti:

In [12]:
result$conf.int

odhad populačního průměru ze vzorku, což je pouze průměr z měření:

In [13]:
result$estimate
x

hodnotu nulové hypotézy:

In [14]:
result$null.value

variantu alternativní hypotézy:

In [15]:
result$alternative

variantu t-testu:

In [16]:
result$method

a název proměnné, která obsahovala data pro test:

In [17]:
result$data.name

Většina funkcí pro statistické testování v R vrací výsledek jako podobný objekt, takže pokud potřebujete zpracovávat výsledky testování automaticky, máte to většinou v R velice snadné. V dalších kapitolách tedy už k testování budeme používat výhradně funkce k tomu určené, neboť jejich použití je zpravidle méně náchylné na chyby. 

Uveďme si teď ještě na závěr, jak by probíhal tento test v případě jiné alternativní hypotézy. Řekněme, že bychom se snažili dokázat, že náš stroj nedělá svou práci spolehlivě, tzn. testovat obsoustrannou alternativní hypotézu:

$H_1:\ \mu\ \ne\ \mu_0$

Snažíme se tedy dokázat, že stroj neplní lahve na požadovanou hodnotu, tedy že je buď přeplňuje nebo naopak plní pod míru. V podání funkce `t.test` bude test vypadat následovně:

In [18]:
t.test(mereni, mu = 500, alternative = "two.sided", conf.level = 0.99)


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.1449
alternative hypothesis: true mean is not equal to 500
99 percent confidence interval:
 475.7094 507.4316
sample estimates:
mean of x 
 491.5705 


Funkci `t.test` bychom mohli zavolat i bez parametru pro alternativní hypotézu. Režim "two.sided" je totiž výchozí nastavení:

In [19]:
t.test(mereni, mu = 500, conf.level = 0.99)


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.1449
alternative hypothesis: true mean is not equal to 500
99 percent confidence interval:
 475.7094 507.4316
sample estimates:
mean of x 
 491.5705 


Stejně jako 5% je výchozí hladina významnosti:

In [20]:
result <- t.test(mereni, mu = 500)
result


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.1449
alternative hypothesis: true mean is not equal to 500
95 percent confidence interval:
 479.9667 503.1743
sample estimates:
mean of x 
 491.5705 


Všimněte si, že se sníženou hladinou významnosti se nám rozšířil interval spolehlivosti. Pokud bychom použili hodnotu o něco menší, než je naše p-hodnota, měli bychom dostat interval, který už hodnotu 500 ml neobsahuje:

In [21]:
t.test(
    mereni
    , mu = 500
    , conf.level=1-result$p.value-0.0001
)


	One Sample t-test

data:  mereni
t = -1.5205, df = 19, p-value = 0.1449
alternative hypothesis: true mean is not equal to 500
85.50377 percent confidence interval:
 483.1432 499.9978
sample estimates:
mean of x 
 491.5705 


Je tomu tedy skutečně tak a interval spolehlivosti jen těsně minul hodnotu 500 ml.

## Dvouvýběrový t-test

TODO