In [1]:
using Plots
# plotly()
pyplot()
using StatsBase
using StatsFuns
using StatPlots
using Distributions

# Test $t$-Studenta

Po angielsku: _one sample $t$-test, two sample $t$-test_

> **Idea testu $t$-Studenta:**
>
> $$ \text{wartość $t$-statystyki} =  \frac{\text{sygnał}}{\text{szum}} = \frac{\text{Różnica między średnimi}}{\text{Wewnętrzna zmienność obu populacji}} = \frac{\overline{x} - \overline{y}}{\text{???}}$$

Wartość $t$-statystyki porównujemy z rozkładem $t$-Studenta o $N-1$ stopniach swobody

**UWAGA**: Wszędzie poniżej zakładamy, że:
  * Populacje są rozłożone _**normalnie**_
  * wariancje/odchylenia standardowe populacji są _**nieznane**_
  * próby są brane _**losowo**_ 

## Porównanie średniej próby ze znaną wartością

(_One sample $t$-test_)

Jeśli mamy próbę $x$ o której nie wiemy czy pochodzi z populacji o (znanej) średniej $\mu$, statystyka $t$ wyraża się jako

$$t = \frac{\overline{x} - \mu}{SE(x)}$$

Jeśli próba jest niewielka ($N<100$) 
obliczamy wartość-$p$ zgodnie z rozkładem $t$-Studenta o $N-1$ stopniach swobody

In [2]:
proba = rand(Normal(10, 3), 10)

10-element Array{Float64,1}:
 11.8142 
  8.65727
  8.73904
  6.44384
  8.24099
 11.1878 
 11.4843 
 11.5228 
 11.5031 
 10.3039 

> **Problem**
>
> Jak bardzo "prawdopodobne" jest żeby `proba` został wzięty z populacji o średniej 11?

In [3]:
SE(X) = std(X)/sqrt(length(X))

SE (generic function with 1 method)

In [4]:
SE(proba)

0.5841252945555404

In [5]:
t = (mean(proba) - 11)/SE(proba)

-1.7295618485553546

In [6]:
tdistcdf(9, t) + tdistccdf(9, abs(t))

0.1177660063180539

Gdyby populacja miała faktycznie średnią 11, wówczas wylosowanie próby podobnie "skrajnej" (lub bardziej skrajnej) niż `proba` byłoby $> 0.59$

## Porównanie dwóch średnich

Rozważmy następujący problem: 
Studenci Biologii otrzymali następujące wyniki kolokwium z _Matematyki ze Statystyką_ (na 100 punktów możliwych):

```
[75, 72, 68, 66, 65, 65, 60, 58, 50, 48, 42, 40, 80, 76, 74, 70, 68, 68, 66, 65, 62, 58, 56, 43, 40, 39]
```
Spojrzawszy na te wyniki niektórzy Panowie poczuli się urażeni swoją niską punktacją więc skomentowali to mówiąc o prowadzącym:

> _Ten babiarz wstawił dziewczynom lepsze oceny tylko dlatego, że przyszły ładnie ubrane!_

Panie naturalnie poczuły się nieco urażone, więc postanowiły wykorzystać zdobytą wiedzę by pokazać, że tego twierdzenia nie można wysnuć na podstawie wyników kolokwium, t.j, że prowadzący wcale nie brał pod uwagę płci wystawiając oceny.

> **Problem**
>
> Jak to wykazać statystycznie?

* **Hipoteza zerowa:** Nie ma różnicy pomiędzy średnimi populacji ocen Pań i średnią populacji ocen Panów.
* **Hipoteza alternatywna:** Istnieje różnica pomiędzy populacjami ocenami Pań i ocenami Panów.

Wyniki podzielone ze względu na płeć są następujące:

In [7]:
men = [75, 72, 68, 66, 65, 65, 60, 58, 50, 48, 42, 40]
women = [80, 76, 74, 70, 68, 68, 66, 65, 62, 58, 56, 43, 40, 39];

In [8]:
p = Plots.get_color_palette(:auto, default(:bgcolor), 3)
plot(histogram(men, opacity=0.5, label="Panowie", c=p[1], bins=6),
histogram(women, opacity=0.5, label="Panie", c=p[2]))

## BoxPlot

In [9]:
boxplot(men, label="Panowie", opacity=0.5)
boxplot!(women, label="Panie", opacity=0.5)

Co oznacza `boxplot`:
  * kreska w środku – mediana
  * krawędzie prostokąta
    - dolna: $25$-ty centyl ($C25$), t.j. $1$-szy kwartyl ($Q1$)
    - górna: $75$-ty centyl ($C75$), t.j. $3$-ci kwartyl ($Q3$)
  * wąsy – bywa różnie
    - minimum i maximum danych (jak na wykresie powyżej)
    - $2$ i $98$ centyl
    - $10$ i $90$ centyl
    - $Q1 - 1.5\cdot IQR$ i $Q3 + 1.5\cdot IQR$  (Rozstęp ćwiartkowy, rozstęp międzykwartylowy – _inter-quantile range_, $IQR = Q3 - Q1$)
  * punkty leżące poza wąsami: 
    - punkty ekstremalne (które odrzuciliśmy)
    - punkty pomiarów leżące poza wąsami

**UWAGA** W związku z istnieniem różnych konwencji należy opisać każdy wykres typu `boxplot`!

<p><a href="https://commons.wikimedia.org/wiki/File:Boxplot_vs_PDF.svg#/media/File:Boxplot_vs_PDF.svg"><img src="https://upload.wikimedia.org/wikipedia/commons/1/1a/Boxplot_vs_PDF.svg" alt="Boxplot vs PDF.svg" width="598" height="652"></a><br>By <a href="https://en.wikipedia.org/wiki/User:Jhguch" class="extiw" title="en:User:Jhguch">Jhguch</a> at <a class="external text" href="http://en.wikipedia.org">en.wikipedia</a>, <a href="https://creativecommons.org/licenses/by-sa/2.5" title="Creative Commons Attribution-Share Alike 2.5">CC BY-SA 2.5</a>, 
<a href="https://commons.wikimedia.org/w/index.php?curid=14524285">Link</a></p>

In [10]:
violin(men, opacity=0.5, label="Panowie")
violin!(women, opacity=0.5, label="Panie")
scatter!(ones(men), men, marker=(1.0, 2))
scatter!(2*ones(women), women, marker=(1.0, 2))
# savefig("/tmp/plot.png")

Stajemy przed następującymi problemami:
1. Porównujemy (potencjalnie) dwie populacje których nie znamy ani średniej ani wariancji/odchylenia standardowego (**o których zakładamy, że są normalne**)
2. Próby są różnych rozmiarów
3. Próby mają różną wariancję

In [11]:
@show(mean(men), mean(women))
@show(std(men), std(women));
plot(Normal(mean(men), std(men)), opacity=0.5, fill=(0,), label="Panowie")
plot!(Normal(mean(women), std(women)), opacity=0.5, fill=(0,), label="Panie")

mean(men) = 59.083333333333336
mean(women) = 61.785714285714285
std(men) = 11.602964615941389
std(women) = 13.156914364865175


## Próby o równej liczności i równej wariancji:

**UWAGA**:
Ponieważ nasze dane nie spełniają założeń powyższego testu (próby są różnej wielkości):

In [12]:
length(men), length(women)

(12, 14)

**jest błędem stosować poniższy test** aby rozstrzygnąć czy istnieje różnica między średnimi.

Oczywiście formuły po wprowadzeniu danych zwrócą wynik liczbowy, ale **nie ma on znaczenia statystycznego**!

>Załóżmy, że mamy dwie próby: $x$ i $y$ o $N$ elementach i **tej samej wariancji**.
>Wówczas $t$-statystyka wyraża się jako

>$$t = \frac{\overline{x} - \overline{y}}{\sqrt{s_{pool}^2\left(\dfrac{1}{N} + \dfrac{1}{N}\right)}}
= \frac{\overline{x} - \overline{y}}{\sqrt{\dfrac{2s_{pool}^2}{N}}}$$
gdzie:

>* stopnie swobody: $2N-2$
>* $s_{pool}^2 = \dfrac{\Sigma (x_i - \overline{x})^2 + \Sigma (y_i - \overline{y})^2}{2N-2}$


In [13]:
N = length(men)

12

In [14]:
licznik = mean(men) - mean(women)
spool_kw = (sum((men - mean(men)).^2) + sum((women-mean(women)).^2))/(2N-2)
mianownik = sqrt(2*spool_kw/N)
t = licznik/mianownik

-0.5082822887700919

In [15]:
pval = tdistcdf(2N-2,-abs(t)) + tdistccdf(2N-2, abs(t))

0.6163143860907337

Konkluzja: `pval` $> 0.05$, wobec czego nie ma podstaw to tego aby uznać, że prowadzący jest stronniczy.

## Próby o różnych licznościach i równej wariancji

**UWAGA**:
Ponieważ nasze dane nie spełniają założeń powyższego testu (wariancje grup są różnej wielkości):

In [16]:
var(men), var(women)

(134.6287878787879, 173.1043956043956)

**jest błędem stosować poniższy test** aby rozstrzygnąć czy istnieje różnica między średnimi.

Oczywiście formuły po wprowadzeniu danych zwrócą wynik liczbowy, ale **nie ma on znaczenia statystycznego**!

>Załóżmy, że mamy dwie próby $x$ i $y$ o licznościach odpowiednio $N_x$ i $N_y$. Wówczas $t$-statystykę wyraża się jako
>$$t = 
\frac{\overline{x} - \overline{y}}{s_{pool}\sqrt{\dfrac{1}{N_x}+ \dfrac{1}{N_y}}}
$$
>
>gdzie
> * stopni swobody: $N_x + N_y - 2$
> * $s_{pool} = \sqrt{\dfrac{\sum_i(x_i-\overline{x})^2 + \sum_j(y_j-\overline{y})^2}{N_x + N_y -2}}$

In [17]:
function StudentTstat(X, Y)
    suma_odchyleń_kw(x) = sum((x-mean(x)).^2)
    licznik_t = mean(X) - mean(Y)
    dof = length(X)+length(Y)-2
    s_pool = sqrt((suma_odchyleń_kw(X) + suma_odchyleń_kw(Y))/dof)
    mianownik_t = s_pool * sqrt(1/length(X) + 1/length(Y))
    t = licznik_t/mianownik_t
end

StudentTstat (generic function with 1 method)

In [18]:
t = StudentTstat(men, women)

-0.5509238819721393

In [19]:
function Pval_tdist(dof, tstat)
    return tdistcdf(dof, -abs(tstat)) + tdistccdf(dof, abs(tstat))
end

Pval_tdist (generic function with 1 method)

In [20]:
Pval_tdist(length(men) + length(women) - 2, t)

0.5867783644773459

# Test $t$-Welcha

Precyzyjna nazwa:
> Test $t$-Welcha dla różniących się wariancji (_Welch unequal variances $t$-test_)

Załóżmy, że mamy dwie próby $x$ i $y$ o licznościach odpowiednio $N_x$ i $N_y$ i wariancjach $s_x^2$ i $s_y^2$. Wówczas $t$-statystykę wyraża się jako
$$t = 
\frac{\overline{x} - \overline{y}}{\sqrt{\dfrac{s_x^2}{N_x}+ \dfrac{s_y^2}{N_y}}}
$$

**Stopnie swobody:**
$$\nu \approx \dfrac{
    \left(
        \dfrac{s_x^2}{N_x} + \dfrac{s_y^2}{N_y}
    \right)^2}
    {
    \dfrac{(s_x^2)^2}{N_x^2(N_x-1)} + \dfrac{(s_y^2)^2}{N_y^2(N_y-1)}
    }.
$$

1. **Bardziej preferowany** od testu $t$-Studenta gdy próby mają **różniące się wariancje** lub **różną liczbę pomiarów**.
2. $t$-statystyki jest **większa** niż podobnym teście $t$-Studenta, ale **mniejsza jest** za to **liczba stopni swobody**

Porównujemy ją z wartościami dla **rozkładu $t$-Studenta** dla **$k=\lfloor \nu \rfloor$ stopni swobody** ($k$ jest największą liczbą całkowitą mniejszą od $\nu$). 

In [21]:
function WelchTTest(X, Y)
    licznik = mean(X) - mean(Y)
    mianownik = sqrt(var(X)/length(X) + var(Y)/length(Y))
    t = licznik/mianownik
    
    Nx = length(X)
    Ny = length(Y)
    ν_licznik = (var(X)/Nx + var(X)/Ny)^2
    ν_mianownik = var(X)^2/(Nx^2*(Nx-1)) + var(Y)^2/(Ny^2*(Ny-1))
    
    ν = ν_licznik/ν_mianownik
    
    return floor(ν), t
end

WelchTTest (generic function with 1 method)

In [22]:
k, t = WelchTTest(men, women)

(18.0, -0.5564689281117474)

In [23]:
plot(x->tdistpdf(k, x), -5, 5, label="Rozkład t($(Int(k)))", linewidth=2)
plot!([-5:0.01:-abs(t), abs(t):0.01:5], x->tdistpdf(k, x), fill=(0,), label="Szukana Część populacji", opacity=0.5, c=p[2])
xaxis!("Odchylenia standardowe")

In [24]:
Pval_tdist(k, t)

0.5847428542102251

**Konkluzja:** Jeśli populacje ocen Pań i Panów były **równe** (hipoteza zerowa) wówczas podobnie (lub bardziej) różniące się próby stanowią $>58\%$ całej populacji **różnic między średnimi**.

Nie ma zatem podstaw aby twierdzić, że prowadzący inaczej ocenia Panie i Panów.

## $t$-Student vs $t$-Welch

In [25]:
using HypothesisTests
function compare_Stud_Welch(m1, m2, var1, var2, N1, N2, runs=1000000)
    tStud = zeros(runs)
    tWelch = zeros(runs)
    t, k = 0.0, 0.0
    for i in 1:runs
        X = rand(Normal(m1, sqrt(var1)), N1)
        Y = rand(Normal(m2, sqrt(var2)), N2)
        tStud[i] = pvalue(EqualVarianceTTest(X,Y))
        tWelch[i] = pvalue(UnequalVarianceTTest(X,Y))
    end
    return tStud, tWelch
end

compare_Stud_Welch (generic function with 2 methods)

### Przykład: równe wariancje i wielkości prób

* Średnie obu populacji równe $0$
* Wariancje obu populacji równe $4$
* Wielkości obu prób równe $15$

Losujemy $2\times 1000000$ prób z populacji które nie różnią się średnią i porównujemy je ze sobą. 

Oczekujemy, że każdy z testów pomyli się conajwyżej w $5\%$ przypadków, jeśli będziemy odrzucać hipotezę zerową dla wartości-$p$ mniejszej od $0.05$:

In [26]:
S, W = compare_Stud_Welch(0, 0, 4, 4, 15, 15)
Stdnt_TypeIerror_rate = count(x -> x<0.05, S)/length(S)
Welch_TypeIerror_rate = count(x -> x<0.05, W)/length(W)
@show(Stdnt_TypeIerror_rate, Welch_TypeIerror_rate);

Stdnt_TypeIerror_rate = 0.050073
Welch_TypeIerror_rate = 0.049457


### Przykład: różne wariancje i wielkości prób

* Średnie obu populacji równe $0$
* Populacja I:
  - wariancja: $1$
  - wielkość próby $20$
* Populacja II:
  - wariancja: $16$
  - wielkość próby $10$

In [27]:
S, W = compare_Stud_Welch(0, 0, 1, 16, 20, 10)
Stdnt_TypeIerror_rate = count(x -> x<0.05, S)/length(S)
Welch_TypeIerror_rate = count(x -> x<0.05, W)/length(W)
@show(Stdnt_TypeIerror_rate, Welch_TypeIerror_rate);

Stdnt_TypeIerror_rate = 0.16184
Welch_TypeIerror_rate = 0.050228


In [28]:
S, W = compare_Stud_Welch(0, 0, 16, 1, 20, 10)
Stdnt_TypeIerror_rate = count(x -> x<0.05, S)/length(S)
Welch_TypeIerror_rate = count(x -> x<0.05, W)/length(W)
@show(Stdnt_TypeIerror_rate, Welch_TypeIerror_rate);

Stdnt_TypeIerror_rate = 0.011123
Welch_TypeIerror_rate = 0.049778


> **Problem:**
>
> Co możemy wywnioskować o zawodności testu $t$-Studenta i $t$-Welcha?

# Test Jednostronny

> **Pytanie**
>
> Sprawdziliśmy czy oceny Pań pochodzą z populacji o **tej samej średniej**. Czy taki był zarzut??  
> **NIE**: prowadzący miał _faworyzować_ Panie! Posądzenie przecież brzmiało **oceny Pań były średnio wyższe niż Panów**.

* **Hipoteza zerowa:** Średnia ocen Pań nie jest większa niż średnia ocen Panów
* **Hipoteza alternatywna:** Średnia ocen Pań jest większa niż średnia ocen Panów
* **Test:** różne wariancje i różne wielkości prób → test $t$-Welcha

In [29]:
mean(men) - mean(women)

In [30]:
k, t = WelchTTest(men, women)

(18.0, -0.5564689281117474)

In [31]:
plot(x->tdistpdf(k, x), -5, 5, label="Rozkład t($(Int(k)))")
plot!(x->tdistpdf(k, x), -5, t, fill=(0,), label="Szukana Część populacji", opacity=0.5)
xaxis!("Odchylenia standardowe")

Szukana część populacji (czego???) to ta, gdzie różnica jest mniejsza (**bardziej ujemna!**) niż zaobserwowana różnica to:

In [32]:
tdistcdf(k, -abs(t))

Nadal nie pozwala to odrzucić **hipotezy zerowej**, że prowadzący jest bezstronny.

In [33]:
plot(x->tdistpdf(k, x), -5, 5, label="Rozkład t($(Int(k)))")
plot!(x->tdistpdf(k, x), -5, -1.7, fill=(0,), label="Część populacji - test jednostronny", opacity=0.5)
plot!([-5:0.01:-2, 2:0.01:5], 
    [x->tdistpdf(k, x), x->tdistpdf(k, x)], fill=(0,), label="Część populacji - test dwustronny", opacity=0.5, c=p[3])
xaxis!("Odchylenia standardowe")

> **Problem**
> 
> Czy aby wykazać statystyczną istotność $t$-statystyka musi być dla testu jednostronnego bardziej czy mniej odległa od średniej (niż w teście dwustronnym)? Dlaczego?
>
> Sprawdź na przykładzie rozkładu $t$-Studenta o $30$ stopniach swobody i rozkładu normalnego.

> **Problem**
>
> Jak duża (w odchyleniach standardowych) musiałaby być różnica między średnimi wynikami Pań i Panów aby móc odrzucić hipotezę zerową w teście jednostronnym?
>
> A w dwustronnym?

# $t$-Test sparowany

1. **Kiedy?**
  - dokonujemy dwóch pomiarów na jednym obiekcie
  - np. badamy każdego pacjenta tydzień przed i tydzień po podaniu leku
2. **Dlaczego?**
  - pozwala sprawdzić czy "podanie leku przyniosło skutek"
3. **Czym jest?**
  - to po prostu test $t$-Studenta dla jednej próby **składającej się z różnic**

In [34]:
N = 10
before = rand(Normal(10,3), N);
after = 0.96*before .+ 2.*randn(N);

In [35]:
before = round.(before, 1)
after = round.(after, 1);

In [36]:
println("before \t after \t difference")
for i in 1:N
    println(before[i], "\t ", after[i], "\t ", round(after[i] - before[i], 2))
end
differences = after .- before;

before 	 after 	 difference
10.4	 8.1	 -2.3
11.6	 14.8	 3.2
8.1	 12.4	 4.3
10.5	 11.2	 0.7
9.9	 10.6	 0.7
12.0	 11.3	 -0.7
8.0	 9.7	 1.7
9.2	 8.6	 -0.6
6.0	 3.2	 -2.8
10.5	 8.6	 -1.9


In [37]:
scatter(before, before-after, xlabel="Przed podaniem", ylabel="Po podaniu")

* **Hipoteza zerowa: ** Nie ma różnicy między średnią populacji różnic a $0$.
* **Hipoteza alternatywna:** jest różnica
* **Porównujemy:** Populację różnic (po - przed) z populacją o średniej $0$.
* **Test:** $t$-Studenta sparowany = na różnicę średniej populacji od znanej wartości 
* **Stopni swobody:** Liczba pacjentów - 1 

Wykonać!

# Przedziały ufności

Czasami do otrzymanego wyniku dodaje się tzw **przedziały ufności**:

> Dysponując próbą $x$ o rozkładzie **normalnym** przedział ufności (o poziomie ufności $1-0.05$) **dla średniej** wyznacza się jako
> $$ \left[\overline{x}-1.96\cdot SE,  \overline{x}+1.96\cdot SE\right]$$
>
> Jest to przedział który zawiera który z $95\%$ _ufnością_ zwiera **prawdziwą średnią populacji średnich**.

1. Ufność To **NIE jest prawdopodobieństwo** że przedział ufności zawiera prawdziwą średnią!
2. Prawdziwa średnia jest w przedziale wyliczonym na podstawie $x$ albo zawarta albo nie. Nie ma mowy o prawdopodobieństwie!
3. Gdybyśmy wielokrotnie brali próby $x_1, x_2, \ldots$ wówczas tylko $5\%$ tych interwałów **nie** będzie zawierać prawdziwej średniej populacji.
4. Jeśli $x$ jest rozłożone zgodnie z innym rozkładem stałą $1.96$ należy zastąpić przez taką stałą $C$ aby dalej niż $C\cdot SE$ od średniej leżało tylko populacji $5\%$ populacji.

Aby zobaczyć ładną wizualizację tego konceptu proponuję zajrzeć na stronę https://students.brown.edu/seeing-theory/statistical-inference/index.html

> **Problem**: 
>
> Jeśli 
```
X = [1.37, 1.11, 1.85, -1.18, 0.1, 0.59, 1.52, 0.92, 0.71, -0.23]
```
>pochodzi z rozkładu $t$-Studenta o $9$ stopniach swobody wyznacz przedział ufności dla średniej $\overline{X}$.



In [38]:
X = [1.37, 1.11, 1.85, -1.18, 0.1, 0.59, 1.52, 0.92, 0.71, -0.23]

10-element Array{Float64,1}:
  1.37
  1.11
  1.85
 -1.18
  0.1 
  0.59
  1.52
  0.92
  0.71
 -0.23

In [39]:
SE(v) = std(v)/sqrt(length(v))

SE (generic function with 1 method)

In [40]:
mean(X) + tdistinvcdf(9, 0.025)*SE(X), mean(X) + tdistinvccdf(9, 0.025)*SE(X)

(0.0261993199532079, 1.3258006800467919)