Podstawowe funkcje (`mean`, `var`,`std`) są dostępne bez naszej interwencji.

Aby uzyskać dostęp do bardziej specyficznych funkcji (np. `plot`→ tworzenie wykresów, `pdf`→ funkcje gęstości prawdopodobieństwa, etc., należy wykonać (`Shift+Enter`) poniższą komórkę raz (na życie notebooka)

In [88]:
using Plots           # wykresy itp. w szczególności funkcja plot(...)
# plotly();
pyplot()
using StatsFuns       # funkcje gęstości, dystrybuanty itp. np normpdf, normcdf
using Distributions   # teoretyczne rozkłady prawdopodobieństwa, losowanie prób etc.

# Gęstość Prawdopodobieństwa

**Funkcja gęstości prawdopodobieństwa** (również: **rozkład prawdopodobieństwa**, _probability density function_ w skrócie: _pdf_) to funkcja która określa "prawdopodobieństwo" wystąpienia zdarzenia (uzyskania pomiaru o zadanych własnościach) poprzez **pole pod wykresem funkcji**. Własności:
 * Pole pod całym wykresem jest równe $1$ (jako "prawdopodobieństwo" że pomiar znajdzie się gdziekolwiek na osi)
 * Pole pod każdą konkretną wartością jest równe $0$ ("prawdopodobieństwo" wylosowania konkretnej wartości jest zawsze $0$!)
 * "Prawdopodobieństwo", że wynik pomiaru znajdzie się pomiędzy $a$ i $b$ jest wyznaczone przez pole pod wykresem funkcji pomiędzy $a$ i $b$

## Przykład: Rozkład Normalny (przypomnienie)

**Rozkład normalny** to rozkład prawdopodobieństwa (lub _funkcja gęstości prawdopodobieństwa_) opisany funkcją argumentu $x$, ($m$ i $s$ to parametry – odpowiednio średnia i odchylenie standardowe):
$$N_{m,s}(x) = \frac{1}{2\pi s^2} e^{-\frac{(x-m)^2}{2s^2}}$$
Jego funkcja gęstości dostępna jest jako `normpdf` w pakiecie `StatsFuns` (zanim użyjemy funkcji `normpdf` trzeba jednokrotnie wywołać `using StatsFuns`):

In [89]:
plot(normpdf, linewidth=2)

In [90]:
## Definiujemy kolory
Paired =[ 166 206 227
        31 120 180
        178 223 138
        51 160 44
        251 154 153
        227 26 28
        253 191 111
        255 127 0
        202 178 214
        106 61 154
        255 255 153
        177 89 40] / 255
Paired = [RGB(Paired[i,:]...) for i in 1:size(Paired,1)];

function ColouredPlot_Normal(p=plot(palette=Paired);m=0,s=1)
    N = x -> normpdf(m, s, x)
    ssize=0.01*s
    plot!(p, [m-s:ssize:m,     m:ssize:m+s], [N, N], fill=(0,), label="~34.13% populacji")
    plot!(p, [m-2s:ssize:m-s,  m+1s:ssize:m+2s], [N, N], fill=(0,), label="~13.59% populacji")
    plot!(p, [m-3s:ssize:m-2s, m+2s:ssize:m+3s], [N, N], fill=(0,), label="~02.41% populacji")
    plot!(p, [m-5s:ssize:m-3s, m+3s:ssize:m+5s], [N, N], fill=(0,), label="~00.13% populacji")
    xlims!(-(ceil(5*s))+m, ceil(5*s)+m)
#     xticks!(-(ceil(5*s)+1): ceil(5*s)+1)
    return p
end

ColouredPlot_Normal (generic function with 2 methods)

In [91]:
# Rysujemy dwa rozkłady normalne o różnych średnich i odchyleniach standardowych

m = 0
s = 1
p = plot(xticks = (collect(m-5s:s:m+5s), collect(-5:5)), palette=Paired, 
    title="Rozkład normalny (m=0, s=1)")
p = ColouredPlot_Normal(p, m=m, s=s)
yaxis!((0,0.7))
xaxis!((m-5s,m+5s))

m = 1
s = 3
p1 = plot(xticks = (collect(m-5s:s:m+5s), collect(-5:5)), palette=Paired,
    title="Rozkład normalny (m=1, s=3)")
p1 = ColouredPlot_Normal(p1, m=m, s=s)
yaxis!((0,0.7))
xaxis!((m-5s,m+5s))

plot(p, p1, size=(800,350))

# Dystrybuanta (`cdf`, `ccdf`)

**Dystrybuanta** (trudne słowo) (_cumulative density function_, w skrócie _cdf_) to funkcja która określa "prawdopodobieństwo" uzyskania pomiaru (obserwacji) o wyniku "mniejszym niż". Własności:
 * $cdf(\infty) = 1$ ("prawdopodobieństwo", że wynik pomiaru jest skończony, tj. mniejszy od $\infty$)
 * $cdf(-\infty) = 0$ ("prawdopodobieństwo", że wynik pomiaru jest większy od $-\infty$)
 * $cdf(1)$ – "prawdopodobieństwo", że wynik pomiaru jest **mniejszy od 1** – inaczej: pole pod wykresem funkcji gęstości prawdopodobieństwa **na lewo od 1**.
 * $cdf(x)$ – "prawdopodobieństwo", że wynik pomiaru jest **mniejszy od $x$**
 * $1 - cdf(2)$ – "prawdopodobieństwo", że wynik pomiaru jest **większy od 2** – inaczej: pole pod wykresem funkcji gęstości prawdopodobieństwa **na prawo od 2**
 * $ccdf(x) = 1 - cdf(x)$ - "prawdopodobieństwo", że wynik pomiaru jest **większy od $x$** – funkcja ta jest nazywana _complementary cumulative density function_, w skrócie _ccdf_ (nazwy polskiej brak? dystrybuanta komplementarna??)

**UWAGA:** "Prawdopodobieństwo", że wynik pomiaru jest **mniejszy od $-1s$, lub większy od $2s$** to:
$$ cdf(-1) + ccdf(2) = cdf(-1) + 1 - cdf(2)$$

## Przykład: Rozkład Normalny

Dystrybuanta rozkładu normalnego określona jest wzorem _zbyt trudnym aby go tutaj zformułować_ ;-) Można natomiast znaleźć ją pod nazwą `normcdf` (oraz dystrybuantę komplementarną jako `normccdf`). Własności:
 * Ponieważ rozkład normalny jest *symetryczny*:
   - `normcdf(0) = 0.5` – 50% populacji jest mniejsze niż średnia
   - `normccdf(0) = 0.0` – 50% populacji jest większe niż średnia
 * Mniej niż $2.5\%$ populacji jest większe niż $2$ (odchylenia standardowe) od średniej, tj.  
`normccdf(2) ≈ 0.02499 < 0.025`.  
Podobnie z mniejszymi of $2$ (odchyleń standardowych):  
`normcdf(-2) ≈ 0.02499 < 0.025`
 * W odległości większej niż $\pm2$ odchylenia od średniej znajduje się więc mniej niż 5% populacji:  
`normcdf(-2) + normccdf(2) ≈ 2 ⋅ 0.2499 < 0.05`

> **Problem:**
>
> W populacji rozłożonej normalnie jakie jest "prawdopodobieństwo" trafienia na pomiar mniejszy niż $1.2s$ ($+1.2$ odchylenie standardowe)?
>
> **Równoważnie**
>
> Jaka część populacji jest mniejsza niż średnia $+1.2s$?

In [92]:
y = 1.2

p = plot(-4:0.01:4, x->normcdf(x), linewidth=2, label="normcdf", title="normcdf")
scatter!([y], [normcdf(y)], 
    label="normcdf($y) ≈ $(round(normcdf(y),3))")
yticks!([[0.0, 0.25, 0.5, 0.75, 1.0]; [normcdf(y)]])

p1 = plot(-4:0.01:y, x->normpdf(x), opacity=0.3, fill=(0,), color=:red, 
    label="pole na lewo od $y ≈ $(round(normcdf(y),3))")
plot!(-4:0.01:4, x->normpdf(x), linewidth=2, label="normpdf", color=:blue, title="normpdf")
plot(p1,p, size=(800, 350))
xticks!([[i for i in -4:2:4]; [y]])


> **Problem:**
>
> Jaka część populacji (o rozkładzie normalnym) znajdzie się w odległości większej niż $\pm2s$ od średniej?

In [93]:
normcdf(-2) + normccdf(2)

0.045500263896358396

>**Zadanie**  
>W populacji ciężar jest rozłożony normalnie ze średnią $\mu=30g$ i odchyleniem standardowym $\sigma=3.5g$. Jakie jest "prawdopodobieństwo", że
> * pomiar wagi wyniesie $33g$?
> * pomiar wagi będzie mniejszy niż $24.5g$?
> * pomiar wagi będzie większy niż $38g$?
> * pomiar wagi będzie pomiędzy $27g$ a $35g$
>
> Które z tych pytań można zadać poprawnie nie używając słowa "prawdopodobieństwo"? (wskazówka znajduje się w opisie dystrybuanty rozkładu normalnego powyżej)

# Inne rozkłady prawdopodobieństwa

## Rozkład dwumianowy

Określa prawdopodobieństwo uzyskania $k$-sukcesów w $N$-rzutach monetą, np.
 * określa liczbę punktów, które można otrzymać na teście składającym się z $N$ pytań TAK/NIE na które nie znamy odpowiedzi (wypełniamy losowo)
 * prawdopodobieństwo jest zdefiniowane tylko dla liczb całkowitych (nie można uzyskać $3.5$ orłów rzucając monetą)
 * dla niewielkiej liczby pytań ($N<10$, umownie) jest "trójkątny".
 * dla dużej liczby pytań ($N>50$, umownie) jest "empirycznie nieodróżnialny od normalnego"

In [94]:
# N=10
N = 100
bar(0:N, x -> binompdf(N, 1/2, x))

In [95]:
function fit_normpdf(v; label="Dopasowany Rozkład Normalny")
    m, s = mean(v), std(v)
    p = plot!(m-5s:0.01:m+5s, x->normpdf(m,s, x), 
        label=label,
        linewidth=2)
    return p
end

fit_normpdf (generic function with 1 method)

In [96]:
N = 100
sample_data = rand(Binomial(N, 1/2), 1000); # losujemy próbę wielkości 1000 z rozkładu dwumianowego

In [97]:
m = mean(sample_data)
s = std(sample_data)
@show(m,s)
histogram(sample_data, normalize=true, opacity=0.5, label="Próba rozkładu dwumianowego")
fit_normpdf(sample_data)

m = 50.001
s = 5.095975663988978


Gęstość prawdopodobieństwa i dystrybuanta dostępne są pod nazwami `binompdf` i `binomcdf`:

In [98]:
p = bar(0:10, x->binompdf(10, 1/2, x), title="binompdf")
p1 = plot(0:0.01:10, x->binomcdf(10, 1/2, Int(floor(x))), title="binomcdf")
plot(p,p1, size=(800,400))

> **Problem**
>
> Dlaczego dystrybuanta jest funkcją schodkową? (tzn nie jest ciągła, gładka?)

## Rozkład $t$-Studenta o $k$-stopniach swobody

 * Odkryty/wynaleziony prze Williama Sealy Gosset'a
 * Gosset pracował nad problemami niewielkich prób, nawet $N=3,4$ (czyli wtedy $k=2, 3$).
 * Publikował pod pseudonimem "Student", żeby ukryć fakt, że Browar Guinnessa (jego pracodawca) używa narzędzi statystycznych do opisu procesu piwowarskiego
   - np. jak przewidzieć ilość alkoholu/czas fermentacji brzeczki z tony jęczmienia, gdy możemy zanalizować skład chemiczny tylko kilku ziaren?

In [99]:
p = plot(title="Rozkład t-Studenta")
plot!(-5:0.01:5, x-> normpdf(x), linewidth=3, label="Rozkład normalny", color=:red)
for k in [1,2,5,10,20]
    plot!(-5:0.01:5, x->tdistpdf(k, x), label="$(k) stopni swobody")
end
plot!(-5:0.01:5, x->tdistpdf(30, x), label="30 stopni swobody", color=:black)
p

**Przykład**

Wielokrotnie losując niewielkie próby możemy zobaczyć jak dalece mogą odbiegać średnie próby $\overline{x}$ i ich odchylenia standardowe $s$ od prawdziwych (średnia $\mu = 0$ i odchylenie standardowe $\sigma=1$)
    
>Proszę również porównać zachowanie średnich gdy ustalimy `SIZE` np. na $100$.  

In [131]:
SIZE=5
# SIZE=100
sample_data = rand(Normal(), SIZE);
@show(mean(sample_data), std(sample_data))

histogram(sample_data, normalize=true, opacity=0.5, label="histogram próby")
fit_normpdf(sample_data)
plot!(-5:0.01:5, x->normpdf(x), label="Idealny rozkład normalny", w=2)
xticks!(-5:5)
ylims!((0,0.5))

mean(sample_data) = -0.36380569189763934
std(sample_data) = 1.1071669418458647


**Gęstość prawdopodobieństwa** rozkładu $t$-Studenta o _$k$-stopniach swobody_ wyraża się wzorem ($\Gamma(k) \approx k!$)
$$tdistpdf(k,x) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\Gamma\left(\frac{k}{2}\right)}\left(1+\frac{x^2}{k}\right)^\frac{-k+1}{2}.$$
Własności rozkładu $t$-Studenta:
 * stopnie swobody – $(N-1)$ (ilość elementów w próbie minus $1$)
 * Znacznie szersze ogony (np. wszystko co leży na lewo od $-2$) od rozkładu normalnego
 * Dla dużych prób (coraz więcej stopni swobody) zbiega do rozkładu normalnego
 * Dla niewielkich prób znacznie lepiej określa naszą "niepewność oszacowania prawdziwej średniej populacji"
 * Potrzebne funkcje rozkładu są dostępne pod nazwami
   - Gęstość prawdopodobieństa (_pdf_) → `tdistpdf(k,x)` ($k$ jest liczbą stopni swobody)
   - dystrybuanta (_cdf_) → `tdistcdf(k,x)`
   - komplementarna dystrybuanta (_ccdf_) → `tdistccdf(k,x)`

In [101]:
y = 1
k = 4

p = plot(-4:0.01:4, x->tdistcdf(k, x), linewidth=2, label="tdistcdf(k,x)", title="tdistcdf(k,x)")
scatter!([y], [tdistcdf(k, y)],
    label="tdistdf($k, $y) ≈ $(round(tdistcdf(k, y),3))")
plot!(-4:0.01:4, x->normcdf(x), linewidth=1, label="normcdf(x)")

p1 = plot(-4:0.01:y, x->tdistpdf(k,x), opacity=0.3, fill=(0,), color=:red, 
    label="pole na lewo od $y ≈ $(round(tdistcdf(k, y),3))")
plot!(-4:0.01:4, x->tdistpdf(k, x), linewidth=2, label="tdistpdf(k,x)", color=:blue, title="tdistpdf(k,x)")
plot(p1,p, size=(800, 350))
xticks!([[i for i in -4:2:4]; [y]])


> **Zadanie**
>
> Proszę sprawdzić ile stopni swobody ($k$) potrzeba aby prawy ogon rozkładu $t$-Studenta pomiarów większych niż $2s$ miał to samo "prawdopodobieństwo" co rozkład normalny z dokładnością do $0.001$.

### Kiedy użyć rozkładu $t$-Studenta?

Jeśli przypuszczamy, że **populacja jest rozłożona normalnie** wówczas:

1. Czy znamy wariancję (lub odchylenie standardowe) **populacji**?
  1. Tak? → używamy rozkładu normalnego
  2. Nie? → Czy liczba elementów w próbie jest $N>30$ (dosyć arbitralny wybór tej liczby)?
    1. Tak? → używamy rozkładu normalnego
    2. Nie? → używamy rozkładu $t$-Studenta o $(N-1)$ stopniach swobody

**UWAGA** Prowadząc badania raczej nie możemy przyjmować że znamy wariancję (lub odchylenie standardowe) **populacji**. Jeśli liczymy ją ze wzoru na podstawie próby to **na pewno jej nie znamy**!. Może się jednak zdarzyć, że nasz eksperyment będzie osadzony w kontekście szerokiej literatury na której wyliczeniach wariancja możemy się solidnie podeprzeć.

## Rozkład chi kwadrat (χ²)

To rozkład sumy kwadratów próby o $k+1$ obserwacjach ze standardowego rozkładu normalnego ($\mu=0$, $\sigma=1$)

(Będziemy o nim mówić gdy przyjdzie nam analizować _różnice między wariancjami_)

In [102]:
p = plot()
for i in 1:5
    k = 2*3*i-1
    plot!(0:0.01:50, x -> chisqpdf(k,x), label="k=$k stopni swobody", linewidth=2)
end
title!("Rozkład χ²")
yaxis!((0,0.2))
p

Jest asymetryczny:
 * zaczyna się w $0$ (suma kwadratów nie może być ujemna)
 * kończy w $\infty$
 * jego średnia wynosi $k$
 * zbiega do rozkładu normalnego wraz ze wzrostem $k$ (dla $k > 50$ można przyjąć że jest normalny)

In [103]:
N = 100
sample_data = rand(Chisq(N-1), 1000)
histogram(sample_data, normalize=true, opacity=0.5, label="Próba wielkości $N")
plot!(0:0.01:2*N, x->chisqpdf(N-1, x), label="Rozkład χ²")
fit_normpdf(sample_data)

## Rozkład $F$ (Fishera)

Rozkład ten służy do liczenia tzw. $f$-statystyki (porównywania ilorazów wariancji)

In [104]:
plot(title="Rozkład F (Fishera)")
plot!(0:0.01:6, x->fdistpdf(3,4,x), linewidth=2, label="F(3,4)")
plot!(0:0.01:6, x->fdistpdf(3,10,x), linewidth=2, label="F(3,10)")
plot!(0:0.01:6, x->fdistpdf(10,3,x), linewidth=2, label="F(10,3)")
plot!(0:0.01:6, x->fdistpdf(10,10,x), linewidth=2, label="F(10,10)")
# plot!(0:0.01:6, x->fdistpdf(25,10,x), linewidth=2, label="F(25,10)")
plot!(0:0.01:6, x->fdistpdf(50,10,x), linewidth=2, label="F(50,10)")
# plot!(0:0.01:6, x->fdistpdf(50,50,x), linewidth=2, label="F(50,50)")
plot!(0:0.01:6, x->fdistpdf(100,100,x), linewidth=2, label="F(100,100)")

 * Rozkład $F(k_1,k_2)$ ma dwa całkowite parametry: $k_1$ oraz $k_2$.
 * jest teoretycznym rozkładem ilorazu dwóch rozkładów typu $\chi^2$: 
 $$F(k_1, k_2) = \dfrac{\chi^2(k_1)/k_1}{\chi^2(k_2)/k_2}$$
 * jest asymetryczny – zaczyna się w $0$, kończy w $\infty$, o średniej $\frac{k_2}{k_2-2}$ ($k_2$ jest oczywiście $>0$)

In [105]:
# losowanie 1000 pomiarów z rozkładu Fishera F(300, 300)
sample_data = rand(FDist(300,300), 1000); 

In [106]:
histogram(sample_data, normalize=true, opacity=0.5, label="próba z F(300,300) licząca 1000")
fit_normpdf(sample_data)

# Różnice między średnimi

In [107]:
function znieś_jajek(N, μ=65, σ=3)
    jajka = randn(N).*σ.+μ
    jajka = round.(jajka, 1)
#     @show(mean(jajka), std(jajka))
    return jajka
end

znieś_jajek (generic function with 3 methods)

**UWAGA:** Każde dwie próby z tej samej populacji będą się różnić!

Przykład:

In [108]:
Eggs = znieś_jajek(100)
E1 = Eggs[1:50]
E2 = Eggs[51:end];
@show(mean(E1), mean(E2));
mean(E1) - mean(E2)

mean(E1) = 64.65400000000001
mean(E2) = 65.34200000000001


-0.6880000000000024

Jak więc chcemy rozstrzygnąć czy $x$ i $y$ – dwie próby, pochodzą z populacji o różnych średnich?

> Czy $\overline{x} - \overline{y}$ (zaobserwowana różnica między średnimi prób) powstała na skutek
>  - różnic między populacjami, czy też może
>  - wewnętrznej zmienności obu populacji? (który może prowadzić do nieszczęśliwego wyboru próby)

Postaramy się nato pytanie odpowiedzień w następnym dziale.

# $t$-statystyka, $t$-test

## Idea

In [109]:
p1_3 = plot(x->normpdf(0,1/3,x), fill=(0,), opacity=0.5, title="Różnica między średnimi=1, s=1/3")
plot!(x->normpdf(1,1/3,x), fill=(0,), opacity=0.5)

p1 = plot(x->normpdf(0,1,x), fill=(0,), opacity=0.5, title="Różnica między średnimi=1, s=1")
plot!(x->normpdf(1,1,x), fill=(0,), opacity=0.5)

p3 = plot(x->normpdf(0,3,x), fill=(0,), opacity=0.5, title="Różnica między średnimi=1, s=3")
plot!(x->normpdf(1,3,x), fill=(0,), opacity=0.5)

ylims!((0,0.4))
plot(p1_3,p1,p3, size=((500,1000)), layout=(3,1))

Widzimy, że chociaż na wszystkich trzech przykładach dwóch populacji (niebieskiej i czerwonej) różnica między średnimi wynosi $1$, to
 * na pierwszym rysunku byłoby **bardzo mało prawdopodobne**, aby wylosować próby z czerwonej i niebieskiej populacji tak aby **średnia czerwonej próby była mniejsza niż średnia niebieskiej**
 2. w trzecim przykładzie ta sama sytuacja (średnia próby niebieskiej większa niż średnia próby czerwonej) zdaje się być bardziej prawdopodobna

>**Konkluzja:**
>
>Kiedy porównujemy (średnie) grup interesuje nas stosunek **sygnału** (_różnica między średnimi_) do **szumu** (_wewnętrzna zmienność populacji_)

>$$
\frac{\text{różnica pomiędzy średnimi grup}}{\text{zróżnicowanie w grupach}} =
\frac{\overline{x} - \overline{y}}{\text{łączna wariancja obu prób}} =
\frac{\overline{x} - \overline{y}}{SE(\overline{x},\overline{y})} =
\text{wartość $t$-statystyki}
$$

# Błąd standardowy

## Średnia ze średnich

Z populacji rozłożonej normalnie wielokrotnie losujemy próby wielkości $10$ i zapisujemy ich **średnie**:
 * nasza **nowa populacja** składa się teraz ze **średnich z $10$ wag jajek**
 * jej średnia, tj. średnia ze średnich ~ średniej populacji wag jajek
 * wariancja średnich ??
 * odchylenie standardowe średnich ??

In [110]:
Eggs = znieś_jajek(100)
średnie = [mean(znieś_jajek(10)) for i in 1:10] # W każdym przypadku losujemy 100 jajek!

10-element Array{Float64,1}:
 64.03
 66.14
 64.23
 65.32
 64.55
 63.39
 64.02
 66.29
 64.82
 63.77

In [111]:
@show(mean(Eggs), var(Eggs), std(Eggs));
histogram(Eggs, normalize=true, opacity=0.5, label="Rozkład jajek")
fit_normpdf(Eggs, label="Dopasowany rozkład (jajka)")
@show(mean(średnie), var(średnie), std(średnie));
histogram!(średnie, normalize=true, opacity=0.5, label="Rozkład średnich z 10 jajek")
fit_normpdf(średnie, label="Dopasowany rozkład (średnie z 10 jajek)")

mean(Eggs) = 65.291
var(Eggs) = 9.765675757575755
std(Eggs) = 3.125008121201568
mean(średnie) = 64.65599999999999
var(średnie) = 0.9685377777777825
std(średnie) = 0.984143169349756


Zwróćmy uwagę, że odchylenie standardowe próby `średnie` jest m.w. **$3$ razy mniejsze** niż odchylenie standardowe `Eggs`.
Nie powinno nas to dziwić: biorąc średnią z wag $10$-jajek możemy się spodziewać, że nawet jeśli wystąpiło (wśród tych $10$) jedno bardzo duże – nie wpłynie ono na całą średnią z $10$ aż tak bardzo (będzie zrównoważone przez pozostałe $9$ jajek). Tak więc ogólna **zmienność w populacji średnich będzie mniejsza**!


## Porównanie populacji i populacji średnich

Wielokrotne powtarzanie eksperymentu (losowanie $10$ jajek) żeby uzyskać wiele średnich – jest drogie i czasochłonne.
Okazuje się jednak, że **odchylenie standardowe** dla populacji średnich z prób wielkości $N$ można oszacować na podstawie pojedycznej próby $x$ wielkości $N$:
 $$SE = \frac{s}{\sqrt{N}}$$
 wielkość tę nazywa się **błędem standardowym** próby $x$ (_standard error_, w skrócie _SE_) – jest to średnia **różnica** pomiędzy **średnią z próby** i **średnią populacji**.
 * Średnie z prób są rozłożone zgodnie z rozkładem normalnym $\overline{x} \pm SE$
 * Używając zapisu np. $65 \pm 1.3$ należy zaznaczyć czy chodzi nam o 
    - $65 \pm 1.3 (sd)$ (odchylenie standardowe, _standard deviation_), czy o 
    - $65 \pm 1.3 (SE)$ (błąd standardowy, _standard error_).

|                            |Opis                         | Populacja jajek| Populacja średnich z $N$ jajek |
|----------------------------|-----------------------------|----------------|--------------------------------|
| **Pomiar**                 | waga jednego jajka          |                | średnia z próby $N$ jajek      |
| **Próba**                  | lista wag pojedynczych jajek|                | lista średnich wag z $N$ jajek |
| **Średnia**                | średnia waga jajka w próbie | $\overline{x}$ | $\overline{x}$                 |
| **Wariancja**              | suma kwadratów odchyleń     | $s^2$          | $\frac{s^2}{N}$                |
| **Odchylenie standardowe** | pierwiastek z wariancji     | $s$            | $\frac{s}{\sqrt{N}}$           |



In [112]:
SE(X) = std(X)/sqrt(length(X))

SE (generic function with 1 method)

> **Problem:**
>
> Czy jedno jajko o wadze $68g$ będzie znacząco różne od średniej?

In [113]:
(68 - mean(Eggs))/std(Eggs)

0.8668777471715468

**Odpowiedź:** Nie, nie będzie 
>**UWAGA:** powyższy wynik jest wyrażony w odchyleniach standardowych **populacji (wag) jajek**)

> **Problem:**
>
> Czy próba `Eggs[1:10]` ($10$ jajek) może pochodzić z populacji o średniej $68$?
>
> **Równoważnie:** 
>
> Czy średnia `mean(Eggs[1:10])` (z $10$ jajek) byłaby duża czy mała **w populacji średnich z $10$ jajek** o średniej 68 i odchyleniu standardowym próby??

In [114]:
E1 = Eggs[1:10];
@show(mean(E1), SE(E1))
(mean(E1) - 68)/SE(E1)

mean(E1) = 65.42
SE(E1) = 0.8512474506406594


-3.0308460813107376

**Odpowiedź:** Nie, raczej nie pochodzi; $10$ jajek ważących średnio $~65.66g$ byłoby wyjątkowo lekkim pomiarem w populacji średnich z $10$ jajek (o średniej 68). 
> **UWAGA:** powyższy wynik jest wyrażony w odchyleniach standardowych **populacji średnich z $10$ jajek**)

# Testowanie hipotez 

Statystyczna analiza wyników eksperymentu przebiega w następujących krokach
1. Zbadać stan wiedzy tak aby wiedzieć jakie są przewidywania wyniku eksperymentu zgodne z "obowiązującą teorią"
   - średnia waga jajek na naszej fremie wynosi $68g$ co jest np. potwierdzone wielokrotnymi wcześniejszymi badaniami
2. Stawiamy **Hipotezę zerową** ($H_0$) – która orzeka, że wyniki eksperymentu **NIE ODBIEGAJĄ** od przewidywań teorii
   - dana próba $100$ jajek pochodzi z populacji o średniej **równej** $68g$
3. **Hipoteza alternatywna** ($H_1$, lub $H_A$) jest zaprzeczeniem hipotezy zerowej
   - dana próba $100$ jajek pochodzi z populacji o średniej **różnej** od $68g$
4. Badamy jak "skrajna" jest nasza próba:
   1. jeśli dana próba znajduje się wśród wewnętrznych $95\%$ populacji (wokół średniej) – **podtrzymujemy $H_0$** mówiąc _Nie ma podstaw do tego aby sądzić, że hipoteza zerowa jest fałszywa_
     * co wcale **NIE dowodzi prawdziwości** hipotezy zerowej
     * oznacza to, że użyta (konkretna) próba nie wskazuje na to by hipoteza zerowa mogła być nieprawdziwa 
   2. jeśli dana próba znajduje się wśród _mniej niż $5\%$_ skrajnych wartości w populacji - **odrzucamy $H_0$** i **przyjmujemy $H_1$** mówiąc _Są podstawy do tego aby sądzić, że hipoteza zerowa jest fałszywa_
     * ponownie to **NIE dowodzi fałszywości** hipotezy zerowej
     * oznacza to tylko, że użyta (konkretna) próba była znacznie bardziej odległa niż to czego się spodziewaliśmy

|                 | podtrzymujemy $H_0$ | odrzucamy $H_0$ |
|-----------------|---------------------|-----------------|
| $H_0$ prawdziwa | Ok                  | Błąd I rodzaju  |
| $H_0$ fałszywa  | Błąd II rodzaju     | Ok              |

**UWAGA:** Minimalizując prawdopodobieństwo **Błędu I rodzaju** sprawiamy, że rośnie prawdopodobieństwo **Błędu II rodzaju**.

> **Definicja**
>
> **Wartość-$p$** (_$p$-value_) to "prawdopodobieństwo" wylosowania próby takiej, lub bardziej skrajnej, jak zaobserwowana, przy założeniu że hipoteza zerowa jest spełniona. Można myśleć intuicyjnie, że jest to szansa na to że zaobserwowana próba znacząco różni się od tego jak wygląda populacja. 
>
> W szczególności, sytuację gdy **wartość-$p$ jest mniejsza niż $5\%$** traktujemy to jako **podstawę do odrzucenia hipotezy zerowej**.

## Od odchylenia standardowego do prawdopodobieństwa

Dysponując jednym pomiarem $x_1$ (czy to jest jedno jajko, czy to jest średnia z $10$ jajek) chcielibyśmy przypisać tej próbie "prawdopodobieństwo" wystąpienia. Ponieważ pomiary blisko średniej są najbardziej oczekiwane, chcemy wiedzieć jakie jest "prawdopodobieństwo" wystąpienia pomiaru **tak samo ekstremalnego jak $x_1$, lub bardziej**: 

> **Zadanie:**
>
> Z populacji rozłożonej normalnie o średniej $65$ i odchyleniu standardowym $2.5$ wybrano pomiar $x_1 = 61.4$.  
> Jakie jest "prawdopodobieństwo" wystąpienia pomiaru tak samo ekstremalnego jak $x_1$ lub bardziej?
>
> **Równoważnie:** 
> 
> Jaka część populacji leży tak samo daleko, lub dalej od średniej niż $x_1$?

In [115]:
x = 61.4
m = 65
s = 2.5
a = (x-m)/s #wyrażony w odchyleniach standardowych od średniej

-1.4400000000000006

In [116]:
plot(m-5s:0.01:m+5s, x->normpdf(m, s, x), label="Rozkład populacji")
scatter!([m+s*a], [0], label="Pomiar x")
plot!(m-5s:0.01:m-abs(a)*s, x->normpdf(m, s, x), 
    label="Dalej od średniej niż x (mniejsze)", 
    opacity=0.5, fill=(0,))
plot!(m+abs(a)*s:0.01:m+5*s, x->normpdf(m, s, x), 
    label="Dalej od średniej niż x (większe)", 
    opacity=0.5, fill=(0,))
xticks!([[i for i in m-4s:2s:m+4s]; [m-abs(a)*s, m+abs(a)*s]])
ylims!((-0.025, 0.4))
xlabel!("Oryginalna jednostka pomiaru")

Na tym wykresie można (przy zachowaniu pola powierzchni!) zastąpić jednostkę pomiaru przez odchylenia standardowe od średniej:

In [117]:
plot(-5:0.01:5, x->normpdf(x), label="Rozkład populacji")
scatter!([a], [0], label="Pomiar x")

plot!(-5:0.01:-abs(a), x->normpdf(x), 
    label="Dalej od średniej niż x (mniejsze)", 
    opacity=0.5, fill=(0,))
plot!(abs(a):0.01:5, x->normpdf(x), 
    label="Dalej od średniej niż x (większe)", 
    opacity=0.5, fill=(0,))
xticks!([-4:2:4; [-abs(a), abs(a)]])
xlabel!("Odchylenia standardowe od średniej")

 * Pole (zielone) na lewo od $a = \dfrac{x-m}{s}$ to `normcdf(-abs(a))`;
 * Pole (fioletowe) na prawo od $a$ to `normccdf(abs(a))`;
 
 Ostatecznie:

In [118]:
normcdf(-abs(a)) + normccdf(abs(a))

0.14986739906865384

jest częścią populacji leżącą dalej niż pomiar $x$ od średniej.
Możemy więc (nieprecyzyjnie) powiedzieć, że tak samo, lub bardziej odległe od średniej pomiary pojawią się z $\sim 15\%$ prawdopodobieństwem (w $15$ na $100$ przypadkach).

> **Problem**
> 
> Czy pomiar $x_1=61.4$ może pochodzić z populacji o rozkładzie normalnym o średniej $\mu=65$ i odchyleniu standardowym $\sigma=2.5$?

**Hipoteza zerowa**: $x_1$ pochodzi z populacji o rozkładzie normalnym $(\mu=65, \sigma=2.5)$.

**Hipoteza alternatywna**: $x_1$ nie pochodzi z populacji o rozkładzie normalnym $(\mu=65, \sigma=2.5)$.

Jaka część populacji jest bardziej ekstremalna niż $x_1$? 

In [119]:
normcdf(-abs(a)) + normccdf(abs(a))

0.14986739906865384

Zatem wartość-$p$ dla naszej hipotezy wynosi $\sim0.15>0.05$. **Nie mamy więc podstaw do odrzucenia hipotezy zerowej** i możemy uznać $x_1$ za pochodzącego z naszej populacji (przynajmniej tak długo jak nie dostaniemy dodatkowych danych o niej).

## OneSample $t$-Test

In [132]:
Eggs = [65.2, 68.6, 68.8, 66.8, 65.3, 65.5, 67.0, 62.4, 64.3, 65.2, 64.6, 67.8, 64.3, 
    61.4, 62.4, 67.2, 61.7, 66.4, 66.9, 59.7, 57.1, 68.4, 62.7, 65.6, 64.0, 64.0, 
    62.9, 70.2, 64.8, 64.9, 62.4, 64.6, 64.4, 62.3, 62.6, 67.6, 68.9, 68.7, 64.9, 
    67.9, 66.0, 65.7, 66.8, 63.4, 66.4, 68.3, 68.4, 60.2, 67.3, 62.6, 69.2, 62.4, 
    69.6, 64.8, 62.4, 66.2, 67.2, 59.9, 63.9, 71.1, 67.8, 65.6, 65.5, 64.2, 65.8, 
    64.5, 65.4, 63.0, 64.7, 65.1, 66.3, 63.0, 63.9, 61.9, 65.8, 68.7, 62.2, 61.8, 
    64.6, 64.6, 66.8, 66.6, 65.0, 66.6, 61.6, 67.0, 65.8, 64.3, 63.1, 63.3, 69.7, 
    63.6, 67.9, 63.6, 61.9, 65.1, 70.6, 63.5, 58.4, 66.5];

> **Problem**: 
> 
> Dysponując próbą `Eggs` rozstrzygnij czy jest możliwe (tj. jak bardzo wiarygodna jest hipoteza) że średnia waga jajek na naszej fermie wynosi $66$?

Narysujmy prosty wykres naszej sytuacji:

In [121]:
histogram(Eggs, normalize=true, opacity=0.5, label="Histogram próby")
plot!(57:0.01:78, x->normpdf(66, std(Eggs), x), fill=(0,), opacity=0.5, label="Hipotetyczny rozkład próby")
xlims!((57, 76))

Ponieważ nie mamy wcześniejszych informacji o odchyleniu standardowym ($\sigma$) populacji, użyjemy zamiast niego odchylenie standardowe próby ($s$). Ponieważ nasza próba liczy 100 pomiarów jest wystarczająco duża abyśmy użyli rozkładu normalnego jako teoretycznego rozkładu **średnich ze 100** pomiarów. Odchylenie standardowe tego rozkładu to **błąd standardowy próby**.

In [122]:
SE(Eggs)

0.2667097503075036

**Hipoteza zerowa**: Średnia populacji z której pochodzi `Eggs` wynosi $66$.

**Hipoteza alternatywna**: Średnia populacji z której pochodzi `Eggs` jest różna od $66$.

Policzmy odległość (mierzoną w błędach standardowych próby) średniej próby $\overline{\text{Eggs}}$ od domniemanej średniej – $66$:  

In [123]:
z = (mean(Eggs) - 66)/SE(Eggs)
@show z;

z = -3.4681896666077283


Część populacji o rozkładzie normalnym która jest równie, lub bardziej ekstremalna co `z` to

In [124]:
normcdf(-abs(z)) + normccdf(abs(z))

0.0005239773300751989

Średnia wagi 100 jajek którą dysponujemy leżałaby pośród $<0.0006\%$ najbardziej oddalonych od domniemanej średniej ($66$), wobec czego wartość-$p$ (tj. "prawdopodobieństwo otrzymania tak samo skrajnego wyniku **jeśli hipoteza zerowa jest prawdziwa**) jest mniejsza niż $0.0006$. Daje nam to podstawy do **odrzucenia hipotezy zerowej** i przyjęcia, że średnia waga jajek na naszej farmie jest różna od $66$.

> **Problem**: 
> 
> Dysponując tylko pierwszymi $24$ jajkami z próby `Eggs` rozstrzygnij czy jest możliwe (tj. jak bardzo wiarygodna jest hipoteza) że średnia waga jajek na naszej fermie wynosi $66$?

Narysujmy prosty wykres naszej sytuacji:

In [125]:
E1 = Eggs[1:24]

histogram(E1, normalize=true, opacity=0.5, label="Histogram próby")
plot!(57:0.01:78, x->normpdf(66, std(E1), x), fill=(0,), opacity=0.5, label="Hipotetyczny rozkład próby")
xlims!((55, 76))

Podobnie jak wcześniej, liczymy błąd standardowy próby

In [126]:
SE(E1)

0.5998332850107296

i przy jego pomocy porównujemy średnią próby ($\overline{E1}$) z domniemaną średnią populacji ($66$):

In [127]:
z = (mean(E1) - 66)/SE(E1)

-1.9936094965319393

Musimy teraz porównać odsetek populacji średnich które leżą dalej niż `z` od domniemanej średniej ($66$). Ponieważ nasza próba jest niewielka ($24$ pomiary) teoretycznym rozkładem średnich będzie rozkład $t$-Studenta. Musimy więc posłużyć się funkcjami `tdistcdf` i `tdistccdf` do wyznaczenia wartości-$p$.

In [128]:
st_swobody = length(E1)-1
tdistcdf(st_swobody, -abs(z)) + tdistccdf(st_swobody, abs(z))

0.05818516374218859

Wartość $p$ jest większa niż (zwyczajowe) $0.05$, więc naszą konkluzją będzie

>Nie ma podstaw do tego aby sądzić, że średnia jest różna od $66$.

Oczywiście widząc tak niewielką wartość $p$ powinniśmy spróbować powiększyć naszą próbę i przeprowadzić analizę jeszcze raz. Np. dla $N=30$ mamy już

In [129]:
E2 = Eggs[1:30]
z = (mean(E2) - 66)/SE(E2)
@show z
st_swobody = length(E2)-1
pval = tdistcdf(st_swobody, -abs(z)) + tdistccdf(st_swobody, abs(z))
@show pval;

z = -2.185773271884522
pval = 0.03705355793504909


Co daje już powody aby odrzucić hipotezę zerową i stwierdzić, że średnia musi być różna od $66$.

> **UWAGA**
>
> Gdybyśmy dysponując wynikami $24$ pomiarów powyżej użyli rozkładu normalnego, wówczas uzyskalibyśmy

In [130]:
z = (mean(E1) - 66)/SE(E1)
normcdf(-abs(z)) + normccdf(abs(z))

0.04619474674321367

> Co jest mniejsze od zwyczajowego $0.05$ i daje nam powody do odrzucenia hipotezy zerowej. Jednakże **posłużenie się rozkładem normalnym** w przypadku **grupy liczącej $24$** pomiary jest **BŁĘDEM**, który w tym przypadku zaowocował całkowitą zmianą konkluzji!