# Testowanie hipotez

In [None]:
# import numpy as np
# import matplotlib.pyplot as plt
# from scipy import stats

## Klasyczny algorytm testowania hipotez
1. postawić hipotezę zerową $H_0$ i hipotezę alternatywną $H_1$;
2. wyspecyfikować model matematyczny (np. zakładamy, że próba losowa pochodzi z rozkładu normalnego o nieznanej wariancji);
3. przyjąć poziom istotności $\alpha$;
4. obliczyć wartość statystyki testowej $T = T(X_1, \ldots, X_n)$
5. wyznaczyć obszar krytyczny $W_{\alpha}$ (w zależności od przyjętego poziomu istotności oraz hipotezy alternatywnej);
6. podjąć decyzję

    a) jeśli $T\in W_{\alpha}$, wówczas odrzuć hipotezę $H_0$,
    
    b) jeśli $T\not\in W_{\alpha}$, wówczas nie ma podstaw do odrzucenia hipotezy $H_0$;

## Algorytm testowania hipotez - przy użyciu $p$-wartości
1. postawić hipotezę zerową $H_0$ i hipotezę alternatywną $H_1$;
2. wyspecyfikować model matematyczny;
3. przyjąć poziom istotności $\alpha$;
4. obliczyć wartość statystyki testowej $T = T(X_1, \ldots, X_n)$
5. obliczyć $p$-wartość;
6. podjąć decyzję

    a) jeśli $p\leq\alpha$, wówczas odrzuć hipotezę $H_0$,

    b) jeśli $p>\alpha$, wówczas nie ma podstaw do odrzucenia hipotezy $H_0$;


## Testy dla wartości oczekiwanej
Załóżmy, że jesteśmy zainteresowaniu weryfikacją hipotezy dotyczącej wartości oczekiwanej $\mu$:
$$
    H_0: \mu = \mu_0,
$$
wobec jednej z trzech hipotez alternatywnych
\begin{equation*}
    \begin{split}
        H_1&: \mu \neq \mu_0\\
        H_1'&: \mu < \mu_0\\
        H_1''&: \mu > \mu_0.
    \end{split}
\end{equation*}


## Test dla wartości oczekiwanej - model 1
Załóżmy, że badana cecha $X$ ma rozkład normalny $\mathcal{N(\mu, \sigma})$ o znanym odchyleniu standardowym $\sigma$. 

Statystyka testowa przyjmuje w tym przypadku postać
$$
    T = \frac{\overline{X} - \mu_0}{\sigma}\sqrt{n}.
$$

$$
    T = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}.
$$

Przy założeniu prawdziwości hipotezy $H_0$ statystyka ma rozkład normalny standardowy $\mathcal{N}(0,1)$, z zwiążku z czym obszar krytyczny - w zależności od przyjętej hipotezy alternatywnej - ma postać
$$
W_{\alpha} = (-\infty, -z_{1-\frac{\alpha}{2}}]\cup[z_{1-\frac{\alpha}{2}}, +\infty),
$$

$$
W_{\alpha}^{'} = (-\infty, -z_{1-\alpha}],
$$

$$
W_{\alpha}^{''} =[z_{1-\alpha}, +\infty].
$$

Natomiast, w zależności od przyjętej hipotezy zerowej, $p$-wartość jest postaci
\begin{equation*}
    \begin{split}
        p-\text{value} &= P(|T|\geq |t|)=1-F(|t|)+F(-|t|)\\
        p-\text{value} &= P(T < t) = F(t)\\
        p-\text{value} &= P(T > t) = 1-F(t).
    \end{split}
\end{equation*}

**Zadanie - model 1.** Niech $X_1, \ldots, X_n$ oznacza próbę prostą o liczności $n=20$ z rozkładu normalnego o znanym odchyleniu standardowym $\sigma=0.8$.

a) Załóżmy, że średnia z tej próby wynosi 1.54. Wyznacz obszar krytyczny do weryfikacji hipotezy 
    \begin{equation*}
    \begin{split}
        H_0: \mu &= 1.6\\
        H_1: \mu &< 1.6,
    \end{split}
    \end{equation*}
    na poziomie istotności 0.05.
        
b) Oblicz $p$-value dla powyższego testu.
    
c) Ile wynosiłoby $p$-value, gdyby średnia z próby wynosiłaby 1.3?
    
d) Ile wynosiłoby $p$-value, gdybyśmy testowali rozważaną hipotezę zerową wobec dwustronnej hipotezy alternatywnej $H_1: \mu \neq 1.6$

In [None]:
# #a

# alpha = 0.05

# X_mean = 1.54
# mu0 = 1.6
# sigma = 0.8
# n = 20

# T = (X_mean-mu0)/(sigma/np.sqrt(n))
# print(T)
# z = stats.norm.ppf(q = 1-alpha,loc = 0,scale = 1)
# print(-z)

In [None]:
# fig, ax = plt.subplots(1, 1, figsize=(20, 10))

# norm01 = stats.norm(loc=0, scale=1)

# x0 = -z
# a, b = -5, 5
# x_value = np.linspace(a, b, 100)

# x = np.linspace(a, x0)
# y = norm01.pdf(x)

# ax.plot(x_value, norm01.pdf(x_value))
# ax.fill_between(x, y, alpha=0.2)
# ax.text(x0, 0.05, 'z={}'.format(np.round(x0, 2)), size=30)
# ax.vlines(T, 0, norm01.pdf(T),  linestyles='--')
# ax.text(T, 0.1, 'T={}'.format(np.round(T, 2)), size=30)
# ax.set_xlabel('x')
# ax.set_ylabel('PDF(x)')
# plt.show()

In [None]:
# #b
# stats.norm.cdf(T,loc = 0,scale = 1)

\begin{equation*}
\begin{split}
    H_0: \mu &= 1.6\\
    H_1: \mu &> 1.6,
\end{split}
\end{equation*}

In [None]:
# #bonus

# alpha = 0.05

# X_mean = 1.74
# mu0 = 1.6
# sigma = 0.8
# n = 20

# T = (X_mean-mu0)/(sigma/np.sqrt(n))
# print(T)
# z = stats.norm.ppf(q = 1-alpha,loc = 0,scale = 1)
# print(z)

In [None]:
# fig, ax = plt.subplots(1, 1, figsize=(20, 10))

# norm01 = stats.norm(loc=0, scale=1)

# x0 = z
# a, b = -5, 5
# x_value = np.linspace(a, b, 100)

# x = np.linspace(x0,b)
# y = norm01.pdf(x)

# ax.plot(x_value, norm01.pdf(x_value))
# ax.fill_between(x, y, alpha=0.2)
# ax.text(x0, 0.05, 'z={}'.format(np.round(x0, 2)), size=30)
# ax.vlines(T, 0, norm01.pdf(T),  linestyles='--')
# ax.text(T, 0.1, 'T={}'.format(np.round(T, 2)), size=30)
# ax.set_xlabel('x')
# ax.set_ylabel('PDF(x)')
# plt.show()

In [None]:
# 1-stats.norm.cdf(0.78)

In [None]:
# #c
# alpha = 0.05

# X_mean = 1.3
# mu0 = 1.6
# sigma = 0.8
# n = 20

# T = (X_mean-mu0)/(sigma/np.sqrt(n))
# print(T)
# z = stats.norm.ppf(q = 1-alpha,loc = 0,scale = 1)
# print(-z)

In [None]:
# fig, ax = plt.subplots(1, 1, figsize=(20, 10))

# norm01 = stats.norm(loc=0, scale=1)

# x0 = -z
# a, b = -5, 5
# x_value = np.linspace(a, b, 100)

# x = np.linspace(a, x0)
# y = norm01.pdf(x)

# ax.plot(x_value, norm01.pdf(x_value))
# ax.fill_between(x, y, alpha=0.2)
# ax.text(x0, 0.05, 'z={}'.format(np.round(x0, 2)), size=30)
# ax.vlines(T, 0, norm01.pdf(T),  linestyles='--')
# ax.text(T, 0.1, 'T={}'.format(np.round(T, 2)), size=30)
# ax.set_xlabel('x')
# ax.set_ylabel('PDF(x)')
# plt.show()

In [None]:
# stats.norm.cdf(T,loc = 0,scale = 1)

In [None]:
# #d
# alpha = 0.05

# X_mean = 1.54
# mu0 = 1.6
# sigma = 0.8
# n = 20

# T = (X_mean-mu0)/(sigma/np.sqrt(n))
# print(T)
# z_left = -stats.norm.ppf(q = 1-alpha/2,loc = 0,scale = 1)
# z_right = stats.norm.ppf(q = 1-alpha/2,loc = 0,scale = 1)
# print((z_left,z_right))

In [None]:
# fig, ax = plt.subplots(1, 1, figsize=(20, 10))

# norm01 = stats.norm(loc=0, scale=1)

# x0 = z_left
# x1 = z_right
# a, b = -5, 5
# x_value = np.linspace(a, b, 100)

# x = np.linspace(a, x0)
# y = norm01.pdf(x)

# xk = np.linspace(x1,b)
# yk = norm01.pdf(xk)

# ax.plot(x_value, norm01.pdf(x_value))
# ax.fill_between(x, y, alpha=0.2)
# ax.fill_between(xk, yk, alpha=0.2)
# ax.text(x0, 0.05, 'z={}'.format(np.round(x0, 2)), size=30)
# ax.text(x1, 0.05, 'z={}'.format(np.round(x1, 2)), size=30)
# ax.vlines(T, 0, norm01.pdf(T),  linestyles='--')
# ax.vlines(-T, 0, 1-norm01.pdf(T),  linestyles='--')
# ax.text(T, 0.15, 'T={}'.format(np.round(T, 2)), size=30)
# ax.text(-T, 0.05, '-T={}'.format(np.round(-T, 2)), size=30)
# ax.set_xlabel('x')
# ax.set_ylabel('PDF(x)')
# plt.show()

In [None]:
# print(2*(stats.norm.cdf(T,loc = 0,scale = 1)))
# print(2*(1-stats.norm.cdf(-T,loc = 0,scale = 1)))
# print(2*(1-stats.norm.cdf(np.abs(T),loc = 0,scale = 1)))

**Zadanie - model 1**. Norma techniczna przewiduje średnio 64 sekundy na ułożenie w kartonie 100 tabliczek czekolady. Czas trwania tej czynności jest zmienną losową o rozkładzie normalnym z odchyleniem standardowym 10 sekund. Ponieważ robotnicy często skarżyli się, że norma jest źle ustalona, dokonano pomiaru czasu trwania tej czynności u losowo wybranych 225 robotników i otrzymano, że średni czas trwania czynności jest równy 65 s.
Czy na poziomie istotności 0.05 można stwierdzić, że średni czas czynności jest większy niż norma?

$n = 225$

$\bar{X} = 65$

$\mu_0 = 64$

$\sigma = 10$

\begin{equation*}
\begin{split}
    H_0: \mu &= 64\\
    H_1: \mu &> 64,
\end{split}
\end{equation*}

In [None]:
# alpha = 0.05

# X_mean = 65
# mu0 = 64
# sigma = 10
# n = 225

# T = (X_mean-mu0)/(sigma/np.sqrt(n))
# print(T)

# z = stats.norm.ppf(q = 1-alpha,loc = 0,scale = 1)
# print(z)

# print(1-stats.norm.cdf(T,loc = 0,scale = 1))


## Test dla wartości oczekiwanej - model 2
Jeżeli cecha $X$ ma rozkład normalny $\mathcal{N}(\mu, \sigma)$ o nieznanym odchyleniu standardowym $\sigma$, to do weryfikacji hipotezy $H_0$ wykonujemy test zbudowany na statystyce 
$$
    T = \frac{\overline{X} - \mu_0}{S}\sqrt{n},
$$
która przy założeniu prawdziwości hipotezy $H_0$ na rozkład $t$-Studenta o $n-1$ stopniach swobody.

W zależności od przyjętej hipotezy alternatywnej obszar krytyczny przybiera postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -t_{1-\frac{\alpha}{2}}^{[n-1]}]\cup[t_{1-\frac{\alpha}{2}}^{[n-1]}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -t_{1-\alpha}^{[n-1]}],\\
        W_{\alpha}^{''} &=[t_{1-\alpha}^{[n-1]}, +\infty].
    \end{split}
\end{equation*}

**Zadanie - model 2.** Dział kontroli jakości w zakładach chemicznych chce oszacować średnią wagę proszku do prania sprzedawanego w pudełkach o nominalnej wadze 3 kg. Pobrano w tym celu próbkę 9 pudełek proszku do prania. Każde pudełko zważono i otrzymano następujące wyniki (w kilogramach): 2.97, 3.04, 2.95, 3.01, 3.00, 2.99, 2.97, 3.05, 2.96. Wiadomo, że rozkład wagi pudełka proszku do prania jest normalny. Na poziomie istotności 0.01 sprawdzić, czy średnia waga proszku różni się istotnie od wagi nominalnej.

In [None]:
# x = np.array([2.97, 3.04, 2.95, 3.01, 3.00, 2.99, 2.97, 3.05, 2.96])
# x_mean = np.mean(x)
# s = np.std(x,ddof=1)
# n = 9
# alpha = 0.01
# mu0 = 3

# #H0: \mu = 3
# #H1: \mu!= 3

# T = (x_mean-mu0)*np.sqrt(n)/s

# print(T)

# print((-stats.t.ppf(q=1-alpha/2,df = n-1),stats.t.ppf(q=1-alpha/2,df = n-1)))

# print(2*(1-stats.t.cdf(np.abs(T),df = n-1)))

**Zadanie - model 2.** Weryfikujemy hipotezę zerową mówiącą o tym, że średnia zawartość sacharozy w tabletkach homeopatycznych  pewnej  firmy  (średnia  w  populacji)  wynosi  2  mcg,  wobec  hipotezy alternatywnej mówiącej o tym, iż jest ona większa. Wiadomo z całą pewnością, iż rozkład zawartości sacharozy w tabletkach jest normalny. Zbadano 12 elementową próbę tabletek, której wyniki były następujące: 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3. Przy poziomie istotności $\alpha=0.05$ zweryfikować odpowiednie hipotezy. 

## Test dla wartości oczekiwanej - model 3
Jeżeli próba pochodzi z dowolnego rozkładu (posiadającego jednakże skończoną wariancję), ale jest wystarczająco duża ($n\geq 100)$, wówczas statystyka testowa przyjmuje postać
\begin{equation*}
    T = \frac{\overline{X} - \mu_0}{S}\sqrt{n}.
\end{equation*}

Przy założeniu prawdziwości hipotezy $H_0$ i dla dostatecznie dużej próby statystyka ma w przybliżeniu rozkład normalny standardowy $\mathcal{N}(0,1)$, w związku z czym obszar krytyczny --- w zależności od przyjętej hipotezy alternatywnej --- ma postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -z_{1-\frac{\alpha}{2}}]\cup[z_{1-\frac{\alpha}{2}}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -z_{1-\alpha}],\\
        W_{\alpha}^{''} &=[z_{1-\alpha}, +\infty].
    \end{split}
\end{equation*}

**Zadanie - model 3.** W wylosowanej niezależnie próbie 140 zakładów zbadano koszty własne produkcji pewnego wyrobu. Stwierdzono, że średnie koszty wynoszą 540 zł z odchyleniem standardowym 150 zł. Czy na poziomie istotności 0.1 można twierdzić, że średnie koszty produkcji danego typu wyrobu są wyższe niż 500 zł?

## ***Testy dla dwóch prób niezależnych
W praktyce istotną rolę odgrywają testy statystyczne, za pomocą których można porównywać wartości oczekiwane badanej cechy w dwóch różnych zbiorowościach statystycznych. 

W szczególności interesująca jest weryfikacja hipotezy, że obie porównywalne średnie sa jednakowe
\begin{equation*}
    H_0: \mu_1 = \mu_2,
\end{equation*}
przy jednej z trzech hipotez alternatywnych:
\begin{equation*}
    \begin{split}
        H_1&: \mu_1 \neq \mu_2\\
        H_1{'}&: \mu_1 < \mu_2\\
        H_1''&: \mu_1 > \mu_2.
    \end{split}
\end{equation*}

## Test dla dwóch prób niezależnych - model 1
Załóżmy, że próby $X_1, \ldots, X_{n_1}$ i $Y_1, \ldots, Y_{n_2}$ są niezależne i pochodzą z populacji o rozkładach normalnych, odpowiednio, $\mathcal{N}(\mu_1, \sigma_1)$ i $\mathcal{N}(\mu_2, \sigma_2)$ oraz odchylenia standardowe $\sigma_1$ i $\sigma_2$ są znane.

Wówczas statystyka testowa ma postać
$$
    T = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}.
$$
Statystyka przy założeniu prawdziwości hipotezy zerowej $H_0$ ma rozkład normalny $\mathcal{N}(0, 1)$. Obszar krytyczny --- w zależności od przyjętej hipotezy alternatywnej --- ma postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -z_{1-\frac{\alpha}{2}}]\cup[z_{1-\frac{\alpha}{2}}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -z_{1-\alpha}],\\
        W_{\alpha}^{''} &=[z_{1-\alpha}, +\infty].
    \end{split}
\end{equation*}

**Zadanie.** W celu porównania płac mężczyzn i kobiet zatrudnionych w pewnym dziale przemysłu pobrano próbkę losową 100 mężczyzn i 90 kobiet. Średnia płaca mężczyzn, obliczona na podstawie pobranej próbki, wyniosła 6280 zł, natomiast średnia płacy kobiet wyniosła 4210 zł. Na poziomie istotności 0.05 sprawdzić, czy średnia płaca kobiet zatrudnionych w tym dziale przemysłu jest istotnie niższa od średniej płacy mężczyzn. Zakładamy, że rozkład płacy mężczyzn i kobiet jest rozkładem normalnym z wariancjami, odpowiednio, 10000 zł oraz 6400 zł.

$X$ - zmienna losowa, opisująca płace mężczyzn, $X\sim\mathcal{N}(\mu_1, \sigma_1)$, gdzie $\mu_1=?$ i $\sigma_1=100zł$.

$Y$ - zmienna losowa, opisująca płace kobiet, $X\sim\mathcal{N}(\mu_2, \sigma_2)$, gdzie $\mu_2=?$ i $\sigma_2=80zł$.


Testujemy hipoteze:
    \begin{equation*}
    \begin{split}
        H_0: \mu_1 &= \mu_2\\
        H_1: \mu_1 &> \mu_2,
    \end{split}
    \end{equation*}
na poziomie istotności $\alpha=0.05$.

## Test dla dwóch prób niezależnych - model 2

Załóżmy, że próby $X_1, \ldots, X_{n_1}$ i $Y_1, \ldots, Y_{n_2}$ są niezależne i pochodzą z populacji o rozkładach normalnych, odpowiednio, $\mathcal{N}(\mu_1, \sigma_1)$ i $\mathcal{N}(\mu_2, \sigma_2)$ o nieznanych odchyleniach standardowych $\sigma_1$ i $\sigma_2$, ale równych, tzn. $\sigma_1=\sigma_2$.

Wówczas statystyka testowa ma postać
\begin{equation*}
    T = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S^2_2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}}.
\end{equation*}
Statystyka przy założeniu prawdziwości hipotezy zerowej $H_0$ ma rozkład $t$-Studenta o $n_1+n_2-2$ stopniach swobody. Obszar krytyczny --- w zależności od przyjętej hipotezy alternatywnej --- ma postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -t_{1-\frac{\alpha}{2}}^{[n_1+n_2-2]}]\cup[t_{1-\frac{\alpha}{2}}^{[n_1+n_2-2]}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -t_{1-\alpha}^{[n_1+n_2-2]}],\\
        W_{\alpha}^{''} &=[t_{1-\alpha}^{[n_1+n_2-2]}, +\infty].
    \end{split}
\end{equation*}

**Zadanie - model 2.**  Zbadano dwie partie próbek 100 gramowych wątroby ze względu na zawartość węglowodanów. Zawartości węglowodanów dla I partii próbek (w g) były następujące: 15, 17, 16, 17, 18,5, 18, 17,5. Dla II partii liczącej $n=10$ próbek średnia zawartość węglowodanów wynosi $\overline{Y}=15,5$g i odchylenie standardowe $S_2=1,1$g. Na poziomie istotności $\alpha=0.05$ zweryfikować hipotezę, że badane partie próbek pochodzą z populacji generalnych o tej samej średniej zawartości węglowodanów.

**Zadanie - model 2.** Badano grubość płytek metalowych przed i po obróbce chemicznej. Dla 10 losowo wybranych płytek przed obróbką otrzymano średnią z próby 0.451 mm i wariancję z próby 0.02. Natomiast dla 15 losowo wybranych płytek po obróbce chemicznej otrzymano średnią z próby 0.550 mm z wariancją 0.017. Sprawdzić, czy grubość płytek zmienia się podczas obróbki. Założyć, że grubość płytek przed i po obróbce ma rozkład normalny o tej samej wariancji. Przyjąć poziom istotności 0.05.

## Test dla dwóch prób niezależnych - model 3
Załóżmy, że próby $X_1, \ldots, X_{n_1}$ i $Y_1, \ldots, Y_{n_2}$ są niezależne i pochodzą z populacji o rozkładach normalnych, odpowiednio, $\mathcal{N}(\mu_1, \sigma_1)$ i $\mathcal{N}(\mu_2, \sigma_2)$ o nieznanych i różnych odchyleniach standardowych $\sigma_1$ i $\sigma_2$, tzn. $\sigma_1\neq\sigma_2$. Ponadto, próby są dostatecznie **duże**.

Wówczas statystyka testowa ma postać
\begin{equation*}
    T = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}.
\end{equation*}
Statystyka przy założeniu prawdziwości hipotezy zerowej $H_0$ ma rozkład normalny standardowy. Obszar krytyczny ma postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -z_{1-\frac{\alpha}{2}}]\cup[z_{1-\frac{\alpha}{2}}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -z_{1-\alpha}],\\
        W_{\alpha}^{''} &=[z_{1-\alpha}, +\infty].
    \end{split}
\end{equation*}

**Zadanie - model 3.** Wylosowana do badań budżetów rodzinnych w pewnym roku próba 120 rodzin zamieszkałych w Warszawie dała średnią 800 zł miesięcznych wydatków na mieszkanie oraz ochylenie standardowe 120 zł. Natomiast losowa próba 100 rodzin zamieszkałych w Łodzi dała średnią 650 zł miesięcznych wydatków na mieszkanie oraz odchylenie standardowe 150 zł. Przyjmując poziom istotności 0.01 zweryfikować hipotezę o jednakowych średnich wydatkach na mieszkanie rodzin w Warszawie i w Łodzi.

$X$ - zmienna losowa, opisująca miesięczne wydatki na mieszkanie w Warszawie,

$Y$ - zmienna losowa, opisująca miesięczne wydatki na mieszkanie w Łodzi,


Testujemy hipoteze:
    \begin{equation*}
    \begin{split}
        H_0: \mu_1 &= \mu_2\\
        H_1: \mu_1 &\neq\mu_2,
    \end{split}
    \end{equation*}
na poziomie istotności $\alpha=0.01$.

**Zadanie - model 3.** Porównano średnie ocen uzyskanych w ciągu ostatniego roku przez studentów dwóch równoległych lat informatyki i matematyki. Dla wydziału Informatyki średnia wyniosła 4.1 z wariancją 1.8, natomiast dla Wydziału Matematyki średnia wyniosła 3.6 z wariancją 2. Powyższe wyiki obliczono na podstawie 250 ocen uzyskanych przez studentów informatyki i 200 ocen studentów zarządzania. Na poziomie istotności 0.05 zweryfikować hipotezę, że przeciętne wyniki osiągane przez studentów informatyki są lepsze od przeciętnych wyników studentów matematyki.

## Testy dla wskaźnika struktury
Zakładamy, że próba pochodzi z rozkładu dwupunktowego. Weryfikowana hipoteza dotyczy nieznanego parametru $p$
\begin{equation*}
    H_0: p = p_0,
\end{equation*}
wobec jednej z trzech hipotez alternatywnych
\begin{equation*}
    \begin{split}
        H_1&: p \neq p_0\\
        H_1'&: p < p_0\\
        H_1''&:p > p_0.
    \end{split}
\end{equation*}

Do weryfikacji hipotezy $H_0$ wykorzystujemy wskaźnik struktury z próby 
\begin{equation*}
    \hat{p} = \frac{k}{n},
\end{equation*}
gdzie $k$ jest liczbą elementów wyróżnionych w próbie o liczności $n$.


## Test dla wskaźnika struktury - model 1
Jeżeli dysponujemy liczbą próbką $(n\geq 100)$, wówczas statystyka testowa ma postać 
\begin{equation*}
    T = \frac{k - np_0}{\sqrt{np_0(1-p_0)}}.
\end{equation*}
Na podstawie centralnego twierdzenia granicznego Moivre'a-Laplace'a wiemy, że statystyka $T$ ma w przybliżeniu rozkład $\mathcal{N}(0, 1)$. Obszar krytyczny --- w zależności od przyjętej hipotezy alternatywnej --- ma postać
\begin{equation*}
    \begin{split}
        W_{\alpha} &= (-\infty, -z_{1-\frac{\alpha}{2}}]\cup[z_{1-\frac{\alpha}{2}}, +\infty),\\
        W_{\alpha}^{'} &= (-\infty, -z_{1-\alpha}],\\
        W_{\alpha}^{''} &=[z_{1-\alpha}, +\infty].
    \end{split}
\end{equation*}


**Zadanie - model 1.** Umieralność na skutek drugiego zawału wynosi około 60%. Grupie studwudziestu pacjentom, którzy przeżyli zawał zaczęto podawać nowy lek. Dwudziestu z nich zmarło wskutek drugiego zawału. Czy można orzec, że nowy lek jest skuteczniejszy od stosowanych do tej pory? Przyjąć poziom istotności 0.05

In [None]:
# p_0=0.4

In [None]:
# n = 120
# k = 100

In [None]:
#H0: p=0.4
#H1: p>0.4

In [None]:
# T = (k-n*p_0)/np.sqrt(n*p_0*(1-p_0))
# T

In [None]:
# stats.norm.ppf(0.95)

In [None]:
# 1-stats.norm.cdf(T)

**Zadanie - model 1.** W losowej próbie 500 mieszkańców pewnego rejonu będących w wieku produkcyjnym znalazło się 126 bezrobotnych. Czy na poziomie istotności 0,05 można stwierdzić, że stopa bezrobocia w tym rejonie jest większa od 20%?

## Zadania
1. Automat wytwarza tabliczki czekolady o nominalnej wadze 250g. Wiadomo, że rozkład wagi produkowanych tabliczek jest normalny z odchyleniem standardowym 5g. Kontrola techniczna pobrała próbę losową 16 tabliczek czekolady i otrzymała średnią wagę tabliczki równą 244g. Czy można na tej podstawie stwierdzić, że automat się rozregulował i zaniża wagę tabliczek? Zweryfikować odpowiedniąhipotezę na poziomie istotności 0.05.

2.  Zbadano $n=140$ wylosowanych gospodarstw domowych w pewnym mieście ze względu na wysokość miesięcznych opłat za energię elektryczną. Spośród nich 84 gospodarstwa domowe płaciły miesięcznie za energię co najmniej 80 zł. Czy na poziomie istotności $\alpha=0,05$ można stwierdzić, że procent gospodarstw domowych, których miesięczne opłaty za energię elektryczną wynosiły co najmniej 80 zł jest mniejszy niż 70%?

3. Fabryka zakupiła nowy agregat. Producent zapewnia, że przeciętnie tylko jeden na 100 wyprodukowanych przez ten agregat detali jest wadliwy. Aby to sprawdzić, wylosowano 500 detali i okazało się, że 20 z nich nie spełnia normy jakości. Czy na podstawie takiego wyniku badań można obalić zapewnienie producenta agregatu? Przyjąć poziom istotności 0.1.

4. W wyniku obserwacji dziennej liczby zakupów dokonywanych przez gospodarstwa domowe w mieście i na wsi ustalono, że liczby zakupów mają rozkład normalny z odchyleniami standardowymi, równymi odpowiednio, 6 i 3. Wybrano 16 gospodarst domowych w mieście i otrzymano średnią liczbę zakupów równą 20, a dla 9 gospodarstw domowych na wsi otrzymano średnią liczbę zakupów równą 16. Przyjmując poziom istotności 0.01, sprawdzić hipotezę, że średnia liczba zakupów dokonywanych dziennie przez rodziny na wsi jest mniejsza niż średnia liczba zakupów dokonywanych przez rodziny w mieście.

5. Producent kondensatorów twierdzi, że mają one przeciętną pojemność 4.5 pF. Istnieje podejrzenie, że producent nieuczciwie zawyża tę wartość. Zakładając, że pojemność jest zmienną losową o rozkładzie normalnym $\mathcal{N}(\mu, 0.1)$, na poziomie istotności $\alpha=0.1$, stawiając odpowiednią hipotezę sprawdzić, czy podejrzenie jest zasadne. W obliczeniach uwzględnić, że w wyniku 10 pomiarów pojemności kondensatorów otrzymano $\overline{X}=4.47$pF. 

6. Producent  luksusowych  wyrobów  żywności  ekologicznej  twierdzi,  iż  średnia  zawartość bezwartościowych  substancji  w  opakowaniu  jego  wyrobu  nie  przekracza  1  mg  w  całej produkcji.  Zbadano  próbę  prostą  100  opakowań  jego  produktu.  Średnia  zawartość bezwartościowych  substancji  otrzymana  na  podstawie  100  elementowej  próby  prostej wyniosła  1,45  mg,  natomiast  wariancja  9  (mg$^2$). Przy  poziomie  istotności $\alpha=0.01$ zweryfikować  hipotezę  zerową  mówiącą  o  tym,  ze  średnia  zawartość  bezwartościowych substancji  w  opakowaniu wyrobu tego producenta w całej produkcji wynosi 1 mg wobec hipotezy alternatywnej mówiącej o tym, że jest ona wyższa. Zakładamy, że rozkłąd zawartości bezwartościowych substancji w opakowaniu jest normalny.