# Przedziały ufności

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

## Przedział ufności dla wartości średniej - model 1
Niech $X_1, \ldots, X_n$ będzie próbą prostą z populacji o rozkładzie normalnym $\mathcal{N}(\mu, \sigma)$ o znanej wariancji $\sigma^2$.

Wtedy dla ustalonego poziomu ufności $1-\alpha$ najkrótszy przedział ufności dla wartości oczekiwanej ma postać
$$
    \Bigg( \overline{X}-z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \Bigg),
$$
gdzie $z_{1-\frac{\alpha}{2}}$ oznacza kwantyl rozkładu normalnego standardowego rzędu $1-\frac{\alpha}{2}$.

**Zadanie - model 1**. Na podstawie 64 losowo wybranych rozmów telefonicznych obliczono średnią długość rozmowy, która wynosiła 4.2 minuty. Z poprzednich badań wiadomo, że wariancja długości rozmów telefonicznych wynosi 1.44 min$^2$. Zakładając, że czas rozmów ma rozkład normalny

   a) Oszacować przedziałowo długość rozmowy telefonicznej na poziomie ufności 0.95.

b) Oszacować przedziałowo długość rozmowy telefonicznej na poziomie ufności 0.99.

c) Porównać długość obu wyznaczonych przedziałów i wyjaśnić, w jaki sposób długość przedziału zależy od przyjętego poziomu ufności.

In [2]:
## Sposób 1

# a)
X_mean = 4.2
sigma = 1.2 # bo sigma^2 = 1.44
n = 64
alpha1 = 0.05
z1 = stats.norm.ppf(q=1 - alpha1 / 2, loc=0, scale=1)

interval1 = (X_mean - z1 * sigma / np.sqrt(n), X_mean + z1 * sigma / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.95: {}, o długości: {}".format(interval1, np.diff(interval1)))

# b)
alpha2 = 0.01
z2 = stats.norm.ppf(q=1 - alpha2 / 2, loc=0, scale=1)

interval2 = (X_mean - z2 * sigma / np.sqrt(n), X_mean + z2 * sigma / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.99: {}, o długości: {}".format(interval2, np.diff(interval2)))

Przedział ufnośći na poziomie ufności 0.95: (3.906005402318992, 4.4939945976810085), o długości: [0.5879892]
Przedział ufnośći na poziomie ufności 0.99: (3.8136256044676653, 4.586374395532335), o długości: [0.77274879]


In [3]:
def interval_confidence1(X_mean, sigma, n, alpha):
    return stats.norm.interval(alpha=1-alpha, loc=X_mean, scale = sigma/np.sqrt(n))

In [4]:
## Sposób 2
##`interval(alpha, loc=0, scale=1)` Endpoints of the range that contains alpha percent of the distribution

print(stats.norm.interval(alpha=1-alpha1, loc=X_mean, scale = sigma/np.sqrt(n)))
print(stats.norm.interval(alpha=1-alpha2, loc=X_mean, scale = sigma/np.sqrt(n)))

# drugi szerszy, ponieważ mamy większy poziom ufności

(3.906005402318992, 4.4939945976810085)
(3.8136256044676653, 4.586374395532335)


**Zadanie - model 1.**
Średnia cena 100 losowo wybranych książek do nauki programowania wyniosła 120.50 PLN. Wiadomo, ze odchylenie standardowe cen książek wynosi 10.75 PLN. Wyznaczyć 90% przedział ufności dla średniej ceny książki do programowania zakładając, że rozkład cen jest rozkładem normalnym.

In [5]:
n = 100
X_mean = 120.50
sigma = 10.75
alpha = .1

# sposob 1 
z1 = stats.norm.ppf(q=1 - alpha / 2, loc=0, scale=1)
interval1 = (X_mean - z1 * sigma / np.sqrt(n), X_mean + z1 * sigma / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.9: {}, o długości: {}".format(interval1, np.diff(interval1)))


# sposob 2
print("\n")
print(stats.norm.interval(alpha=1-alpha, loc=X_mean, scale = sigma/np.sqrt(n)))

Przedział ufnośći na poziomie ufności 0.9: (118.73178235102716, 122.26821764897284), o długości: [3.5364353]


(118.73178235102716, 122.26821764897284)


## Przedział ufności dla wartości średniej - model 2
Niech $X_1, \ldots, X_n$ będzie próbą prostą z populacji o rozkładzie normalnym $\mathcal{N}(\mu, \sigma)$ o nieznanej wariancji $\sigma^2$.

Wtedy dla ustalonego poziomu ufności $1-\alpha$ najkrótszy przedział ufności dla wartości oczekiwanej ma postać
$$
    \Bigg( \overline{X}-t_{1-\frac{\alpha}{2}}^{[n-1]}\frac{S}{\sqrt{n}}, \overline{X}+t_{1-\frac{\alpha}{2}}^{[n-1]}\frac{S}{\sqrt{n}} \Bigg),
$$
gdzie $t_{1-\frac{\alpha}{2}}^{[n-1]}$ oznacza kwantyl rzędu $1-\frac{\alpha}{2}$ rozkładu $t$-Studenta o $n-1$ stopniach swobody.

**Zadanie - model 2**. Otrzymano następujące wyniki pomiarów grubości (w mm) 10 losowo wylosowanych detali wyprodukowanych przez zakupiony agregat: 2.01, 1.94, 1.94, 2.12, 1.96, 2.03, 1.91, 1.98, 1.97, 2.08. Zakładamy, że rozkład grubości detalu jest normalny. Na poziomie ufności 0.95 podać przedział ufności dla średniej grubości detalu.

In [6]:
# mu=?, sigma=?
# należy wyznaczyć średnią i odchylenie standardowe

X = [2.01, 1.94, 1.94, 2.12, 1.96, 2.03, 1.91, 1.98, 1.97, 2.08]
X_mean = np.mean(X)
print("Średnia artymetyczna: {}".format(X_mean))
X_std = np.std(X, ddof=1)
print("Odchylenie standardowe: {}".format(X_std))

n = 10
alpha = 0.05
t = stats.t.ppf(q=1-alpha/2, df=n-1)

interval = (X_mean - t * X_std / np.sqrt(n), X_mean + t * X_std / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.99: {}".format(interval))

Średnia artymetyczna: 1.9939999999999998
Odchylenie standardowe: 0.06636598861197239
Przedział ufnośći na poziomie ufności 0.99: (1.9465246317260556, 2.041475368273944)


In [7]:
def interval_confidence2(X_mean, X_std, n, alpha):
    return stats.t.interval(alpha=1-alpha, df=n-1, loc=X_mean, scale=X_std / np.sqrt(n))

In [8]:
stats.t.interval(alpha=1-alpha, df=n-1, loc=X_mean, scale=X_std / np.sqrt(n))

(1.9465246317260556, 2.041475368273944)

**Zadanie - model 2**. 
Zmierzono objętości 5 losowo wybranych kulek z partii kulek łożyskowych otrzymując (w cm): 1,24 1,38 1,25 1,17 1,27. Na poziomie ufności 0,9 skonstruować przedział ufności dla średniej objętości kulki. Zakładamy, ze rozkład objętości kulek jest normalny.

In [9]:
X = [1.24, 1.38, 1.25, 1.17, 1.27]

X_mean = np.mean(X)
print("Średnia artymetyczna: {}".format(X_mean))
X_std = np.std(X, ddof=1)
print("Odchylenie standardowe: {}".format(X_std))

n = len(X)
alpha = 0.1
t = stats.t.ppf(q=1-alpha/2, df=n-1)

interval = (X_mean - t * X_std / np.sqrt(n), X_mean + t * X_std / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.9: {}".format(interval))

Średnia artymetyczna: 1.262
Odchylenie standardowe: 0.07596051605933175
Przedział ufnośći na poziomie ufności 0.9: (1.1895799379539458, 1.3344200620460542)


In [10]:
stats.t.interval(alpha=1-alpha, df=n-1, loc=X_mean, scale=X_std / np.sqrt(n))

(1.1895799379539456, 1.3344200620460542)

## Przedział ufności dla wartości średniej - model 3
Niech $X_1, \ldots, X_n$ będzie dostatecznie dużą próbą ($n\geq 100)$ o dowolnym rozkładzie o nieznanej, ale skończonej wartości oczekiwanej i wariancji.

Wtedy dla ustalonego poziomu ufności $1-\alpha$ najkrótszy przedział ufności dla wartości oczekiwanej ma postać
$$
    \Bigg( \overline{X}-z_{1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}}, \overline{X}+z_{1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}} \Bigg),
$$
gdzie $z_{1-\frac{\alpha}{2}}$ oznacza kwantyl rozkładu normalnego standardowego rzędu $1-\frac{\alpha}{2}$.


**Zadanie - model 3**. Badania przeprowadzone w maju 1990 roku przez Instytut Gallupa na próbie losowej 2727 dorosłych obywateli USA wykazały, że średnie wydatki gospodarstwa domowego na cele charytatywne w 1989 wyniosły 734\\$, podczas gdy wyestymowane odchylenie standardowe tych wydatków dało 185$. Wyznaczyć 99% przedział ufności przeciętnych wydatków na cele charytatywne w USA w 1989 roku.

In [11]:
# mu=?, sigma=?
# brak założenia o normalności rozkladu, ale n dostatecznie duze

n = 2727
X_mean = 734
X_std = 185
alpha = 0.01
z = stats.norm.ppf(q=1-alpha/2, loc=0, scale=1)

interval = (X_mean - z * X_std / np.sqrt(n), X_mean + z * X_std / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.99: {}".format(interval))

Przedział ufnośći na poziomie ufności 0.99: (724.8747191639189, 743.1252808360811)


In [12]:
def interval_confidence3(X_mean, X_std, n, alpha):
    return stats.norm.interval(alpha=1-alpha, loc=X_mean, scale = X_std/np.sqrt(n))

In [13]:
stats.norm.interval(alpha=1-alpha, loc=X_mean, scale = X_std/np.sqrt(n))

(724.8747191639189, 743.1252808360811)

**Zadanie - model 3**. W próbie 150 zabiegów artroskopii stawu biodrowego średni czas operacji wynosił 136,9 minut, przy standardowym odchyleniu 22,6 minut. Znajdź średni na poziomie ufności 0.95.

In [14]:
n = 150
X_mean = 136.9
X_std = 22.6
alpha = 0.05
z = stats.norm.ppf(q=1-alpha/2, loc=0, scale=1)

interval = (X_mean - z * X_std / np.sqrt(n), X_mean + z * X_std / np.sqrt(n))
print("Przedział ufnośći na poziomie ufności 0.99: {}".format(interval))

Przedział ufnośći na poziomie ufności 0.99: (133.28331320381233, 140.51668679618768)


In [15]:
stats.norm.interval(alpha=1-alpha, loc=X_mean, scale = X_std/np.sqrt(n))

(133.28331320381233, 140.51668679618768)

## Przedział ufności dla wskaźnika struktury
Załóżmy, że badana cecha ma rozkład dwupunktowy z nieznanym parametrem $p$, a liczność próby jest dostatecznie duża $(n\geq 100)$. 

Z centralnego twierdzenia granicznego Moivre'a-Laplace'a wynika, że statystyka 
$$
    \frac{k}{n},
$$
gdzie $k$ oznacza liczbę elementów wyróżnionych w próbie ma w przybliżeniu rozkład normalny $\mathcal{N}(p, \sqrt{\frac{p(1-p)}{n}})$.

Przedział ufność dla wskaźnika struktury $p$ przyjmuje postać
$$
    \Bigg( \frac{k}{n}-z_{1-\frac{\alpha}{2}}\sqrt{\frac{\frac{k}{n}(1-\frac{k}{n})}{n}}, \frac{k}{n}+z_{1-\frac{\alpha}{2}}\sqrt{\frac{\frac{k}{n}(1-\frac{k}{n})}{n}}\Bigg). 
$$

**Zadanie - model 4.** Fabryka zakupiła nowy agregat. Wylosowano 1000 wyprodukowanych przez ten agregat detali. Okazało się, że 50 z nich nie spełnia normy jakości. Podać 99% przedział ufności dla wadliwości.

In [16]:
# n - liczba wszystkich wyprodukowanych detali
# k - liczba wyróżnionych detali, w tym przypadku, detali WADLIWYCH

n = 1000
k = 50

m = k / n
s = np.sqrt(m*(1-m)/n)
alpha = 0.01
z = stats.norm.ppf(q = 1-alpha/2, loc=0, scale=1)

interval = (m - z * s, m + z * s)
print("Przedział ufnośći na poziomie ufności 0.99: {}".format(interval))

Przedział ufnośći na poziomie ufności 0.99: (0.03224732165140968, 0.06775267834859033)


In [17]:
def interval_confidence4(n, k, alpha):
    m = k / n
    s = np.sqrt(m * (1-m) / n)
    return stats.norm.interval(alpha=1-alpha, loc=m, scale=s)

In [18]:
stats.norm.interval(alpha=1-alpha, loc=m, scale=s)

(0.03224732165140968, 0.06775267834859033)

**Zadanie - model 4**.   Przeprowadzono  obserwacje  dotyczące  opóźnień  w  ruchu  pociągów.  Stwierdzono,  ze spośród 1000 losowo wybranych pociągów 160 przyjechało z opóźnieniem. Zakładając, ze opóźnienia poszczególnych pociągów są niezależne od siebie i jednakowo prawdopodobne dla  każdego  pociągu,  znaleźć  przedział  ufności  dla  prawdopodobieństwa  występowania opóźnienia na poziomie ufności 0,9.

In [19]:
n = 1000
k = 160

m = k / n
print(m)
s = np.sqrt(m*(1-m)/n)
alpha = 0.1
z = stats.norm.ppf(q = 1-alpha/2, loc=0, scale=1)

interval = (m - z * s, m + z * s)
print("Przedział ufnośći na poziomie ufności 0.99: {}".format(interval))

0.16
Przedział ufnośći na poziomie ufności 0.99: (0.14093104511960808, 0.17906895488039193)


In [20]:
stats.norm.interval(alpha=1-alpha, loc=m, scale=s)

(0.14093104511960805, 0.17906895488039193)

### Zadania
**Zadanie 1.** Czas montowania bębna w pralce automatycznej jest zmienną losową o rozkładzie normalnym. Zmierzono czas montowania bębna przez 16 losowo wybranych robotników i otrzymano następujące wyniki (w minutach): 7.56, 6.61, 9.11, 8.75, 6.89, 7.11, 7.87, 8.33, 5.51, 7.05, 6.75, 9.49, 8.01, 7.52, 5.15, 8.52. Na poziomie ufności 0.95 podać przedział ufności dla średniego czasu montażu bębna w pralce.

**Zadanie 2.** Średnia cena 100 losowo wybranych podręczników akademickich wynosiła 64,99 zł. Wiadomo, że odchylenie standardowe cen podręczników wynosi 7,12 zł. Wyznaczyć 95% przedział ufności dla średniej ceny podręcznika akademickiego zakładając, że rozkład cen jest rozkładem normalnym.

**Zadanie 3.** Na 200 połączeń telefonicznych w pewnej centrali 17 okazało się błędnych. Na poziomie ufności 0.95 zbudować przedział ufności dla frakcji błędnych połączeń.

**Zadanie 4.** Dział kontroli jakości w zakładach chemicznych chce oszacować średnią wagę proszku do prania sprzedawanego w pudełkach o nominalnej wadze 3 kg. Pobrano w tym celu próbkę 9 pudełek proszku do prania. Każde pudełko zważono i otrzymano następujące wyniki (w kilogramach): 2.97, 3.04, 2.95, 3.01, 3.00, 2.99, 2.97, 3.05, 2.96. Wiadomo, że rozkład wagi pudełka proszku do prania jest normalny. Na poziomie ufności 0.9 zbudować przedział ufności dla średniej wagi pudełka proszku do prania.

**Zadanie 5.** W 7-osobowej losowo wybranej grupie uczniów zmierzono czas rozwiązywania pewnego zadania matematycznego. Otrzymano następujące wyniki (w minutach): 5, 17, 20, 23, 22, 25, 21. Zakładamy, że czas rozwiązania zadania ma rozkład normalny. Na poziomie ufności 0.99 podać przedział ufności dla średniego czasu rozwiązywania danego zadania.

**Zadanie 6.** Zbadano grupę krwi 100 osób i stwierdzono, że 35 osób miało grupę krwi ,,0''. Na poziomie ufności 0.95 oszacować przedziałowo procent osób posiadających grupę kriw ,,0'' w całej populacji.

**Zadanie 7.** Przy badaniu wysokości wynagrodzeń w przemyśle informatycznym w województwie mazowieckim w 2018 roku wylosowano 500 pracowników. Na podstawie wyników próby otrzymano średnie miesięczne wynagrodzenie na poziomie 8802 zł oraz odchylenie standardowe 783 zł. Przyjmując poziom ufności 0.99, oszacować nieznaną średnią w rozkładzie wynagrodzeń ogółu pracowników przemysłu informatycznego w województwie mazowieckim.

**Zadanie 8.** W jednej z politechnik wylosowano niezależnie próbę 200 studentów, z których jedynie 60 zdało wszystkie egzaminy w pierwszym terminie. Na poziomie ufności 0.9 podać przedział ufności dla procentu studentów zaliczających sesję w pierwszym terminie.

**Odpowiedzi**:
    
1) (6.9235941239151835, 8.105155876084815)

2) (63.59450564300748, 66.38549435699251)

3) (0.04634967918765191, 0.1236503208123481)

4) (2.9716386062289, 3.0150280604377664)

5) (9.669844086104506, 28.330155913895496)

6) (0.2565156760890943, 0.44348432391090564)

7) (8711.802637264458, 8892.197362735542)

8) (0.24670065078445905, 0.3532993492155409)