In [8]:
import numpy as np
from scipy import stats

data = np.array([4,5,1,2,7,2,6,9,3])
print(data)

mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data)

print(f"Mean: {mean:.2f}")
print(f"Median: {median:.2f}")
print(f"Mode: {mode[0][0]:.2f}")

[4 5 1 2 7 2 6 9 3]
Mean: 4.33
Median: 4.00
Mode: 2.00


**Wariancja populacji:**

$$\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$$

**Wariancja próbki**

$$\frac{1}{N-1} \sum_{i=1}^{N} (x_i - \mu)^2$$


In [15]:
variance = 0
for i in range(1,len(data)):
    variance += (data[i] - mean)**2
variance = variance / len(data)

print(f"Wariancja populacji : {variance:.2f}")
variance *= (len(data)/ (len(data) - 1))
print(f"Wariancja próbki : {variance:.2f}")

Wariancja populacji : 6.21
Wariancja próbki : 6.99


Dlatego, że wariancja wyraża się w wielkościach$^2$ lepiej korzystać z odchylenia standardowego

$$ \sigma = \sqrt{\text{wariancja populacji}} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}$$

$$ s = \sqrt{\text{wariancja próbki}} = \sqrt{\frac{1}{N-1} \sum_{i=1}^{N} (x_i - \mu)^2}$$

**Kwantyle** to po prostu identyczne części danych. Kwantyle obejmują kwartyle (rzędu 1/4), kwintyle (rzędu 1/5), decyle (1/10), percentyle (1/100) itd

**Rozstęp kwartylny** to różnica między kwantylem rzędu 3/4 a kwantylem rzędu 1/4

In [27]:
from statistics import variance, stdev

game_points = np.array([35,56,43,59,63,79,35,41,64,43,93,60,77,24,82])

#obliczamy wariancje
dt_var = variance(game_points)
dt_std = stdev(game_points)
dt_rng = np.max(game_points) - np.min(game_points)

print(f"Wariancja: {dt_var:.2f}")
print(f"Odchylenie standardowe: {dt_std:.2f}")
print(f"Zakres: {dt_rng:.2f}")

for val in [20,80,100]:
   dt_qntls = np.percentile(game_points,val)
   print(f"{val}% : {dt_qntls:.2f}")
    
q75,q25 = np.percentile(game_points, [75 ,25])
print(f"Odstep miedzykwartylny: {(q75-q25):.2f}")


Wariancja: 400.00
Odchylenie standardowe: 20.00
Zakres: 69.00
20% : 39.80
80% : 77.40
100% : 93.00
Odstep miedzykwartylny: 28.50


## Testowanie Hipotez Statystycznych

to proces wyciągania wniosków o populacji na podstawie pewnego testu statystycznego. Hipoteza to pewne stwierdzenie dotyczące parametrów populacji.

- Hipoteza zerowa – oznaczana jako H0, jest zwykle hipotezą, gdzie wyniki z próbek obserwacyjnych wynikają z czystego przypadku.
- Hipoteza alternatywna – oznaczano jako H1, jest hipotezą, gdzie wyniki z próbek obserwacyjnych są zdefiniowane przez jakąś nielosową przyczynę.

Na przykład, załóżmy, że chcieliśmy ustalić czy moneta jest sprawiedliwa i dobrze wyważona. Hipoteza zerowa mogłaby być taka, że połowa rzutów skończy się orłem, a połowa reszką. Alternatywną hipotezą mogłoby być to, że liczba orłów i reszek będzie różna. W sposób symboliczny, możemy to zapisać następująco:

$$H_0: P = 0.5$$
$$H_1: P \neq 0.5$$

Załóżmy, że rzuciliśmy monetą 50 razy i otrzymaliśmy 40 orłów i 10 reszek. Po otrzymaniu takiego wyniku, będziemy skłonni odrzucić hipotezę zerową. Moglibyśmy wywnioskować, bazując na dowodach, że moneta prawdopodobnie jest niesprawiedliwa i źle wyważona.


### Kroki w testowaniu hipotez

1. Postawienie hipotez. W nim zawiera się postawienie hipotezy zerowej i alternatywnej. Hipotezy są stawiane w taki sposób aby się wzajemnie wykluczały. To znaczy, że jeśli jedna jest prawdziwa, to druga musi być fałszywa.

2. Zebranie próbki danych.

3. Analiza próbki danych. Znalezienie wartości statystyki testowej (średni wynik, proporcje, wynik-t, wynik-z, itd.) opisane w planie analizy.

4. Interpretacja wyników. Zastosowanie zasady decyzyjnej opisanej w planie analizy. Jeżeli wartość statystki testowej, bazująca na hipotezie zerowej, jest nieprawdopodobna, wtedy odrzucamy hipotezę zerową.


Z testowania hipotez mogą wyniknąć dwa błędy:

- Błąd 1 typu – występuje wtedy gdy badacz odrzuca hipotezę zerową, chociaż jest prawdziwa. Prawdopodobieństwo popełnienia błędu 1 typu nazywamy poziomem istotności. To prawdopodobieństwo jest również zwane alfą, i często zapisywane jako α.

- Błąd 2 typu – występuje kiedy badacz nie odrzuca hipotezy zerowej chociaż jest nieprawdziwa. Prawdopodobieństwo popełnienia błędu 2 typu nazywamy Betą, która jest często oznaczana przez β. Prawdopodobieństwo niepopełnienia błędu 2 typu jest nazywane mocą testu.

### Zasady decyzyjności

**Wartość P** – mierzy siłę dowodów wspierających hipotezę zerową. Załóżmy, że statystyka testu wynosi Wartość P jest prawdopodobieństwem zaobserwowania statystyki testu tak skrajnej jak S, zakładając prawdziwą hipotezę zerową. Jeżeli P wynosi mniej niż poziom istotności, wtedy odrzucamy hipotezę zerową.

**Przedział ufności** – jest zakresem wartości. Jeżeli statystyka testu mieści się w przedziale ufności, hipoteza zerowa nie jest odrzucona. Przedział ufności jest tak definiowany aby szansa popełnienia błędu 1 typu była tożsama z poziomem istotności.

# Przykład testowania hipotezy

Wytwórca czekolady który jest również Twoim znajomym, zarzeka się że wszystkie czekolady produkowane w jego fabryce ważą conajmniej 1000g, ale masz przeczucie że to nieprawda. Obaj zebraliście próbkę 30 czekolad i odkryliście, że średnia waga czekolady to 990g z odchyleniem standardowym 12.5g. Zakładając poziom istotności 0.05, czy możemy odrzucić hipotezę Twojego znajomego?

Załóżmy hipotezę zerową $\mu_0 > 1000$ (każda z czekolad waży więcej niż 1000g) oraz hipotezę alternatywną $\mu_1 \leq 1000$

Po zebraniu czekolad załóżmy, że mamy $\bar{x}$

    