## 1. Statystki opisowe

### Populacja vs próbka

![image.png](attachment:6e7f273d-95d4-4880-b531-b53f4538afd8.png)

Wykonujemy pomiar (co w statystyce nazywamy często robieniem eksperymentu). Zanim zaczniemy analizować otrzymany wynik, kluczowe jest rozróżnienie czy pomiar dotyczył całej **populacji, ang. population**, czy tylko jej części (**próbki, ang. sample**). Ważne jest też czy na podstawie otrzymanego wyniku chcemy wnioskować na temat całej populacji, czy tylko samej próbki. To zagadnienie  jest kamień węgielnym całej dziedziny i powodem jej istnienia.

Na ile pomiar wyłącznie części zbioru uprawnia nas do wyciągania wniosków dotyczących całego zbioru. Z jaką dużą pewnością możemy wypowiadać się na temat całego zbioru posiadając informacje dotyczące wyłącznie części tego zbioru (próbki).

Dlaczego może nas to interesować? Ponieważ bardzo często zebranie informacji na temat całej populacji jest zbyt zasobożerne. Często w ogóle niemożliwe. Z drugiej strony, stosunkowo niskim kosztem potrafimy zebrać informacje o dużym poziomie wiarygodności. Ten temat stanowi jedno z podstawowych zagadnień optymalizacyjnych w dzisiejszym świecie.



### Parametry vs statystyki

Liczebność populacji oznaczamy symbolem **$N$**, liczebność próbki symbolem **$n$**.

Po zebraniu danych wykonujemy obliczenia, żeby otrzymać jakieś miarodajne informacje na temat naszych danych. W przypadku populacji wynik obliczeń nazywamy **parametrem** populacji, w przypadku próbki nazywamy **statystyką**.

Przykład: Przeprowadzamy ankietę wśród studentów Uniwerystetu Warszawskiego.

Wniosek: Populacja jest trudna do obserwacji. Testy statystyczne powstały po to, żebyśmy mogli pracować na niekompletnych danych. Móc na ich podstawie wyciągać prawidłowe wnioski. Przecież najczęściej pracujemy z próbką, małym fragmentem zbioru wszystkich możliwych informacji.

In [10]:
#populacja i próbka
import numpy as np

N = 1000 # liczebność populacji
n = 10  # liczebność próbki (sample)

# Tworzymy "populację" (liczby całkowite od 1 do 1000)
populacja = list(range(1, N+1))

# Losujemy próbkę z populacji
sample_size = n  # Rozmiar próby
przyklad_proby = np.random.choice(populacja, size=sample_size, replace=False)

# Wyliczamy i wyświetlamy średnią populacji i próbki
srednia_populacji = np.mean(populacja)  # parametr
srednia_proby = np.mean(przyklad_proby)  # statystyka

print(f"Populacja: {populacja}")
print()
print(f"Przykładowa próba: {przyklad_proby}")
print()
print(f"Średnia populacji: {srednia_populacji}")
print(f"Średnia próby: {srednia_proby}")

Populacja: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 2

### Cechy próby

Aby próbę uznać za miarodajną powinna posiadać dwie cechy:
- być losowa
- być reprezentatywna

Jak ma się do tych cech nasz eksperyment ? W jaki sposób moglibyśmy uzyskać próbkę spełniającą oba kryteria ?

**Pytanie 1**

Dyrektor szkoły chce przeprowadzić ankietę dotyczącą satysfakcji uczniów w całej szkole. Tobie powierzono zadanie zebrania opinii od Twoich rówieśników i przedstawienia ich dyrektorowi.

Czy uzyskane dane są danymi dotyczącymi całej populacji, czy tylko próby? Jak nazywa się wartość, którą przekazałeś?

A. populacja, statystyka \
B. populacja, parametr \
C. próba, statystyka \
D. próba, parametr

**Pytanie 2**

Próbujesz oszacować średnią wycenę start-upów w USA. Wyobraź sobie, że losowo odwiedzasz 200 start-upów w Dolinie Krzemowej. Co może być potencjalnym problemem w Twoim badaniu?

A. próba nie jest losowa \
B. próba jest zbyt mała \
C. próba nie jest reprezentatywna \
D. populacja jest nieznana