# Statystyka opisowa
## Średnia i średnia ważona

Średnią jest przeciętna wartość zbioru wartości. Obliczamy przez zsumowanie wartości w zbiorze i podzielenie sumy przez liczbę wartości. 

$\mu$ - mi

Wzór na średnią populacji:
$\mu = \frac{\sum_{i=1}^{N} x_i}{N}$

Wzór na średnią próby:
$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$

*Średnią oblicza się w takim sam sposób dla populacji i dla próby.*



In [3]:
proba = [1,3,2,5,7,0,2,3]
srednia = sum(proba) / len(proba)
print(f'Srednia proby wynosi: {srednia}')

Srednia proby wynosi: 2.875


Wzór na średnią ważoną: 
$\bar{x} = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}$

In [2]:
wagi = [.2, .2, .2, .4]
srednia_wazona = sum(s * w for s,w in zip(proba, wagi)) / sum(wagi)
print(f'Srednia wazona proby wynosi: {srednia}')

Srednia wazona proby wynosi: 2.875


## Mediana
Średnia wartość w zbiorze uporządkowanych wartości. W przypadku, gdy w zbiorze znajduje się parzysta liczba wyliczamy średnią z wartości najbliższych środka sekwencji.

Wzór na medianę: $\text{median} = \begin{cases}
x_{\frac{n+1}{2}} & \text{if $n$ is odd} \\
\frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2} & \text{if $n$ is even}
\end{cases}$

In [4]:
def mediana(proba):
    sort = sorted(proba)
    print(sort)
    n = len(sort)
    mid = int(n/2) - 1 if n%2 == 0 else int(n/2)
    if n % 2 == 0:
        return (sort[mid] + sort[mid + 1])/ 2
    else:
        return sort[mid]

In [5]:
mediana(proba)

[0, 1, 2, 2, 3, 3, 5, 7]


2.5

**Kiedy przydaje się mediana?**

Szczególnie w przypadku danych, które mogą zawierać elementy odstające (outliers). Ma to miejsce szczególnie w przypadku pomiaru wynagrodzeń. Patrz: UNC i Michael Jordan

Kiedy mediana znacząco odbiega od średniej mamy do czynienia ze zbiorem danych, który zawiera elementy odstające. 

**Mediana jest kwantylem**

W statystyce mamy do czynienia równiez z kwantylami. Przecinają one zbiór danych w różnych miejscach. Dla przykładu mediana to kwantyl rzędu 50% - przecina zbiór danych po środku. 

Innego rodzaju kwantylami są kwartyle, dzielące zbiór danych w przedziałach 25%. 

## Dominanta

Wartości, które najczęsciej występują w próbie. Używamy,  gdy chcemy sprawdzić, która wartość najczęściej występuje.

W przypadku, gdy nie obserwujemy wartości, gdy występuje więcej niż jeden raz, nie mamy dominanty. Gdy więcej niż jedna wartość występują z tą samą częstotliwością mamy do czynienia ze zbiorem bimodalnym.

Wzór na dominantę: $ \text{mode} = \underset{x}{\operatorname{argmax}} \left( \sum_{i=1}^{n} \delta(x, x_i) \right) $

*Objaśnienie funkcji*

**Argmax** - wybieramy maksymalną wartość z inputu x.

**Delta** $\delta(x, x_i)$ - tutaj delta Dirca, pozwala na obliczenie ilości wystąpień poszukiwanej wartości (liczby) w zbiorze. 
> Jeśli wartość w zbiorze jest równa wartości (liczbie), której poszukujemy, to funkcja oznacza ją jako 1.

> Gdy wartość w zbiorze nie jest równa wartości, której poszukujemy, to funkcja oznacza ją jako 0.

**Suma** $\sum_{i=1}^{n}$Następnie sumujemy zwrócone oznaczenia. Dla liczby (wartości), dla której suma zwróconych oznaczeń jest największa, jest oznaczona jako liczba dominująca.

In [5]:
from collections import defaultdict
#uzycie defaultdict, aby uniknac bledow
    #korzystanie z defaultdict a tradycyjnego dict w python
    #tradycyjny slownik w python zawiera pary klucz-wartosc
    #w przypadku proby dodania wartosci do klucza, ktory nie istnieje wyrzucany jest blad
    #jesli uzywamy defaultdict, to w przypadku proby dodania wartoscia do klucza, ktory nie istnieje
    #zostanie autoamtycznie utworzona wartosc domyslna dla tego klucza

def dominanta(proba):
    wystapienia = defaultdict(lambda: 0)
    #lambda: 0 to funkcja anonimowa, ktora jest wywolywana w przypadku
    #gdy chcemy przypisac wartość do klucza, ktory nie istnieje - funkcja
    #przypisuje domyslny klucz 0, funkcja umozliwia rowniez zwiekszanie wartosci
    #domyslnej poprzez +=1, gdy klucz juz istnieje
    for s in proba: #iterujemy po wartosciach w zmiennej proba
        wystapienia[s] += 1 #zwiekszamy wartosc klucza w slowniku o 1
    najwiecej_wystapien = max(wystapienia.values()) #pobieramy maksymalna liczbe wystapien
    dominanty = [v for v in set(proba) if wystapienia[v] == najwiecej_wystapien]
    return dominanty

In [6]:
dominanta(proba)

[2, 3]

## Wariancja i odchylenie standardowe
**Uwaga na różnice w obliczeniach pomiędzy próbą a populacją!**

*Jak bardzo rozrzucone są dane?*
czyli mierzenie różnicy pomiędzy średnią a punktem danych

Mierzenie rozrzutu danych może być przydatne w analityce. Aby ułatwić sobie pracę warto jednak skonsolidować owe różnice do jednej liczby. Tym jest właśnie wariancja. 

Od każdego punktu danych odejmujemy średnią populacji. Aby nie tracić cennych informacji związanych z wielkością różnic pomiędzy punktami a średnią, podnosimy różnicę do kwadratu. 


$(x_i - \text{srednia})^2$

Powyższe obliczenie wykonujemy dla każdego punktu danych w populacji. A uzyskane wartości sumujemy do siebie. Aby uśrednić kwadraty różnic dzielimy je przez liczbę punktów danych (obserwacji) w populacji. 

$$
\begin{equation}
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
\end{equation}
$$

$\sigma^2$ - symbol wariancji (sigma kwadrat)

$N$ - liczba elementów w populacji (liczba obserwacji)

$x_i$ - obserwacja w populacji (elementu w populacji/punkt danych)

$\mu$ - średnia populacji (mu)


In [1]:
dane = [0,1,5,7,9,10,14]

def wariancja(dane):
    srednia = sum(dane)/len(dane)
    _wariancja = sum((v-srednia) ** 2 for v in dane) / len(dane)
    return _wariancja

In [3]:
wariancja(dane)

21.387755102040813

*Co właściwie oznacza wartość wariancji?*

Wartość wariancji jest większa, niż którakolwiek liczba punktu danych. Jednak na potrzeby obliczania wariancji różnice pomiędzy punktem danych a średnią były podnoszone do kwadratu. Aby otrzymać informację o rozrzucie danych, możemy powstałą wartość wariancji wypierwiastkować - tym samym wrócimy do wejściowej skali. 

## Odchylenie standardowe

Wyciągając pierwiastek kwadratowy z wartości wariancji otrzymujemy nową miarę. Jest nią odchylenie standardowe. Czyli wariancja, która jest przeskalowana z pomocą pierwiastka kwadratowego do wartości wejściowych. 

$$\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}
$$

$\sigma$ - sigma, symbol odchylenia standardowego (zauważ, że nie ma tu już znaczka podniesienia do kwadratu :))

$\sqrt{}$ - pierwiastek kwadratowy - czyli to co różni wariancję od odchylenia standardowego, zauważ, że pierwiastkujemy całość obliczeń, które składają się na wariancję.

Aby zaimplementować odchylenie standardowe w pythonie, wykorzystamy już napisaną wcześniej funkcję warniacji (zagnieżdżenie funkcji).

In [4]:
from math import sqrt

def odchylenie_std(dane):
    return sqrt(wariancja(dane))

In [None]:
odchylenie_std(dane)

4.624689730353898

### Wariancja i odchylenie standardowe w próbie

W przypadku liczenia wariancji i odchylenia standardowego w próbie, mamy do czynienia z nieco innym wzorem, niż w przypadku liczenia tych metryk na populacji. 

Mianowicie od liczby obserwacji w próbie - podczas liczenia wariancji i odchylenie standardowego - odejmujemy 1. 


$$s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}
$$

$$s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}
$$

powyżej $s^2$ - wzór na wariancję w próbie, pamiętaj o innym znaku dla średniej w próbie ($\bar{x}$)

i $s$ - wzór na odchylenie standardowe  w próbie

*Dlaczego odejmujemy jeden od pełnej liczby elementów we wzorze na próbę?*

Jest to zabezpiecznie na wypadek 'niedocenienia' wariancji. Gdy odejmujemy jeden od liczby elemenetów we wzorze zwiększamy wariancję.

patrz po więcej - Josh Stramer

In [2]:
from math import sqrt
import numpy as np

def wariancja(dane, czy_probka: bool = False): 
    srednia = np.mean(dane)
    _wariancja = sum((v - srednia) ** 2 for v in dane)/ (len(dane) - (1 if czy_probka else 0))
    return _wariancja

In [3]:
wariancja(dane, czy_probka=True)

24.95238095238095

In [6]:
def odchylenie_std(dane, czy_probka: bool=False):
    return sqrt(wariancja(dane, czy_probka))

In [7]:
odchylenie_std(dane, czy_probka=True)

4.99523582550223

Zwiększenie wariancji i odchylenia standardowego w próbie oznacza, że mamy mniejszą pewność do danych i tym samym zwiększamy zakres wartości.