In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as sps

In [None]:
tips = sns.load_dataset('tips')
tips.head()

### Miary średnie

Średnia arytmetyczna - najczęściej stosowana miara wartości przeciętnej
$$
\overline{x} = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{1}{n} \sum_{i=1}^n x_i
$$

Średnia geometryczna - do badania średniego tempa zmian jakiegoś zjawiska w czasie
$$
\overline{x}_g = \sqrt[n]{x_1 x_2 \dots x_n} = \left( {\prod_{i=1}^n x_i } \right)^{1/n}
$$

Średnia harmoniczna - gdy dane są w jednostkach względnych, np. prędkość w km/h, gęstość zaludnienia w osobach/km kw.
$$
\overline{x}_h = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}
$$


Dla miar średnich możemy również policzyć ich wersje ważone, np. ważona średnia arytmetyczna:
$$
\overline{x} = \frac{\sum_{i=1}^n x_i w_i}{\sum_{i=1}^n w_i} 
$$

Kwantyle - sortujemy dane i dzielimy na równe części, najczęściej są to:
 - kwartyle - 4 części
 - decyle - 10 części
 - centyle/percentyle - 100 części
 - kwantyle - sami zadajemy ilość podziałów

Kwartyle oznaczamy $Q_1, Q_2, Q_3$. Drugi kwartyl nazywamy medianą.

Dominanta / moda - najczęściej występująca wartość.

### Miary zmienności

Odchylenie przeciętne:
$$
d = \frac{1}{n} \sum_{i=1}^n | x_i - \overline{x} |
$$

Odchylenie ćwiartkowe:
$$
Q = \frac{Q_3 - Q_1}{2}
$$

Wariancja:
$$
s^2 = \frac{1}{n} \sum_{i=1}^n \left( x_i - \overline{x} \right)^2
$$

Odchylenie standardowe:
$$
s = \sqrt{s^2}
$$

Typowy obszar zmienności:
$$
Q_2 - Q < x_{typ} < Q_2 + Q \quad \text{lub} \quad \overline{x} - s < x_{typ} < \overline{x} + s
$$

Dla powyższych miar możemy też policzyć miary względne, np. współczynnik zmienności:
$$
V_s = \frac{s}{\overline{x}} \times 100 \%
$$

### Zadania (miary średnie i miary zmienności)

Zadanie 1. Wczytaj zbiór danych *iris*. Policz wybrane statystyki opisowe w podziale na gatunek kwiata (kolumna *species*).

Zadanie 2. Wczytaj zbiór danych *penguins*. Policz wybrane statystyki opisowe w podziale na gatunek pingiwna (kolumna *species*).

Zadanie 3.
 - Policz średnią długość kielicha dla wszystkich irysów.
 - Policz średnią długość kielicha jako średnią wartość dla trzech grup (średnia ze średnich).

Czy oba wyniki są takie same?

 - Policz średnią długość dzioba dla wszystkich pingwinów.
 - Policz średnią długość dzioba jako średnią wartość dla trzech grup (średnia ze średnich).

Czy oba wyniki są takie same?

Skąd wynika rozbieżność między tymi wynikami? Jaką operację wykonać, aby wyniki były takie same?

Zadanie 4.
- Wczytaj zbiór danych *flights*.
- Policz sumę pasażerów linii lotniczych w poszczególnych latach.
- Policz tempo zmian z roku na rok.
- Policz średnie tempo zmian w badanym okresie.

Zadanie 5. 
 - Wczytaj zbiór danych *anscombe*.
 - Policz średnią oraz odchylenie standardowe w podzialy na grupy (kolumna *datasets*).
 - Stwórz wykres punktowy dla każdej grupy.
 - Znajdź statystykę, która różni się między grupami.

### Miary asymetrii (skośności)

Gdy dane są idealnie symetryczne, to średnia jest równa medianie. Brak symetrii może wystąpić z lewej lub z prawej strony. Wówczas:
 - mediana > średnia gdy dane są lewostronnie asymetryczne
 - mediana < średnia gdy dane są prawostronnie asymetryczne

Możemy zdefiniować zatem wskaźnik asymetrii jako $W_s = \overline{x} - Q_2$

Wskaźnik asymetrii możemy też opisać za pomocą kwantyli:
 - $Q_3 - Q_2 = Q_2 - Q_1$ - gdy dane są symetryczne
 - $Q_3 - Q_2 < Q_2 - Q_1$ - gdy dane są lewostronnie asymetryczne
 - $Q_3 - Q_2 > Q_2 - Q_1$ - gdy dane są prawostronnie asymetryczne

In [None]:
np.random.seed(213)
left_skewed = np.random.beta(5, 2, 1000)    # Dane lewostronnie asymetryczne
symmetric = np.random.normal(0, 1, 1000)    # Dane prawie symetryczne
right_skewed = np.random.beta(2, 5, 1000)   # Dane prawostronnie asymetryczne

fig, axes = plt.subplots(1, 3, figsize = (15, 5))
axes[0].hist(left_skewed, bins = 30, edgecolor = 'black')
axes[1].hist(symmetric, bins = 30, edgecolor = 'black')
axes[2].hist(right_skewed, bins = 30, edgecolor = 'black')

Powyższe wskaźniki nie mówią nam jednak jak silna jest asymetria. Możemy więc policzyć miarę względną czyli współczynnik asymetrii:
$$
A_s = \frac{\overline{x} - Q_2}{s} \quad \text{lub} \quad A_s \frac{Q_3 + Q_1 - 2Q_2}{2Q}
$$

Jednak najczęściej stosowaną miarą jest moment centralny trzeciego rzędu, który liczymy analogicznie jak liczyliśmy wariancję:
$$
m_3 = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^3
$$

Mamy $m_3 > 0$ dla asymetrii prawostronnej oraz $m_3 < 0$ dla asymetrii lewostronnej. Często wyraża się go w procentach:
$$
A_s = \frac{m_3}{s^3} \times 100 \%
$$

### Miary koncentracji (ang. kurtosis)

Aby opisać jak bardzo dane są "spłaszczone", możemy policzyć moment centralny czwartego rzędu:
$$
m_4 = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4
$$

Aby wyrazić go w procentach:
$$
a_4 = \frac{m_4}{s^4} \times 100 \%
$$

### Zadania (miary asymetrii i miary koncentracji)

Zadanie 6. Policz współczynnik asymetrii i koncentracji dla danych *anscombe* z zadania 5.

Zadanie 7. Wczytaj zbiór danych *mpg*. Stwórz tabelkę statystyk opisowych: średnia, pierwszy kwartyl, mediana, trzeci kwartyl, odchylenie standardowe, współczynnik asymetrii, współczynnik koncentracji. Wykonaj wykresy.

### Korelacja

Dwie zmienne mogą zmieniać się w tym samym lub w przeciwnych kierunkach z różną siłą.

Kowariancja między dwoma zmiennymi:

$$
\operatorname{Cov}(x, y) = \frac{1}{n} \sum_{i=1}^n \left( x_i - \overline{x} \right) \left( y_i - \overline{y} \right) = \overline{xy} - \overline{x} \ \overline{y}
$$

Współczynnik korelacji liniowej Pearsona:
$$
r = \frac{\operatorname{Cov}(x, y)} {s(x) s(y)}
$$

Zadanie 8. Policz współczynnik korelacji dla danych *anscombe*.

Uwaga! Współczynnik korelacji Pearsona działa tylko w przypadku, gdy między zmiennymi jest zależność liniowa. Ciekawy rysunek: https://en.wikipedia.org/wiki/Correlation

Ponadto współczynnik korelacji Pearsona jest wrażliwy na wartości odstające.

Gdy współzależność między zmiennymi ma charakter nieliniowy lub gdy występują wartości odstające lub gdy badane cechy mają charakter jakościowy, korzystamy ze współczynnika korelacji Spearmana:
$$
r_S = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n (n^2 - 1)}
$$
gdzie $d_i$ to różnice między rangami badanych zmiennych.

Przykład.
| Uczeń | Czas nauki (godziny) | Wynik na egzaminie (\%) |
| --- | --- | --- |
| Jan | 5 | 90 |
| Kasia | 3 | 70 |
| Maciek | 4 | 80 |
| Zosia | 2 | 60 |
| Antek | 1 | 65 |

Liczymy rangi (czyli sortujemy dane malejąco):

| Czas nauki | 1 | 3 | 2 | 4 | 5 |
| --- | --- | --- | --- | --- | --- |
| Wynik na egzaminie | 1 | 3 | 2 | 5 | 4 |
| Różnice rang | 0 | 0 | 0 | -1 | 1 |