# Základy deskriptivní statistiky

Pandas nabízí mnoho metod pro určení základních popisných statistik:
- průměr (mean)
- medián (median)
- směrodatná odchylka (standard deviation)
- percentily / kvantily

## Načtení dat do DataFrame

In [1]:
import pandas as pd

In [2]:
# Načtení dat ze souboru CSV
df_raw = pd.read_csv(
    r'..\data\raw\preserves.csv',  # cesta k souboru
    sep=';',                           # oddělovač sloupců
    decimal=','                        # desetinný oddělovač
)

In [3]:
# Podívejme se na prvních několik řádků
df_raw.head()

Unnamed: 0,Code,Name,Product types,Year,Value,Measurement unit,Attribute,Unnamed: 7
0,0,POLAND,frozen carrot and pea mix - per 1kg,1999,2.55,PLN,,
1,0,POLAND,frozen carrot and pea mix - per 1kg,2000,2.69,PLN,,
2,0,POLAND,frozen carrot and pea mix - per 1kg,2001,2.91,PLN,,
3,0,POLAND,frozen carrot and pea mix - per 1kg,2002,3.16,PLN,,
4,0,POLAND,frozen carrot and pea mix - per 1kg,2003,2.99,PLN,,


---
## Průměr (Mean)

Nejznámější statistika polohy. Vypočítá se jako součet hodnot dělený jejich počtem.

V Pandas se průměr určuje metodou `mean()`:

In [4]:
# Určení průměrné ceny
df_raw['Value'].mean()

np.float64(2.1737464985994395)

---
## Směrodatná odchylka (Standard Deviation)

Směrodatná odchylka udává, jak moc se data liší od průměru.

- Čím větší hodnota, tím více jsou data rozptýlena.
- Směrodatná odchylka je vždy >= 0

V Pandas se směrodatná odchylka určuje metodou `std()`:

In [5]:
df_raw['Value'].std()

np.float64(2.783597750653627)

### Příklad: Stejný průměr, různá směrodatná odchylka

Dva datasety mohou mít stejný průměr, ale velmi odlišnou směrodatnou odchylku:

In [6]:
# Dva datasety se stejným průměrem = 0
data1 = pd.Series([-1, 0, 1])
data2 = pd.Series([-10, -90, 0, 0, 100])

In [7]:
print("Data 1 mean: {}; std: {}".format(
    data1.mean(),
    data1.std()
))

Data 1 mean: 0.0; std: 1.0


In [8]:
print("Data 2 mean: {}; std: {}".format(
    data2.mean(),
    data2.std()
))

Data 2 mean: 0.0; std: 67.45368781616021


**Otázka:** Proč má data2 mnohem větší směrodatnou odchylku než data1, když mají stejný průměr?

---
## Medián (Median)

Medián je prostřední hodnota. 50 % pozorování je menších a 50 % je větších než medián.

V Pandas se medián určuje metodou `median()`:

In [9]:
df_raw['Value'].median()

np.float64(1.775)

---
## Percentily a kvantily

Percentily jsou zobecněním mediánu. Například percentil 10 % určuje hodnotu, pod kterou leží 10 % pozorování.

Speciální případy percentilů jsou **kvantily**:
- 0 % = minimum (0. kvantil)
- 25 % = 1. kvartil
- 50 % = 2. kvartil = medián
- 75 % = 3. kvartil
- 100 % = maximum (4. kvantil)

V Pandas se kvantily určují metodou `quantile(q)`, kde q je seznam percentilů:

In [11]:
# Určení percentilů 0%, 10%, 50% (medián), 75% a 100% (max)
df_raw['Value'].quantile([0, 0.25, 0.5, 0.75, 1])

0.00     0.000
0.25     0.000
0.50     1.775
0.75     3.130
1.00    15.590
Name: Value, dtype: float64

---
## Metoda describe()

Pandas nabízí funkci `describe()`, která shrnuje základní statistiky najednou:
- count = počet neprázdných hodnot
- mean = průměr
- std = směrodatná odchylka
- min, 25%, 50%, 75%, max = percentily

In [12]:
df_raw['Value'].describe()

count    1428.000000
mean        2.173746
std         2.783598
min         0.000000
25%         0.000000
50%         1.775000
75%         3.130000
max        15.590000
Name: Value, dtype: float64

In [13]:
df_raw.describe()

Unnamed: 0,Code,Year,Value,Attribute,Unnamed: 7
count,1428.0,1428.0,1428.0,0.0,0.0
mean,1600000.0,2009.0,2.173746,,
std,980139.1,6.057422,2.783598,,
min,0.0,1999.0,0.0,,
25%,800000.0,2004.0,0.0,,
50%,1600000.0,2009.0,1.775,,
75%,2400000.0,2014.0,3.13,,
max,3200000.0,2019.0,15.59,,


---
## Úlohy

### Úloha 1: Doplň kód

Vytvoř Series s čísly 5, 10, 15, 20, 25 a urči její průměr.

In [None]:
# Doplň kód
moje_data = pd.Series(___)
moje_data.___()

### Úloha 2: Oprav chybu

V následujícím kódu je chyba. Najdi ji a oprav.

In [None]:
# Oprav chybu
cisla = pd.Series([100, 200, 300, 400, 500])
cisla.median  # Chceme zjistit medián

### Úloha 3: Doplň kód

Urči 25. a 75. percentil pro sloupec 'Value'.

In [None]:
# Doplň kód
df_raw['Value'].quantile([___, ___])

### Úloha 4: Vytvoř kód

Vytvoř Series s hodnotami: 2, 4, 4, 4, 5, 5, 7, 9. Pak urči:
1. Průměr
2. Medián
3. Směrodatnou odchylku

In [None]:
# Tvůj kód


### Úloha 5: Otázka k zamyšlení

Máme dataset s platy zaměstnanců: 30000, 35000, 32000, 31000, 500000 (ředitel).

Která statistika lépe popisuje "typický" plat - průměr nebo medián? Proč?

In [None]:
# Vypočítej obě hodnoty
platy = pd.Series([30000, 35000, 32000, 31000, 500000])

In [None]:
# Průměr


In [None]:
# Medián


### Úloha 6: Vytvoř kód

Použij metodu `describe()` na celý DataFrame `df_raw` (ne jen na jeden sloupec).

In [None]:
# Tvůj kód


---
## Cvičení

Načti soubor `product_prices.csv` (oddělovač `;`, desetinný oddělovač `.`) a proveď následující úkoly:

1. Pomocí atributu `columns` změň názvy sloupců na: `'province', 'product_types', 'currency', 'group_id', 'product_line', 'value', 'date'`
2. Urči následující statistiky: průměr, směrodatnou odchylku, percentily: 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%. Cvičení proveď **ve dvou verzích**: pomocí jednotlivých funkcí a pomocí `describe()`.
3. Souhlasíš s tímto způsobem generování těchto hodnot? Proč?

In [None]:
# 1. Načtení souboru


In [None]:
# 2. Změna názvů sloupců


In [None]:
# 3a. Statistiky pomocí jednotlivých funkcí - průměr


In [None]:
# 3b. Statistiky pomocí jednotlivých funkcí - směrodatná odchylka


In [None]:
# 3c. Statistiky pomocí jednotlivých funkcí - percentily


In [None]:
# 4. Statistiky pomocí describe()


### Komentář ke správnosti cvičení

Shrnovat dataset tímto způsobem není zcela správné, protože všechny skupiny produktů (konzervy, maso, oves a další produkty) byly považovány za srovnatelné. Navíc, protože data jsou formátována jako časová řada, všechna data byla považována za stejná.

Toto je běžně známé jako porovnávání jablek s pomeranči. Tyto statistiky by měly být provedeny alespoň zvlášť pro každou ze skupin, a ideálně rozděleny podle čtvrtletí roku.