# Pandas - filtrování dat

Filtrování dat je jedním ze základních každodenních úkolů datového analytika. Může mít různé kontexty: od jednoduchého procházení dat až po rozdělení výstupního datasetu na specifické podmnožiny, které je třeba analyzovat samostatně.

V Pandas máme dvě hlavní metody pro filtrování dat z `DataFrame`:

- **`query`** - obdoba dotazů známých z SQL
- **`loc`** - atribut pro přístup ke skupinám řádků nebo sloupců

## Načtení dat do DataFrame

Nejprve si připravíme data pro práci:

In [1]:
import pandas as pd

In [2]:
# Načtení CSV souboru
df = pd.read_csv(
    r'..\data\product_prices_renamed.csv',
    sep=';',                    # oddělovač sloupců
    encoding='UTF-8',           # kódování souboru
    decimal='.'                 # znak pro desetinnou čárku
)

In [3]:
# Zobrazení prvních řádků
df.head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3


In [4]:
# Zobrazení informací o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149940 entries, 0 to 149939
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   province          149940 non-null  object 
 1   product_types     34272 non-null   object 
 2   currency          149940 non-null  object 
 3   product_group_id  149940 non-null  int64  
 4   product_line      115668 non-null  object 
 5   value             137088 non-null  float64
 6   date              149940 non-null  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 8.0+ MB


---
## Metoda `query(expr)`

Metoda pro filtrování dat z DataFrame (obdoba operace `WHERE` v SQL).

Parametr `expr` je text dotazu (string).

### Příklad: Najdi řádky, kde `province == 'POLAND'`

In [7]:
df.query("province == 'POLAND'")

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.620000,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.270000,2009-8
15,POLAND,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,2.360000,2004-12
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
52,POLAND,,PLN,4,Masurian barley groats - per 1kg,2.080000,2017-1
...,...,...,...,...,...,...,...
149837,POLAND,frozen carrot and pea mix - per 1kg,EUR,1,,0.843373,2017-4
149890,POLAND,,PLN,2,"salted herring, non-dressed - per 1kg",5.400000,2006-3
149897,POLAND,,PLN,4,Masurian barley groats - per 1kg,1.790000,2018-3
149899,POLAND,,PLN,4,bread - per 1kg,,2016-10


In [8]:
df_poland = df.query("province == 'POLAND'")

In [9]:
df_poland.head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.27,2009-8
15,POLAND,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,2.36,2004-12
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
52,POLAND,,PLN,4,Masurian barley groats - per 1kg,2.08,2017-1


In [10]:
df_poland.shape

(8820, 7)

### Operátory v metodě query

Metoda `query` podporuje všechny základní logické operátory: `==`, `!=`, `>`, `>=`, `<`, `<=`

### Příklad: Najdi řádky, kde hodnota je menší než 10

In [11]:
df.query("value < 10")

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3
5,HOLY CROSS,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,0.28,2010-4
6,WEST POMERANIA,fresh chichen egges - per 666pcs.,PLN,3,,0.00,2004-12
...,...,...,...,...,...,...,...
149932,MASOVIA,,PLN,2,"salted herring, non-dressed - per 1kg",0.00,2001-3
149934,SILESIA,,PLN,2,barley groats sausage - per 1kg,4.50,2004-8
149936,ŁÓDŹ,"beet sugar white, bagged - per 1kg",PLN,3,,0.00,2012-5
149937,LESSER POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,3.05,2008-6


---
## Atribut `loc[]`

Atribut `loc` slouží k přístupu ke skupině řádků nebo sloupců pomocí indexů, popisků nebo polí true/false.

Stejně jako `query` podporuje všechny logické operátory: `==`, `!=`, `>`, `>=`, `<`, `<=`

### Příklad: Pomocí `loc` najdi řádky, kde `province == 'POLAND'`

In [12]:
df_poland = df.loc[df['province'] == 'POLAND']

In [13]:
df_poland.head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.27,2009-8
15,POLAND,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,2.36,2004-12
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
52,POLAND,,PLN,4,Masurian barley groats - per 1kg,2.08,2017-1


---
## Filtrování podle více sloupců

### Metoda query - logické operátory

V metodě `query` můžeme použít operátory `and`, `or` a `not` (stejně jako v Pythonu).

### Příklad: Najdi data z Polska z ledna 2019 (2019-1)

In [15]:
df.query("province == 'POLAND' and date == '2019-1'").head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
1053,POLAND,,PLN,2,dressed chickens - per 1kg,6.22,2019-1
3059,POLAND,,PLN,4,"Poznan wheat flour, bagged - per 1kg",1.18,2019-1
6723,POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,4.41,2019-1
15669,POLAND,,PLN,4,"Poznan wheat flour, bagged - per 1kg",1.18,2019-1
21008,POLAND,"beet sugar white, bagged - per 1kg",PLN,3,,1.67,2019-1


In [16]:
df.query("province == 'POLAND' and date == '2019-1'").shape

(34, 7)

### Příklad: Najdi data ze všech krajů (kromě celostátních) s cenou menší nebo rovnou 10

In [18]:
# Operátor 'not' neguje první podmínku
df.query("not province == 'POLAND' and value <= 10").head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3
5,HOLY CROSS,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,0.28,2010-4
6,WEST POMERANIA,fresh chichen egges - per 666pcs.,PLN,3,,0.0,2004-12


In [19]:
df.query("not province == 'POLAND' and value <= 10").shape

(94046, 7)

**Poznámka:** Pokud nezadáme závorky, operátor `not` se váže pouze na první logickou operaci (zde funguje jako `province != 'POLAND'`).

---
### Metoda loc - bitové operátory

Protože `loc` může být použit nejen pro filtrování dat, syntaxe je odlišná od `query`.

Operátory `and`, `or` a `not` nejsou dostupné. Jejich ekvivalenty jsou:

| Logický operátor | Bitový operátor |
|------------------|------------------|
| and              | &                |
| or               | \|               |
| not              | ~                |

### Příklad: Pomocí `loc` najdi data z Polska z ledna 2019 (2019-1)

In [22]:
s_prov = df['province'] == 'POLAND'
s_prov.head()

0    False
1    False
2    False
3    False
4    False
Name: province, dtype: bool

In [23]:
s_prov.shape

(149940,)

In [25]:
# Každá podmínka musí být v závorkách!
obe = df.loc[
    (df['province'] == 'POLAND') &
    (df['date'] == '2019-1')
]
obe.shape

(34, 7)

### Příklad: Pomocí `loc` najdi data mimo celostátní úroveň s cenou menší nebo rovnou 10

In [26]:
dalsi = df.loc[
    ~(df['province'] == 'POLAND') &
    (df['value'] <= 10)
]
dalsi.shape

(94046, 7)

---
## `loc` nebo `query`?

Z pohledu výsledku jsou tyto metody ekvivalentní.

Ale `loc` snadno umožňuje kombinaci nejen logických operátorů, ale i dalších funkcí, jako je:

**`isin(values)`** - kontroluje, zda je daný prvek v množině. Funkce vrací Series s hodnotami `True/False`.

### Příklad: Najdi řádky patřící do kraje Lower Silesia nebo West Pomerania

In [27]:
# Vytvoření masky True/False
df['province'].isin(['LOWER SILESIA', 'WEST POMERANIA'])

0         False
1         False
2         False
3          True
4         False
          ...  
149935    False
149936    False
149937    False
149938    False
149939    False
Name: province, Length: 149940, dtype: bool

In [28]:
# Použití masky pro filtrování
df.loc[df['province'].isin(['LOWER SILESIA', 'WEST POMERANIA'])]

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14000,2019-2
6,WEST POMERANIA,fresh chichen egges - per 666pcs.,PLN,3,,0.00000,2004-12
26,LOWER SILESIA,frozen carrot and pea mix - per 1kg,EUR,1,,0.66988,2005-7
27,LOWER SILESIA,,PLN,4,"Poznan wheat flour, bagged - per 1kg",1.05000,2000-3
36,WEST POMERANIA,,PLN,2,smoked bacon with ribs - per 1kg,12.46000,2011-9
...,...,...,...,...,...,...,...
149849,LOWER SILESIA,,PLN,2,fresh non-dressed trout - per 1kg,,2002-7
149850,WEST POMERANIA,,PLN,2,fresh non-dressed carp - per 1kg,,2013-3
149859,LOWER SILESIA,,PLN,2,haddock fillets frozen - per 1kg,0.00000,2014-12
149868,WEST POMERANIA,"beet sugar white, bagged - per 1kg",PLN,3,,0.00000,2007-7


---
## Otázky k zamyšlení

### Otázka 1: Jaký je rozdíl mezi `query` a `loc`?

*Odpověz vlastními slovy:*

### Otázka 2: Proč v `loc` musíme používat závorky kolem každé podmínky?

*Odpověz vlastními slovy:*

---
## Úlohy na opravu chyb

V následujících buňkách jsou chyby. Oprav je.

### Úloha 1: Oprav syntaxi v query

In [29]:
# CHYBA: Oprav tento kód
df.query(province == 'POLAND')

NameError: name 'province' is not defined

In [30]:
# CHYBA: Oprav tento kód
df.query("province == 'POLAND'")

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.620000,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.270000,2009-8
15,POLAND,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,2.360000,2004-12
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
52,POLAND,,PLN,4,Masurian barley groats - per 1kg,2.080000,2017-1
...,...,...,...,...,...,...,...
149837,POLAND,frozen carrot and pea mix - per 1kg,EUR,1,,0.843373,2017-4
149890,POLAND,,PLN,2,"salted herring, non-dressed - per 1kg",5.400000,2006-3
149897,POLAND,,PLN,4,Masurian barley groats - per 1kg,1.790000,2018-3
149899,POLAND,,PLN,4,bread - per 1kg,,2016-10


### Úloha 2: Oprav syntaxi v loc

In [31]:
# CHYBA: Oprav tento kód - chybí závorky
df.loc[
    df['province'] == 'POLAND' &
    df['value'] > 5
]

TypeError: Cannot perform 'rand_' with a dtyped [float64] array and scalar of type [bool]

In [32]:
# CHYBA: Oprav tento kód - chybí závorky
df.loc[
    (df['province'] == 'POLAND') &
    (df['value'] > 5)
]

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
89,POLAND,,PLN,2,haddock fillets frozen - per 1kg,12.49,2011-4
116,POLAND,,PLN,2,Hunter's sausage dried - per 1kg,19.71,2019-2
153,POLAND,,PLN,2,pork meat (raw bacon) - per 1kg,8.15,2006-4
157,POLAND,,PLN,2,dressed chickens - per 1kg,6.21,2018-8
...,...,...,...,...,...,...,...
149688,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,19.20,2005-10
149741,POLAND,,PLN,2,smoked bacon with ribs - per 1kg,11.76,2008-4
149745,POLAND,,PLN,2,beef with bone (rump steak) - per 1kg,23.80,2018-6
149890,POLAND,,PLN,2,"salted herring, non-dressed - per 1kg",5.40,2006-3


### Úloha 3: Oprav operátor

In [34]:
# CHYBA: Oprav tento kód - špatný operátor pro loc
df.loc[
    (df['province'] == 'POLAND') &
    (df['value'] > 5)
]

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
89,POLAND,,PLN,2,haddock fillets frozen - per 1kg,12.49,2011-4
116,POLAND,,PLN,2,Hunter's sausage dried - per 1kg,19.71,2019-2
153,POLAND,,PLN,2,pork meat (raw bacon) - per 1kg,8.15,2006-4
157,POLAND,,PLN,2,dressed chickens - per 1kg,6.21,2018-8
...,...,...,...,...,...,...,...
149688,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,19.20,2005-10
149741,POLAND,,PLN,2,smoked bacon with ribs - per 1kg,11.76,2008-4
149745,POLAND,,PLN,2,beef with bone (rump steak) - per 1kg,23.80,2018-6
149890,POLAND,,PLN,2,"salted herring, non-dressed - per 1kg",5.40,2006-3


---
## Praktické úlohy

### Úloha 1: Filtrování dat

Při generování souboru `product_prices_renamed.csv` došlo k následujícím chybám zpracování, které je třeba najít:

1. Ve sloupci **date** se objevila data z roku 1888 - '1888-0'
2. Zkontroluj sloupec **date** na podobné chyby, ale s budoucími hodnotami
3. Ve sloupci **value** byla zavedena příliš vysoká hodnota - najdi ji a lokalizuj řádek (použij `query`)
4. Ve sloupci **product_types** došlo k překlepu u jednoho z produktů. Najdi ho a odpovídající řádky. Kolik takových řádků je?

Nemusíš přiřazovat výsledky do proměnné: stačí je zobrazit.

> Na základě řešení této úlohy později opravíme všechny chyby v datech.

**Nápověda pro bod 2:**
- Existuje pouze jedna taková hodnota
- Použij `loc` nebo `query` s podmínkou `date > '2020-1'`

In [36]:
# Bod 1: Najdi data z roku 1888
df = pd.read_csv('../Data/product_prices_renamed.csv',
                 sep = ';',
                 decimal = '.'
                )

In [37]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date'],
      dtype='object')

In [38]:
df['date'].unique()

array(['2013-3', '2018-2', '2019-12', '2019-2', '2002-3', '2010-4',
       '2004-12', '2017-3', '1999-4', '2017-7', '2009-5', '2011-3',
       '1999-10', '2009-8', '2010-12', '2017-9', '2010-11', '2004-8',
       '2008-11', '1999-3', '2003-7', '2014-10', '2015-9', '2008-7',
       '2013-8', '2005-7', '2000-3', '2009-6', '2003-5', '2004-2',
       '2010-1', '2005-10', '2016-3', '2014-2', '2008-2', '2011-9',
       '2007-8', '2003-12', '2002-1', '2019-6', '2010-8', '2002-11',
       '2002-2', '2018-6', '2018-8', '2005-9', '2006-2', '2006-9',
       '2013-12', '2017-1', '2016-8', '2014-8', '2004-5', '2007-5',
       '2007-6', '2001-3', '2001-11', '2001-4', '2005-4', '2007-10',
       '2005-5', '2003-10', '2018-7', '2018-5', '2007-11', '2011-12',
       '2015-12', '2007-2', '2014-4', '2014-9', '2008-5', '2017-2',
       '2000-12', '2016-10', '2012-10', '2001-8', '2015-5', '2015-8',
       '2011-4', '2004-4', '2015-1', '2008-10', '2006-8', '2008-6',
       '2019-5', '2000-2', '2004-10', '20

In [41]:
df.query("date == '1888-0'").shape[0]

17

In [42]:
df.query("date == '1888-0'")

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
11908,LUBUSZ,,PLN,2,fresh non-dressed carp - per 1kg,8.17,1888-0
14765,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
16125,WARMIA-MASURIA,,PLN,2,fresh non-dressed carp - per 1kg,8.03,1888-0
18737,LOWER SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
20293,HOLY CROSS,,PLN,2,fresh non-dressed carp - per 1kg,7.94,1888-0
33038,OPOLE,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
50542,LESSER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
51536,GREATER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,7.77,1888-0
85091,PODLASKIE,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
95997,POMERANIA,,PLN,2,fresh non-dressed carp - per 1kg,8.13,1888-0


In [43]:
#df.query("date == '1888-0'")
# maska
# df['date'] == '1888-0'

df.loc[df['date'] == '1888-0'].shape

(17, 7)

In [44]:
df.loc[df['date'] == '1888-0']

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
11908,LUBUSZ,,PLN,2,fresh non-dressed carp - per 1kg,8.17,1888-0
14765,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
16125,WARMIA-MASURIA,,PLN,2,fresh non-dressed carp - per 1kg,8.03,1888-0
18737,LOWER SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
20293,HOLY CROSS,,PLN,2,fresh non-dressed carp - per 1kg,7.94,1888-0
33038,OPOLE,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
50542,LESSER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
51536,GREATER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,7.77,1888-0
85091,PODLASKIE,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
95997,POMERANIA,,PLN,2,fresh non-dressed carp - per 1kg,8.13,1888-0


In [45]:
# Bod 2: Najdi budoucí data
df.loc[df['date'] > '2025-12']

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
1583,HOLY CROSS,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
35525,PODLASKIE,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
43258,SILESIA,,PLN,2,haddock fillets frozen - per 1kg,20.96,2099-13
52595,LUBUSZ,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
56032,GREATER POLAND,,PLN,2,haddock fillets frozen - per 1kg,18.92,2099-13
72048,OPOLE,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
73532,ŁÓDŹ,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
84515,LUBLIN,,PLN,2,haddock fillets frozen - per 1kg,16.15,2099-13
86619,POMERANIA,,PLN,2,haddock fillets frozen - per 1kg,16.22,2099-13
98839,WEST POMERANIA,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13


**Nápověda pro bod 3:**
- Existuje pouze jedna taková hodnota
- a) použij `describe()` pro zobrazení percentilů
- b) použij `loc` nebo `query` pro nalezení chybných záznamů

In [46]:
# Bod 3a: Zobraz statistiky sloupce value
df['value'].describe()

count    137088.000000
mean          6.615227
std          34.112858
min           0.000000
25%           0.000000
50%           3.090000
75%          10.920000
max        3000.000000
Name: value, dtype: float64

In [47]:
# Bod 3b: Najdi chybnou hodnotu
# maska: value > 2000
# df['value'] > 2000
df.loc[df['value'] > 2000].shape

(17, 7)

In [48]:
df.loc[df['value'] > 2000]

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
13724,POMERANIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
18768,LOWER SILESIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
22321,WEST POMERANIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
31268,SUBCARPATHIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
36958,LESSER POLAND,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
62346,GREATER POLAND,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
70851,MASOVIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
79924,KUYAVIA-POMERANIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
91306,ŁÓDŹ,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
96597,OPOLE,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1


**Nápověda pro bod 4:**
- a) použij metodu `unique()` pro nalezení všech dostupných hodnot
- b) použij `loc` nebo `query` pro nalezení chybných záznamů
- c) počet řádků lze zkontrolovat metodou `shape`

In [None]:
# Bod 4a: Zobraz unikátní hodnoty ve sloupci product_types


In [None]:
# Bod 4b: Najdi řádky s překlepem


In [None]:
# Bod 4c: Zjisti počet řádků


---
### Úloha 2: Výběr dat pro analýzu

Odpověz na následující otázky:

1. Jaká byla průměrná cena směsi mrkve a hrášku (carrot and pea mix) za 1 kg v Polsku v roce 2015?
2. Jaká byla průměrná cena jablečného džusu (apple juice) v letech 2016-2018 v kraji Masovia?
3. Jaká byla průměrná cena rajčatové pasty (tomato paste) v kraji Lower Silesia v letech 2003-2015? Ve srovnání s ostatními produkty ti připadá rozumná?

Navrhni, co lze udělat s hodnotami rovnými 0. Jak to ovlivní výsledky bodu 3?

> Všechny skupiny produktů potřebné pro tuto úlohu jsou ve sloupci **product_types**.

In [None]:
# Otázka 1: Průměrná cena směsi mrkve a hrášku v Polsku 2015


In [None]:
# Otázka 2: Průměrná cena jablečného džusu v Masovii 2016-2018


In [None]:
# Otázka 3: Průměrná cena rajčatové pasty v Lower Silesia 2003-2015


---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.read_csv()` | Načtení CSV souboru do DataFrame |
| `df.head()` | Zobrazení prvních n řádků (výchozí 5) |
| `df.info()` | Zobrazení informací o DataFrame (typy, počet hodnot) |
| `df.query(expr)` | Filtrování dat pomocí textového dotazu (podobně jako SQL WHERE) |
| `df.loc[podmínka]` | Filtrování dat pomocí boolean masky |
| `df['sloupec'].isin(seznam)` | Kontrola, zda hodnoty jsou v daném seznamu |
| `df.describe()` | Statistický popis numerických sloupců |
| `df['sloupec'].unique()` | Vrátí unikátní hodnoty ve sloupci |
| `df.shape` | Vrátí rozměry DataFrame (řádky, sloupce) |
| `df['sloupec'].mean()` | Výpočet průměru |