# Pandas: Zpracování dat (část 1)

V tomto notebooku se naučíte:
- Přejmenovávat sloupce pomocí `rename` a `columns`
- Měnit pořadí sloupců
- Pracovat s duplicitami (`duplicated`, `drop_duplicates`)
- Řadit data pomocí `sort_values`

In [1]:
import pandas as pd

## Příprava ukázkových dat

Pro demonstraci vytvoříme jednoduchý DataFrame:

In [2]:
# Vytvoření ukázkového DataFrame
df = pd.DataFrame({
    'province': ['Praha', 'Brno', 'Ostrava', 'Praha', 'Brno'],
    'product_types': ['Potraviny', 'Elektronika', 'Potraviny', 'Potraviny', 'Oblečení'],
    'product_line': ['Mléko', 'Telefon', 'Chléb', 'Mléko', 'Tričko'],
    'currency': ['CZK', 'CZK', 'CZK', 'CZK', 'CZK'],
    'value': [25.0, 15000.0, 35.0, 25.0, 299.0],
    'id': [1, 2, 3, 1, 4],
    'date': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-01', '2024-01-04']
})

In [3]:
df

Unnamed: 0,province,product_types,product_line,currency,value,id,date
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   province       5 non-null      object 
 1   product_types  5 non-null      object 
 2   product_line   5 non-null      object 
 3   currency       5 non-null      object 
 4   value          5 non-null      float64
 5   id             5 non-null      int64  
 6   date           5 non-null      object 
dtypes: float64(1), int64(1), object(5)
memory usage: 412.0+ bytes


---
## 1. Přejmenování sloupců - `rename`

Metoda `rename` umožňuje přejmenovat vybrané sloupce pomocí slovníku. Je to bezpečnější než přepisovat všechny názvy najednou.

### Přejmenování vybraných sloupců pomocí slovníku

In [5]:
df

Unnamed: 0,province,product_types,product_line,currency,value,id,date
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [6]:
df.rename(columns = {
    'province': 'district',
    'currency': 'money_unit'
})

Unnamed: 0,district,product_types,product_line,money_unit,value,id,date
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [7]:
df

Unnamed: 0,province,product_types,product_line,currency,value,id,date
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [8]:
# Přejmenování vybraných sloupců pomocí slovníku
df_renamed = df.rename(columns={
    'province': 'district',
    'currency': 'money_unit'
})

In [10]:
df.columns

Index(['province', 'product_types', 'product_line', 'currency', 'value', 'id',
       'date'],
      dtype='object')

In [11]:
df.columns.tolist()

['province',
 'product_types',
 'product_line',
 'currency',
 'value',
 'id',
 'date']

### Přejmenování všech sloupců pomocí funkce

In [12]:
df.rename(columns = str.upper)

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [14]:
# Převod všech názvů sloupců na velká písmena
df = df.rename(columns=str.upper)

### Otázka k zamyšlení

Proč je metoda `rename` bezpečnější než přímé přepsání atributu `columns`, když pracujeme s DataFramem, který má desítky sloupců?

---
## 2. Změna pořadí sloupců

Pořadí sloupců změníme jednoduše tak, že je vybereme v požadovaném pořadí.

In [16]:
df.columns

Index(['PROVINCE', 'PRODUCT_TYPES', 'PRODUCT_LINE', 'CURRENCY', 'VALUE', 'ID',
       'DATE'],
      dtype='object')

In [17]:
# Změna pořadí sloupců
df_reordered = df[['PROVINCE', 'PRODUCT_TYPES', 'VALUE', 'DATE', 'PRODUCT_LINE', 'CURRENCY', 'ID']]

In [18]:
df_reordered.head()

Unnamed: 0,PROVINCE,PRODUCT_TYPES,VALUE,DATE,PRODUCT_LINE,CURRENCY,ID
0,Praha,Potraviny,25.0,2024-01-01,Mléko,CZK,1
1,Brno,Elektronika,15000.0,2024-01-02,Telefon,CZK,2
2,Ostrava,Potraviny,35.0,2024-01-03,Chléb,CZK,3
3,Praha,Potraviny,25.0,2024-01-01,Mléko,CZK,1
4,Brno,Oblečení,299.0,2024-01-04,Tričko,CZK,4


### Úloha: Opravte chybu

Následující kód obsahuje chybu. Najděte ji a opravte:

In [None]:
# Opravte tento kód - chceme sloupce v pořadí: id, product_line, value
df_selected = df['id', 'product_line', 'value']

---
## 3. Práce s duplicitami

Duplicity v datech mohou vést k chybným výpočtům. Pandas nabízí dva hlavní nástroje:
- `drop_duplicates` - odstraní duplicitní řádky
- `duplicated` - vrátí Series s hodnotami True/False

### Metoda `drop_duplicates`

Parametry:
- `subset` - sloupce, podle kterých se duplicity hledají
- `keep` - které duplicity ponechat ('first', 'last', False)

In [31]:
df

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [34]:
df_clean = df.drop_duplicates()
df_clean

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [33]:
df

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [35]:
# Kontrola, zda jsou v datech duplicity
raw_rows = df.shape[0]  # počet řádků na vstupu

# Odstranění duplicit - ponecháme první výskyt
df_wo_duplicates = df.drop_duplicates()

rows = df_wo_duplicates.shape[0]
has_duplicates = raw_rows != rows  # True pokud byly duplicity

In [36]:
print(f"Počet řádků po odstranění duplicit: {rows}")

Počet řádků po odstranění duplicit: 4


In [37]:
print(f"Byly nalezeny duplicity: {has_duplicates}")

Byly nalezeny duplicity: True


### Metoda `duplicated`

Vrací Series s hodnotami True/False. True znamená, že řádek je duplicitní.

In [38]:
df.duplicated()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [39]:
# Označení duplicitních řádků
is_duplicated = df.duplicated()

In [None]:
print("Označení duplicitních řádků:")

In [40]:
is_duplicated

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [41]:
~is_duplicated

0     True
1     True
2     True
3    False
4     True
dtype: bool

In [42]:
df.loc[~is_duplicated]

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


In [43]:
# Odstranění duplicit pomocí loc a negace (~)
df_clean = df.loc[~is_duplicated]

In [44]:
print("Data bez duplicit:")

Data bez duplicit:


In [45]:
df_clean

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04


### Otázka k zamyšlení

Co znamená symbol `~` před proměnnou `is_duplicated` v příkazu `df.loc[~is_duplicated]`?

---
## 4. Řazení dat - `sort_values`

Parametry:
- `by` - sloupec(e) pro řazení
- `ascending` - True = vzestupně (výchozí), False = sestupně
- `na_position` - pozice prázdných hodnot ('first' nebo 'last')

### Řazení podle jednoho sloupce
Data seřazená podle hodnoty (sestupně)

In [47]:
df.sort_values(by = 'VALUE')

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02


In [49]:
df.sort_values(by = 'VALUE', ascending=False)

Unnamed: 0,PROVINCE,PRODUCT_TYPES,PRODUCT_LINE,CURRENCY,VALUE,ID,DATE
1,Brno,Elektronika,Telefon,CZK,15000.0,2,2024-01-02
4,Brno,Oblečení,Tričko,CZK,299.0,4,2024-01-04
2,Ostrava,Potraviny,Chléb,CZK,35.0,3,2024-01-03
0,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01
3,Praha,Potraviny,Mléko,CZK,25.0,1,2024-01-01


In [57]:
df = pd.read_csv('../Data/product_prices.csv', sep = ';')
df.head()

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3


In [62]:
df.sort_values(by='Goods types', na_position='first').head()

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3


In [63]:
df.sort_values(by='Value', na_position='first').head()

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
11,GREATER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,,2011-3
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
17,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,,2010-11
18,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,,2004-8


In [65]:
df.sort_values(by='Value', na_position='first', inplace = True)

In [66]:
df

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
11,GREATER POLAND,,PLN,2,fresh non-dressed carp - per 1kg,,2011-3
16,POLAND,,PLN,4,bread - per 1kg,,2017-9
17,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,,2010-11
18,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,,2004-8
...,...,...,...,...,...,...,...
13724,POMERANIA,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
96597,OPOLE,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
130871,HOLY CROSS,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1
36958,LESSER POLAND,30% tomato concentrate - per 1kg,PLN,1,,3000.0,2003-1


Poznámka: pokud chceme seřadit puvodní dataframe, pouzijeme parametr `inplace`

### Řazení podle více sloupců
Data seřazená podle product_line (sestupně) a value (vzestupně)

In [67]:
df.columns

Index(['Name', 'Goods types', 'Measurement unit', 'Group ID', 'Product types',
       'Value', 'Date'],
      dtype='object')

In [69]:
df.sort_values(by = ['Value', 'Date'])

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
147385,ŁÓDŹ,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
137245,MASOVIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
14765,SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
18737,LOWER SILESIA,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
85091,PODLASKIE,,PLN,2,fresh non-dressed carp - per 1kg,0.0,1888-0
...,...,...,...,...,...,...,...
122182,HOLY CROSS,,PLN,2,fresh non-dressed carp - per 1kg,,2019-9
126537,MASOVIA,,PLN,4,bread - per 1kg,,2019-9
132623,PODLASKIE,,PLN,4,bread - per 1kg,,2019-9
138539,OPOLE,,PLN,2,fresh non-dressed carp - per 1kg,,2019-9


In [70]:
df.sort_values(by = ['Value', 'Date'], ascending = [True, False])

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
148646,SUBCARPATHIA,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
1583,HOLY CROSS,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
72048,OPOLE,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
73532,ŁÓDŹ,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
135910,LOWER SILESIA,,PLN,2,haddock fillets frozen - per 1kg,0.0,2099-13
...,...,...,...,...,...,...,...
129046,ŁÓDŹ,,PLN,2,fresh non-dressed trout - per 1kg,,1999-1
134613,WEST POMERANIA,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,,1999-1
144836,HOLY CROSS,,PLN,2,fresh non-dressed trout - per 1kg,,1999-1
144841,LESSER POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,,1999-1


In [72]:
# Řazení podle více sloupců s různým směrem
df_multi_sorted = df.sort_values(
    by=['Name', 'Value'],
    ascending=[False, True],  # product_line sestupně, value vzestupně
    na_position='last' # NaN hodnoty na konec, 'first' by znamenalo na znamenalo na začátek
)

In [74]:
df_multi_sorted.head(2)

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
21,ŁÓDŹ,,PLN,2,"salted herring, non-dressed - per 1kg",0.0,2003-7
149912,ŁÓDŹ,,PLN,2,fresh non-dressed trout - per 1kg,0.0,2005-10


### Úloha: Opravte chybu

Následující kód má seřadit data podle sloupce `province` vzestupně, ale obsahuje chybu:

In [None]:
# Opravte tento kód
# df_sorted_province = df.sort_values(by='province', ascending='True')

---
## Cvičení

### Cvičení 1: Úprava názvů sloupců

Načtěte soubor **product_prices.csv** do DataFrame. Upravte názvy sloupců tak, aby odpovídaly souboru **product_prices_renamed.csv**.

Proveďte dvě varianty:
1. Pomocí metody `rename`
2. Přepsáním všech názvů pomocí `columns`

Pro sjednocení názvů můžete použít tento slovník:
```python
{'Name': 'province',
 'Types of goods': 'product_types',
 'Measurement unit': 'currency',
 'id': 'id',
 'Types of products': 'product_line',
 'Value': 'value',
 'Date': 'date'}
```

> Pozor: Metoda `columns` přepisuje sloupce přímo na objektu (nevrací nový DataFrame). Pokud provedete nejdřív krok 2, nápověda bude nepoužitelná.

In [75]:
# Varianta 1: Pomocí rename
df = pd.read_csv('../Data/product_prices.csv', sep = ';')
dfr = pd.read_csv('../Data/product_prices_renamed.csv', sep = ';')

In [78]:
df.columns

Index(['Name', 'Goods types', 'Measurement unit', 'Group ID', 'Product types',
       'Value', 'Date'],
      dtype='object')

In [79]:
dfr.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date'],
      dtype='object')

In [94]:
# {'Name': 'province', 'Goods types': 'product_types', ....}
dict(zip(df.columns, dfr.columns))

{'Name': 'province',
 'Goods types': 'product_types',
 'Measurement unit': 'currency',
 'Group ID': 'product_group_id',
 'Product types': 'product_line',
 'Value': 'value',
 'Date': 'date'}

In [95]:
df.rename(columns = dict(zip(df.columns, dfr.columns)))

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3
...,...,...,...,...,...,...,...
149935,KUYAVIA-POMERANIA,,PLN,2,pork meat (raw bacon) - per 1kg,12.15,2016-11
149936,ŁÓDŹ,"beet sugar white, bagged - per 1kg",PLN,3,,0.00,2012-5
149937,LESSER POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,3.05,2008-6
149938,WARMIA-MASURIA,,PLN,2,boneless beef (sirloin) - per 1kg,11.87,2000-11


In [96]:
df.columns

Index(['Name', 'Goods types', 'Measurement unit', 'Group ID', 'Product types',
       'Value', 'Date'],
      dtype='object')

In [99]:
df.rename(columns = dict(zip(df.columns, dfr.columns)), inplace=True)

In [98]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date'],
      dtype='object')

### Cvičení 2: Nejvyšší a nejnižší cena

Pomocí `sort_values` a dat ze souboru **product_prices_renamed.csv** odpovězte na následující otázky (použijte data agregovaná pro celé Polsko - `province=='POLAND'`):

1. Který produkt měl historicky nejvyšší cenu v PLN? (nezapomeňte odstranit hodnotu = 3000)
2. Který produkt dosáhl historicky nejnižší ceny v PLN? (nezapomeňte odfiltrovat hodnoty = 0)

Seřaďte data podle klíče:
1. podle sloupce **product_types** - sestupně
2. podle sloupce **value** - vzestupně

In [101]:
# Váš kód zde
dfr.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date'],
      dtype='object')

In [103]:
dfr['province'].unique()

array(['SUBCARPATHIA', 'ŁÓDŹ', 'KUYAVIA-POMERANIA', 'LOWER SILESIA',
       'WARMIA-MASURIA', 'HOLY CROSS', 'WEST POMERANIA', 'POLAND',
       'PODLASKIE', 'GREATER POLAND', 'POMERANIA', 'LESSER POLAND',
       'SILESIA', 'MASOVIA', 'LUBLIN', 'LUBUSZ', 'OPOLE'], dtype=object)

In [108]:
dfr.query("province == 'POLAND' and value != 3000").head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.27,2009-8


In [109]:
dfr.query("province == 'POLAND' and value != 3000").shape

(8819, 7)

In [114]:
dfr.query("province == 'POLAND' and value != 3000").sort_values(by = 'value', ascending = False)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
104451,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.90,2018-5
115089,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.81,2017-10
78146,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.71,2018-10
117199,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.70,2017-9
121704,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.61,2015-12
...,...,...,...,...,...,...,...
148996,POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,,1999-10
149010,POLAND,,PLN,4,bread - per 1kg,,2010-3
149398,POLAND,,PLN,4,bread - per 1kg,,2017-11
149548,POLAND,,PLN,4,bread - per 1kg,,2016-1


In [111]:
df.loc[(df['province'] == 'POLAND') & (df['value']!=3000)].shape

(8819, 7)

In [112]:
df.loc[(df['province'] == 'POLAND') & (df['value']!=3000)].head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3
13,POLAND,fresh chichen egges - per 666pcs.,PLN,3,,0.27,2009-8


In [115]:
df.loc[(df['province'] == 'POLAND') & (df['value']!=3000)].sort_values(by = 'value', ascending = False)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
104451,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.90,2018-5
115089,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.81,2017-10
78146,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.71,2018-10
117199,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.70,2017-9
121704,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.61,2015-12
...,...,...,...,...,...,...,...
148996,POLAND,,PLN,4,plain mixed bread (wheat-rye) - per 1kg,,1999-10
149010,POLAND,,PLN,4,bread - per 1kg,,2010-3
149398,POLAND,,PLN,4,bread - per 1kg,,2017-11
149548,POLAND,,PLN,4,bread - per 1kg,,2016-1


In [118]:
df.loc[(df['province'] == 'POLAND') & (df['value']!=3000)].sort_values(by = 'value', ascending = False)[:1]

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
104451,POLAND,,PLN,2,boneless beef (sirloin) - per 1kg,31.9,2018-5


**Poznámka: Triedenie vs filtrovanie**
Časová zložitosť:

- sort_values() je O(n log n)
- max() / min() s maskou je O(n)

_Pomalšie - triedenie O(n log n)_

df_highest = df.sort_values(by='value', ascending=False).head(1)

_Rýchlejšie - maska O(n)_

df_highest = df[df['value'] == df['value'].max()]

### Cvičení 3: Duplicity

Pomocí souboru **product_prices_renamed.csv**:

1. Zjistěte, kolik řádků je duplicitních
2. Pomocí `duplicated` zjistěte, které řádky jsou zdvojené
3. Pomocí `drop_duplicates` odstraňte všechny duplicity z výstupního datasetu (předpokládáme, že duplicitní řádek je chyba a je třeba ho odstranit) - výsledek zapište do nového DataFrame

**Nápovědy:**

Pro bod 2: Pro určení počtu duplicitních řádků použijte zdrojová data a výsledky z bodu 1.

Pro bod 3:
1. Nejdříve použijte `duplicated` pro nalezení duplicitních řádků
2. Použijte `loc` pro jejich oddělení z výstupní množiny
3. Použijte `drop_duplicates` pro získání pouze těch řádků, které jsou duplicitní

In [None]:
# 1. Počet duplicitních řádků


In [None]:
# 2. Které řádky jsou zdvojené


In [None]:
# 3. Odstranění všech duplicit


---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Použití |
|---------------|--------|
| `df.rename(columns={...})` | Přejmenování vybraných sloupců pomocí slovníku |
| `df.rename(columns=funkce)` | Přejmenování všech sloupců pomocí funkce (např. str.upper) |
| `df.columns` | Přístup k názvům sloupců / přímé přepsání všech názvů |
| `df[[sloupce]]` | Výběr a změna pořadí sloupců |
| `df.drop_duplicates()` | Odstranění duplicitních řádků |
| `df.drop_duplicates(subset=[...])` | Odstranění duplicit podle vybraných sloupců |
| `df.drop_duplicates(keep='first'/'last'/False)` | Kontrola, které duplicity ponechat |
| `df.duplicated()` | Vrátí Series True/False - označení duplicitních řádků |
| `df.loc[podmínka]` | Filtrování řádků podle podmínky |
| `df.sort_values(by=...)` | Řazení dat podle sloupce/sloupců |
| `df.sort_values(ascending=True/False)` | Směr řazení (vzestupně/sestupně) |
| `df.sort_values(na_position='first'/'last')` | Pozice prázdných hodnot při řazení |
| `df.shape` | Rozměry DataFrame (řádky, sloupce) |
| `~` | Logická negace (obrácení True/False) |