# Základy práce s DataFrame

Na příkladu dat o cenách potravin si ukážeme základní metody pro práci s DataFramem v knihovně Pandas.

## Načtení knihovny a dat

In [1]:
import pandas as pd  # import knihovny

Data načteme ze souboru CSV pomocí metody `read_csv`.

In [3]:
df_raw = pd.read_csv(
    r'..\data\product_prices.csv',  # cesta k souboru
    sep=';',  # oddělovač sloupců
    decimal=','  # znak oddělující celou a desetinnou část čísla
)

---
## Seznámení se strukturou dat

Načtení dat bez chyby ještě neznamená, že proces proběhl správně. Například při chybném oddělovači se data načtou, ale všechna mohou být v jednom sloupci.

### Metoda shape

Vrací tuple s informací o počtu řádků a sloupců: `(počet_řádků, počet_sloupců)`

In [4]:
type(df_raw)

pandas.core.frame.DataFrame

In [5]:
df_raw.shape

(149940, 7)

Počet řádků v DataFrame:

In [7]:
df_raw.shape[0]

149940

Počet sloupců v DataFrame:

In [8]:
df_raw.shape[1]

7

### Metoda head

Zobrazí prvních n řádků tabulky. Výchozí hodnota je 5.

In [9]:
df_raw.head(5)  # zobrazí prvních 5 řádků

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3


### Metoda tail

Zobrazí posledních n řádků tabulky. Výchozí hodnota je 5.

In [12]:
df_raw.tail(2)  # zobrazí posledních 10 řádků

Unnamed: 0,Name,Goods types,Measurement unit,Group ID,Product types,Value,Date
149938,WARMIA-MASURIA,,PLN,2,boneless beef (sirloin) - per 1kg,11.87,2000-11
149939,MASOVIA,,PLN,4,Masurian barley groats - per 1kg,0.16,2005-10


### Metoda info

Zobrazí souhrnné informace o DataFrame: seznam sloupců, jejich datové typy, počet neprázdných hodnot a využití paměti.

In [13]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149940 entries, 0 to 149939
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Name              149940 non-null  object
 1   Goods types       34272 non-null   object
 2   Measurement unit  149940 non-null  object
 3   Group ID          149940 non-null  int64 
 4   Product types     115668 non-null  object
 5   Value             137088 non-null  object
 6   Date              149940 non-null  object
dtypes: int64(1), object(6)
memory usage: 8.0+ MB


### Metoda columns

Vrací názvy všech sloupců v DataFrame.

In [21]:
df_raw.columns

Index(['Name', 'Goods_types', 'Measurement_unit', 'Group_ID', 'Product_types',
       'Value', 'Date'],
      dtype='object')

Pomocí této metody lze také přejmenovat všechny sloupce najednou:

In [18]:
df_raw.columns = ['Name', 'Goods_types', 'Measurement_unit', 'Group_ID', 'Product_types',
       'Value', 'Date']

In [19]:
df_raw.columns

Index(['Name', 'Goods_types', 'Measurement_unit', 'Group_ID', 'Product_types',
       'Value', 'Date'],
      dtype='object')

In [None]:
# df_raw.columns = ['a', 'b', 'c', 'd', 'e', 'f', 'g']  # přepsání názvů sloupců

Počet nových názvů musí odpovídat počtu sloupců v DataFrame.

---
## Základní operace s DataFrame

### Výběr jednoho sloupce

Pro výběr jednoho sloupce použijeme hranaté závorky s názvem sloupce. Vrací se objekt typu Series.

In [24]:
s = df_raw['Name']  # zobrazí pouze sloupec 'Name'

In [25]:
s

0              SUBCARPATHIA
1                      ŁÓDŹ
2         KUYAVIA-POMERANIA
3             LOWER SILESIA
4            WARMIA-MASURIA
                ...        
149935    KUYAVIA-POMERANIA
149936                 ŁÓDŹ
149937        LESSER POLAND
149938       WARMIA-MASURIA
149939              MASOVIA
Name: Name, Length: 149940, dtype: object

In [26]:
type(s)

pandas.core.series.Series

In [27]:
s.shape

(149940,)

In [28]:
d = df_raw[['Name']]  # vrátí DataFrame s jedním sloupcem

In [29]:
type(d)

pandas.core.frame.DataFrame

In [30]:
d.shape

(149940, 1)

**Indexy**

In [32]:
s.index

RangeIndex(start=0, stop=149940, step=1)

In [33]:
d.index

RangeIndex(start=0, stop=149940, step=1)

### Výběr více sloupců

Pro výběr více sloupců předáme seznam názvů. Vrací se objekt typu DataFrame.

Pokud chceme vybrat jeden sloupec a získat DataFrame (ne Series), předáme název jako seznam:

In [35]:
d3 = df_raw[['Name', 'Value', 'Date']]  # zobrazí sloupce 'Name', 'Value', 'Date'

In [36]:
d3.shape

(149940, 3)

In [37]:
d3.head(2)

Unnamed: 0,Name,Value,Date
0,SUBCARPATHIA,21.37,2013-3
1,ŁÓDŹ,,2018-2


### Metoda loc

Alternativní způsob výběru sloupců. Metoda `loc` má široké využití - lze ji použít i pro filtrování a modifikaci dat.

Výběr jednoho sloupce pomocí loc:

In [39]:
skusam = df_raw.loc[0:5, 'Value']
skusam

0    21.37
1      NaN
2     3.55
3     6.14
4     5.63
5     0.28
Name: Value, dtype: object

In [40]:
skusam2 = df_raw.loc[:, 'Value']
skusam2.shape

(149940,)

Výběr více sloupců pomocí loc:

In [41]:
skusam3 = df_raw.loc[:, ['Value', 'Name']]
skusam3.shape

(149940, 2)

In [42]:
skusam3.head()

Unnamed: 0,Value,Name
0,21.37,SUBCARPATHIA
1,,ŁÓDŹ
2,3.55,KUYAVIA-POMERANIA
3,6.14,LOWER SILESIA
4,5.63,WARMIA-MASURIA


---
## ÚLOHY

### ÚLOHA 1: Doplnění kódu

Doplňte kód tak, aby se zobrazilo prvních 8 řádků DataFrame.

In [None]:
df_raw._____(___)

In [43]:
df_raw.head(8)

Unnamed: 0,Name,Goods_types,Measurement_unit,Group_ID,Product_types,Value,Date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3
5,HOLY CROSS,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,0.28,2010-4
6,WEST POMERANIA,fresh chichen egges - per 666pcs.,PLN,3,,0.0,2004-12
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3


### ÚLOHA 2: Doplnění kódu

Doplňte kód tak, aby se zobrazil počet řádků v DataFrame.

In [None]:
df_raw._____[___]

In [45]:
df_raw.shape[0]

149940

### ÚLOHA 3: Oprava chyby

V následujícím kódu je chyba. Najděte ji a opravte tak, aby se zobrazily sloupce 'Name' a 'Date'.

In [None]:
df_raw['Name', 'Date']

In [None]:
df_raw[['Name', 'Date']]

### ÚLOHA 4: Oprava chyby

V následujícím kódu je chyba. Najděte ji a opravte.

In [None]:
df_raw.loc['Value']

In [None]:
df_raw.loc[:, 'Value']

### ÚLOHA 5: Doplnění kódu

Pomocí metody `loc` vyberte sloupce 'Name', 'Value' a 'Date'.

In [None]:
df_raw.loc[___, _______________]

In [None]:
df_raw.loc[:, ['Name', 'Value', 'Date']]

### ÚLOHA 6: Samostatná úloha

Zobrazte posledních 15 řádků DataFrame.

In [None]:
# Váš kód zde:
df_raw.tail(15)

### ÚLOHA 7: Samostatná úloha

Zobrazte souhrnné informace o DataFrame pomocí vhodné metody.

In [None]:
# Váš kód zde:
df_raw.info()

### ÚLOHA 8: Otázka

Jaký je rozdíl mezi `df_raw['Name']` a `df_raw[['Name']]`?

*Vaše odpověď:*

prve vracíSeries, druhé dataframe


### ÚLOHA 9: Otázka

Co vrací metoda `shape`? Jaký datový typ?

*Vaše odpověď:*
tuple



### ÚLOHA 10: Samostatná úloha

Vyberte z DataFrame pouze sloupce obsahující informace o produktu a jeho ceně (sloupce 'Product_types' a 'Value').

In [None]:
# Váš kód zde:
df_raw.loc[:, ['Product_types', 'Value']]
