# Základy práce s DataFrame

Na příkladu dat o cenách potravin si ukážeme základní metody pro práci s DataFramem v knihovně Pandas.

## Načtení knihovny a dat

In [None]:
import pandas as pd  # import knihovny

Data načteme ze souboru CSV pomocí metody `read_csv`.

In [None]:
df_raw = pd.read_csv(
    r'..\data\product_prices.csv',  # cesta k souboru
    sep=';',  # oddělovač sloupců
    decimal=','  # znak oddělující celou a desetinnou část čísla
)

---
## Seznámení se strukturou dat

Načtení dat bez chyby ještě neznamená, že proces proběhl správně. Například při chybném oddělovači se data načtou, ale všechna mohou být v jednom sloupci.

### Metoda shape

Vrací tuple s informací o počtu řádků a sloupců: `(počet_řádků, počet_sloupců)`

In [None]:
df_raw.shape

Počet řádků v DataFrame:

In [None]:
df_raw.shape[0]

Počet sloupců v DataFrame:

In [None]:
df_raw.shape[1]

### Metoda head

Zobrazí prvních n řádků tabulky. Výchozí hodnota je 5.

In [None]:
df_raw.head(5)  # zobrazí prvních 5 řádků

### Metoda tail

Zobrazí posledních n řádků tabulky. Výchozí hodnota je 5.

In [None]:
df_raw.tail(10)  # zobrazí posledních 10 řádků

### Metoda info

Zobrazí souhrnné informace o DataFrame: seznam sloupců, jejich datové typy, počet neprázdných hodnot a využití paměti.

In [None]:
df_raw.info()

### Metoda columns

Vrací názvy všech sloupců v DataFrame.

In [None]:
df_raw.columns

Pomocí této metody lze také přejmenovat všechny sloupce najednou:

In [None]:
# df_raw.columns = ['a', 'b', 'c', 'd', 'e', 'f', 'g']  # přepsání názvů sloupců

Počet nových názvů musí odpovídat počtu sloupců v DataFrame.

---
## Základní operace s DataFrame

### Výběr jednoho sloupce

Pro výběr jednoho sloupce použijeme hranaté závorky s názvem sloupce. Vrací se objekt typu Series.

In [None]:
df_raw['Name']  # zobrazí pouze sloupec 'Name'

Alternativní zápis pomocí tečkové notace:

In [None]:
df_raw.Name

In [None]:
df_raw[['Name']]  # vrátí DataFrame s jedním sloupcem

**Indexy**

In [None]:
df_raw['Name'].index

In [None]:
df_raw[['Name']].index

### Výběr více sloupců

Pro výběr více sloupců předáme seznam názvů. Vrací se objekt typu DataFrame.

Pokud chceme vybrat jeden sloupec a získat DataFrame (ne Series), předáme název jako seznam:

In [None]:
df_raw[['Name', 'Value', 'Date']]  # zobrazí sloupce 'Name', 'Value', 'Date'

### Metoda loc

Alternativní způsob výběru sloupců. Metoda `loc` má široké využití - lze ji použít i pro filtrování a modifikaci dat.

Výběr jednoho sloupce pomocí loc:

In [None]:
df_raw.loc[:, 'Value']

Výběr více sloupců pomocí loc:

In [None]:
df_raw.loc[:, ['Value', 'Name']]

---
## ÚLOHY

### ÚLOHA 1: Doplnění kódu

Doplňte kód tak, aby se zobrazilo prvních 8 řádků DataFrame.

In [None]:
df_raw._____(___)

### ÚLOHA 2: Doplnění kódu

Doplňte kód tak, aby se zobrazil počet řádků v DataFrame.

In [None]:
df_raw._____[___]

### ÚLOHA 3: Oprava chyby

V následujícím kódu je chyba. Najděte ji a opravte tak, aby se zobrazily sloupce 'Name' a 'Date'.

In [None]:
df_raw['Name', 'Date']

### ÚLOHA 4: Oprava chyby

V následujícím kódu je chyba. Najděte ji a opravte.

In [None]:
df_raw.loc['Value']

### ÚLOHA 5: Doplnění kódu

Pomocí metody `loc` vyberte sloupce 'Name', 'Value' a 'Date'.

In [None]:
df_raw.loc[___, _______________]

### ÚLOHA 6: Samostatná úloha

Zobrazte posledních 15 řádků DataFrame.

In [None]:
# Váš kód zde:


### ÚLOHA 7: Samostatná úloha

Zobrazte souhrnné informace o DataFrame pomocí vhodné metody.

In [None]:
# Váš kód zde:


### ÚLOHA 8: Otázka

Jaký je rozdíl mezi `df_raw['Name']` a `df_raw[['Name']]`?

*Vaše odpověď:*



### ÚLOHA 9: Otázka

Co vrací metoda `shape`? Jaký datový typ?

*Vaše odpověď:*



### ÚLOHA 10: Samostatná úloha

Vyberte z DataFrame pouze sloupce obsahující informace o produktu a jeho ceně (sloupce 'Types of products' a 'Value').

In [None]:
# Váš kód zde:
