# Načtení dat s využitím knihovny pandas

## Základní práce s DataFrame

Základní datový typ, který Pandas nabízí, je `DataFrame`, neboli lidově „tabulka”. 

Jednotlivé záznamy jsou v ní uvedeny jako řádky a části těchto záznamů jsou úhledně srovnány ve sloupcích.

*Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html*


In [None]:
import pandas as pd

### Načítání dat

**Funkce `read_csv()`** 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Pandas nabízí kromě funkce `read_csv()` také funkci pro čtení formátu JSON `read_json()` nebo dokonce funkci pro čtení přímo Excelových tabulek `read_excel()`.

**Načtení csv souboru**

In [None]:
url_food_sample_100 = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/nacteni-dat/food_sample_100.csv"

# url_food_sample_100 = "food_sample_100.csv" # csv je ve stejne slozce jako notebook
# url_food_sample_100 = "../../../data/food_sample_100.csv" # csv je v jine slozce nez notebook, tady v nadrazene slozce data

food = pd.read_csv(url_food_sample_100)

In [None]:
food
# print(food)

### Index

Všimni si, že pandas nám přidal nový sloupec s číslem řádku.

Index je hodnota, která identifikuje řádek. 

V některých případech nemusíme jako index používat číslo řádku, ale můžeme jako index vybrat některý ze sloupců. Obdobnou funkci má v databázích primární klíč. 


In [None]:
food.set_index("fdc_id")
# food.reset_index()

### Základní informace o tabulce

Metoda `info()` vrací souhrnné informace o celé tabulce: názvy sloupců, datové typy, počet neprázdných hodnot atd.

In [None]:
food.info()

Počet řádků a sloupců můžeme získat z vlastnosti `shape`.

Můžeme si z ní data načíst stejně jako ze seznamu, na prvním místě je vždy počet řádků a na druhém počet sloupců.

In [None]:
food.shape

In [None]:
# Pokud by nás třeba zajímal jen počet řádků, napíšeme:
pocet_radku = food.shape[0]

print(f"Moje data mají {pocet_radku} řádků.")


Názvy všech sloupců získáme pomocí vlastnosti `columns`.

In [None]:
food.columns

### Začátek a konec

K zobrazení posledních několik řádků můžeme použít i funkce `head()` a `tail()`.

In [None]:
food.head()  # food.head(10) zobrazi 10 prvnich radek

In [None]:
food.tail()

## Výběr sloupců

Pokud vybíráme pouze jeden sloupec, vrátí se nám takzvaná Série (`Series`), což je jiný datový typ než `DataFrame`. 

Sérii si představme jako jednorozměrnou tabulku.


In [None]:
food["description"]

Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.

In [None]:
food[["fdc_id", "description"]]

In [None]:
# Tady se nám již vrátil datový typ DataFrame.
# Tohoto triku můžeme využít, když
# - chceme získat pouze jeden sloupec,
# - ale nechceme ho v datovém typu Série,
# - ale jako DataFrame.

food[["description"]]

---
### 



# Cvičení
## Titanic data set

Každý tutoriál datové analýzy začíná zpracováváním data setu pasažérů lodi Titanic. 

Nebude tomu jinak ani v našem případě. Stáhni si soubor [titanic.csv](https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/excs/titanic/titanic.csv).


Načti data do `DataFrame`, který si pojmenuj `titanic`.


In [None]:
url = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/excs/titanic/titanic.csv"

Nech si zobrazit názvy sloupců, které jsou v souboru uloženy.


Podívej se, kolik má soubor řádků.


Zjisti, v jakých sloupcích nějaké hodnoty chybí.