# Načtení dat

In [None]:
# Mám nainstalovaný modul pandas?
import sys
sys.modules.keys()

import pandas
print(pandas.__version__)

## Nebo:
try:
    import pandas
    print("module is installed")
except ModuleNotFoundError:
    print("module is not installed")

## Základní práce s DataFrame

Základní datový typ, který Pandas nabízí, je `DataFrame`, neboli lidově „tabulka”. 

Jednotlivé záznamy jsou v ní uvedeny jako řádky a části těchto záznamů jsou úhledně srovnány ve sloupcích.

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html


In [None]:
import pandas

# create an Empty DataFrame object
df_empty = pandas.DataFrame()
print(df_empty)

In [None]:
# create an Empty DataFrame object With column names only
df_with_columns = pandas.DataFrame(columns=["column1", "column2", "column3"])
print(df_with_columns)

## Načítání dat

**Funkce `read_csv()`** 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Pandas nabízí kromě funkce `read_csv()` také funkci pro čtení formátu JSON `read_json()` nebo dokonce funkci pro čtení přímo Excelových tabulek `read_excel()`.

In [None]:
## Stazeni souboru nakupy.csv
import requests

# requests.packages.urllib3.disable_warnings()

url = "https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/nacteni-dat/nakupy.csv"
r = requests.get(url, allow_redirects=True, verify=False)
open("nakupy.csv", "wb").write(r.content)

**Načtení csv souboru**

Důležité je, že si soubor musíš uložit nebo zkopírovat do stejného adresáře, v jakém právě pracuješ ve Visual Studiu. 

In [None]:
nakupy = pandas.read_csv("nakupy.csv")

print(nakupy)

### Index

Index je hodnota, která identifikuje řádek. 

V některých případech nemusíme jako index používat číslo řádku, ale můžeme jako index vybrat některý ze sloupců. Obdobnou funkci má v databázích primární klíč. 


### Základní informace o tabulce

Metoda `info()` vrací souhrnné informace o celé tabulce: názvy sloupců, datové typy, počet neprázdných hodnot atd.

In [None]:
nakupy.info()

Počet řádků a sloupců můžeme získat z vlastnosti `shape`.

Můžeme si z ní data načíst stejně jako ze seznamu, na prvním místě je vždy počet řádků a na druhém počet sloupců.

In [None]:
# Pokud by nás třeba zajímal jen počet řádků, napíšeme:
pocet_radku = nakupy.shape[0]
print("Moje data mají " + str(pocet_radku) + " řádků.")


Názvy všech sloupců získáme pomocí vlastnosti `columns`.

In [None]:
nakupy.columns

## Alternativa
# Vybrat unikatni hodnoty z prvniho sloupce
# print(nakupy.iloc[:, 0].unique())

## Výběr sloupců

Pokud vybíráme pouze jeden sloupec, vrátí se nám takzvaná Série (`Series`), což je jiný datový typ než `DataFrame`. 

Sérii si představme jako jednorozměrnou tabulku.


In [None]:
nakupy["Věc"]

Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.

In [None]:
nakupy[["Jméno", "Částka v korunách"]]

In [None]:
# Tady se nám již vrátil datový typ DataFrame.
# Tohoto triku můžeme využít, když 
# - chceme získat pouze jeden sloupec, 
# - ale nechceme ho v datovém typu Série, 
# - ale jako DataFrame.

nakupy[['Věc']]

## Výběr řádků

### Výběr řádků pomocí čísla řádku

V `pandas` má každý řádek přiřazený _index_. 

Jako _index_ můžeme zvolit některý ze sloupců. 

Pokud však tabulku načteme bez toho, abychom specifikovali _index_, pandas nám vytvoří číselný _index_ automaticky. 


K vybrání jednoho konkrétního řádku můžeme použít metodu `iloc[]`.

In [None]:
# Zkusme si zobrazit třeba čtvrtý nákup.
nakupy.iloc[3]

# Výběr jednoho řádku nám vrátí Sérii stejně jako v případě výběru jediného sloupce. 

Metoda `iloc[]` umožňuje pro výběr řádků použít rozsah ve formátu **od:do**. 

K tomu používáme dvojtečku. Před dvojtečku píšeme první řádek, který chceme vypsat a za dvojtečku první řádek, který již vy výpisu nebude. 

In [None]:
nakupy.iloc[3:5]

# nakupy.iloc[:3] ## prvni tri radky
# nakupy.iloc[8:] ## posledni tri radky
# nakupy.iloc[-3:] ## posledni tri radky

### Začátek a konec jinak

K zobrazení posledních několik řádků můžeme použít i funkce `head()` a `tail()`.

In [None]:
nakupy.head() # nakupy.head(10) zobrazi 10 prvnich radek

# nakupy.tail()

## Výběr řádků a sloupců podle čísla

Čísla sloupců zadáváme jako druhý parametr funkce `iloc`.

In [None]:
nakupy.iloc[:5,0]

Pro zobrazení nesousedících sloupců (nebo řádků) použijeme _seznam_. 

In [None]:
nakupy.iloc[:5,[0,3]] 

Pro výběr všech řádků napíšeme jako první parametr pouze dvojtečku.

In [None]:
nakupy.iloc[:,[0,3]]

In [None]:
# Neco navíc: Cesta z DataFrame do CSV

nakupy.to_csv("export_dat.csv", sep=',', encoding='utf-8', index=False)

## DOKUMENTACE: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html