# Základní dotazy

<https://kodim.cz/kurzy/python-data-1/python-pro-data-1/zakladni-dotazy/zakladni-dotazy>



In [None]:
# Stahneme si data, s kterymi budeme pracovat
import requests

url = "https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/zakladni-dotazy/staty.json"
r = requests.get(url) # <Response [200]>
open("staty.json", "wb").write(r.content)

## Indexy

### Přidání indexů

In [None]:
import pandas

staty = pandas.read_json("staty.json")
staty.head() #staty.info


Každý stát na světě má svůj název a ten název je unikátní a identifikuje ho. 

Můžeme tedy tento název použít jako index.

To, jaký sloupec má být použit jako index, řeší funkce `set_index()`.

In [None]:
# Nastaveni indexu
staty = staty.set_index("name")

Zkontrolovat index můžeme pomocí příkazu `staty.index`.

In [None]:
staty.index

### Výběr konkrétního řádku a hodnoty

K nalezení řádku pomocí indexu použijeme `loc`, která funguje obdobně jako funkce `iloc`. 

* `iloc` pracuje s čísly řádků
* `loc` používá nami zvolené indexy

In [None]:
# vyber radku
staty.loc["Czech Republic"]

In [None]:
# vyber radku a sloupce
staty.loc["Czech Republic","area"]

### Výběr několika řádků

In [None]:
# Náš soubor je seřazený dle abecedy.
staty.loc["Czech Republic":"Dominican Republic"]

# staty.loc[:"Andorra"]
# staty.loc["Uzbekistan":] 
# staty.loc[["Czech Republic","Slovakia"]]
# staty.loc[["Slovakia","Poland","Germany","Austria"], ["area","population"]]

## Dotazy

Série umí například sama spočítat svůj součet a vrátit výsledek jako číslo. 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [None]:
populace = staty["population"]
populace.sum()

In [None]:
print(f"Prumer je {populace.mean()}.")
print(f"Minumum je {populace.min()}.")
print(f"Maximum je {populace.max()}.")
print(f"Median je {populace.median()}.")

In [None]:
populace.describe()

# staty.describe() # lze pouzit na cely DataFrame

## Podmínky

Ověřením podmínky získáme sloupec, kde máme 250 hodnot typu `bool`.

In [None]:
# státy, které mají méně než 1000 obyvatel

staty["population"] < 1000


`pandas` teď jednoduše udělají to, že vypíšou ty řádky řádky, kde má náš polotovar hodnotu `True` a ty, které mají hodnotu `False`, před námi skryjí.

In [None]:
pidistaty = staty[staty["population"] < 1000]

pidistaty[["population", "area"]] 

V některých řádcích vidíme hodnotu NaN. To značí, že pro daný řádek hodnotu nemáme, pro některé státy tedy nemáme zadanou rozlohu. 

In [None]:
# Znas SQL? vyzkousej funkci query()
staty.query("population < 1000")

### Spojení více podmínek

Pokud chceme, aby musely být splněny obě podmínky, vložíme mezi ně symbol `&`. 

Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`. 



In [None]:
lidnate_evropske_staty = staty[(staty["population"] > 20_000_000) & (staty["region"] == "Europe")]
lidnate_evropske_staty["population"]

In [None]:
staty[(staty["population"] > 10_000_000_000) | (staty["area"] > 3_000_000)]

### Použití seznamu v podmínce

Funkce `isin()` aplikovaná na jeden konkrétní sloupec vrátí nám `True` pro všechny řádky, pro které je hodnota přítomná v seznamu. 

In [None]:
staty[staty["subregion"].isin(["Western Europe", "Eastern Europe"])]

## Převody dat na DataFrame a zpět

### Převod DataFrame na seznam

K takovému převodu na seznam nám poslouží kombinace funkcí `to_numpy` a `tolist`. 

Převod totiž neprovádíme přímo, ale jako mezikrok jej převedeme na pole modulu `numpy`.

In [None]:
staty_list = staty.to_numpy().tolist() 
staty_list[0] 

Index se v Pandas nebere jako součást dat. 

Pokud chceme index vrátit do původního stavu a mít ho jako automaticky generovaná čísla řádků, můžeme použít metodu `reset_index`.

In [None]:
staty_list = staty.reset_index().to_numpy().tolist() 

staty_list[0]

### Vytvoření DataFrame ze seznamu

In [None]:
znamky = [
    ['Petr', 2],
    ['Roman', 1],
    ['Jitka', 3],
    ['Zuzana', 5],
    ['Ondřej', 2],
    ['Julie', 2],
    ['Karel', 4],
    ['Anna', 1],
    ['Eva', 1]
]

soucet = 0
for radek in znamky:
    soucet = soucet + radek[1]
prumer = soucet / len(znamky)

In [None]:
znamky = pandas.DataFrame(znamky, columns=['student', 'znamka'])

prumer = znamky["znamka"].mean()

### Vytvoření DataFrame ze seznamu slovníků

Nemusíme přidávat názvy sloupců, protože ty už funkce DataFrame získá z klíčů slovníků.

In [None]:
nakupy = [
    {"person": "Petr", "item": "Prací prášek", "value": 399},
    {"person": "Ondra", "item": "Savo", "value": 80},
    {"person": "Petr", "item": "Toaletní papír", "value": 65},
    {"person": "Libor", "item": "Pivo", "value": 124},
    {"person": "Petr", "item": "Pytel na odpadky", "value": 75},
    {"person": "Míša", "item": "Utěrky na nádobí", "value": 130},
    {"person": "Ondra", "item": "Toaletní papír", "value": 120},
    {"person": "Míša", "item": "Pečící papír", "value": 30},
    {"person": "Zuzka", "item": "Savo", "value": 80},
    {"person": "Pavla", "item": "Máslo", "value": 50},
    {"person": "Ondra", "item": "Káva", "value": 300}
]

In [None]:
nakupy = pandas.DataFrame(nakupy)
nakupy.info()