# Základní dotazy



## Indexy

### Přidání indexů

In [1]:
import pandas

staty = pandas.read_json("staty.json")
staty.head()  # staty.info

Unnamed: 0,name,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
0,Afghanistan,AF,AFG,Kabul,Asia,Southern Asia,27657145,652230.0,27.8
1,Åland Islands,AX,ALA,Mariehamn,Europe,Northern Europe,28875,1580.0,
2,Albania,AL,ALB,Tirana,Europe,Southern Europe,2886026,28748.0,34.5
3,Algeria,DZ,DZA,Algiers,Africa,Northern Africa,40400000,2381741.0,35.3
4,American Samoa,AS,ASM,Pago Pago,Oceania,Polynesia,57100,199.0,


Každý stát na světě má svůj název a ten název je unikátní a identifikuje ho. 

Můžeme tedy tento název použít jako index.

To, jaký sloupec má být použit jako index, řeší funkce `set_index()`.

In [2]:
# Nastaveni indexu
staty = staty.set_index("name")

Zkontrolovat index můžeme pomocí příkazu `staty.index`.

In [3]:
staty.index

Index(['Afghanistan', 'Åland Islands', 'Albania', 'Algeria', 'American Samoa',
       'Andorra', 'Angola', 'Anguilla', 'Antarctica', 'Antigua and Barbuda',
       ...
       'Uruguay', 'Uzbekistan', 'Vanuatu',
       'Venezuela (Bolivarian Republic of)', 'Viet Nam', 'Wallis and Futuna',
       'Western Sahara', 'Yemen', 'Zambia', 'Zimbabwe'],
      dtype='object', name='name', length=250)

### Výběr konkrétního řádku a hodnoty

In [4]:
# vyber sloupec
staty["population"]

name
Afghanistan          27657145
Åland Islands           28875
Albania               2886026
Algeria              40400000
American Samoa          57100
                       ...   
Wallis and Futuna       11750
Western Sahara         510713
Yemen                27478000
Zambia               15933883
Zimbabwe             14240168
Name: population, Length: 250, dtype: int64

In [5]:
# více sloupců
staty[["population", "area"]]

Unnamed: 0_level_0,population,area
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,27657145,652230.0
Åland Islands,28875,1580.0
Albania,2886026,28748.0
Algeria,40400000,2381741.0
American Samoa,57100,199.0
...,...,...
Wallis and Futuna,11750,142.0
Western Sahara,510713,266000.0
Yemen,27478000,527968.0
Zambia,15933883,752612.0


### BONUS: Výběr několika řádků

In [None]:
# Náš soubor je seřazený dle abecedy.
staty.loc["Czech Republic":"Dominican Republic"]

# staty.loc[:"Andorra"]
# staty.loc["Uzbekistan":]
# staty.loc[["Czech Republic","Slovakia"]]
# staty.loc[["Slovakia","Poland","Germany","Austria"], ["area","population"]]
# staty.loc[staty.index[-1]] # posledni radek

## Co vlastně umí série

Série umí například sama spočítat svůj součet a vrátit výsledek jako číslo. 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [6]:
staty["population"].sum()

7349137231

In [7]:
populace = staty["population"]

print(f"Prumer je {populace.mean()}.")
print(f"Minumum je {populace.min()}.")
print(f"Maximum je {populace.max()}.")
print(f"Median je {populace.median()}.")

Prumer je 29396548.924.
Minumum je 0.
Maximum je 1377422166.
Median je 4648733.5.


## Podmíněný výběr

Ověřením podmínky získáme sloupec, kde máme 250 hodnot typu `bool`.

In [10]:
# státy, které mají méně než 1000 obyvatel
staty["population"] < 1000

name
Afghanistan          False
Åland Islands        False
Albania              False
Algeria              False
American Samoa       False
                     ...  
Wallis and Futuna    False
Western Sahara       False
Yemen                False
Zambia               False
Zimbabwe             False
Name: population, Length: 250, dtype: bool

`pandas` teď jednoduše udělají to, že vypíšou ty řádky řádky, kde má náš polotovar hodnotu `True` a ty, které mají hodnotu `False`, před námi skryjí.

In [11]:
pidistaty = staty[staty["population"] < 1000]
pidistaty[["population", "area"]]

Unnamed: 0_level_0,population,area
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Bouvet Island,0,49.0
United States Minor Outlying Islands,300,
Cocos (Keeling) Islands,550,14.0
French Southern Territories,140,7747.0
Heard Island and McDonald Islands,0,412.0
Holy See,451,0.44
Pitcairn,56,47.0
South Georgia and the South Sandwich Islands,30,


V některých řádcích vidíme hodnotu NaN. To značí, že pro daný řádek hodnotu nemáme, pro některé státy tedy nemáme zadanou rozlohu. 

In [None]:
# Znas SQL? vyzkousej funkci query()
staty.query("population < 1000")

### Spojení více podmínek

Pokud chceme, aby musely být splněny obě podmínky, vložíme mezi ně symbol `&`. 

Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`. 



In [None]:
lidnate_evropske_staty = staty[
    (staty["population"] > 20_000_000) & (staty["region"] == "Europe")
]
lidnate_evropske_staty["population"]

In [None]:
staty[(staty["population"] > 10_000_000_000) | (staty["area"] > 3_000_000)]

### Použití seznamu v podmínce

Funkce `isin()` aplikovaná na jeden konkrétní sloupec vrátí nám `True` pro všechny řádky, pro které je hodnota přítomná v seznamu. 

In [None]:
staty[staty["subregion"].isin(["Western Europe", "Eastern Europe"])]

# Otoceni podminky
# staty[~staty["subregion"].isin(["Western Europe", "Eastern Europe"])]