# Základní dotazy

<https://kodim.cz/kurzy/python-data-1/python-pro-data-1/zakladni-dotazy/zakladni-dotazy>



In [2]:
# Stahneme si data, s kterymi budeme pracovat
import requests

url = "https://kodim.cz/cms/assets/kurzy/python-data-1/python-pro-data-1/zakladni-dotazy/staty.json"
r = requests.get(url) # <Response [200]>
open("staty.json", "wb").write(r.content)

42534

## Indexy

### Přidání indexů

In [3]:
import pandas

staty = pandas.read_json("../soubory_k_praci/staty.json")
staty.head() #staty.info


Unnamed: 0,name,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
0,Afghanistan,AF,AFG,Kabul,Asia,Southern Asia,27657145,652230.0,27.8
1,Åland Islands,AX,ALA,Mariehamn,Europe,Northern Europe,28875,1580.0,
2,Albania,AL,ALB,Tirana,Europe,Southern Europe,2886026,28748.0,34.5
3,Algeria,DZ,DZA,Algiers,Africa,Northern Africa,40400000,2381741.0,35.3
4,American Samoa,AS,ASM,Pago Pago,Oceania,Polynesia,57100,199.0,


Každý stát na světě má svůj název a ten název je unikátní a identifikuje ho. 

Můžeme tedy tento název použít jako index.

To, jaký sloupec má být použit jako index, řeší funkce `set_index()`.

In [4]:
# Nastaveni indexu
staty = staty.set_index("name")

Zkontrolovat index můžeme pomocí příkazu `staty.index`.

In [5]:
staty.index

Index(['Afghanistan', 'Åland Islands', 'Albania', 'Algeria', 'American Samoa',
       'Andorra', 'Angola', 'Anguilla', 'Antarctica', 'Antigua and Barbuda',
       ...
       'Uruguay', 'Uzbekistan', 'Vanuatu',
       'Venezuela (Bolivarian Republic of)', 'Viet Nam', 'Wallis and Futuna',
       'Western Sahara', 'Yemen', 'Zambia', 'Zimbabwe'],
      dtype='object', name='name', length=250)

### Výběr konkrétního řádku a hodnoty

K nalezení řádku pomocí indexu použijeme `loc`, která funguje obdobně jako funkce `iloc`. 

* `iloc` pracuje s čísly řádků
* `loc` používá nami zvolené indexy

In [6]:
# vyber radku
staty.loc["Czech Republic"]

alpha2Code                CZ
alpha3Code               CZE
capital               Prague
region                Europe
subregion     Eastern Europe
population          10558524
area                 78865.0
gini                    26.0
Name: Czech Republic, dtype: object

In [7]:
# vyber radku a sloupce
staty.loc["Czech Republic","area"]

78865.0

### Výběr několika řádků

In [8]:
# Náš soubor je seřazený dle abecedy.
staty.loc["Czech Republic":"Dominican Republic"]

# staty.loc[:"Andorra"]
# staty.loc["Uzbekistan":] 
# staty.loc[["Czech Republic","Slovakia"]]
# staty.loc[["Slovakia","Poland","Germany","Austria"], ["area","population"]]

Unnamed: 0_level_0,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Czech Republic,CZ,CZE,Prague,Europe,Eastern Europe,10558524,78865.0,26.0
Denmark,DK,DNK,Copenhagen,Europe,Northern Europe,5717014,43094.0,24.0
Djibouti,DJ,DJI,Djibouti,Africa,Eastern Africa,900000,23200.0,40.0
Dominica,DM,DMA,Roseau,Americas,Caribbean,71293,751.0,
Dominican Republic,DO,DOM,Santo Domingo,Americas,Caribbean,10075045,48671.0,47.2


## Dotazy

Série umí například sama spočítat svůj součet a vrátit výsledek jako číslo. 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [9]:
populace = staty["population"]
populace.sum()

7349137231

In [10]:
print(f"Prumer je {populace.mean()}.")
print(f"Minumum je {populace.min()}.")
print(f"Maximum je {populace.max()}.")
print(f"Median je {populace.median()}.")

Prumer je 29396548.924.
Minumum je 0.
Maximum je 1377422166.
Median je 4648733.5.


In [11]:
populace.describe()

# staty.describe() # lze pouzit na cely DataFrame

count    2.500000e+02
mean     2.939655e+07
std      1.244578e+08
min      0.000000e+00
25%      2.029030e+05
50%      4.648734e+06
75%      1.803955e+07
max      1.377422e+09
Name: population, dtype: float64

## Podmínky

Ověřením podmínky získáme sloupec, kde máme 250 hodnot typu `bool`.

In [12]:
# státy, které mají méně než 1000 obyvatel

staty["population"] < 1000


name
Afghanistan          False
Åland Islands        False
Albania              False
Algeria              False
American Samoa       False
                     ...  
Wallis and Futuna    False
Western Sahara       False
Yemen                False
Zambia               False
Zimbabwe             False
Name: population, Length: 250, dtype: bool

`pandas` teď jednoduše udělají to, že vypíšou ty řádky řádky, kde má náš polotovar hodnotu `True` a ty, které mají hodnotu `False`, před námi skryjí.

In [13]:
pidistaty = staty[staty["population"] < 1000]

pidistaty[["population", "area"]] 

Unnamed: 0_level_0,population,area
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Bouvet Island,0,49.0
United States Minor Outlying Islands,300,
Cocos (Keeling) Islands,550,14.0
French Southern Territories,140,7747.0
Heard Island and McDonald Islands,0,412.0
Holy See,451,0.44
Pitcairn,56,47.0
South Georgia and the South Sandwich Islands,30,


V některých řádcích vidíme hodnotu NaN. To značí, že pro daný řádek hodnotu nemáme, pro některé státy tedy nemáme zadanou rozlohu. 

In [14]:
# Znas SQL? vyzkousej funkci query()
staty.query("population < 1000")

Unnamed: 0_level_0,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bouvet Island,BV,BVT,,,,0,49.0,
United States Minor Outlying Islands,UM,UMI,,Americas,Northern America,300,,
Cocos (Keeling) Islands,CC,CCK,West Island,Oceania,Australia and New Zealand,550,14.0,
French Southern Territories,TF,ATF,Port-aux-Français,Africa,Southern Africa,140,7747.0,
Heard Island and McDonald Islands,HM,HMD,,,,0,412.0,
Holy See,VA,VAT,Rome,Europe,Southern Europe,451,0.44,
Pitcairn,PN,PCN,Adamstown,Oceania,Polynesia,56,47.0,
South Georgia and the South Sandwich Islands,GS,SGS,King Edward Point,Americas,South America,30,,


### Spojení více podmínek

Pokud chceme, aby musely být splněny obě podmínky, vložíme mezi ně symbol `&`. 

Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`. 



In [15]:
lidnate_evropske_staty = staty[(staty["population"] > 20_000_000) & (staty["region"] == "Europe")]
lidnate_evropske_staty["population"]

name
France                                                   66710000
Germany                                                  81770900
Italy                                                    60665551
Poland                                                   38437239
Russian Federation                                      146599183
Spain                                                    46438422
Ukraine                                                  42692393
United Kingdom of Great Britain and Northern Ireland     65110000
Name: population, dtype: int64

In [16]:
staty[(staty["population"] > 10_000_000_000) | (staty["area"] > 3_000_000)]

Unnamed: 0_level_0,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Antarctica,AQ,ATA,,Polar,,1000,14000000.0,
Australia,AU,AUS,Canberra,Oceania,Australia and New Zealand,24117360,7692024.0,30.5
Brazil,BR,BRA,Brasília,Americas,South America,206135893,8515767.0,54.7
Canada,CA,CAN,Ottawa,Americas,Northern America,36155487,9984670.0,32.6
China,CN,CHN,Beijing,Asia,Eastern Asia,1377422166,9640011.0,47.0
India,IN,IND,New Delhi,Asia,Southern Asia,1295210000,3287590.0,33.4
Russian Federation,RU,RUS,Moscow,Europe,Eastern Europe,146599183,17124442.0,40.1
United States of America,US,USA,"Washington, D.C.",Americas,Northern America,323947000,9629091.0,48.0


### Použití seznamu v podmínce

Funkce `isin()` aplikovaná na jeden konkrétní sloupec vrátí nám `True` pro všechny řádky, pro které je hodnota přítomná v seznamu. 

In [17]:
staty[staty["subregion"].isin(["Western Europe", "Eastern Europe"])]

Unnamed: 0_level_0,alpha2Code,alpha3Code,capital,region,subregion,population,area,gini
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Austria,AT,AUT,Vienna,Europe,Western Europe,8725931,83871.0,26.0
Belarus,BY,BLR,Minsk,Europe,Eastern Europe,9498700,207600.0,26.5
Belgium,BE,BEL,Brussels,Europe,Western Europe,11319511,30528.0,33.0
Bulgaria,BG,BGR,Sofia,Europe,Eastern Europe,7153784,110879.0,28.2
Czech Republic,CZ,CZE,Prague,Europe,Eastern Europe,10558524,78865.0,26.0
France,FR,FRA,Paris,Europe,Western Europe,66710000,640679.0,32.7
Germany,DE,DEU,Berlin,Europe,Western Europe,81770900,357114.0,28.3
Hungary,HU,HUN,Budapest,Europe,Eastern Europe,9823000,93028.0,31.2
Liechtenstein,LI,LIE,Vaduz,Europe,Western Europe,37623,160.0,
Luxembourg,LU,LUX,Luxembourg,Europe,Western Europe,576200,2586.0,30.8


## Převody dat na DataFrame a zpět

### Převod DataFrame na seznam

K takovému převodu na seznam nám poslouží kombinace funkcí `to_numpy` a `tolist`. 

Převod totiž neprovádíme přímo, ale jako mezikrok jej převedeme na pole modulu `numpy`.

In [18]:
staty_list = staty.to_numpy().tolist() 
staty_list[0] 

['AF', 'AFG', 'Kabul', 'Asia', 'Southern Asia', 27657145, 652230.0, 27.8]

Index se v Pandas nebere jako součást dat. 

Pokud chceme index vrátit do původního stavu a mít ho jako automaticky generovaná čísla řádků, můžeme použít metodu `reset_index`.

In [19]:
staty_list = staty.reset_index().to_numpy().tolist() 

staty_list[0]

['Afghanistan',
 'AF',
 'AFG',
 'Kabul',
 'Asia',
 'Southern Asia',
 27657145,
 652230.0,
 27.8]

### Vytvoření DataFrame ze seznamu

In [20]:
znamky = [
    ['Petr', 2],
    ['Roman', 1],
    ['Jitka', 3],
    ['Zuzana', 5],
    ['Ondřej', 2],
    ['Julie', 2],
    ['Karel', 4],
    ['Anna', 1],
    ['Eva', 1]
]

soucet = 0
for radek in znamky:
    soucet = soucet + radek[1]
prumer = soucet / len(znamky)

In [28]:
znamky = pandas.DataFrame(znamky, columns=['student', 'znamka'])

prumer = znamky["znamka"].mean()

2.3333333333333335

### Vytvoření DataFrame ze seznamu slovníků

Nemusíme přidávat názvy sloupců, protože ty už funkce DataFrame získá z klíčů slovníků.

In [22]:
nakupy = [
    {"person": "Petr", "item": "Prací prášek", "value": 399},
    {"person": "Ondra", "item": "Savo", "value": 80},
    {"person": "Petr", "item": "Toaletní papír", "value": 65},
    {"person": "Libor", "item": "Pivo", "value": 124},
    {"person": "Petr", "item": "Pytel na odpadky", "value": 75},
    {"person": "Míša", "item": "Utěrky na nádobí", "value": 130},
    {"person": "Ondra", "item": "Toaletní papír", "value": 120},
    {"person": "Míša", "item": "Pečící papír", "value": 30},
    {"person": "Zuzka", "item": "Savo", "value": 80},
    {"person": "Pavla", "item": "Máslo", "value": 50},
    {"person": "Ondra", "item": "Káva", "value": 300}
]

In [25]:
nakupy = pandas.DataFrame(nakupy)
nakupy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   person  11 non-null     object
 1   item    11 non-null     object
 2   value   11 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 392.0+ bytes
