# GeoPandas a Pandas

In [2]:
import pandas as pd # konvence pojmenování knihoven
import geopandas as gpd
import numpy as np

# Pokud spuštění této buňky vypíše chybu, nejsou knihovny správně nainstalovány (nebo není aktivováno virtuální prostředí)

## Základní datové struktury

### Tvorba objektů Series a DataFrame
Stránky oficiální dokumentace: https://pandas.pydata.org/docs/

In [3]:
# Tvorba Series pomocí pole ndarray
data = np.array([5, 1.2, -8, 1])
series_object = pd.Series(data, name="Numbers")
series_object

0    5.0
1    1.2
2   -8.0
3    1.0
Name: Numbers, dtype: float64

In [4]:
# Tvorba DataFrame pomocí slovníku - nejpoužívanější způsob
data = np.array([5, 1.2, -8, 1])
df = pd.DataFrame({"Numbers": data, "Numbers * 2": data*2}, index=["a", "b", "a", "d"])
df

Unnamed: 0,Numbers,Numbers * 2
a,5.0,10.0
b,1.2,2.4
a,-8.0,-16.0
d,1.0,2.0


## Základní funkce knihovny Pandas

### Výběr pomocí loc a iloc

In [6]:
print("Z této tabulky je prováděn výběr v buňce níže:")
random_df = pd.DataFrame(
    np.random.randint(0, 10, size=(3, 4)), 
    columns=["První", "Druhý", "Třetí", "Čtvrtý"], 
    index=["Řádek 1", "Řádek 2", "Řádek 3"]
)  # Vytvoření DataFrame s náhodnými čísly
random_df

Z této tabulky je prováděn výběr v buňce níže:


Unnamed: 0,První,Druhý,Třetí,Čtvrtý
Řádek 1,5,0,7,1
Řádek 2,1,0,8,3
Řádek 3,9,0,2,1


In [14]:
# Pouze v hranatých závorkách se vybírají sloupce
# Vrací objekt Series
print("Výběr sloupce:")
display(
    random_df["První"]
)
print()  # prázdný řádek


# loc[] vybere z tabulky dané řádky / sloupce podle jejich pojmenování
# používá se ve formátu loc[výběr řádků , výběr sloupců]
# Na rozdíl od iloc[] vrácená tabulka obsahuje i koncové body (tedy v tomto případě řádek 1 i řádek 2)
print('Použití loc["Řádek 1":"Řádek 2", ["Druhý", "Čtvrtý"]]:')
print("(Vybere data z druhého a čtvrtého sloupce, které jsou na prvním až druhém řádku)")
display(
    random_df.loc["Řádek 1":"Řádek 2", ["Druhý", "Čtvrtý"]]  # Všechny řádky mezi Řádkem 1 a Řádkem 2 (včetně), ze sloupců výslovně jen Druhý a Čtvrtý
)
print()


# iloc[] vybere prvky podle pořadí (někdy je pořadí stejné jako název sloupce/řádku)
# Do Iloc se tedy dosazují pouze čísla (čísluje se od nuly)
# Neobsahuje koncový bod - v tomto případě nevybere data z druhého řádku
print("Použití iloc[0:1, [1, 3]]:")
display(
    random_df.iloc[0:1, [1, 3]]
)

print("Výběr pomocí podmínky:")
print("Pro všechny prvky třetího sloupce určí, jestli odpovídají podmínce (> 5):")
display(
    random_df["Třetí"] > 5
)

print("Tento filtr se dá použít na původní tabulku (vybere všechny řádky, které mají ve třetím sloupci číslo větší než pět):")
display(
    random_df.loc[random_df["Třetí"] > 5]
)

Výběr sloupce:


Řádek 1    5
Řádek 2    1
Řádek 3    9
Name: První, dtype: int32


Použití loc["Řádek 1":"Řádek 2", ["Druhý", "Čtvrtý"]]:
(Vybere data z druhého a čtvrtého sloupce, které jsou na prvním až druhém řádku)


Unnamed: 0,Druhý,Čtvrtý
Řádek 1,0,1
Řádek 2,0,3



Použití iloc[0:1, [1, 3]]:


Unnamed: 0,Druhý,Čtvrtý
Řádek 1,0,1


Výběr pomocí podmínky:
Pro všechny prvky třetího sloupce určí, jestli odpovídají podmínce (> 5):


Řádek 1     True
Řádek 2     True
Řádek 3    False
Name: Třetí, dtype: bool

Tento filtr se dá použít na původní tabulku (vybere všechny řádky, které mají ve třetím sloupci číslo větší než pět):


Unnamed: 0,První,Druhý,Třetí,Čtvrtý
Řádek 1,5,0,7,1
Řádek 2,1,0,8,3


### GroupBy

In [15]:
df = pd.DataFrame.from_dict(
    {
        "Panda velká": ["Savci", "Medvědovití", 1000],
        "Panda červená": ["Savci", "Pandy malé", 20000],
        "Emu hnědý": ["Ptáci", "Kasuárovití", 725000], 
        "Koala medvídkovitý": ["Savci", "Koalovití", 100000]
    },
    orient="index",
    columns=["Třída", "Čeleď", "Populace"]
)
display(df)  # První tabulka ve výstupní buňce
df.groupby("Třída").sum()

Unnamed: 0,Třída,Čeleď,Populace
Panda velká,Savci,Medvědovití,1000
Panda červená,Savci,Pandy malé,20000
Emu hnědý,Ptáci,Kasuárovití,725000
Koala medvídkovitý,Savci,Koalovití,100000


Unnamed: 0_level_0,Populace
Třída,Unnamed: 1_level_1
Ptáci,725000
Savci,121000


## Matematické a statistické funkce

In [16]:
# Ukázka statistických a matematických funkcí

random_nums = pd.DataFrame(np.random.randint(1, 10, size=(4, 4)))

print("Tabulka náhodných číse:l")
display(random_nums)


print("Kumulativní součty hodnot z předchozí tabulky:")
soucty = np.cumsum(random_nums)
display(soucty)

print("Převrácení řádků a sloupců první tabulky:")
display(random_nums.T)

Tabulka náhodných číse:l


Unnamed: 0,0,1,2,3
0,9,8,3,8
1,2,3,2,3
2,3,2,5,5
3,7,2,6,4


Kumulativní součty hodnot z předchozí tabulky:


Unnamed: 0,0,1,2,3
0,9,8,3,8
1,11,11,5,11
2,14,13,10,16
3,21,15,16,20


Převrácení řádků a sloupců první tabulky:


Unnamed: 0,0,1,2,3
0,9,2,3,7
1,8,3,2,2
2,3,2,5,6
3,8,3,5,4


In [17]:
# Použití funkce describe
frame = pd.DataFrame(
    [
        [2.5, 10.0],
        [1.3, 8.7],
        [5.0, 0.8]
    ], columns=["first", "second"])

display(frame)

frame.describe()

Unnamed: 0,first,second
0,2.5,10.0
1,1.3,8.7
2,5.0,0.8


Unnamed: 0,first,second
count,3.0,3.0
mean,2.933333,6.5
std,1.887679,4.978956
min,1.3,0.8
25%,1.9,4.75
50%,2.5,8.7
75%,3.75,9.35
max,5.0,10.0


## Práce se soubory

In [18]:
# Ukázka načtení dat ze souboru s pevně danou šířkou sloupců

colspecs = [(0, 1),(1, 6), (6, 16), (16, 26), (26, 33)]
df = pd.read_fwf("Data/fwf_file.csv", colspecs=colspecs, header=None, index_col=0)
df

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,118.5,153435.451,321415.451,0.12457
1,145.8,545317.768,645838.421,0.64744
2,692.4,160628.465,509630.818,3.13902
3,917.6,429779.757,151887.726,8.42424
4,740.7,324778.392,687941.198,0.25997
5,358.9,897002.3,397432.42,6.90263
6,730.4,991278.309,519306.367,1.89158
7,455.6,52758.447,345031.375,8.50215
8,149.7,295311.894,232095.114,9.33532
9,693.9,536041.516,149894.598,0.69751


In [19]:
# Formáty souborů, které GeoPandas podporuje (podporuje i další, například Parquet nebo Feather)
import fiona
[format for format in list(fiona.supported_drivers.keys())]


['AeronavFAA',
 'ARCGEN',
 'BNA',
 'DXF',
 'CSV',
 'OpenFileGDB',
 'ESRIJSON',
 'ESRI Shapefile',
 'FlatGeobuf',
 'GeoJSON',
 'GeoJSONSeq',
 'GPKG',
 'GML',
 'OGR_GMT',
 'GPX',
 'GPSTrackMaker',
 'Idrisi',
 'MapInfo File',
 'DGN',
 'PCIDSK',
 'OGR_PDS',
 'S57',
 'SEGY',
 'SUA',
 'TopoJSON']

In [20]:
# Ukázka načtení vestavěné datové sady v GeoPandas
gpd.read_file(gpd.datasets.get_path("naturalearth_lowres"))

Unnamed: 0,pop_est,continent,name,iso_a3,gdp_md_est,geometry
0,920938,Oceania,Fiji,FJI,8374.0,"MULTIPOLYGON (((180.00000 -16.06713, 180.00000..."
1,53950935,Africa,Tanzania,TZA,150600.0,"POLYGON ((33.90371 -0.95000, 34.07262 -1.05982..."
2,603253,Africa,W. Sahara,ESH,906.5,"POLYGON ((-8.66559 27.65643, -8.66512 27.58948..."
3,35623680,North America,Canada,CAN,1674000.0,"MULTIPOLYGON (((-122.84000 49.00000, -122.9742..."
4,326625791,North America,United States of America,USA,18560000.0,"MULTIPOLYGON (((-122.84000 49.00000, -120.0000..."
...,...,...,...,...,...,...
172,7111024,Europe,Serbia,SRB,101800.0,"POLYGON ((18.82982 45.90887, 18.82984 45.90888..."
173,642550,Europe,Montenegro,MNE,10610.0,"POLYGON ((20.07070 42.58863, 19.80161 42.50009..."
174,1895250,Europe,Kosovo,-99,18490.0,"POLYGON ((20.59025 41.85541, 20.52295 42.21787..."
175,1218208,North America,Trinidad and Tobago,TTO,43570.0,"POLYGON ((-61.68000 10.76000, -61.10500 10.890..."
