# Lekce 4

## Metoda rank

Metoda `rank` "očísluje" řádky podle zvoleného sloupce. To se hodí třeba v případě, že chceme zjistit a porovnat pořadí záznamů podle nějakého kritéria. Níže máme načtený dataset Indexu ekonomické svobody
(Index of Economic Freedom) z [oficiálního webu](https://www.heritage.org/index/). Index na základě vybraných kritérií vyhodnocuje, nakolik je země ekonomicky svobodná.

In [8]:
import pandas

ioef = pandas.read_csv("ioef.csv")
ioef.head()

Unnamed: 0,Id,Name,Short Name,ISO Code,Index Year,Overall Score,Property Rights,Judicial Effectiveness,Government Integrity,Tax Burden,Government Spending,Fiscal Health,Business Freedom,Labor Freedom,Monetary Freedom,Trade Freedom,Investment Freedom,Financial Freedom
0,1,Afghanistan,Afghanistan,AF,2023,,5.8,5.4,12.7,,,,34.6,45.1,,,,
1,2,Albania,Albania,AL,2023,65.3,55.9,49.2,35.5,89.1,71.0,58.2,70.7,49.7,81.3,82.8,70.0,70.0
2,3,Algeria,Algeria,DZ,2023,43.2,27.8,29.5,28.4,71.9,50.7,12.1,53.6,51.4,75.1,57.5,30.0,30.0
3,4,Angola,Angola,AO,2023,53.0,41.1,24.8,22.9,86.5,86.9,85.1,41.6,53.9,58.9,64.8,30.0,40.0
4,5,Argentina,Argentina,AR,2023,51.0,34.6,56.8,42.8,66.9,53.9,33.6,55.5,55.1,36.5,61.2,55.0,60.0


Data zobrazují hodnoty od roku 1995 do roku 2021. Začněme tím, že si určíme pořadí země podle celkvého indexu (sloupec `Overall Score`). K tomu využijeme metodu `rank`. Protože ale potřebujeme určit pořadí vždy pro konkrétní rok, přidáme metodu `groupby` podle sloupce `Index Year`. Tím zajistíme, že číslování pro každý rok začne od 1.

Musíme též nastavit, aby bylo pořadí udělování sestupně, protože čím vyšší je dosažené skóre, tím výše se země na žebříčku ekonomických svobod nachází. To zařídí parametr `ascending`.

Kromě nastavení sloupce má metoda `rank` důležitý parametr `method`. Ta vyřeší případ, že skupina řádků má stejnou hodnotu. Využijeme parametr `dense`, který celé skupině přiřadí hodnotu o 1 vyšší než předchozí skupině. Pro kontrolu si do zvláštní tabulky dáme hodnoty z roku 2023.

In [10]:
ioef["Rank"] = ioef.groupby(["Index Year"])["Overall Score"].rank(method="min", ascending=False)
ioef_2023 = ioef[ioef["Index Year"] == 2023]
ioef_2023.head()

Unnamed: 0,Id,Name,Short Name,ISO Code,Index Year,Overall Score,Property Rights,Judicial Effectiveness,Government Integrity,Tax Burden,Government Spending,Fiscal Health,Business Freedom,Labor Freedom,Monetary Freedom,Trade Freedom,Investment Freedom,Financial Freedom,Rank
0,1,Afghanistan,Afghanistan,AF,2023,,5.8,5.4,12.7,,,,34.6,45.1,,,,,
1,2,Albania,Albania,AL,2023,65.3,55.9,49.2,35.5,89.1,71.0,58.2,70.7,49.7,81.3,82.8,70.0,70.0,49.0
2,3,Algeria,Algeria,DZ,2023,43.2,27.8,29.5,28.4,71.9,50.7,12.1,53.6,51.4,75.1,57.5,30.0,30.0,168.0
3,4,Angola,Angola,AO,2023,53.0,41.1,24.8,22.9,86.5,86.9,85.1,41.6,53.9,58.9,64.8,30.0,40.0,130.0
4,5,Argentina,Argentina,AR,2023,51.0,34.6,56.8,42.8,66.9,53.9,33.6,55.5,55.1,36.5,61.2,55.0,60.0,144.0


Podíváme se nyní na pět států s nejnižším pořadím.

In [11]:
ioef_2023.sort_values(["Rank"]).head()

Unnamed: 0,Id,Name,Short Name,ISO Code,Index Year,Overall Score,Property Rights,Judicial Effectiveness,Government Integrity,Tax Burden,Government Spending,Fiscal Health,Business Freedom,Labor Freedom,Monetary Freedom,Trade Freedom,Investment Freedom,Financial Freedom,Rank
144,147,Singapore,Singapore,SG,2023,83.9,94.0,58.3,91.2,90.6,89.0,78.0,86.9,77.3,81.9,95.0,85.0,80.0,1.0
155,158,Switzerland,Switzerland,CH,2023,83.8,94.2,97.8,92.3,70.6,63.9,95.4,84.3,60.5,85.1,86.6,85.0,90.0,2.0
76,78,Ireland,Ireland,IE,2023,82.0,92.9,93.9,82.8,78.4,80.5,86.8,87.2,61.2,81.5,78.6,90.0,70.0,3.0
157,160,Taiwan,Taiwan,TW,2023,80.7,81.9,94.7,76.3,79.3,91.1,93.6,84.3,69.1,82.5,85.8,70.0,60.0,4.0
117,120,New Zealand,NewZealand,NZ,2023,78.9,87.8,94.7,96.8,66.6,49.7,72.2,88.8,71.5,78.7,90.4,70.0,80.0,5.0


Nyní porovnáme, jak se vyvíjelo pořadí České republiky. K tomu využijeme metodu `shift()`, abychom do každého řádku přidali pořadí v předcházejícím roce.

In [12]:
ioef_sorted = ioef.sort_values(["Name", "Index Year"])
ioef_sorted["Rank Previous Year"] = ioef_sorted.groupby(["Name"])["Rank"].shift()
ioef_sorted.head()

Unnamed: 0,Id,Name,Short Name,ISO Code,Index Year,Overall Score,Property Rights,Judicial Effectiveness,Government Integrity,Tax Burden,Government Spending,Fiscal Health,Business Freedom,Labor Freedom,Monetary Freedom,Trade Freedom,Investment Freedom,Financial Freedom,Rank,Rank Previous Year
5156,1,Afghanistan,Afghanistan,AF,1995,,,,,,,,,,,,,,,
4973,1,Afghanistan,Afghanistan,AF,1996,,,,,,,,,,,,,,,
4790,1,Afghanistan,Afghanistan,AF,1997,,,,,,,,,,,,,,,
4607,1,Afghanistan,Afghanistan,AF,1998,,,,,,,,,,,,,,,
4424,1,Afghanistan,Afghanistan,AF,1999,,,,,,,,,,,,,,,


Vidíme například, že k největšímu zlepšení došlo v roce 2023 (o 6 příček)

In [14]:
ioef_sorted["Rank Change"] = ioef_sorted["Rank"] - ioef_sorted["Rank Previous Year"]
ioef_sorted_czech = ioef_sorted[ioef_sorted["Name"] == "Czech Republic"]
ioef_sorted_czech.tail()

Unnamed: 0,Id,Name,Short Name,ISO Code,Index Year,Overall Score,Property Rights,Judicial Effectiveness,Government Integrity,Tax Burden,...,Fiscal Health,Business Freedom,Labor Freedom,Monetary Freedom,Trade Freedom,Investment Freedom,Financial Freedom,Rank,Rank Previous Year,Rank Change
785,44,Czech Republic,CzechRepublic,CZ,2019,73.7,74.8,47.6,52.1,82.6,...,97.6,72.4,78.1,81.5,86.0,80.0,80.0,23.0,24.0,-1.0
599,44,Czech Republic,CzechRepublic,CZ,2020,74.8,76.8,49.9,64.2,82.0,...,97.8,69.7,77.6,80.8,86.4,80.0,80.0,23.0,23.0,0.0
413,44,Czech Republic,CzechRepublic,CZ,2021,73.8,76.2,56.8,64.4,79.1,...,98.1,68.8,77.1,79.7,84.0,70.0,80.0,26.0,23.0,3.0
227,44,Czech Republic,CzechRepublic,CZ,2022,74.4,88.8,81.8,59.6,78.9,...,93.2,80.6,56.5,79.0,79.2,70.0,80.0,20.0,26.0,-6.0
43,44,Czech Republic,CzechRepublic,CZ,2023,71.9,88.5,81.9,60.3,79.3,...,73.5,76.9,56.1,78.0,78.6,70.0,80.0,21.0,20.0,1.0


## Metoda `apply`

Metoda `apply()` nám umožňuje používat vlastní funkce. Pokud tedy nějakou úpravu dat sám modul `pandas` neumí, případně pokud by bylo jejich použití příliš složité a nepřehledné, můžeme si vytvořit vlastní funkci.

Vlastní funkci vytváříme pomocí klíčového slova `def`. Poté přidáme název funkce a parametry, které příjmá. U `pandas` máme možnost použít funkci dvěma způsoby:

- pracovat s hodnotou v konkrétním sloupci,
- pracovat se všemi hodnotami v řádku.

In [19]:
import pandas

def evaluate_result(row):
    row = row.iloc[1:]
    if row.mean() <= 1.5 and row.max() <= 2:
        return "Prospěl s vyznamenáním"
    if row.max() == 5:
        return "Neprospěl"
    return "Prospěl"

data = pandas.read_csv("vysledky.csv")
data["vysledek"] = data.apply(evaluate_result, axis=1)
data.head()

Unnamed: 0,Jméno,Český jazyk,Anglický jazyk,Informatika,Matematika,vysledek
0,Mirek Dušín,1,2,1,1,Prospěl s vyznamenáním
1,Jarka Metelka,3,5,3,1,Neprospěl
2,Jindra Hojer,2,2,1,3,Prospěl
3,Červenáček,1,1,1,4,Prospěl
4,Rychlonožka,4,3,2,4,Prospěl
