# map, filter, reduce a anonymní funkce

Dnes se společně podíváme na trojici velmi užitečných funkcí, které tvoří základ funkcionálního programování, a dojde i na funkce anonymní, které jsou ve FP také velmi hojně využívané.

`map`, `filter` a `reduce` jsou příklady tzv. funkcí vyššího řádu. Funkce vyššího řádu jsou takové funkce, které umí přijímat jiné funkce jako své argumenty nebo vytvářet funkce nové a vracet je jako svou návratovou hodnotu. V této lekci je budeme používat a příště se je naučíme vytvářet a povíme si také více o funkcionálním programování.

## map

`map` je funkce, která umí aplikovat jinou zadanou funkci na všechny prvky sekvence. Ukažme si to na jednoduchém příkladu. Chceme opravit velká písmena u jmen a příjmení našich uživatelů.

Nejdříve si definujeme samostatnou funkci, která nám bude umět velká písmena opravit:

In [1]:
def oprav_velka_pismena(jmeno_prijmeni):
    jmeno, prijmeni = jmeno_prijmeni.split()
    jmeno = jmeno.capitalize()
    prijmeni = prijmeni.capitalize()
    return f"{jmeno} {prijmeni}"

Použití takové funkce na sekvencí v cyklu by mohlo vypadat například takto:

In [2]:
jmena = ["pepa novak", "Karel Novotny", "tomas Piskal", "jAKUB novy"]
opravena_jmena = []

for jmeno in jmena:
    opravena_jmena.append(oprav_velka_pismena(jmeno))
   
print(opravena_jmena)

['Pepa Novak', 'Karel Novotny', 'Tomas Piskal', 'Jakub Novy']


`map` umí zajistit stejný výsledek aplikací funkce na všechny prvky sekvence. `map` navíc nevrací seznam nových prvků, ale iterovatelný objekt, který šetří pamět a dává prvky k dispozici až ve chvíli, kdy si o ně řekneme. Výsledek `map` tak můžeme použít v cyklu nebo, pokud opravdu potrebujeme seznam, jej na seznam konvertovat.

In [3]:
jmena = ["pepa novak", "Karel Novotny", "tomas Piskal", "jAKUB novy"]

opravena_jmena = list(map(oprav_velka_pismena, jmena))
   
print(opravena_jmena)

['Pepa Novak', 'Karel Novotny', 'Tomas Piskal', 'Jakub Novy']


## filter

Zatímco funkce `map` vytvořila nové prvky aplikací funkce na prvky z původní sekvence, funkce `filter` provede jejich filtraci na základě návratové hodnoty (`True`/`False`) ze zadané funkce.

Opět využijeme jednoduchý příklad a získáme ze seznamu jen sudá čísla. Nejprve si definujeme funkci, která vrátí `True` pokud je číslo sudé.

In [4]:
def je_sude(cislo):
    return cislo % 2 == 0

Klasické a nejupovídanější řešení pomocí cyklu:

In [5]:
cisla = [1, 2, 4, 5, 6, 8, 9, 10, 11]
suda_cisla = []

for cislo in cisla:
    if je_sude(cislo):
        suda_cisla.append(cislo)

print(suda_cisla)

[2, 4, 6, 8, 10]


Další možností je využít nám již dobře známé list comprehensions:

In [6]:
cisla = [1, 2, 4, 5, 6, 8, 9, 10, 11]
suda_cisla = [cislo for cislo in cisla if je_sude(cislo)]

print(suda_cisla)

[2, 4, 6, 8, 10]


A nově i s pomocí funkce `filter`:

In [7]:
cisla = [1, 2, 4, 5, 6, 8, 9, 10, 11]

suda_cisla = list(filter(je_sude, cisla))

print(suda_cisla)

[2, 4, 6, 8, 10]


## reduce

Poslední z trojice dnes jmenovaných bude funkce `reduce`. Ta vezme funkci akceptující dva parametry a postupně ji aplikuje na prvky sekvence, zleva doprava. Výsledek předchozí aplikace se vždy použije jako první parametr funkce a jako druhý parametr se použije další nezpracovaný prvek sekvence. Takto postupuje dokud nezredukuje sekvenci na jednu výslednou hodnotu.

Funkce `reduce` není, narozdíl od ostatních dnes jmenovaných, automaticky dostupná a musí se importovat z modulu `functools`.

Na první pohled složitý slovní popis skrývá jednoduchý princip s řadou možností. Pojďme například vynásobit čísla v sekvenci.

Opět začneme funkcí pro násobení:

In [8]:
def nasobeni(x, y):
    return x * y

Následuje příklad s využitím cyklu:

In [9]:
cisla = [1, 2, 3, 4]
vysledek = 1

for cislo in cisla:
    vysledek = vysledek * cislo
    
print(vysledek)

24


A nyní s využitím `reduce`:

In [10]:
from functools import reduce

cisla = [1, 2, 3, 4]

vysledek = reduce(nasobeni, cisla)
    
print(vysledek)

24


## Anonymní funkce (tzv. lambdy)

`map`, `filter` či `reduce` potřebují dostat jako první argument funkci, kterou pak budou používat. Některé funkce (například naše `nasobeni` a `je_sude`) jsou ale tak jednoduché, že by se jejich definice dala s nadsázkou označit za plýtvání místem. Pro takové situace existují tzv. anonymní funkce, které lze pomocí klíčového slova `lambda` definovat jen na jednom řádku a bez přiřazení jména.

Například `nasobeni` by se dalo zapsat takto:

In [11]:
lambda x, y: x * y

<function __main__.<lambda>(x, y)>

Definice anonymní funkce začíná klíčovým slovem `lambda` a pokračuje seznamem argumentů, které jsou klasicky oddelěné čárkou. Za argumenty pak následuje dvojtečka a za ní výraz, který se má vyhodnotit a jehož výsledek se vrátí jako návratová hodnota.

S takto definovanou anonymní funkcí se toho ale moc dělat nedá, protože je anonymní a nemáme tak možnost ji jinde v programu použít.

Mohli bychom si ji samozřejmě přiřadit do proměnné a následně ji volat jménem, ale to už bychom si klidně mohli definovat klasickou funkci. Daleko lepší použití se nabízí v kombinaci s funkcemi, které berou jiné funkce jako vstupní argumenty. Například právě `map`, `filter` nebo `reduce`. Pojďme si ukázat dva poslední příklady s využitím anonymních funkcí:

In [12]:
from functools import reduce

cisla = [1, 2, 3, 4]

vysledek = reduce(lambda x, y: x * y, cisla)
    
print(vysledek)

24


Příklad se od původního téměř neliší. Hlavní rozdíl je v tom, že jsme si pro jednoduchou matematickou operaci násobení nemuseli definovat klasickou pojmenovanou funkci, která by nám zabrala minimálně dva řádky. Místo toho jsme využili anonymní funkci a její definici napsali přímo jako argument funkce `reduce`.

In [13]:
cisla = [1, 2, 4, 5, 6, 8, 9, 10, 11]

suda_cisla = list(filter(lambda cislo: cislo % 2 == 0, cisla))

print(suda_cisla)

[2, 4, 6, 8, 10]


Tady je situace stejná. Rozdíl je jen v tom, že anonymní funkce bere jen jediný argument a protože výraz k vyhodnocení je porovnáním, výsledkem bude vždy `True` nebo `False`.

Anonymní funkce mohou být velice užitečné v případech, kdy je definice klasické funkce opravdu zbytečná. Na druhou stranu mohou snižovat čitelnost kódu, hůře se dokumentují, mají řadu technických omezení atp. Jejich používání je tedy vždy nutné dobře rozmyslet.

# MapReduce

MapReduce je programovací model, který využívá právě kombinaci funkcí `map` a `reduce`. I když se tyto funkce zdají být jednoduché, jejich možnosti použití jsou velmi široké a celá řada algoritmů lze implementovat tak, aby využily právě jen tyto funkce. MapReduce se navíc využívá v paralelním prostředí, kde jeden požadavek může najednou zpracovávat i několik stovek počítačů. Toho se nejčastěji využívá při zpracování velkého množství dat a jejich řazení, indexaci, vyhledávání atp. S pouhou definicí mapovací a redukční funkce se tak dají provádět komplexní operace nad velkými daty.

Pojďmě si to ukázat na příkladu s výpočtem výskytu slov v dokumentech:
1. Nejdříve je třeba připravit data. Pokud máme jen jeden zdroj, je třeba jej rozdělit na části, abychom je mohli zpracovávat paralelně.
2. Pak přichází na řadu mapovací fáze, která zpracuje data do dvojic klíč/hodnota. V našem případě bude klíčem slovo a hodnotou jeho výskyt napříč dokumenty.
3. Protože klíče po mapování nejsou unikátní (jedno slovo bude určitě ve více dokumentech a bude zpracováno na jiném serveru) je potřeba po mapování přesunout stejné klíče k sobě.
4. Následně přichází na řadu redukční fáze, která provádí nad daty výpočet. V našem případě sečte všechny hodnoty pro daný klíč dohromady a tím získáme celkový počet výskytů slova napříč dokumenty.
5. Protože se i fáze redukce provádí paralelně, je třeba na konci ještě dílčí výsledky spojit do jednoho a získat tak kompletní přehled.

V jednoduchosti celý proces demonstruje následující obrázek:

![MapReduce](https://dzone.com/storage/temp/1329325-111.png)

# Úkol

Vymyslete reálný příklad, ve kterém využijete alespoň dvě ze tří dnes zmíněných funkcí případně model MapReduce.

Řešení a případné dotazy zasílejte na email frenzy.madness@gmail.com