# Izpeljani seznami (angl. _list comprehensions_)

Izpeljani seznami v programskem jeziku Python omogočajo _enostavno in učinkovito_ ustvarjanje novih seznamov. Splošna oblika izpeljanega seznama je `[izraz for e in iterator if pogoj]`:

  * `iterator` je _vir_ za ustvarjanje elementov izpeljanega seznama, lahko je seznam ali poljuben iterator,
  * `e` je spremenljivka, ki predstavlja vrednost trenutnega elementa v viru `iterator`,
  * `izraz` je Pythonovski izraz, ki na osnovi vrednosti `e` izračuna vrednost elementa izpeljanega seznama,
  * `pogoj` je logični Pythonovski izraz, ki odloča o tem ali bo element vira `e` uporabljen za izračun elementa v izpeljanem seznamu.

Zadnji del splošne oblike izpeljanega seznama `if pogoj` ni obvezen. Poenostavljena oblika izpeljanega seznama je tako `[izraz for e in iterator]`. V tem primeru ima izpeljani seznam toliko elementov kot je število elementov v viru `iterator`.

Pri podatkovni analizi bomo pogosto obravnavali podatke spravljene v tabelah in opravljali izračune na obstoječih stolpcih tabele ter izračunavali nove stolpce. Zato bodo izpeljani seznami pogosto prišli prav, četudi v knjižnici `pandas` imamo na voljo funkcije, ki nam omogočajo dosego rezultatov brez uporabe izpeljanih seznamov. Kljub temu razumevanje koncepta izpeljanega seznama, ki se tesno navezuje na koncept funkcij višjega reda, je zelo pomemben za podatkovno analizo. Tako začnemo z ogrevanjem za "ta pravo" podatkovno analizo s Pythonom.

## Enostaven primer in alternativi

Oglejmo si primer enostavnega izpeljanega seznama, ki vsebuje kvadrate prvih deset naravnih števil:

In [None]:
kvadrati = [e ** 2 for e in range(10)]
print(kvadrati)

: 

Obstajata dva alternativna načina, da ustvarimo seznam `kvadrati` iz zgornjega primera. Prvi uporabi zanko:

In [None]:
kvadrati_a = []
for e in range(10):
    kvadrati_a.append(e ** 2)
print(kvadrati_a)

Drugi način uporablja klic funkcije `map(f, iterator)`, ki kliče funkcijo `f` za vsak element iteratorja `iterator`:

In [None]:
kvadrati_b = map(lambda e: e ** 2, range(10))
print(kvadrati_b)

Hm, je nekaj narobe? Pravzaprav ni, rezultat funkcije `map` je iterabilni objekt, ki ga lahko s klicem funkcije `list` pretvorimo v seznam takole:

In [None]:
kvadrati_b = list(map(lambda e: e ** 2, range(10)))
print(kvadrati_b)

Primerjava alternativnih načinov tvorjenja seznama kvadratov naravnih števil pokaže prvo pomembno prednost izpeljanih seznamov pred alternativnimi načini za ustvarjanje tega seznama. Z uporabo izpeljanega seznama napišemo programsko kodo, ki je krajša in bolj razumljiva.

## Primer s pogojem

Ustvarimo zdaj seznam kvadratov za liha naravna števila, ki so manjša od 10:

In [None]:
kvadrati_lihi = [e ** 2 for e in range(10) if e % 2 == 1]
print(kvadrati_lihi)

Za vajo sestavi program, ki ustvari seznam `kvadrati_lihi_a` z zanko. Tukaj bomo sestavili program, ki to naredi s kombinacijo funkcij `map` in `filter`. Slednja namreč izbere elemente seznama, ki zadostujejo podanemu pogoju takole:

In [None]:
list(filter(lambda e: e % 2 == 1, range(10)))

Zdaj okrog tega klica funkcije `filter` ovijemo še klic funkcije `map`:

In [None]:
kvadrati_lihi_b = list(map(lambda e: e ** 2, filter(lambda e: e % 2 == 1, range(10))))
print(kvadrati_lihi_b)

## Gnezdenje izpeljanih seznamov

Izpeljane sezname lahko poljubno gnezdimo na ta način tako, da je vrednost izraza `izraz` izpeljan seznam s svojim izrazom, pogojem in iteratorjem. Z ugnezdenimi izpeljanimi seznami lahko tvorimo izpeljane matrike. Primer ustvarjanja identične matrike dimenzije 3:

In [None]:
im_3 = [[1 if (i == j) else 0 for j in range(3)] for i in range(3)]
print(im_3)

Na tem mestu lahko opazujemo pomembno razliko med pogojem izpeljanega seznama in pogojem, ki smo ga v tem primeru uporabili znotraj izraza izpeljanega seznama. Slednji namreč določa _kako_ izračunamo element izpeljanega seznama iz vira. Pogoj izpeljanega seznama pa določa _katere_ elemente vira uporabimo za izračun elementov izpeljanega seznama.

Zanke `for` lahko gnezdimo tudi brez gnezdenja seznamov, npr. takole: 

In [None]:
[1 if (i == j) else 0 for j in range(3) for i in range(3)]

Za vajo primerjaj rezultata zadnjih dveh primerov kode in pojasni razliko.

Zdaj, ko vemo kaj vse nam omogočajo izpeljani seznami, definirajmo funkcijo `diag`, ki ustvari diagonalno matriko iz podanega seznama elementov na diagonali.

In [None]:
def diag(d):
    n = len(d)
    return [[d[i] if (i == j) else 0 for j in range(n)] for i in range(n)]

print(diag([-2, -1, 0, 1, 2]))

Za vajo napiši dve alternativni definiciji funkcije `diag`: ena naj uporablja zanke, druga pa funkcijo `map`. Primerjaj alternativni definiciji z zgornjo definicijo v smislu kratkosti in razumljivost kode ter učinkovitosti izvajanja. Kaj opažaš?

## Kombiniranje seznamov

Na prvi pogled izpeljani seznam je omejen na uporabo enega vira oziroma enega izvirnega seznama ali iteratorja. To je le navidezno, ker bi lahko z enim virom indeksirali in kombinirali več seznamov. Primer tukaj je funkcija `plus`, ki sešteva elemente dveh seznamov, pod predpostavko, da sta podana seznama enako dolga.

In [None]:
def plus(x, y):
    assert len(x) == len(y), f"Napaka: Seznama {x} in {y} sta različnih dolžin."
    return [x[i] + y[i] for i in range(len(x))]

plus([-1, 0, 1], [1, 0, -1])

Za vajo posploši funkcijo `plus`, tako, da lahko sprejme in sešteje elemente poljubnega števila seznamov in ne zgolj dveh. Namig: spomni se na kakšen način definiramo funkcijo v Pythonu, ki sprejme poljubno število argumentov, ki ni znano vnaprej.

## Prednosti in slabosti izpeljanih seznamov

Prednosti:
  * Lahko poenostavijo programsko kodo in ji izboljšajo berljivost
  * So običajno bolj učinkoviti od alternativnih načinov tvorjenja seznamov

Slabosti:
  * Če je pogojev veliko ali izračun novih elementov zapleten, lahko postane programska koda izpeljanega seznama preveč zapletena in težko berljiva
  * Pri izračunu naslednjega elementa izpeljanega seznama ne moremo upoštevati vrednosti prejšnjih elementov

## Izpeljane množice

Če v splošni obliki izpeljanega seznama `[izraz for e in iterator if pogoj]` zamenjamo oglate oklepaje z zavitimi, dobimo izpeljano množico. Je posebej uporabna takrat, ko se hočemo izogniti podvajanju elementov.

Poglejmo primer, ko iz podanega seznama naslovov e-pošte hočemo izluščiti seznam različnih internetnih domen teh naslovov. Internetna domena naslova e-pošte je del tega naslova, ki sledi znaku `@`. Tako je internetna domena naslova `ljupco.todorovski@fmf.uni-lj.si` je `fmf.uni-lj.si`.

Za začetek definirajmo funkcijo, ki vrne internetno domeno podanega naslova. Pri tem uporabimo metodo `split`, ki razdeli niz znakov v seznam podnizov ločenih s podanim ločilom. Poglejmo najprej primer:

In [None]:
print("ljupco.todorovski@fmf.uni-lj.si".split("@"))

Želeno funkcijo zdaj definiramo takole:

In [None]:
def domena(naslov):
    return naslov.split("@")[-1]

print(domena("ljupco.todorovski@fmf.uni-lj.si"))

Funkcijo uporabimo v kombinaciji z izpeljano množico, da dobimo želeni rezultat:

In [None]:
naslovi = [
    "ljupco.todorovski@fmf.uni-lj.si",
    "ajda.lampe@fmf.uni-lj.si",
    "ajda.lampe@fri.uni-lj.si",
    "Katja.StembergerBrizani@pf.uni-lj.si"
    "ljupco@gmail.com",
    "nekdo_drug@gmail.com"
]

domene = {domena(n) for n in naslovi}
print(domene)

Prilagodi zgornjo kodo tako, da izpiše seznam **vrhnjih** internetnih domen podanih naslovov e-pošte. Vrhnja internetna domena je zadnja beseda v internetni domeni, t.j., del, ki pride za zadnjo piko `.` v internetni domeni. Tako je, na primer, `com` vrhnja internetna domena za domeno `gmail.com`.