[Node 8: Tools für Listen und Dicts](http://www-static.etp.physik.uni-muenchen.de/kurs/Computing/python2/node8.html)

Navigation:

[](node9.ipynb)[](node7.ipynb)[](node7.ipynb)

 **Next:** [Iterables und Generatoren (yield)](node9.ipynb) **Up:** [Weitergehende und häufig verwendete Python-Features](node7.ipynb) **Previous:** [Weitergehende und häufig verwendete Python-Features](node7.ipynb)

##  Tools für Listen und Dicts
 Aus einer Liste möchte man oft Elemente auswählen, die ein bestimmtes Kriterium erfüllen. Oder es soll eine Liste in eine andere Liste transformiert werden. Man könnte auch eine Kombination von Filtern und Transformieren anwenden. Hierzu stehen einerseits die Funktionen   <font color=#0000e6> ``filter``</font>  und   <font color=#0000e6> ``map``</font>  zu Verfügung. Andererseits kann man sog. list comprehensions verwenden.  
* Als Beispiel soll eine Liste   <font color=#0000e6> ``[ 1, 2, 3, 4, 5]``</font>  dienen. 
* Mit jedem Listenelement soll eine mathematische Operation (hier: Berechnen der Wurzel) durchgeführt werden. 
* Nur gerade Elemente sollen ausgewählt werden 
* Nur gerade Elemente sollen ausgewählt und mit 10 multipliziert werden.  

Zunächst   <font color=#0000e6> ``filter``</font>  und   <font color=#0000e6> ``map``</font> :

In [None]:
liste1 = [ 1, 2, 3, 4, 5 ]
import math
map(math.sqrt, liste1) # apply math.sqrt to each element

Python3 gibt hier (im Gegensatz zu Python2) nicht mehr eine Liste zurück, sondern einen Iterator. Die Einträge können wir ausgeben durch explizite Umwandlung in eine Liste:

In [None]:
list(map(math.sqrt, liste1))

In [None]:
list(map(lambda x: x**0.5, liste1)) # same with lambda function

In [None]:
list(filter(lambda x: x % 2 == 0, liste1))

In [None]:
list(map(lambda x: x*10, filter(lambda x: x % 2 == 0, liste1)))

### Listen-Abstraktionen (list comprehensions)

Man kann alternativ auch <font color=#0000ff> **list comprehensions**</font>  verwenden.
Die Identitätsabbildung gibt die Liste selber zurück:

In [None]:
[element for element in liste1]

Die folgenden weniger trivialen Beispiele machen dasselbe, wie wir oben mit `map` und `filter` erreicht haben:

In [None]:
[element**0.5 for element in liste1]

In [None]:
[element for element in liste1 if element % 2 == 0]

In [None]:
[element*10 for element in liste1 if element % 2 == 0]

 List comprehensions haben folgende allgemeine Form:

```python
[ expr(element) for element in iterable if pred(element) ]
```

mit   
*  <font color=#0000e6> ``expr(element)``</font>  ein beliebiger Ausdruck  abhängig von   <font color=#0000e6> ``element``</font>, 
*  <font color=#0000e6> ``iterable``</font>  eine beliebige Sequenz und  
*  <font color=#0000e6> ``pred(element)``</font>  eine Funktion, die   <font color=#0000e6> ``True``</font>  oder   <font color=#0000e6> ``False``</font>  liefert  und von   <font color=#0000e6> ``element``</font>   abhängig ist. 

---

Man kann auch mehrere Listen kombinieren:

In [None]:
[(x,y) for x in range(5) for y in range(5) ]

 und jeweils auch noch   <font color=#008000>*if*</font>-Bedingungen einbauen:

In [None]:
[(x,y) for x in range(5) if x % 2 == 0 for y in range(5) if y % 2 == 1]

Damit erhält man eine Kombination aller geraden Zahlen von 0 bis 4 und aller ungeraden Zahlen von 0 bis 4. Dies entspricht einer doppelten   <font color=#008000> *for*</font>-Schleife:

In [None]:
result = []
for x in range(5):
   if x % 2 == 0:
      for y in range(5):
         if y % 2 == 1:
            result.append((x,y))
print(result)

Mit expliziten for-Schleifen übersichtlicher und leichter verständlich, aber deutlich aufwendiger beim Schreiben und etwas langsamer bei der Ausführung ([dieser Post](https://stackoverflow.com/questions/30245397/why-is-a-list-comprehension-so-much-faster-than-appending-to-a-list) begründet das mit "suspending and resuming a function's frame, or multiple functions in other cases, is slower than creating a list on demand"):

In [None]:
%%timeit
# Zeitmessung für Listenausdruck
[(x,y) for x in range(1000) if x % 2 == 0 for y in range(5) if y % 2 == 1]

In [None]:
%%timeit
# Zeitmessung für explizite for-Schleife
result = []
for x in range(1000):
   if x % 2 == 0:
      for y in range(5):
         if y % 2 == 1:
            result.append((x,y))

Listenausdrücke werden am leichtesten verständlich, indem man sie von hinten nach vorne liest und sie sich wie oben als Abfolge von `if`-Anweisungen und `for`-Schleifen vorstellt.

Typischer Anwendungsfall: Transformation einer Liste (Eingabe = Liste, Ausgabe = Liste).

Analog zu <font color=#ff0000> **list comprehensions**</font> für Listen gibt es die    <font color=#0000ff> **dict comprehensions**</font> für Wörterbücher:

In [None]:
sqdict = { i : i**2 for i in range(10) }
print(sqdict)

### Listen zusammenführen mit zip

In [None]:
a = [ 1, 2, 3 ]
b = ['a', 'b', 'c']
list(zip(a,b))

Ergibt kombinierte Liste von   <font color=#008000>Tupeln.</font>  
 
Praktische Anwendung – Skalarprodukt (mit [`sum`](https://docs.python.org/3/library/functions.html#sum) als Funktion, die über Iteratoren laufen kann):

In [None]:
a = [ 0.3, 1.8, -2.2 ] 
b = [ -2.5, 3.8, 0.4]
sp = sum([ x*y for x,y in zip(a,b)])
print(sp)

Kann leicht erweitert werden, um zwei Listen in ein dict zu kombinieren:

In [None]:
d = { x[1] : x[0] for x in zip(a, b) }
print(d)

In [None]:
# Oder direkter ...
d = dict(zip(b,a))
d


### defaultdict
 
Im   <font color=#008000> *collections*</font>-Modul gibt es nützliche Hilfsklassen zur Arbeit mit Listen und Dicts. Hier ein Beispiel zum Bestimmen der Häufigkeit von Wörtern in einer Textdatei: 

In [None]:
# download Kant's text
import urllib.request
f = urllib.request.urlopen("https://goo.gl/rGqW4k")

# split into words and convert to unicode
words=[]
for line in f: # iteriere ueber alle Zeilen
    line=line.decode("utf-8") # Decoding the binary data to text.
    words += line.split() # packe Words in list

print ("Gesamtzahl der Wörter:", len(words))    
# or more direct w/ double list-comprehension:
# words=[ word for line in f for word in line.split() ]

Jetzt probieren wir verschiedene Methoden, um die Häufigkeit einzelner Wörter zu zählen (am Beispiel des Worts "Vernunft"), zunächst ohne weitere Module zu verwenden:

In [None]:
# count words v1 (if / else)
word_counts = {}
for word in words:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

print ("V1:", word_counts["Vernunft"])
# Umstaendlich ...

In [None]:
# count words v2 (try / except)
word_counts = {}
for word in words:
    try:
        word_counts[word] += 1
    except:
        word_counts[word] = 1

print ("V2:", word_counts["Vernunft"])
# Auch umstaendlich ...

In [None]:
# count words v3
from collections import defaultdict
# defaultdict(int) initialisiert Eintraege beim Ansprechen automatisch auf int() = 0
word_counts = defaultdict(int)
for word in words:
    word_counts[word] += 1

print ("V3:", word_counts["Vernunft"])

In [None]:
# oder noch einfacher ...
from collections import Counter
word_counts=Counter(words)
# Counter liefert eine Art dict zurück, das als Wert die Häufigkeit enthält... 
print ("V4:", word_counts["Vernunft"])

In [None]:
# und weitere Methoden...
print(word_counts.most_common(10)) # die 10 häufigsten...

### enumerate

Ein weiteres gängiges Problem ist, dass man beim Iterieren über eine Liste sowohl das jeweilige Element als auch den Index haben will. 

In [None]:
# find largest element in list,
# both index and value of this element
#
nums = [ 1,5,8,3,7,6,15,11 ] # list with some numbers -- largest element is 15 at position 6 (counting from 0)

In [None]:
# initialize
maxv = nums[0]
imax = 0

# classical method-1
for i in range(len(nums)): # index loop
    if nums[i]>maxv:
        maxv = nums[i]
        imax = i

print (maxv, imax)

In [None]:
# classical method-2
maxv=nums[0]
imax = 0
i = 0
for x in nums: # keep separate counter/index
    if x>maxv:
        maxv = x
        imax = i
    i += 1
print (maxv, imax)

In [None]:
# pythonic way: better use enumerate
#
maxv=nums[0]
imax = 0
for i,x in enumerate(nums): # provides index,value 
    if x>maxv:
        maxv = x
        imax = i
print (maxv, imax)

<font color=#0000e6> ``enumerate``</font>  liefert Index und Element zusammen:

In [None]:
list(enumerate(nums))