## Einführung in das Programmieren mit Python
# Comprehensions, Iteratoren und Generatoren: Funktionales Programmieren in Python

### Aufgabe

Schreiben Sie einen einfachen Tokenizer: Der Tokenizer soll eine Textdatei zeilenweise einlesen und jede Zeile in Tokens (Wörter und Zahlen) zerlegen. Ihr Tokenizer soll als Funktion aufrufbar sein und eine lange Sequenz / Liste mit allen Tokens aus der Datei zurückgeben. Alle Tokens sollen in Kleinbuchstaben normalisiert werden.

In [52]:
import re

def tokenize(filename):
    tokens = []
    
    with open(filename, "rt", encoding="utf-8") as file:
        for line in file:
            for token in re.findall("\w+", line):
                tokens.append(token.lower())
    
    return tokens

print(tokenize("roman.txt"))

['kurzer', 'roman', 'dies', 'ist', 'ein', 'langer', 'roman', 'er', 'beginnt', 'mit', 'dem', 'auftritt', 'des', 'heldens', 'da', 'es', 'keine', 'helden', 'gibt', 'unterbricht', 'hier', 'schon', 'der', 'leser']


### List Comprehensions

* Kurzschreibweise für systematisch aufgebaute Listen
* z.B. Quadratzahlen: $Q := \{ n^2 \mid n \in \mathbb{N} \}$
* in Python: `[` _Ausdruck_ `for` _name_ `in` _sequenz_ … `]`

In [14]:
quadratzahlen = [ n**2 for n in range(20) ]
print(quadratzahlen, type(quadratzahlen))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225, 256, 289, 324, 361] <class 'list'>


Man kann auch __filtern__:

In [18]:
[n**2 for n in range(20) if n % 2 == 0]

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324]

Auf mehreren Zeilen ist's u.U. übersichtlicher:

In [16]:
[ n**2 
     for n in range(20) 
     if n % 2 == 0 ]

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324]

<h3 style="color:green;">Aufgabe</h3>
Schreiben Sie eine List Comprehension, die aus einem String eine in Liste der in Kleinbuchstaben gewandelten Tokens generiert.

In [19]:
[ token.lower() for token in re.findall(r"\w+", "Dies ist ein Beispiel für eine List Comprehension.") ]

['dies', 'ist', 'ein', 'beispiel', 'für', 'eine', 'list', 'comprehension']

In [24]:
with open("roman.txt", encoding="utf-8") as file:
    result = [ re.findall(r'\w+', line) for line in file ]

In [26]:
print(result)

[['Kurzer', 'Roman'], ['Dies', 'ist', 'ein', 'langer', 'Roman', 'Er', 'beginnt', 'mit', 'dem', 'Auftritt', 'des', 'Heldens'], ['Da', 'es', 'keine', 'Helden', 'gibt', 'unterbricht', 'hier', 'schon', 'der', 'Leser']]


In [34]:
def tokenize(filename):
    with open(filename, encoding="utf-8") as file:
        return [ token.lower()
                      for line in file
                      for token in re.findall(r"\w+", line) ]
print(tokenize("roman.txt"))

['kurzer', 'roman', 'dies', 'ist', 'ein', 'langer', 'roman', 'er', 'beginnt', 'mit', 'dem', 'auftritt', 'des', 'heldens', 'da', 'es', 'keine', 'helden', 'gibt', 'unterbricht', 'hier', 'schon', 'der', 'leser']


### Dictionary Comprehensions

Man kann auch Dictionaries auf diese Weise bauen:

In [36]:
print({ token : len(token)  for token in tokens })

{'dies': 4, 'da': 2, 'helden': 6, 'keine': 5, 'dem': 3, 'schon': 5, 'es': 2, 'er': 2, 'langer': 6, 'heldens': 7, 'der': 3, 'gibt': 4, 'beginnt': 7, 'mit': 3, 'hier': 4, 'roman': 5, 'ein': 3, 'leser': 5, 'auftritt': 8, 'unterbricht': 11, 'des': 3, 'ist': 3, 'kurzer': 6}
