# Regex in Python

**Inhalt:** Text nach bestimmten Mustern durchsuchen

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Syntax für Regular Expressions kennenlernen
- Anwendungsmöglichkeiten für Regex

**Ressourcen:**
- Simons Cheatsheet: https://github.com/MAZ-CAS-DDJ/kurs_19_20/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/regex.md
- Offizielle Dokumentation: https://docs.python.org/3/library/re.html
- Ein Online-Regex-Tester: https://pythex.org/
- Ein weiterer Online-Texter: https://regex101.com/
- Ein Cheat-Sheet: https://www.dataquest.io/blog/large_files/python-regular-expressions-cheat-sheet.pdf
- Ein weiteres Cheat-Sheet: https://www.shortcutfoo.com/app/dojos/python-regex/cheatsheet
- Ein Online Traningskurs: https://www.shortcutfoo.com/app/dojos/python-regex/learn

## Worum es geht

Regular Expressions sind eine super-sophistizierte Form von Such-Wildcards. Wir kennen solche Wildcards aus zB aus Windows-Explorer-Suche: Man benutzt Spezialcharaktere wie Sternchen `(*)` um der Suchmaschine anzuzeigen: Hier könnten verschiedene Buchstaben stehen. Regular Expressions dienen also zur Durchsuchung von Texten nach bestimmten, vordefinierten Mustern. Wir können Regex im Datenjournalismus brauchen, um zB Texte nach Emails oder Postleitzahlen zu durchsuchen, oder um Daten zu säubern und zu formatieren.

Was für Muster gibt es? Wie komplex kann die Suche werden? Wir testen dies gleich selbst aus.
- Diese Seite hier öffnen: https://regex101.com/ (in einem neuen Fenster)
- Dieses Cheat-Sheet hier öffnen: https://github.com/MAZ-CAS-DDJ/kurs_19_20/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/regex.md
- Den untenstehenden Text in die Zwischenablage kopieren:

In [1]:
text = '''
D'w. Nuss vo Bümpliz geit dür d'Strass
liecht u flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch u brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse i bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching
u jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off
u macht se zue bi jedem Kuss
u we sie lachet wärde Bärge zu schtoub
u jedes zäihe Läderhärz wird weich

D'w. Nuss vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für si git's nüt, wo's nid git
u aus wo's git, git's nid für ging
si nimmt's wi's chunnt u lat's la gah

D'w. Nuss vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah
'''

## Regular Expressions in Python

Regex sind in den meisten Programmiersprachen ähnlich aufgebaut. Die Python-Library dazu heisst `re`

In [2]:
import re

## Funktionen

In dieser Bibliothek gibt es fünf Funktionen, die wir benutzen können. Grundsätzlich geht es immer darum: anhand von einer Regex und einem String sollen ein oder mehrere Treffer erzielt werden. Die Funktionen machen daraufhin unterschiedliche Dinge mit dem Ergebnis

**`match()`** und **`search()`**: Diese Funktionen sagen uns, ob *ein Treffer* erzielt wurde und an welchem Ort er sich befindet.

**`findall()`**: Diese Funktion erstellt eine Liste von allen Treffern.

**`split()`**: Splittet einen langen String in eine Liste von Substrings, und zwar an den Orten, wo ein Treffer erzielt wurde.

**`sub()`**: Dort, wo ein Treffer erzielt wurde, wir der Suchstring durch einen anderen Text erstetzt.

### Markierungszeichen

Um einen Regex-Suchausdruck zu benutzen, empfiehlt es sich, ein "r" vor den String zu stellen.

In [3]:
suchausdruck = r"n.ss"

### search()

Durchsucht den ganzen String, liefert das erste Ergebnis.

In [4]:
resultat = re.search(r"n.ss", text, re.IGNORECASE)

Das Ergebnis ist eine Art ja/nein-Antwort mit einigen Details

In [5]:
resultat 

<_sre.SRE_Match object; span=(6, 10), match='Nuss'>

Es handelt sich um ein so genanntes Match-Objekt: https://docs.python.org/3/library/re.html#match-objects

Dieses Objekt hat einige Eigenschaften, die wir abfragen können:

In [6]:
resultat.group() #Der gefundene String

'Nuss'

In [7]:
resultat.start() #die Startposition des gefundenen Strings

6

In [8]:
resultat.end() #die Endposition des gefundenen Strings

10

Die Regex-Funktionen nehmen eine Reihe von so genannten **Flags** an:
- re.IGNORECASE = Gross-/Kleinschreibung ignorieren
- re.MULTILINE = `^` und `$` schlagen bei Zeilenumbrüchen an
- ... siehe auch: https://docs.python.org/3/library/re.html#module-contents

Zum Beispiel können wir so Zeilen suchen, die mit dem Wort "Bockstössigi" anfangen

In [9]:
re.search(r"^Bockstössigi", text, re.MULTILINE)

<_sre.SRE_Match object; span=(93, 105), match='Bockstössigi'>

### match()

Durchsucht nur den *Anfang* des Strings. Am besten gleich wieder vergessen.

In [10]:
re.match("a", "abcdef") #gibt ein Ergebnis

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [11]:
re.match("b", "abcdef") #gibt kein Ergebnis

### findall()

Durchsucht den ganzen String, liefert eine Liste aller Treffer.

In [12]:
words = re.findall(r"\b[iu]\b", text, re.IGNORECASE) #Alle Wörter, die nur aus "i" oder "u" bestehen

In [13]:
words

['u',
 'u',
 'U',
 'i',
 'u',
 'u',
 'u',
 'u',
 'i',
 'i',
 'u',
 'i',
 'i',
 'u',
 'u',
 'i',
 'i',
 'u',
 'i',
 'i']

Mit der Liste kann man alles machen, was man mit Listen halt so machen kann.

In [14]:
len(words)

20

### split()

Splittet den Text überall dort, wo es einen Treffer gab, liefert das Ergebnis als Liste. Der Treffer selbst wird herausgeschnitten.

In [15]:
newlist = re.split(r"\b[iu]\b", text) #Wir splitten überall, wo i- und u-Wörter stehen

In [16]:
for line in newlist:
    print(line)


D'w. Nuss vo Bümpliz geit dür d'Strass
liecht 
 flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch 
 brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse 
 bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching

 jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off

 macht se zue bi jedem Kuss

 we sie lachet wärde Bärge zu schtoub

 jedes zäihe Läderhärz wird weich

D'w. Nuss vo Bümpliz
isch schön win es Füür 
 dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert 
 Hals

 
 gseh win 
 ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für si git's nüt, wo's nid git

 aus wo's git, git's nid für ging
si nimmt's wi's chunnt 
 lat's la gah

D'w. Nuss vo Bümpliz
isch schön win es Füür 
 dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert 
 Hals

 


### sub()

Ersetzt den Treffer durch einen anderen String.

In [17]:
neuer_text = re.sub(r"\bi\b", "çu", text) #Ersetzt alle i durch çu
neuer_text = re.sub(r"\bI\b", "çU", neuer_text) #Grossbuchstaben separat

neuer_text = re.sub(r"\bu\b", "i", neuer_text) #Ersetzt alle u durch i
neuer_text = re.sub(r"\bU\b", "I", neuer_text) #Grossbuchstaben separat

neuer_text = re.sub(r"\bçu\b", "u", neuer_text) #Ersetzt alle çu durch i
neuer_text = re.sub(r"\bçU\b", "U", neuer_text) #Grossbuchstaben separat

print(neuer_text)


D'w. Nuss vo Bümpliz geit dür d'Strass
liecht i flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch i brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

I d'Spargle wachse u bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching
i jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off
i macht se zue bi jedem Kuss
i we sie lachet wärde Bärge zu schtoub
i jedes zäihe Läderhärz wird weich

D'w. Nuss vo Bümpliz
isch schön win es Füür u dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert u Hals
i u gseh win u ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für si git's nüt, wo's nid git
i aus wo's git, git's nid für ging
si nimmt's wi's chunnt i lat's la gah

D'w. Nuss vo Bümpliz
isch schön win es Füür u dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert u Hals
i u

Wir können `sub()` auch mit einer Funktion benutzen:

In [18]:
re.findall(r"\b\w*ü\w\b", text) # Zum Testen: Alle Wörter mit einem ü drin

['dür', 'Füür', 'dür', 'für', 'nüt', 'für', 'Füür']

In [19]:
def replace(match): # Diese Funktion wollen wir drauf anwenden (wir kriegen das Resultat als Match-Objekt geliefert)
    word = match.group() + " - oh, yeah! - "
    return word

In [20]:
neuer_text = re.sub(r"\b\w*ü\w\b", replace, text) #Hier rufen wir unsere replace-Funktion auf

In [21]:
print (neuer_text)


D'w. Nuss vo Bümpliz geit dür - oh, yeah! -  d'Strass
liecht u flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch u brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse i bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching
u jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off
u macht se zue bi jedem Kuss
u we sie lachet wärde Bärge zu schtoub
u jedes zäihe Läderhärz wird weich

D'w. Nuss vo Bümpliz
isch schön win es Füür - oh, yeah! -  i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür - oh, yeah! -  jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für - oh, yeah! -  si git's nüt - oh, yeah! - , wo's nid git
u aus wo's git, git's nid für - oh, yeah! -  ging
si nimmt's wi's chunnt u lat's la gah

D'w. Nuss vo Bümpliz
isch schön win es Füür - oh, y

## Spezielles

### Capture-Klammern

Die Klammern dienen dazu, nur gewisse Teile einer Regex einzufangen:

In [22]:
re.findall(r"\b\w*ss\w*\b ", text) #Hier suchen wir zuerst mal nur alle Wörter, die zwei ss drin haben

['Nuss ', 'Bockstössigi ', 'Nuss ', 'duss ', 'Nuss ', 'duss ']

In [23]:
re.findall(r"\b\w*ss\w*\b \w+", text) #Nun suchen wir alle Wörter, die zwei ss drin haben plus das nächste Wort

['Nuss vo',
 'Bockstössigi Himbeerbuebe',
 'Nuss vo',
 'duss in',
 'Nuss vo',
 'duss in']

In [24]:
re.findall(r"\b\w*ss\w*\b (\w+)", text) #Jetzt wollen wir nur das nächste Wort einfangen

['vo', 'Himbeerbuebe', 'vo', 'in', 'vo', 'in']

In [25]:
re.findall(r"(\b\w*ss\w*\b) (\w+)", text) #Jetzt fangen wir die beiden Wörter separat ein

[('Nuss', 'vo'),
 ('Bockstössigi', 'Himbeerbuebe'),
 ('Nuss', 'vo'),
 ('duss', 'in'),
 ('Nuss', 'vo'),
 ('duss', 'in')]

### Lookahead / Lookbehind

Eine Sonder-Funktionalität: Zeichen, die gefolgt werden von anderen Zeichen (die Klammern sind nicht zu verwechseln mit den Capture-Klammern.

In [26]:
re.findall(r"w.(?= Nuss)", text) #Lookahead

['w.', 'w.', 'w.']

In [27]:
re.findall(r"(?<=w. )Nuss", text) #Lookbehind

['Nuss', 'Nuss', 'Nuss']

## Lexikon

Hier nochmals eine (nicht ganz abschliessende) Liste der Spezialzeichen.

| repetitions | what it does |
|--------|---------|
| `*` | match 0 or more repetitions |
| `+` | match 1 or more repetitions  |
| `?` | match 0 or 1 repetitions  |
| `{m}` | m specifies the number of repetitions  |
| `{m,n}` | m and n specifies a range of repetitions  |
| `{m,}` | m specifies the minimum number of repetitions  |

| Shortcut | what it does |
|--------|---------|
| `.` | Match any character except newline |
| `\w` | letters |
| `\W` | not letters |
| `\d` | numbers [0-9] |
| `\D` | not numbers |
| `\s` | whitespace characters: space, tab... |
| `\S` | not space |
| `\b` | Word boundary: spaces, commas, end of line |
| `\B` | Not a word-boundary |
| `^` | match the beginning of string |
| `$` | match the end of string, including `\n` |

| enclosures | what it does |
|--------|---------|
| `[]` | A defined **set** of characters to search for |
| `()` | A group of characters to search for, can be accessed in the results. |

| Examples of sets | what it does |
|--------|---------|
| `[aeiou]` | Find any vowel |
| `[Tt]` | Find a lowercase or uppercase t |
| `[0-9]` | Find any number (there is a shortcut for this) |
| `[^0-9]` | Find anything that's not number (there is a shortcut for this) |
| `[13579]` | Find any odd numer |
| `[A-Za-z]` | Find any letter (there is a shortcut for this too) |
| `[+.*]` | Find those actual characters (special characters are canceled in sets) |

| Lookahead/behind | what it does |
|--------|---------|
| `A(?=B)` | Find A if followed by B |
| `A(?!B)` | Find A if not followed by B |
| `(?<=B)A` | Find A if preceded by B |
| `(?<!B)A` | Find A if not preceded by B |
| `(A)\1` | Backreferencing content of group 1 |

# Übungen

Wir arbeiten nach wie vor mit dem Patent-Ochsner-Song in der Variable `text`.

Es gibt drei Schwierigkeitsgrade: easy, advanced, pro.

Manchmal müssen Sie regex-Ausdrücke verwenden, manchmal ganz einfach Python-Funktionen verwenden, zB für Listen.

Googeln ist erlaubt!!

## Easy

In [28]:
# Finde alle b's im Text (Liste erstellen)
re.findall(r"b", text)

['b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b']

In [29]:
# Finde alle Wörter, die mit b beginnen, unabhängig von Gross-/Kleinschreibung
re.findall(r"\bb\w*", text, re.IGNORECASE)

['Bümpliz',
 'Bockstössigi',
 'brav',
 'bluetjung',
 'bi',
 'Bärge',
 'Bümpliz',
 'Bümpliz',
 'Bümpliz',
 'Bümpliz']

In [30]:
# Finde alle Wörter, die ein b enthalten, unabhängig von Gross-/Kleinschreibung
re.findall(r"\w*b\w*", text, re.IGNORECASE)

['Bümpliz',
 'unerreichbar',
 'Bockstössigi',
 'Himbeerbuebe',
 'brav',
 'tubetänzig',
 'bluetjung',
 'bi',
 'Bärge',
 'schtoub',
 'Bümpliz',
 'Bümpliz',
 'läbt',
 'Bümpliz',
 'Bümpliz']

In [31]:
# Erstelle eine Liste aller Zeilen im Text
re.findall(r"^.+$", text, re.MULTILINE)

["D'w. Nuss vo Bümpliz geit dür d'Strass",
 'liecht u flüchtig, wie nes Gas',
 'so unerreichbar höch',
 'Bockstössigi Himbeerbuebe',
 'schüüch u brav wie Schaf',
 'schön föhnfrisiert',
 'chöme tubetänzig nöch',
 "U d'Spargle wachse i bluetjung Morge",
 "d'Sunne chunnt 's wird langsam warm",
 'Sie het meh als hundert ching',
 "u jede Früehlig git 's es nöis",
 "het d'Chiuchefänschterouge off",
 'u macht se zue bi jedem Kuss',
 'u we sie lachet wärde Bärge zu schtoub',
 'u jedes zäihe Läderhärz wird weich',
 "D'w. Nuss vo Bümpliz",
 'isch schön win es Füür i dr Nacht',
 'win e Rose im Schnee',
 'we se gseh duss in Bümpliz',
 'de schlat mir mis Härz hert i Hals',
 'u i gseh win i ungergah',
 'Si wohnt im ne Huus us Glas',
 'hinger Türe ohni Schloss',
 'gseht dür jedi Muur',
 'dänkt wi nes Füürwärch',
 'win e Zuckerstock',
 'läbt win e Wasserfau',
 "für si git's nüt, wo's nid git",
 "u aus wo's git, git's nid für ging",
 "si nimmt's wi's chunnt u lat's la gah",
 "D'w. Nuss vo Bümpliz",
 'i

In [32]:
# eine Liste aller Wörter, die mit Grossbuchstaben beginnen
re.findall(r"\b[A-Z]\w*", text)

['D',
 'Nuss',
 'Bümpliz',
 'Strass',
 'Gas',
 'Bockstössigi',
 'Himbeerbuebe',
 'Schaf',
 'U',
 'Spargle',
 'Morge',
 'Sunne',
 'Sie',
 'Früehlig',
 'Chiuchefänschterouge',
 'Kuss',
 'Bärge',
 'Läderhärz',
 'D',
 'Nuss',
 'Bümpliz',
 'Füür',
 'Nacht',
 'Rose',
 'Schnee',
 'Bümpliz',
 'Härz',
 'Hals',
 'Si',
 'Huus',
 'Glas',
 'Türe',
 'Schloss',
 'Muur',
 'Füürwärch',
 'Zuckerstock',
 'Wasserfau',
 'D',
 'Nuss',
 'Bümpliz',
 'Füür',
 'Nacht',
 'Rose',
 'Schnee',
 'Bümpliz',
 'Härz',
 'Hals']

In [33]:
# Eine Liste aller Wörter, die mehr als 8 Buchstaben haben
re.findall(r"\b\w{8,}\b", text)

['flüchtig',
 'unerreichbar',
 'Bockstössigi',
 'Himbeerbuebe',
 'föhnfrisiert',
 'tubetänzig',
 'bluetjung',
 'Früehlig',
 'Chiuchefänschterouge',
 'Läderhärz',
 'ungergah',
 'Füürwärch',
 'Zuckerstock',
 'Wasserfau',
 'ungergah']

In [34]:
# Eine Liste aller Wörte, die einen Doppelvokal enthalten (z.B. "geit")
re.findall(r"\w*[aeiouäöü]{2}\w*", text)

['geit',
 'liecht',
 'wie',
 'unerreichbar',
 'Himbeerbuebe',
 'schüüch',
 'wie',
 'föhnfrisiert',
 'bluetjung',
 'Sie',
 'Früehlig',
 'nöis',
 'Chiuchefänschterouge',
 'zue',
 'sie',
 'schtoub',
 'zäihe',
 'weich',
 'Füür',
 'Schnee',
 'Huus',
 'Muur',
 'Füürwärch',
 'Wasserfau',
 'aus',
 'Füür',
 'Schnee']

## Advanced

In [35]:
# Welches Wort kommt im Text öfter vor: "w. Nuss" oder "Bümpliz"?
n_wnuss = len(re.findall(r"w. Nuss", text))
n_buempliz = len(re.findall(r"Bümpliz", text))
if n_wnuss > n_buempliz:
    print("w. Nuss")
elif n_wnuss == n_buempliz:
    print("gleich oft")
else:
    print("Bümpliz")

Bümpliz


In [36]:
# An welcher Position (Zeichen-Nr) steht das Wort "Zuckerstock"?
re.search(r"Zuckerstock", text).start()

721

In [37]:
# Sortieren Sie die Liedzeilen nach der Länge der Zeile
lines = sorted(re.findall(r"^.+$", text, re.MULTILINE),key=len, reverse=True)
lines

["D'w. Nuss vo Bümpliz geit dür d'Strass",
 'u we sie lachet wärde Bärge zu schtoub',
 "si nimmt's wi's chunnt u lat's la gah",
 "U d'Spargle wachse i bluetjung Morge",
 "d'Sunne chunnt 's wird langsam warm",
 'u jedes zäihe Läderhärz wird weich',
 'de schlat mir mis Härz hert i Hals',
 "u aus wo's git, git's nid für ging",
 'de schlat mir mis Härz hert i Hals',
 'isch schön win es Füür i dr Nacht',
 'isch schön win es Füür i dr Nacht',
 'liecht u flüchtig, wie nes Gas',
 "u jede Früehlig git 's es nöis",
 "het d'Chiuchefänschterouge off",
 "für si git's nüt, wo's nid git",
 'Sie het meh als hundert ching',
 'u macht se zue bi jedem Kuss',
 'Si wohnt im ne Huus us Glas',
 'we se gseh duss in Bümpliz',
 'we se gseh duss in Bümpliz',
 'Bockstössigi Himbeerbuebe',
 'schüüch u brav wie Schaf',
 'hinger Türe ohni Schloss',
 'u i gseh win i ungergah',
 'u i gseh win i ungergah',
 'dänkt wi nes Füürwärch',
 'chöme tubetänzig nöch',
 'so unerreichbar höch',
 "D'w. Nuss vo Bümpliz",
 'win e Ros

In [38]:
# Welches ist die längste Liedzeile?
max(lines, key=len)

"D'w. Nuss vo Bümpliz geit dür d'Strass"

In [39]:
# Ersetzen Sie "v. Nuss" durch "Venus"
print(re.sub(r"w\. Nuss", "Venus", text))


D'Venus vo Bümpliz geit dür d'Strass
liecht u flüchtig, wie nes Gas
so unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch u brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse i bluetjung Morge
d'Sunne chunnt 's wird langsam warm

Sie het meh als hundert ching
u jede Früehlig git 's es nöis
het d'Chiuchefänschterouge off
u macht se zue bi jedem Kuss
u we sie lachet wärde Bärge zu schtoub
u jedes zäihe Läderhärz wird weich

D'Venus vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah

Si wohnt im ne Huus us Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt wi nes Füürwärch
win e Zuckerstock
läbt win e Wasserfau
für si git's nüt, wo's nid git
u aus wo's git, git's nid für ging
si nimmt's wi's chunnt u lat's la gah

D'Venus vo Bümpliz
isch schön win es Füür i dr Nacht
win e Rose im Schnee
we se gseh duss in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh 

In [40]:
# Entfernen Sie alle Wörter, die weniger als 3 Buchstaben lang sind, aus dem Text
print(re.sub(r"\b\w{1,2}\b", "", text))


'. Nuss  Bümpliz geit dür 'Strass
liecht  flüchtig, wie nes Gas
 unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch  brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

 'Spargle wachse  bluetjung Morge
'Sunne chunnt ' wird langsam warm

Sie het meh als hundert ching
 jede Früehlig git '  nöis
het 'Chiuchefänschterouge off
 macht  zue  jedem Kuss
  sie lachet wärde Bärge  schtoub
 jedes zäihe Läderhärz wird weich

'. Nuss  Bümpliz
isch schön win  Füür   Nacht
win  Rose  Schnee
  gseh duss  Bümpliz
 schlat mir mis Härz hert  Hals
  gseh win  ungergah

 wohnt   Huus  Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt  nes Füürwärch
win  Zuckerstock
läbt win  Wasserfau
für  git' nüt, ' nid git
 aus ' git, git' nid für ging
 nimmt' ' chunnt  lat'  gah

'. Nuss  Bümpliz
isch schön win  Füür   Nacht
win  Rose  Schnee
  gseh duss  Bümpliz
 schlat mir mis Härz hert  Hals
  gseh win  ungergah



In [41]:
# Entfernen Sie alle Wörter, die weniger als 3 Buchstaben lang sind, sowie alle Sonderzeichen aus dem Text
print(re.sub(r"\b\w{1,2}\b|[.,']", "", text))


 Nuss  Bümpliz geit dür Strass
liecht  flüchtig wie nes Gas
 unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch  brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

 Spargle wachse  bluetjung Morge
Sunne chunnt  wird langsam warm

Sie het meh als hundert ching
 jede Früehlig git   nöis
het Chiuchefänschterouge off
 macht  zue  jedem Kuss
  sie lachet wärde Bärge  schtoub
 jedes zäihe Läderhärz wird weich

 Nuss  Bümpliz
isch schön win  Füür   Nacht
win  Rose  Schnee
  gseh duss  Bümpliz
 schlat mir mis Härz hert  Hals
  gseh win  ungergah

 wohnt   Huus  Glas
hinger Türe ohni Schloss
gseht dür jedi Muur
dänkt  nes Füürwärch
win  Zuckerstock
läbt win  Wasserfau
für  git nüt  nid git
 aus  git git nid für ging
 nimmt  chunnt  lat  gah

 Nuss  Bümpliz
isch schön win  Füür   Nacht
win  Rose  Schnee
  gseh duss  Bümpliz
 schlat mir mis Härz hert  Hals
  gseh win  ungergah



In [42]:
# Entfernen Sie alle Wörter, die weniger als 4 Buchstaben lang sind, sowie alle Sonderzeichen aus dem Text
# Dann reduzieren Sie alle doppelten und dreifachen Leerschläge auf einen Leerschlag (die Strophen intakt lassen)
# Dann entfernen Sie alle Leerschläge am Anfang von Zeilen. (Achtung, hier braucht es flags=re.MULTILINE)

newtext = re.sub(r"\b\w{1,3}\b|[.',]", "", text)
newtext = re.sub(r" {2,}", " ", newtext)
newtext = re.sub(r"^ ", "", newtext, flags=re.MULTILINE)
print(newtext)


Nuss Bümpliz geit Strass
liecht flüchtig 
unerreichbar höch

Bockstössigi Himbeerbuebe
schüüch brav Schaf
schön föhnfrisiert
chöme tubetänzig nöch

Spargle wachse bluetjung Morge
Sunne chunnt wird langsam warm

hundert ching
jede Früehlig nöis
Chiuchefänschterouge 
macht jedem Kuss
lachet wärde Bärge schtoub
jedes zäihe Läderhärz wird weich

Nuss Bümpliz
isch schön Füür Nacht
Rose Schnee
gseh duss Bümpliz
schlat Härz hert Hals
gseh ungergah

wohnt Huus Glas
hinger Türe ohni Schloss
gseht jedi Muur
dänkt Füürwärch
Zuckerstock
läbt Wasserfau

ging
nimmt chunnt 

Nuss Bümpliz
isch schön Füür Nacht
Rose Schnee
gseh duss Bümpliz
schlat Härz hert Hals
gseh ungergah



In [43]:
# Entfernen Sie den letzten Buchstaben aus jedem Wort
print(re.sub(r"(\w)\b", "", text))


'. Nus v Bümpli gei dü 'Stras
liech  flüchti, wi ne Ga
s unerreichba höc

Bockstössig Himbeerbueb
schüüc  bra wi Scha
schö föhnfrisier
chöm tubetänzi nöc

 'Spargl wachs  bluetjun Morg
'Sunn chunn ' wir langsa war

Si he me al hunder chin
 jed Früehli gi ' e nöi
he 'Chiuchefänschteroug of
 mach s zu b jede Kus
 w si lache wärd Bärg z schtou
 jede zäih Läderhär wir weic

'. Nus v Bümpli
isc schö wi e Füü  d Nach
wi  Ros i Schne
w s gse dus i Bümpli
d schla mi mi Här her  Hal
  gse wi  ungerga

S wohn i n Huu u Gla
hinge Tür ohn Schlos
gseh dü jed Muu
dänk w ne Füürwärc
wi  Zuckerstoc
läb wi  Wasserfa
fü s gi' nü, w' ni gi
 au w' gi, gi' ni fü gin
s nimm' w' chunn  la' l ga

'. Nus v Bümpli
isc schö wi e Füü  d Nach
wi  Ros i Schne
w s gse dus i Bümpli
d schla mi mi Här her  Hal
  gse wi  ungerga



## Pro

In [44]:
# Konvertieren Sie alles zu Kleinbuchstaben
# Dann erstellen Sie eine Liste aller Wörter im Text
# Dann sortieren Sie die Liste alphabetisch - jedes Wort soll nur einmal vorkommen
woerter = re.findall(r"\b\w+\b", text.lower())
set(sorted(woerter))

{'als',
 'aus',
 'bi',
 'bluetjung',
 'bockstössigi',
 'brav',
 'bärge',
 'bümpliz',
 'ching',
 'chiuchefänschterouge',
 'chunnt',
 'chöme',
 'd',
 'de',
 'dr',
 'duss',
 'dänkt',
 'dür',
 'e',
 'es',
 'flüchtig',
 'früehlig',
 'föhnfrisiert',
 'für',
 'füür',
 'füürwärch',
 'gah',
 'gas',
 'geit',
 'ging',
 'git',
 'glas',
 'gseh',
 'gseht',
 'hals',
 'hert',
 'het',
 'himbeerbuebe',
 'hinger',
 'hundert',
 'huus',
 'härz',
 'höch',
 'i',
 'im',
 'in',
 'isch',
 'jede',
 'jedem',
 'jedes',
 'jedi',
 'kuss',
 'la',
 'lachet',
 'langsam',
 'lat',
 'liecht',
 'läbt',
 'läderhärz',
 'macht',
 'meh',
 'mir',
 'mis',
 'morge',
 'muur',
 'nacht',
 'ne',
 'nes',
 'nid',
 'nimmt',
 'nuss',
 'nöch',
 'nöis',
 'nüt',
 'off',
 'ohni',
 'rose',
 's',
 'schaf',
 'schlat',
 'schloss',
 'schnee',
 'schtoub',
 'schön',
 'schüüch',
 'se',
 'si',
 'sie',
 'so',
 'spargle',
 'strass',
 'sunne',
 'tubetänzig',
 'türe',
 'u',
 'unerreichbar',
 'ungergah',
 'us',
 'vo',
 'w',
 'wachse',
 'warm',
 'wasserfau

In [45]:
# Wie viele unterschiedliche Wörter kommen im Text vor?
set(sorted(woerter))

{'als',
 'aus',
 'bi',
 'bluetjung',
 'bockstössigi',
 'brav',
 'bärge',
 'bümpliz',
 'ching',
 'chiuchefänschterouge',
 'chunnt',
 'chöme',
 'd',
 'de',
 'dr',
 'duss',
 'dänkt',
 'dür',
 'e',
 'es',
 'flüchtig',
 'früehlig',
 'föhnfrisiert',
 'für',
 'füür',
 'füürwärch',
 'gah',
 'gas',
 'geit',
 'ging',
 'git',
 'glas',
 'gseh',
 'gseht',
 'hals',
 'hert',
 'het',
 'himbeerbuebe',
 'hinger',
 'hundert',
 'huus',
 'härz',
 'höch',
 'i',
 'im',
 'in',
 'isch',
 'jede',
 'jedem',
 'jedes',
 'jedi',
 'kuss',
 'la',
 'lachet',
 'langsam',
 'lat',
 'liecht',
 'läbt',
 'läderhärz',
 'macht',
 'meh',
 'mir',
 'mis',
 'morge',
 'muur',
 'nacht',
 'ne',
 'nes',
 'nid',
 'nimmt',
 'nuss',
 'nöch',
 'nöis',
 'nüt',
 'off',
 'ohni',
 'rose',
 's',
 'schaf',
 'schlat',
 'schloss',
 'schnee',
 'schtoub',
 'schön',
 'schüüch',
 'se',
 'si',
 'sie',
 'so',
 'spargle',
 'strass',
 'sunne',
 'tubetänzig',
 'türe',
 'u',
 'unerreichbar',
 'ungergah',
 'us',
 'vo',
 'w',
 'wachse',
 'warm',
 'wasserfau

In [46]:
# Welcher Buchstabe steht am häufigsten vor einem "ä" (Gross/Kleinschreibung egal)?
buchstaben = re.findall(r"\w(?=ä)", text.lower())
max(buchstaben, key=buchstaben.count)

'h'

In [47]:
# Liste aller Buchstaben, die nochmals vom selben Buchstaben gefolgt werden
re.findall(r"(\w)\1", text)

['s',
 's',
 'r',
 's',
 'e',
 'ü',
 'n',
 'n',
 'f',
 's',
 's',
 'ü',
 'e',
 's',
 'u',
 's',
 'u',
 'ü',
 's',
 'm',
 'n',
 's',
 'ü',
 'e',
 's']

In [48]:
# Ersetzen Sie sämtliche Doppelbuchstaben (zB "aa") durch einfache Buchstaben ("a)
# Achtung: Sie müssen eine separate (Lambda-)Funktion dafür schreiben

print(re.sub(r"(\w)\1", lambda m: m.group()[0], text))


D'w. Nus vo Bümpliz geit dür d'Stras
liecht u flüchtig, wie nes Gas
so unereichbar höch

Bockstösigi Himberbuebe
schüch u brav wie Schaf
schön föhnfrisiert
chöme tubetänzig nöch

U d'Spargle wachse i bluetjung Morge
d'Sune chunt 's wird langsam warm

Sie het meh als hundert ching
u jede Früehlig git 's es nöis
het d'Chiuchefänschterouge of
u macht se zue bi jedem Kus
u we sie lachet wärde Bärge zu schtoub
u jedes zäihe Läderhärz wird weich

D'w. Nus vo Bümpliz
isch schön win es Für i dr Nacht
win e Rose im Schne
we se gseh dus in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah

Si wohnt im ne Hus us Glas
hinger Türe ohni Schlos
gseht dür jedi Mur
dänkt wi nes Fürwärch
win e Zuckerstock
läbt win e Waserfau
für si git's nüt, wo's nid git
u aus wo's git, git's nid für ging
si nimt's wi's chunt u lat's la gah

D'w. Nus vo Bümpliz
isch schön win es Für i dr Nacht
win e Rose im Schne
we se gseh dus in Bümpliz
de schlat mir mis Härz hert i Hals
u i gseh win i ungergah



### Super-Pro 1

Wenn wir mehr als eine Gruppe bilden, können wir die einzelnen Gruppen mit `group(1)`, `group(2)` etc. abrufen.

In [49]:
match = re.search(r"(\w)(\w+)(\w)", text) #Findet ein Wort, das mindestens 4 Buchstaben hat, fängt 3 Gruppen ein

In [50]:
match.group() #Der ganze gematchte Inhalt

'Nuss'

In [51]:
match.group(1) #Nur der Inhalt der ersten Unterruppe

'N'

In [52]:
match.group(3) #Nur der Inhalt der dritten Untergruppe

's'

In [53]:
# Vertauschen Sie in sämtlichen Wörtern mit mindestens 3 Buchstaben den ersten und letzten Buchstaben
# Achtung: Sie müssen eine separate (Lambda-)Funktion dafür schreiben
def replace(match):
    return match.group(3) + match.group(2) + match.group(1)

In [54]:
print(re.sub(r"(\w)(\w+)(\w)", replace, text))


D'w. susN vo zümpliB teig rüd d'strasS
tiechl u glüchtif, eiw sen saG
so rnerreichbau höch

iockstössigB eimbeerbuebH
hchüücs u vrab eiw fchaS
nchös töhnfrisierf
ehömc gubetänzit höcn

U d'eparglS eachsw i gluetjunb eorgM
d'eunnS thunnc 's dirw mangsal marw

eiS teh hem sla tunderh ghinc
u eedj grüehliF tig 's es söin
teh d'ehiuchefänschterougC ffo
u tachm se euz bi medej susK
u we eis tachel eärdw eärgB zu bchtous
u sedej eäihz zäderhärL dirw heicw

D'w. susN vo zümpliB
hsci nchös niw es rüüF i dr tachN
niw e eosR im echneS
we se hseg susd in zümpliB
de tchlas rim sim zärH terh i salH
u i hseg niw i hngergau

Si tohnw im ne suuH us slaG
ringeh eürT ihno schlosS
tsehg rüd iedj ruuM
tänkd wi sen hüürwärcF
niw e kuckerstocZ
täbl niw e uasserfaW
rüf si tig's tün, wo's din tig
u sua wo's tig, tig's din rüf ging
si timmn's wi's thunnc u tal's la hag

D'w. susN vo zümpliB
hsci nchös niw es rüüF i dr tachN
niw e eosR im echneS
we se hseg susd in zümpliB
de tchlas rim sim zärH terh i salH
u i

### Super-Pro 2

In [55]:
# Wirbeln Sie die Wörter, die auf einer Zeile stehen, durcheinander. (Die Zeilen-Reihenfolge bleibt aber intakt)
# Bsp:
# w dür D Bümpliz d Nuss Strass vo geit
# flüchtig liecht u wie Gas nes
...

Ellipsis

In [56]:
#Tipp 1: Hier ist eine Shuffle-Funktion
from random import shuffle
my_list = ["a", "b", "c", "d", "e"]
shuffle(my_list)
my_list

['e', 'c', 'b', 'd', 'a']

In [57]:
# Tipp 2: List comprehension (massiv) benutzen
[element.upper() for element in my_list]

['E', 'C', 'B', 'D', 'A']

In [58]:
# Tipp 3: .join() benutzen
" ".join(my_list)

'e c b d a'

In [59]:
#Braucht ca 3-5 Zeilen Code...
lines = re.findall(r"^.*$", text, re.MULTILINE)
word_lines = [re.findall(r"\b\w+\b", line) for line in lines]
[shuffle(word_line) for word_line in word_lines]
lines = [" ".join(word_line) for word_line in word_lines]
print("\n".join(lines))


w Nuss geit D d Bümpliz dür Strass vo
u wie Gas liecht nes flüchtig
höch so unerreichbar

Bockstössigi Himbeerbuebe
brav u wie schüüch Schaf
föhnfrisiert schön
tubetänzig nöch chöme

Morge bluetjung U d wachse i Spargle
langsam warm s Sunne d chunnt wird

meh hundert het ching als Sie
nöis git s jede es u Früehlig
Chiuchefänschterouge d het off
se zue Kuss jedem macht bi u
u sie zu Bärge schtoub we wärde lachet
weich zäihe Läderhärz wird jedes u

D Bümpliz Nuss vo w
isch schön es Nacht i Füür dr win
Schnee im win e Rose
gseh we Bümpliz duss in se
Härz Hals mis i mir hert schlat de
win i u gseh i ungergah

ne Glas us Si wohnt Huus im
Schloss ohni Türe hinger
gseht Muur dür jedi
Füürwärch wi dänkt nes
Zuckerstock e win
Wasserfau win e läbt
git nid s si git s für nüt wo
ging git nid u wo für s git s aus
u chunnt lat s la s nimmt wi si s gah

D Nuss Bümpliz w vo
dr win es schön isch Füür i Nacht
im e Schnee win Rose
se gseh duss we in Bümpliz
mir de Härz Hals schlat mis hert i
ungergah wi