## Einführung in das Programmieren mit Python

# Strings bearbeiten mit regulären Ausdrücken

### Hausaufgabe

1) Schreiben Sie ein Skript, das die angehängte Datei von-einem-der-auszog.txt (UTF-8-codiert) einliest.

In [None]:
with open("von-einem-der-auszog.txt", "rt", encoding="UTF-8") as f:
    text = f.read()

2) Zerlegen Sie den Text in eine Liste einzelner Wörter (Tokens). Entfernen Sie Satzzeichen (siehe Hinweis unten).

In [None]:
import string
raw_tokens = text.split()
tokens = []
for token in raw_tokens:
    tokens.append(token.strip(string.punctuation + "«»"))

3.  Ermitteln Sie, wie oft jedes der unterschiedlichen Wörter in dem Text vorkommt. Wählen Sie eine geeignete Datenstruktur, um das Ergebnis (eine Worthäufigkeitstabelle) zu repräsentieren.

In [None]:
frequencies = {}
for token in tokens:
    if token not in frequencies:
        frequencies[token] = 1
    else:
        frequencies[token] += 1

In [None]:
# 4. Geben Sie mithilfe der Datenstruktur aus Teilaufgabe 3 die Häufigkeit der Wörter 'und' und 'Gruseln' aus.
print("und:", frequencies['und'])
print("Gruseln:", frequencies['Gruseln'])

5. Bonus (2 Extrapunkte): Geben Sie mithilfe der angelegten Datenstrukturen aus, wieviele Tokens in dem Text vorkommen  und wieviele unterschiedliche Wörter („Types“) in dem Text vorkommen, und berechnen Sie aus Anzahl Types / Anzahl Tokens den Type Token Ratio, ein (textlängenabhängiges) Maß für die  Komplexität eines Texts.

In [1]:
print("Tokens:", len(tokens), 
      "Types:", len(frequencies.keys()), 
      "TTR:", len(frequencies.keys()) / len(tokens))

und: 143
Gruseln: 16
Tokens: 3408 Types: 971 TTR: 0.2849178403755869


### Übungsaufgabe 1: Buchstaben zählen.

In [3]:
s = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
sum_wordlength = 0
for w in s.split():
    sum_wordlength += len(w)
avg_wordlength = sum_wordlength / len(s.split())
print("Durchschnittliche Wortlänge: ", avg_wordlength )
list_vowels = []
for w in s.lower().split():
    word_vowels = 0
    for c in w:
        if c in "aeiou":
            word_vowels += 1
    list_vowels.append(word_vowels)
print("Durchschnittliche Vokalanzahl: ", sum(list_vowels) / len(list_vowels))
list_consonants = []
for w in s.lower().split():
    word_cons = 0
    for c in w:
        if c in "bcdfghjklmnpqrstvwxyz":
            word_cons += 1
    list_consonants.append(word_cons)
print("Durchschnittliche Konsonantenanzahl: ", sum(list_consonants) / len(list_consonants))

Durchschnittliche Wortlänge:  5.3
Durchschnittliche Vokalanzahl:  1.7
Durchschnittliche Konsonantenanzahl:  3.6


#### Zerlegungsstufe 1

## Wiederholung: Dateien
* Dateien öffnen mit `f = open("datei.txt", "r", encoding="utf-8")`
* Methoden des Dateiobjekts zum Lesen und Schreiben, z.B. `read()`, `write()`
* Iterieren über Dateiobjekt zum zeilenweisen Lesen
* Dateien immer schließen
* `with open(…) as variable:` Automatisches Schließen am Ende des With-Blocks

### Reguläre Ausdrücke

* Minisprache zur Beschreibung von Klassen von Zeichenketten
* Typische Anwendungen: Suchen, Ersetzen, Aufteilen, Umstellen von Zeichenketten, Extrahieren von Informationen aus Zeichenketten
* Beispiel: Literaturangaben in der Digitalen Bibliothek:

> Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846

* reguläre Ausdrücke werden (mit leichten Abweichungen) von allen modernen Programmiersprachen und von allen halbwegs leistungsfähigen Texteditoren unterstützt

<h3>Einfache Anfänge</h3>

In [1]:
import re  # Modul für Reguläre Ausdrücke
s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'
print(s)

Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846


In [2]:
re.findall("im",s) 

['im', 'im']

### Begrifflichkeiten

* Ein Regulärer Ausdruck heißt auch **Pattern**
* ein Pattern **matcht** auf einen String (oder eben auch nicht).
* `re.findall(pattern, string)` findet alle Teilstrings von `string`, auf die `pattern` matcht.

### Ausprobieren

* https://regex101.com/#python

### Einfache reguläre Ausdrücke

* »normale« Zeichen (= keine Metazeichen) matchen sich selbst. `a` matcht `a`.
    * _Metazeichen_ sind `. ^ $ * + ? { } [ ] \ | ( )`, sie können gematcht werden, indem man einen `\` voranstellt 
* Ein Punkt `.` matcht ein beliebiges Zeichen (außer Newline). `.` matcht `a` oder `b` oder …    
* Zusammensetzen = Hintereinanderschreiben.
    * `abc` matcht "abc"
    * `H. h. h.` matcht z.B. "Ha ha ha" oder "Ho ho ho" oder "He ha hi"

### Zeichenklassen

* `[abc]` matcht ein Zeichen, das `a` oder `b` oder `c` ist.
* `[A-Fa-f]` matcht einen der Groß- oder Kleinbuchstaben von A bis F
* `^` am Beginn einer Zeichenklasse invertiert die Klasse:
   * `[^0-9]` matcht jedes Zeichen, das _keine_ Ziffer von 0-9 ist
* In Zeichenklassen gelten Metazeichen nicht: `[.]` matcht ebenso wie `\.` einen Punkt

#### häufige Zeichenklassen

-   `.` jedes Zeichen außer neue Zeile (`\n`)
-   `\d` jede Ziffer, z.B. 1, 4, 0 <br/>
    `\D` jedes Zeichen, das **keine** Ziffer ist.
-   `\s` jedes whitespace-Zeichen, z.B. Leerzeichen, `\n`, `\t`
    `\S` jedes Zeichen, das **kein** whitespace ist.<br/>
-   `\w` »Identifier-Zeichen«, also Buchstaben, z.B. A g ö ß 4 é € α И, Ziffern, Unterstrich `_` <br/>
    `\W` jedes Zeichen, das **kein** Identifier-Zeichen ist.

Die Definitionen beziehen sich auf die Unicode-Zeicheneigenschaften. Wer Zugriff auf die kompletten Unicode-Properties will, muss das externe Modul _regex_ installieren.

<h3 style="color:green">Aufgaben</h3>
Gegeben ist der String: `1. Ja. 2. Nein. 3. Gut.` Schreiben Sie jeweils reguläre Ausdrücke für folgende Aufgaben:
<ol>
<li>Finden Sie alle Zahlen in dem String.</li>
<li>Finden Sie alle Großbuchstaben in dem String.</li>
<li>Finden Sie alle Leerzeichen in dem String.</li>
</ol>

#### Raw Strings
* Um ein `\` zu matchen, benötigen Sie die RE `\\`, in einem Python-String `"\\\\"` ...
* in einem _raw string_ hat ``\`` keine Sonderbedeutung
* Syntax `r"…"` bzw. `r'…'`

In [30]:
print(r"C:\Windows", "Bla\nBlubb", r"Bla\nBlubb",)

C:\Windows Bla
Blubb Bla\nBlubb


### Entwickeln regulärer Ausdrücke

Es gibt Tools, die Ihnen bei der Entwicklung komplexer regulärer Ausdrücke helfen, indem sie die Treffer (und Gruppen, s.u.) eines regulären Ausdrucks in einem Beispielstring direkt beim Bearbeiten des Patterns markieren, z.B.:

* [regex101.com](https://regex101.com/#python) oder [pythex.org](http://pythex.org/) im Web
* [redemo.py](https://hg.python.org/cpython/file/3.3/Tools/demo/redemo.py) als lokale Anwendung aus dem Python-Projekt selbst

### Wiederholungen
* `*` matcht auf **0 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `+` matcht auf **1 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `?` matcht auf **0 oder 1** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `{n,m}` matcht auf **n bis m** Wiederholungen des vorherigen Zeichens/Teilausdrucks 

In [17]:
s = "Ha HaHa Haahaa Hai Hi Ho"
print("*", re.findall("H[ai]*", s))
print("+", re.findall("H[ai]+", s))
print("?", re.findall("H[ai]?", s))
print("{2,3}", re.findall("H[ai]{2,3}", s))

* ['Ha', 'Ha', 'Ha', 'Haa', 'Hai', 'Hi', 'H']
+ ['Ha', 'Ha', 'Ha', 'Haa', 'Hai', 'Hi']
? ['Ha', 'Ha', 'Ha', 'Ha', 'Ha', 'Hi', 'H']
{2,3} ['Haa', 'Hai']


### Aufgaben

`s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'`

1. Finden Sie alle (arabischen) Zahlen.
2. Finden Sie alle Zahlen, die mehr als 3 Ziffern haben

<h3>Musterlösung</h3>

In [16]:
s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'

(1) Finden Sie alle (arabischen) Zahlen.

In [17]:
re.findall('[0-9]+', s)

['16', '1846']

(2) Suchen Sie in der Zahlen, die mehr als 3 Ziffern haben

In [18]:
re.findall('[0-9]{3,}', s)

['1846']

<h3>Positionen / Anker</h3>
… matchen nicht _auf_, sondern _vor/nach/zwischen_ Zeichen
<ul>
<li>'^' matches the start of the string</li>
<li>'$' matches the end of the string</li>
<li>'\b' matches the empty string but only at the beginning or ending of a word <br/>'\B' matches the empty string but only if it is not at the beginning or ending of a word</li>
</ul>


In [18]:
s = "hallo welt! wie geht es dir?"
re.findall(r"^\w+", s)

['hallo']

In [19]:
re.findall(r"\bfoo\b", "foo. (foo) foobar")

['foo', 'foo']

### Übung

`s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'`

Finden Sie Zahlen am Ende des Strings.

### Reguläre Ausdrücke in Python anwenden

* Modul `re`
* Leistungsfähigeres Modul `regex`, muss ggf. nachinstalliert werden: `pip install regex` an der Kommandozeile
   * Unterstützt z.B. Unicode-Zeichenklassen: `\p{L}` = Buchstaben in allen Schriftsystemen

In [34]:
import re
text = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'

# Alle Treffer:
print(re.findall('\w+', text))

['Achim', 'von', 'Arnim', 'Sämmtliche', 'Werke', 'Band', '16', 'Berlin', '1846']


In [36]:
# Ersetzen:

print(re.sub('\d+', 'XXX', s))

Achim von Arnim: Sämmtliche Werke. Band XXX, Berlin XXX


In [42]:
# Treffer ab Anfang, mehr Info:
print(re.match(r'\w+', s))
print(re.match(r'\d+', s))

<_sre.SRE_Match object; span=(0, 5), match='Achim'>
None


In [43]:
# Treffer irgendwo, mehr Info:
print(re.search(r'\d+', s))

<_sre.SRE_Match object; span=(40, 42), match='16'>


In [50]:
# Alle Treffer, mehr Info:
for match in re.finditer(r'\d+', s):
    print(match)

<_sre.SRE_Match object; span=(40, 42), match='16'>
<_sre.SRE_Match object; span=(51, 55), match='1846'>


### Gruppierungen

* Runde Klammern um einen Teilausdruck bilden eine **Gruppe**.
* Quantoren gelten für die ganze Gruppe -> `(bla)+` matcht `blablabla`
* Gruppen können separat referenziert werden

In [20]:
s = "Sehr geehrte Frau Mustermann,"
m = re.match("Sehr geehrter? (.*),", s)
m.groups()

('Frau Mustermann',)

Gruppen können mit `\1`, `\2`, ... auch innerhalb des Ausdrucks oder in einem Ersetzungsstring bei `re.sub` referenziert werden:


In [21]:
expr = "n = n + 1; test = test + n; n = test + 1"
simplified = re.sub(r"(\w+) = \1 \+ (\w+)",   # diese RE bildet zwei Gruppen, die in der RE (\1) …
                    r"\1 += \2",              # und im 'ersetzen'-String (\1, \2) referenziert werden
                    expr)
print(simplified)

n += 1; test += n; n = test + 1


### Aufgabe

Datumsangaben erfolgen in der IT-Welt oft normalisiert nach ISO 8601 in der Form JJJJ-MM-TT. Schreiben Sie ein kleines Skript, das die Datumsangaben hier umformt:

* `31.01.1900`
* `07.10.2016`

<h3>Greedy vs. Non-Greedy</h3>
<p>Voreinstellung: greedy, d.h. das die größtmögliche Zeichenkette gesucht wird, die zum regulären Ausdruck passt.</p>
<p>Durch ? nach dem Quantifier Umstellung auf non-greedy</p>

Welches Ergebnis hat `re.findall("b.*t", "She booted the robot.")`?

In [19]:
re.findall("b.*t", "She booted the robot.")

['booted the robot']

In [21]:
re.findall("b.*?t", "She booted the robot.")

['boot', 'bot']

### Oder

Mit `|` können Sie nach Alternativen suchen:

In [22]:
for match in re.finditer(r"(Hai|Krokodil|Piranha)\w*", "Bond sollte schon durch Haibiss, Piranhas und Krokodile sterben."):
    print("Todesursache:", match.group(0))

Todesursache: Haibiss
Todesursache: Piranhas
Todesursache: Krokodile


### Reguläre Ausdrücke anwenden (2)
![Übersicht über das re-Modul](images/re-uebersicht.svg)

* `re.compile` kompiliert einen regulären Ausdruck zu einem Objekt. Wenn Sie einen regulären Ausdruck oft benötigen (z.B. in einer Schleife), verwenden Sie diese Funktion (außerhalb der Schleife) und arbeiten mit dem Objekt, das sie zurückgibt: das ist schneller.
* _Match-Objekte_ beschreiben einen Treffer in einem String genauer: Sie liefern z.B. Zugriff auf die einzelnen Gruppen und auf die genaue Stelle im Suchstring, an der der Ausdruck gematcht hat.
* Die Funktionen/Methoden `match` und `search` liefern jeweils ein Match-Objekt: `match` matcht nur am _Beginn_ des Suchstrings, `search` findet den ersten Treffer (ggf. ab einem bestimmten Offset, lesen Sie dazu die Dokumentation zu den Funktionen). `finditer` liefert einen Iterator über alle Treffer, jeder Treffer wird als Matchobjekt zurückgegeben. Sie können darüber in einer `for`-Schleife iterieren:

In [23]:
for match in re.finditer("\d+", "Lesen Sie die Kapitel 3 und die Seiten 55-60"):
    print("An Position {} steht die Zahl {}.".format(match.start(), match.group(0)))

An Position 22 steht die Zahl 3.
An Position 39 steht die Zahl 55.
An Position 42 steht die Zahl 60.


* `split` spaltet einen String an einem gegebenen regulären Ausdruck auf, liefert also quasi das Komplement zu `findall`:

In [24]:
re.split(r'[,.;:!?]+\s*', 'Hier: Nimm ein paar Sätze! Zerlegst du sie mir?')

['Hier', 'Nimm ein paar Sätze', 'Zerlegst du sie mir', '']

* mit `escape` können Sie alle potentiellen Metazeichen in einem String escapen:

In [25]:
print(re.escape("Sonne, Mond [und] Sterne***"))

Sonne\,\ Mond\ \[und\]\ Sterne\*\*\*


<h3 style="color:green">Übungsaufgaben</h3>
<p>s = "120313130414300312" 
<ol>
<li>Angenommen es handelt sich hier um drei Datumsangaben in Folge im Format TTMMJJ. Trennen Sie die Angaben durch einen Bindestrich: 120313-130414-300312</li>
<li>Bearbeiten Sie den String weiter, so dass nun normale dt. Datumsangaben zu lesen sind: 12.03.13-13.04.14-30.03.12
<li>Bearbeiten Sie den String s weiter, so dass am Ende amerikanische Datumsangaben dastehen: 03/12/13-...</li>
</ol>

In [28]:
import re

s = "120313130414300312"

s1 = re.sub(r"(\d{6})\B", r"\1-", s)
print(s1)

120313-130414-300312


In [29]:
s2 = re.sub(r"(\d\d)(\d\d)(\d\d)", r"\1.\2.\3", s1)
print(s2)

12.03.13-13.04.14-30.03.12


In [31]:
s3 = re.sub(r"(\d\d)\.(\d\d)\.(\d\d)", r"\2/\1/\3", s2)
print(s3)

03/12/13-04/13/14-03/30/12


### Hausaufgabe

Wir wollen unser Bag-of-Words-Modell professionalisieren. Schreiben Sie ein Skript, das mit jeder Textdatei (`*.txt`) aus einem Ordner folgendes tut:

1. die Datei wird eingelesen
2. der Inhalt der Datei wird in einzelne Wörter zerlegt, in Kleinschreibung. Diesmal akzeptieren wir als Wörter nur Sequenzen aus Buchstaben, d.h. sie sollten reguläre Ausdrücke verwenden statt `split()`. Wörter, die Zahlen oder Unterstriche enthalten, sollen Sie nicht mitberücksichtigen.
3. die unterschiedlichen Wörter werden gezählt
4. sie schreiben die Worthäufigeiten in eine Datei `dateiname.bow`. Diese Datei enthält eine Zeile pro Wort, die zunächst das Wort, dann ein Komma, und schließlich die Häufigkeit enthält.

Beispiel: `beispiel.txt.bow`, Ausschnitt:

```
dampfschiff,2
und,42
die,20
```