## Einführung in das Programmieren mit Python

# Strings bearbeiten mit regulären Ausdrücken

## Klausur

* __Mo. 11.02.2018  	12:00 Uhr s.t.__
* __Phil.-Geb. - Hörsaal 4__

Ablauf:

* seien Sie pünktlich __vor__ dem Hörsaal
* ich lege die Klausuren aus und bitte Sie herein
* Auf den Tisch dürfen:

   * Stifte (nicht mit rot oder grün oder Bleistift schreiben)
   * Studierendenausweis
   * Wasser
   * gedrucktes Wörterbuch _natürliche Sprache_ <> Deutsch, wird ggf. auf Spickzettel korrigiert
   
* Handy vorher aus und wegpacken
* Spicken, Kramen, Abschreiben, Handybenutzen → Betrugsversuch
* __gewünschte Prüfung (PO 2012/2015 sowie benotet/unbenotet) ankreuzen__
* Sie haben 30 – max. 45 Minuten

### Reguläre Ausdrücke

* Minisprache zur Beschreibung von Klassen von Zeichenketten
* Typische Anwendungen: Suchen, Ersetzen, Aufteilen, Umstellen von Zeichenketten, Extrahieren von Informationen aus Zeichenketten
* Beispiel: Literaturangaben in der Digitalen Bibliothek:

> Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846

* reguläre Ausdrücke werden (mit leichten Abweichungen) von allen modernen Programmiersprachen und von allen halbwegs leistungsfähigen Texteditoren unterstützt

### Einfache reguläre Ausdrücke

* »normale« Zeichen (= keine Metazeichen) matchen sich selbst. `a` matcht `a`.
    * __Metazeichen__ sind `. ^ $ * + ? { } [ ] \ | ( )`, sie können gematcht werden, indem man einen `\` voranstellt 
* Ein Punkt `.` matcht ein beliebiges Zeichen (außer Newline). `.` matcht `a` oder `b` oder …    
* Zusammensetzen = Hintereinanderschreiben.
    * `abc` matcht "abc"
    * `H. h. h.` matcht z.B. "Ha ha ha" oder "Ho ho ho" oder "He ha hi"

### Zeichenklassen

* `[abc]` matcht ein Zeichen, das `a` oder `b` oder `c` ist.
* `[A-Fa-f]` matcht einen der Groß- oder Kleinbuchstaben von A bis F
* `^` am Beginn einer Zeichenklasse invertiert die Klasse:
   * `[^0-9]` matcht jedes Zeichen, das _keine_ Ziffer von 0-9 ist
* In Zeichenklassen gelten Metazeichen nicht: `[.]` matcht ebenso wie `\.` einen Punkt

#### häufige Zeichenklassen

-   `.` jedes Zeichen außer neue Zeile (`\n`)
-   `\d` jede Ziffer, z.B. 1, 4, 0 <br/>
    `\D` jedes Zeichen, das **keine** Ziffer ist.
-   `\s` jedes whitespace-Zeichen, z.B. Leerzeichen, `\n`, `\t`
    `\S` jedes Zeichen, das **kein** whitespace ist.<br/>
-   `\w` »Identifier-Zeichen«, also Buchstaben, z.B. A g ö ß 4 é € α И, Ziffern, Unterstrich `_` <br/>
    `\W` jedes Zeichen, das **kein** Identifier-Zeichen ist.

Die Definitionen beziehen sich auf die Unicode-Zeicheneigenschaften. Wer Zugriff auf die kompletten Unicode-Properties will, muss das externe Modul _regex_ installieren.

### Entwickeln regulärer Ausdrücke

Es gibt Tools, die Ihnen bei der Entwicklung komplexer regulärer Ausdrücke helfen, indem sie die Treffer (und Gruppen, s.u.) eines regulären Ausdrucks in einem Beispielstring direkt beim Bearbeiten des Patterns markieren, z.B.:

* [regex101.com](https://regex101.com/#python) oder [pythex.org](http://pythex.org/) im Web
* [redemo.py](https://hg.python.org/cpython/file/3.3/Tools/demo/redemo.py) als lokale Anwendung aus dem Python-Projekt selbst

### Wiederholungen
* `*` matcht auf **0 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `+` matcht auf **1 oder mehr** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `?` matcht auf **0 oder 1** Wiederholungen des vorherigen Zeichens/Teilausdrucks
* `{n,m}` matcht auf **n bis m** Wiederholungen des vorherigen Zeichens/Teilausdrucks 
    
    * `{n}` exakt n Wiederholungen, `{n,}` mindestens n, `{,m}` höchstens m

In [2]:
import re
re.findall(r'\d+', 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846')

['16', '1846']

### Positionen / Anker
… matchen nicht _auf_, sondern _vor/nach/zwischen_ Zeichen

* `^` matcht den Anfang eines Strings
* `$` matcht das Ende eines Strings
* `\b` matcht eine _Word Boundary_, d.h. den leeren String, aber nur am Anfang oder Ende eines Worts
* `\B` matcht den leeren String, aber nur im Inneren eines Worts


In [4]:
re.findall(r"\bbo\w+",            # Wortgrenze + bo + Buchstaben = Wörter, die mit 'bo' beginnen
           "She booted the robot")

['booted']

### Übung

`s = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'`

Finden Sie Zahlen am Ende des Strings.

### Reguläre Ausdrücke in Python anwenden

* Modul `re`
* Leistungsfähigeres Modul `regex`, muss ggf. nachinstalliert werden: `pip install regex` an der Kommandozeile
   * Unterstützt z.B. Unicode-Zeichenklassen: `\p{L}` = Buchstaben in allen Schriftsystemen

In [5]:
import re
text = 'Achim von Arnim: Sämmtliche Werke. Band 16, Berlin 1846'

# Alle Treffer:
print(re.findall('\w+', text))

['Achim', 'von', 'Arnim', 'Sämmtliche', 'Werke', 'Band', '16', 'Berlin', '1846']


In [7]:
# Ersetzen:

print(re.sub('\d+', 'XXX', text))

Achim von Arnim: Sämmtliche Werke. Band XXX, Berlin XXX


In [8]:
# Treffer ab Anfang, mehr Info:
print(re.match(r'\w+', text))
print(re.match(r'\d+', text))

<_sre.SRE_Match object; span=(0, 5), match='Achim'>
None


In [43]:
# Treffer irgendwo, mehr Info:
print(re.search(r'\d+', s))

<_sre.SRE_Match object; span=(40, 42), match='16'>


In [9]:
# Alle Treffer, mehr Info:
for match in re.finditer(r'\d+', text):
    print(match)

<_sre.SRE_Match object; span=(40, 42), match='16'>
<_sre.SRE_Match object; span=(51, 55), match='1846'>


### Gruppierungen

* Runde Klammern um einen Teilausdruck bilden eine **Gruppe**.
* Quantoren gelten für die ganze Gruppe → `(bla)+` matcht `blablabla`
* Gruppen können separat referenziert werden
* findall mit Gruppen liefert Liste mit Tupeln

In [20]:
s = "Sehr geehrte Frau Mustermann,"
m = re.match("Sehr geehrter? (.*),", s)
m.groups()

('Frau Mustermann',)

N.B.:
* `('Frau Mustermann',)` ist ein __Tupel__. 
* Tupel (Datentyp `tuple`) sind Listen ähnlich, aber unveränderlich
* Das Literal verwendet runde Klammern statt eckiger, mindestens ein Komma muss vorhanden sein

Gruppen können mit `\1`, `\2`, ... auch innerhalb des Ausdrucks oder in einem Ersetzungsstring bei `re.sub` referenziert werden:


In [22]:
expr = "n = n + 1; test = test + n; n = test + 1"
simplified = re.sub(r"(\w+) = \1 \+ (\w+)",   # diese RE bildet zwei Gruppen, die in der RE (\1) …
                    r"\1 += \2",              # und im 'ersetzen'-String (\1, \2) referenziert werden
                    expr)
print(simplified)

n += 1; test += n; n = test + 1


### Aufgabe

Datumsangaben erfolgen in der IT-Welt oft normalisiert nach ISO 8601 in der Form JJJJ-MM-TT. Schreiben Sie ein kleines Skript, das die Datumsangaben hier umformt:

* `31.01.1900`
* `07.10.2016`

In [23]:
def normalize_german_date(german_date):
    return re.sub(r'(\d\d)\.\s*(\d\d)\.\s*(\d+)', r'\3-\2-\1', german_date)

print(normalize_german_date('31.01.1900'))
print(normalize_german_date('07.10.2016'))

1900-01-31
2016-10-07


### findall mit Gruppen

Stehen in dem Pattern von `re.findall` Gruppen, so ist das Ergebnis eine Liste von Tupeln der Gruppen:

In [33]:
text = 'Von "Maria Musterfrau" <musterfrau@example.com> an "Arndt Alliteration" <ali@dichtkunst.de>'
addresses = re.findall(r'"([^"]+)"\s*<([^>]+)>', text)

for person in addresses:
    print("Name: ", person[0], "\tAdresse: ", person[1])

Name:  Maria Musterfrau 	Adresse:  musterfrau@example.com
Name:  Arndt Alliteration 	Adresse:  ali@dichtkunst.de


<h3>Greedy vs. Non-Greedy</h3>
<p>Voreinstellung: greedy, d.h. das die größtmögliche Zeichenkette gesucht wird, die zum regulären Ausdruck passt.</p>
<p>Durch ? nach dem Quantifier Umstellung auf non-greedy</p>

Welches Ergebnis hat `re.findall("b.*t", "She booted the robot.")`?

In [19]:
re.findall("b.*t", "She booted the robot.")

['booted the robot']

In [21]:
re.findall("b.*?t", "She booted the robot.")

['boot', 'bot']

### Oder

Mit `|` können Sie nach Alternativen suchen:

In [22]:
for match in re.finditer(r"(Hai|Krokodil|Piranha)\w*", "Bond sollte schon durch Haibiss, Piranhas und Krokodile sterben."):
    print("Todesursache:", match.group(0))

Todesursache: Haibiss
Todesursache: Piranhas
Todesursache: Krokodile


### Reguläre Ausdrücke anwenden (2)
![Übersicht über das re-Modul](images/re-uebersicht.svg)

* `re.compile` kompiliert einen regulären Ausdruck zu einem Objekt. Wenn Sie einen regulären Ausdruck oft benötigen (z.B. in einer Schleife), verwenden Sie diese Funktion (außerhalb der Schleife) und arbeiten mit dem Objekt, das sie zurückgibt: das ist schneller.
* _Match-Objekte_ beschreiben einen Treffer in einem String genauer: Sie liefern z.B. Zugriff auf die einzelnen Gruppen und auf die genaue Stelle im Suchstring, an der der Ausdruck gematcht hat.
* Die Funktionen/Methoden `match` und `search` liefern jeweils ein Match-Objekt: `match` matcht nur am _Beginn_ des Suchstrings, `search` findet den ersten Treffer (ggf. ab einem bestimmten Offset, lesen Sie dazu die Dokumentation zu den Funktionen). `finditer` liefert einen Iterator über alle Treffer, jeder Treffer wird als Matchobjekt zurückgegeben. Sie können darüber in einer `for`-Schleife iterieren:

In [23]:
for match in re.finditer("\d+", "Lesen Sie die Kapitel 3 und die Seiten 55-60"):
    print("An Position {} steht die Zahl {}.".format(match.start(), match.group(0)))

An Position 22 steht die Zahl 3.
An Position 39 steht die Zahl 55.
An Position 42 steht die Zahl 60.


* `split` spaltet einen String an einem gegebenen regulären Ausdruck auf, liefert also quasi das Komplement zu `findall`:

In [24]:
re.split(r'[,.;:!?]+\s*', 'Hier: Nimm ein paar Sätze! Zerlegst du sie mir?')

['Hier', 'Nimm ein paar Sätze', 'Zerlegst du sie mir', '']

* mit `escape` können Sie alle potentiellen Metazeichen in einem String escapen:

In [25]:
print(re.escape("Sonne, Mond [und] Sterne***"))

Sonne\,\ Mond\ \[und\]\ Sterne\*\*\*


# Module

## Module

* Weitere Möglichkeit, Programmcode einzukapseln
* Typischer Use-Case: zusammengehörige Funktionen (, Klassen, …)
* Mitgelieferte Funktionalität (jenseits des Sprachkerns) und Herunterladbares kommt in Modulen

* Modul = Python-Datei
* Modulname = Python-Dateiname ohne Pfad und Endung
* (Moduldateiname sollte ein Python-Bezeichner sein; Konvention: Einfache Namen in Kleinbuchstaben)

### Beispiel

__Datei `wordstats.py`:__

```python
def read_text(filename):
    """Reads the utf-8 encoded text file with the given name and returns its contents."""
    with open(filename, 'rt', encoding='utf-8') as file:
        return file.read()


def tokenize(text):
    """Tokenizes the given string, returns a list of tokens."""
    PUNCTUATION='!"#$%&\'()*+,-./:;<=>?@[\\]^_{|}~»«'
    tokens = text.split
    result = []
    for token in tokens:
        stripped = token.strip(PUNCTUATION)
        if stripped:
            result.append(token)
    return result

def word_count(tokens):
    """
    Counts how often each different item in the given token list occurs.
    Returns: dict mapping token → number of occurences
    """
    frequencies = {}
    for token in tokens:
        if token in frequencies:
            frequencies[token] += 1
        else:
            frequencies[token] = 1
    return frequencies
```

### Modul importieren

In [16]:
import wordstats
wordstats.word_count(wordstats.tokenize("ottos mops trotzt\notto: fort mops fort"))

Modulname: wordstats


{'ottos': 1, 'mops': 2, 'trotzt': 1, 'otto': 1, 'fort': 2}

In [17]:
import wordstats as w
w.word_count(w.tokenize("ottos mops trotzt\notto: fort mops fort"))

{'ottos': 1, 'mops': 2, 'trotzt': 1, 'otto': 1, 'fort': 2}

In [18]:
from wordstats import word_count, tokenize
word_count(tokenize("ottos mops trotzt\notto: fort mops fort"))

{'ottos': 1, 'mops': 2, 'trotzt': 1, 'otto': 1, 'fort': 2}

Die Schreibweise `from wordstats import *` gibt es auch, sie sollte nur in der interaktiven Konsole, nicht in Skripten verwendet werden, da sie die Herkunft der importierten Namen verschleiert.

### Standardbibliothek

Python kommt mit _batteries included_: Füt viele Aufgabeben gibt es fertiges in der Standardbibliothek

* <https://docs.python.org/3/library/index.html>
* Datentypen, z.B. collections
* Datei- / Betriebssystemkram: os, os.path, glob, shutil, pathlib ...
* Dateiformate (HTML, XML, ZIP, CSV, JSON, ...)
* Internet
* Mathematik
* ...

### Eigene Module schreiben

* es ist nur eine Python-Datei, also los :-)
* beim ersten `import wordcounts` wird der gesamte Code in `wordcounts` ausgeführt
* alle definierten und importierten Namen stehen danach im Modulnamespace zur Verfügung
* Konvention: Private Namen beginnen mit `_`

### Module ablegen

In [19]:
import sys
print(sys.path)

['', '/home/tv/git/python_intro_new', '/usr/lib/python37.zip', '/usr/lib/python3.7', '/usr/lib/python3.7/lib-dynload', '/home/tv/.local/lib/python3.7/site-packages', '/usr/local/lib/python3.7/dist-packages', '/usr/local/lib/python3.7/dist-packages/dlib-19.16.0-py3.7-linux-x86_64.egg', '/usr/lib/python3/dist-packages', '/usr/lib/python3.7/dist-packages', '/usr/lib/python3/dist-packages/IPython/extensions', '/home/tv/.ipython']


* `''` steht hier für das aktuelle Verzeichnis
* Umgebungsvariable `PYTHONPATH`

### Skripte

Skripte zum Ausführen an der Kommandozeile:

```python 
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import …

def …:
   …

def …:
    …

def _main():
    mach_was()
    mach_was_anderes()
    
if __name__ == '__main__':
    _main()
```

`__name__` enthält den Namen des aktuellen Moduls bzw. `"__main__"` für das Hauptmodul = Skript

## Externe Module

* Python verfügt über zahlreiche externe Pakete, die Funktionsbibliotheken für diverse Anwendungen bieten
* Beispiele:

    * `requests` für die bequeme Interaktion mit Webservern
    * `lxml` für komfortables XML- und XPath-Handling
    * `numpy` für effiziente Operationen auf Zahlen, Vektoren und Matrizen
    * `pandas` für den effizienten Umgang mit (tabellarischen) Daten
    * `networkx` für Graphen/Netzwerke (Datenstruktur aus Knoten und Kanten)
    * `scikit-learn` für maschinelles Lernen
    * …
    
* <https://pypi.python.org/> Python Package Index

### Externe Module installieren

Kommandozeile: `pip` (bzw. `pip3`)

In [29]:
%%bash

pip install --user requests



`pip` ist das Tool, `install` das Kommando, `--user` installiere ins Benutzerverzeichnis, `requests` ist die Library

In [31]:
import requests

In [36]:
response = requests.get('https://www.google.com/')
if response.ok:
    print(response.text[:200])

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="de"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/goo


### Ausblick

Ein paar weitere syntaktische Konstrukte:

#### List (Dictionary, Set …) Comprehensions

In [37]:
# statt:
squares = []
for base in range(10):
    squares.append(base**2)
# kürzer:
squares = [base**2 for base in range(10)]

#### Stringformatierung

In [20]:
toc = "Abschnitt {:<5} {:_<40} S. {:>3}"

print(toc.format("1", "Einführung", 5))
print(toc.format("1.1", "Datenmodell", 10))

Abschnitt 1     Einführung______________________________ S.   5
Abschnitt 1.1   Datenmodell_____________________________ S.  10


In [21]:
types = 5007
tokens = 7988
print(f"{tokens} Tokens, davon {types} unterschiedliche, ergibt TTR≈{types/tokens:.4f}")

7988 Tokens, davon 5007 unterschiedliche, ergibt TTR≈0.6268


#### Objektorientierung

In [22]:
class Person:
    def __init__(self, name, vorname):
        self.name = name
        self.vorname = vorname        
        
    def introduce(self, in_bayern=False):
        if not in_bayern:
            print("Hallo, ich bin", self.vorname, self.name)
        else:
            print("Hallo, ich bin der", self.name, self.vorname)
            
Person("Huber", "Max").introduce(True)

Hallo, ich bin der Huber Max


#### Exceptions
zum Umgang mit Fehlern

```python
try:
    f = open(filename)
    f.read()
except IOError:
    print("Dateiname falsch?")
finally:
    f.close()
```

#### Leistungsfähigere IDEs

* z.B. Pycharm
* Debugger, Projekte, Refactoring