### Erforderliche Pakete importieren

In [2]:
import re
import string
!pip install unidecode
import unidecode

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[K     |████████████████████████████████| 235 kB 6.7 MB/s 
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.6


### Einführung in die Reinigung mit Reguläre Ausdrücke

In [3]:
text = "Ein Regular Expression, oder 'regex', ist ein Muster, nach dem in einer \
    Textzeichenfolge gesucht wird. In NLP werden regexes häufig zur Textbereinigung \
    verwendet. Regexes sind daher ein nützliches Werkzeug."

regex_pattern = re.compile('regex')
re.findall(regex_pattern, text)

['regex', 'regex']

In [4]:
regex_pattern_improved = re.compile('regex[es]*')
re.findall(regex_pattern_improved, text)

['regex', 'regexes']

In [5]:
regex_pattern_improved = re.compile('regex[es]*', re.I)
re.findall(regex_pattern_improved, text)

['regex', 'regexes', 'Regexes']

In [6]:
regex_pattern_improved = re.compile('regular expression|regex[es]*', re.I)
re.findall(regex_pattern_improved, text)

['Regular Expression', 'regex', 'regexes', 'Regexes']

### Reinigen von HTML-Text mit Reguläre Ausdrücke

Optionale Hausaufgabe:

Schauen Sie sich diese bestehende Python-Bibliothek zum Bereinigen von HTML-Text an: 
    https://pypi.org/project/htmllaundry/

In [7]:
text_raw = '<p>Dieser Absatz wird nach dem Zeilenumbruch...<br>... fortgesetzt.</p>'

tag_pattern = re.compile('<.*>')
re.findall(tag_pattern, text_raw)

['<p>Dieser Absatz wird nach dem Zeilenumbruch...<br>... fortgesetzt.</p>']

In [8]:
tag_pattern = re.compile('<.*?>')
re.findall(tag_pattern, text_raw)

['<p>', '<br>', '</p>']

In [9]:
texts = ['<p>Dieser Absatz enthält ein <span style="color:red;font-weight:bold">rotes</span> Wort.</p>',
        '<!DOCTYPE html><html><head><title>Titel</title></head><body><h1>Heading</h1><p>Beispiel_Bild.jpg</p><img src="Beispiel_Bild.jpg" alt="Beispiel_Website.com" width="104" height="142"></body></html>']

for text in texts:
    print(re.sub(tag_pattern, '', text))

Dieser Absatz enthält ein rotes Wort.
TitelHeadingBeispiel_Bild.jpg


In [10]:
for text in texts:
    print(re.sub(tag_pattern, ' ', text))

 Dieser Absatz enthält ein  rotes  Wort. 
    Titel    Heading  Beispiel_Bild.jpg    


In [11]:
whitespaces = re.compile('\s+')
for text in texts:
    text_cleaned = re.sub(tag_pattern, ' ', text)
    text_cleaned_again = re.sub(whitespaces, ' ', text_cleaned)
    print(text_cleaned_again)

 Dieser Absatz enthält ein rotes Wort. 
 Titel Heading Beispiel_Bild.jpg 


In [12]:
tag_pattern_no_brackets = re.compile('&[a-z0-9]+;', re.I)
# Alternativ für oben: '&[\w]+;'
text_raw =  "Hello &nsbm; world. Hello &NSBM; world. "
text_cleaned = re.sub(tag_pattern_no_brackets, '', text_raw)
text_cleaned

'Hello  world. Hello  world. '

### Quick Projekt: Text Cleaning mit Regular Expressions

Regular expressions Dokumentation: https://docs.python.org/3/library/re.html

Die Regeln für Twitter-Handles lauten wie folgt:
- Maximal 15 Zeichen
- Darf nur alphanumerische Zeichen enthalten (Buchstaben A-Z, Zahlen 0-9), AUSNAHME:
- Am Anfang oder Ende des Handles ist ein Unterstrich erlaubt.

Schreiben Sie eine Regex, die auf alle möglichen Twitter-Handles passt.
Anonymisieren Sie die folgenden Tweets, indem Sie das Handle durch die Zeichenkette 'USER' ersetzen.

### Entfernen von Standard-Satzzeichen

In [13]:
reviews = ["Wow, was für ein Chaos. Ein Zeitreisefilm, den nur Zeitreisende verstehen können, denn sobald man ihn beendet hat, muss man zum Anfang zurückgehen und ihn noch einmal anschauen. Wahrscheinlich würde es selbst bei einer zweiten oder dritten Ansicht immer noch keinen Sinn ergeben. **",
           "Wenn man es einmal verstanden hat, ist es brillant. Seien Sie geduldig, es ist es wert. ****",
           "Wie macht man eine komplizierte Handlung noch schwieriger zu verstehen? Indem man es unmöglich macht, sie zu verstehen, so geht das. Trotzdem, die visuellen Effekte waren erstaunlich. ***",
           "Dies im Kino zu sehen war schmerzhaft! An manchen Stellen zu leise, an anderen viel zu laut. Aber das Schauspiel war solide und es sah toll aus. ***"]
reviews = "\n".join(reviews)
reviews

'Wow, was für ein Chaos. Ein Zeitreisefilm, den nur Zeitreisende verstehen können, denn sobald man ihn beendet hat, muss man zum Anfang zurückgehen und ihn noch einmal anschauen. Wahrscheinlich würde es selbst bei einer zweiten oder dritten Ansicht immer noch keinen Sinn ergeben. **\nWenn man es einmal verstanden hat, ist es brillant. Seien Sie geduldig, es ist es wert. ****\nWie macht man eine komplizierte Handlung noch schwieriger zu verstehen? Indem man es unmöglich macht, sie zu verstehen, so geht das. Trotzdem, die visuellen Effekte waren erstaunlich. ***\nDies im Kino zu sehen war schmerzhaft! An manchen Stellen zu leise, an anderen viel zu laut. Aber das Schauspiel war solide und es sah toll aus. ***'

In [14]:
# Standard-Satzzeichen anzeigen
string.punctuation, type(string.punctuation)

('!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~', str)

In [15]:
punct_mapper = str.maketrans('', '', string.punctuation)
reviews_no_punct = reviews.translate(punct_mapper)
reviews_no_punct

'Wow was für ein Chaos Ein Zeitreisefilm den nur Zeitreisende verstehen können denn sobald man ihn beendet hat muss man zum Anfang zurückgehen und ihn noch einmal anschauen Wahrscheinlich würde es selbst bei einer zweiten oder dritten Ansicht immer noch keinen Sinn ergeben \nWenn man es einmal verstanden hat ist es brillant Seien Sie geduldig es ist es wert \nWie macht man eine komplizierte Handlung noch schwieriger zu verstehen Indem man es unmöglich macht sie zu verstehen so geht das Trotzdem die visuellen Effekte waren erstaunlich \nDies im Kino zu sehen war schmerzhaft An manchen Stellen zu leise an anderen viel zu laut Aber das Schauspiel war solide und es sah toll aus '

In [16]:
# Bestimmte Zeichen nicht ignorieren
custom_punctuation = string.punctuation.translate(str.maketrans('', '', ".!?*"))
custom_punctuation

'"#$%&\'()+,-/:;<=>@[\\]^_`{|}~'

### Entfernen von Sonder-Satzzeichen

In [17]:
# Extra Zeichen ignorieren
custom_punctuation = custom_punctuation + "®©℗™"
custom_punctuation

'"#$%&\'()+,-/:;<=>@[\\]^_`{|}~®©℗™'

In [18]:
# Reinigen einer Zeichenkette mit unseren custom Zeichen
example = "Das Copyright-Symbol enthält bekanntlich ein c in einem Kreis: ©. Das Urheberrechtssymbol für Musik ist jedoch ein p in einem Kreis: ℗."
example = example.translate(str.maketrans('', '', custom_punctuation))
example

'Das CopyrightSymbol enthält bekanntlich ein c in einem Kreis . Das Urheberrechtssymbol für Musik ist jedoch ein p in einem Kreis .'

In [19]:
example = "Hänsel und Gretel ist ein von den Gebrüdern Grimm bekannt gemachtes Märchen."
example = unidecode.unidecode(example)
example

'Hansel und Gretel ist ein von den Gebrudern Grimm bekannt gemachtes Marchen.'

In [20]:
# Bestimmte Zeichen in andere umwandeln
conversion_dict = {"Ä": "Ae", "ä": "ae", "Ö": "Oe", "ö": "oe", "Ü": "Ue", "ü": "ue"}
example = "Hänsel und Gretel ist ein von den Gebrüdern Grimm bekannt gemachtes Märchen."
example = example.translate(str.maketrans(conversion_dict))
example

'Haensel und Gretel ist ein von den Gebruedern Grimm bekannt gemachtes Maerchen.'

In [21]:
reviews_custom_punct = reviews.translate(str.maketrans('', '', custom_punctuation))
reviews_custom_punct

'Wow was für ein Chaos. Ein Zeitreisefilm den nur Zeitreisende verstehen können denn sobald man ihn beendet hat muss man zum Anfang zurückgehen und ihn noch einmal anschauen. Wahrscheinlich würde es selbst bei einer zweiten oder dritten Ansicht immer noch keinen Sinn ergeben. **\nWenn man es einmal verstanden hat ist es brillant. Seien Sie geduldig es ist es wert. ****\nWie macht man eine komplizierte Handlung noch schwieriger zu verstehen? Indem man es unmöglich macht sie zu verstehen so geht das. Trotzdem die visuellen Effekte waren erstaunlich. ***\nDies im Kino zu sehen war schmerzhaft! An manchen Stellen zu leise an anderen viel zu laut. Aber das Schauspiel war solide und es sah toll aus. ***'

### Case Normalisierung

In [22]:
reviews_custom_punct_lower =  reviews_custom_punct.lower()
reviews_custom_punct_lower

'wow was für ein chaos. ein zeitreisefilm den nur zeitreisende verstehen können denn sobald man ihn beendet hat muss man zum anfang zurückgehen und ihn noch einmal anschauen. wahrscheinlich würde es selbst bei einer zweiten oder dritten ansicht immer noch keinen sinn ergeben. **\nwenn man es einmal verstanden hat ist es brillant. seien sie geduldig es ist es wert. ****\nwie macht man eine komplizierte handlung noch schwieriger zu verstehen? indem man es unmöglich macht sie zu verstehen so geht das. trotzdem die visuellen effekte waren erstaunlich. ***\ndies im kino zu sehen war schmerzhaft! an manchen stellen zu leise an anderen viel zu laut. aber das schauspiel war solide und es sah toll aus. ***'

In [None]:
# QuickProjekt Lösung:
# @\w{1,15}(\s|\W)*