# Einsatz von Regex

Die grundlegenden Typen von Regex wurden in der Vorlesung eingeführt. Zum Testen empfehlen sich Seiten wie https://regex101.com.

## Text, Zahlen, Klassen

- `.` alle Zeichen, außer "new line" ("\n")
- `\d` eine Ziffer, also 1, 2, ... 9
- `\D` keine Ziffer, also jedes Zeichen ausser 1, 2, ... 9
- `\w` Ein Wort-Zeichen, das sind kleine + grosse Buchstaben, Ziffern und der Unterstrich
- `\W` kein Wort-Zeichen
- `\s` Ein Leerzeichen oder Tabulator
- `\S` kein Leerzeichen oder Tabulator, also fast alle zeichen
- `[aAbBcC]` Eines der enthaltenen Zeichen
- `[^aAbBcC]` KEINES der enthaltenen Zeichen

## Positionen im String
- `^` Anfang des Strings
- `$` Ende des String
- `\b` Wortgrenze (word boundary)

## Wiederholungen
- `?`  null- oder einmal, d.h. der Ausdruck ist optional
- `+`  mindestens einmal
- `*`  beliebig oft (auch keinmal)
- `{n}`  genau n-mal
- `{min,max}`  mindestens min-mal und maximal max-mal
- `{min,}`  mindestens min-mal
- `{,max}`  maximal max-mal

## Zeichen
- `[A-Z]`	ABCDEFGHIJKLMNOPQRSTVWXYZ
- `[a-z]`	abcdefghijklmnopqrstvwxyz
- `[0-9]` (oder `\d`)	0123456789
- `\w`	Wort = Mindestens ein Buchstabe, eine Ziffer oder Unterstrich (Abkürzung für `[a-zA-Z0-9_]`).
- `\W`	Kein Wort. Abkürzung für `[^a-zA-Z0-9_]`
- `\d`	Ziffer (Abkürzung für `[0-9]`).
- `\D`	keine Ziffer (Abkürzung für `[^0-9]`).

## Gruppen und Verzweigungen
- `|` ist ein `or` --> `A|B` sucht also nach matches mit A oder B.
- `[]` enthält ein Set von Zeichen. `[abc]` würde also ein a, b, oder c erwarten.
- `(...)` bezeichnet eine Gruppe. Diese wird später getrennt angegeben, z.B. wenn wir `re.findall()` oder `re.search()` ausführen.
- `(?:...)` ist eine "non-capturing group" also eine Gruppe die aber später nicht getrennt angegeben wird.
- `(?=...)`, `(?!...)` "Positive Lookahead", "Negative Lookahead" beschreiben Muster die folgen müssen. Diese werden aber nicht mit ausgelesen.
- `(?<=...)`, `(?<!...)` "Positive Lookbehind", "Negative Lookbehind" beschreiben Muster die vorangehen müssen. Diese werden aber nicht mit ausgelesen.


### Regex entwickeln
Test/Ausprobieren von regex geht gut über Seiten wie z.B: https://regex101.com/

Siehe z.B. 
- https://www.webmasterpro.de/coding/einfuehrung-in-regular-expressions/
- https://docs.python.org/3/library/re.html

## Suchen mit Hilfe von Regex in Python

In Python benutzen wir die Bibliothek `re` um mit regex zu arbeiten.

Wichtige Funktionen sind etwa:
- `re.search(regex, my_string)` sucht **die erste** Übereinstimmung der regex in `my_string`
- `re.match(regex, my_string)` sucht nach einer kompletten Übereinstimmung der regex mit `my_string`
- `re.findall(regex, my_string)` sucht nach **allen** Übereinstimmungen der regex in `my_string`

Ein Beispiel:
```python
import re

regex = r"[A-Z]{2,}[^a-z]"
results = re.findall(regex, "Hier stehen grosse und KLEINE Wörter IN einem Satz")
```

In [5]:
import os
import re
from matplotlib import pyplot as plt

## Fingerübung

### 1) Find the money

Findet alle Geldbeträge im folgenden String `about money`, allerdings keine Zahlen die nicht mit Geldbeträgen zusammenhängen.

In [6]:
about_money = "A hat 200 euro an B gegeben für ein Gerät das trotz 50 kg \
nur 100Euro wert ist. Immerhin hat B A danach für 20.50 Euros zum \
Essen eingeladen. Die 0,50 euro Trinkgeld zeigen aber wie geizig er ist."

In [15]:
import re

regex = r"([0-9]+[,.]?[0-9])* ?[Ee]uros?"
re.findall(regex, about_money)

['200', '100', '50', '50']

# "War of the worlds" von H.G. Wells

Im Folgenden arbeiten wir mit dem Text des Buches "War of the Worlds" von H.G. Wells (frei verfügbar über das Gutenberg Projekt, die Datei steht auf Moodle).

In [19]:
filename = "../../datasets/wells_war_of_the_worlds.txt"  # Pfad entsprechend anpassen

with open(filename, "r", encoding="utf-8") as file:
    text = file.read()

print(text)

The Project Gutenberg eBook of The War of the Worlds, by H. G. Wells

This eBook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this eBook or online at
www.gutenberg.org. If you are not located in the United States, you
will have to check the laws of the country where you are located before
using this eBook.

Title: The War of the Worlds

Author: H. G. Wells

Release Date: July 1992 [eBook #36]
[Most recently updated: November 27, 2021]

Language: English


*** START OF THE PROJECT GUTENBERG EBOOK THE WAR OF THE WORLDS ***

cover 




The War of the Worlds

by H. G. Wells




   ‘But who shall dwell in these worlds if they be inhabited?
    . . . Are we or they Lords of the World? . . . And
    how are all things made for man?’
                    KEPLER (quoted in _The Anatomy of Melan

In [20]:
# most basic cleaning
text = text.replace("\n", " ")

### Aufgabe 1:
Wie oft kommen die folgenden Wörter vor: 
- woman (inklusive women)
- man (inklusive men)
- martian (inklusive martians)
- war

**Tipp:** keine Wörter wie *man*kind oder police*man* mitzählen!

In [28]:
# wrong
text.count("man") + text.count("men")

632

In [29]:
# right
pattern = r'\b(man|men)\b'
matches = re.findall(pattern, text, re.IGNORECASE)
len(matches)

237

In [22]:
pattern = r'\b(woman|women)\b'
matches = re.findall(pattern, text, re.IGNORECASE)
len(matches)

32

In [32]:
pattern = r'\b(martian[s]?)\b'
matches = re.findall(pattern, text, re.IGNORECASE)
len(matches)

249

In [34]:
pattern = r'\bwar\b'
matches = re.findall(pattern, text, re.IGNORECASE)
len(matches)

18

In [40]:
def create_word_count_dict(search_words):
    counts = {word: 0 for word in search_words}

    for word in search_words:
        pattern = rf"\b{word}\b"
        counts[word] = len(re.findall(pattern, text, re.IGNORECASE))
    
    return counts

In [41]:
search_words = ["woman", "women", "man", "men", "martian", "martians", "war"]
print(create_word_count_dict(search_words))

{'woman': 18, 'women': 14, 'man': 127, 'men': 110, 'martian': 83, 'martians': 166, 'war': 18}


### Aufgabe 1b:

Welche Personenperspektive ist am häufigsten: "I", "you", "he", "she", "they", "we" ?

In [42]:
search_words = ["I", "you", "he", "she", "they", "we"]
print(create_word_count_dict(search_words))

{'I': 1307, 'you': 84, 'he': 427, 'she': 38, 'they': 343, 'we': 269}


### Aufgabe 2:

Liste alle Wörter die auf `bright` folgen und alle Wörter die auf `dark` folgen.

In [45]:
regex = r"(?<=bright\s)\w+"
re.findall(regex, text)

['and',
 'dot',
 'metal',
 'sunlight',
 'that',
 'glare',
 'red',
 'green',
 'outer',
 'and',
 'in',
 'the',
 'their',
 'and']

In [46]:
regex = r"(?<=dark\s)\w+"
re.findall(regex, text)

['ground',
 'and',
 'almost',
 'common',
 'trousers',
 'man',
 'man',
 'shadows',
 'as',
 'indeed',
 'heap',
 'country',
 'brown',
 'appearance',
 'for',
 'and',
 'eyes',
 'expanse',
 'and',
 'came',
 'against',
 'and',
 'mark']

### Aufgabe 3 (eine Nummer schwieriger...)

- Teile den Text einmal in Wörter (`words`) ein. Wie viele Wörter hat der Text insgesammt? 
- Wie viele verschiedene Wörter gibt es (vocabulary)?

- Teile den Text in Sätze ein (so gut es geht).
Wie viele Sätze gibt es?

In [54]:
regex = r"\b[A-z]+\b"
words = re.findall(regex, text)
words

['The',
 'Project',
 'Gutenberg',
 'eBook',
 'of',
 'The',
 'War',
 'of',
 'the',
 'Worlds',
 'by',
 'H',
 'G',
 'Wells',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 'You',
 'may',
 'copy',
 'it',
 'give',
 'it',
 'away',
 'or',
 're',
 'use',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at',
 'www',
 'gutenberg',
 'org',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States',
 'you',
 'will',
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'eBook',
 'Title',
 'The',
 'War',
 'of',
 'the',
 'Worlds',
 'Author',
 'H',
 'G',
 'Wells',
 'Release',
 'D

In [51]:
len(words)

61131

In [60]:
len(re.findall(r"\b\w+\b", text))

61151

In [61]:
len(set(re.findall(r"\b\w+\b", text)))

7274

In [57]:
len(set(words))

7259

In [56]:
import pandas as pd
pd.Series(words).value_counts()

the               4428
and               2375
of                2294
a                 1555
I                 1307
                  ... 
unextinguished       1
oblong               1
landlady             1
loosely              1
seers                1
Name: count, Length: 7259, dtype: int64

### Aufgabe 4:

Zähle die Anzahl der Wörter in jedem Satz und zeichne die Wörter/Satz von Anfang bis Ende des Textes mit `matplotlib`

Z.B. 
```python
fig, ax = plt.subplots(figsize=(15,6))
ax.plot(sentence_length, alpha=0.5)
```

In [71]:
regex = r"(?<=[\w\s\"\']{10})[.?!]"
sentences = re.split(regex, text)
len(sentences)

3094

### Aufgabe 5: Stimmungen "messen"

Erstelle zwei Listen mit Stimmungskategorieren.

Die Listen legt ihr selbst fest. Zum Beispiel: 
```
darkness_words = ["dark", "smoke", ...]


brightness_words = ["flower", "sun", ...]
```

Durchlaufe den Text und zähle wie oft bestimmte für eine Stimmung charakteristische Wörter vorkommen. Die Zählung soll über eine bestimmte Anzahl von Sätzen erfolgen und über einen Parameter `per_n_sentences` wählbar sein. Also z.B. zählen wir die "darkness" words über 100 Sätze und setzen den Zähler dann wieder auf 0.

Zum Schluss soll damit die "darkness" oder "brightness" über die gesammte Länge des Textes dargestellt werden. Beide Graphen sollen in einem Plot gezeigt werden. 