# Tag 2. Kapitel 7. Fortgeschrittene Programmierung

## Lektion 38. Reguläre Ausdrücke (Regular Expressions)

Mit einem [Regulären Ausdruck](https://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck) (engl. Regular expression) kann man in Strings oder Vektoren von Strings, nach vorgegebenen Textmustern suchen bzw. die Textinhalte nach diesen Mustern zu ersetzen. In R gibt es dafür 7 nützliche Funktionen: 


**grep**(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
     fixed = FALSE, useBytes = FALSE, invert = FALSE)
     
**grepl**(pattern, x, ignore.case = FALSE, perl = FALSE,
      fixed = FALSE, useBytes = FALSE)

**sub**(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
    fixed = FALSE, useBytes = FALSE)

**gsub**(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
     fixed = FALSE, useBytes = FALSE)

**regexpr**(pattern, text, ignore.case = FALSE, perl = FALSE,
        fixed = FALSE, useBytes = FALSE)

**gregexpr**(pattern, text, ignore.case = FALSE, perl = FALSE,
         fixed = FALSE, useBytes = FALSE)

**regexec**(pattern, text, ignore.case = FALSE, perl = FALSE,
        fixed = FALSE, useBytes = FALSE)

In [75]:
# Hilfe und Details zu regulären ausdrücken aufrufen
help('regexpr')

Die **grep-** Funktion nimmt Ihren regulären Ausdruck als erstes Argument und den Eingabevektor als zweites Argument. Wenn Sie value = FALSE übergeben oder den value- Parameter weglassen, gibt grep einen neuen *Vektor mit den Indizes der Elemente* im Eingabevektor zurück, die (teilweise) mit dem regulären Ausdruck übereinstimmen könnten. Wenn Sie value = TRUE übergeben , gibt grep einen *Vektor mit Kopien der tatsächlichen Elemente* im Eingabevektor zurück, die (teilweise) übereinstimmen könnten.

In [76]:
# Suchen und Indizen ausgeben 
grep ("a+", c ("abc", "def", "cba a", "aa", "aaa"), value = FALSE) # mind. ein "a" wird gesucht
grep ("a{2}", c ("abc", "def", "cba a", "aa", "aaa"), value = FALSE) # mind. 2 "a" werden gesucht

In [77]:
# Suchen und Werte ausgeben 
grep ("a+", c ("abc", "def", "cba a", "aa", "aaa"), value = TRUE) # mind. ein "a" wird gesucht
grep ("a{2}", c ("abc", "def", "cba a", "aa", "aaa"), value = TRUE) # mind. 2 "a" werden gesucht

Die **grepl-** Funktion verwendet dieselben Argumente wie die grep- Funktion, mit Ausnahme des nicht unterstützten value- Arguments. grepl gibt einen *logischen Vektor* mit der gleichen Länge wie der Eingabevektor zurück. Jedes Element im zurückgegebenen Vektor gibt an, ob der Regex eine Übereinstimmung im entsprechenden Zeichenfolgenelement im Eingabevektor finden konnte

In [78]:
# Untersuchte Texte definieren
text1 <- "Hallo Welt!"
text2 <- "Wir kommen um 8.30 an!"

In [79]:
# Prüfen, ob untersuchte Texte das "Hallo"-Wort enthalten
grepl('Hallo',text1)
grepl('Hallo',text2)

In [80]:
# Prüfen, ob untersuchte Texte Zahlen enthalten
grepl('[0-9]+',text1)
grepl('[0-9]+',text2)

Das gleiche kann man natürlich auch für Vektoren anwenden:

In [81]:
txtVect1 = c("abc", "abc9", "fde11")
txtVect1

In [61]:
# Prüfen, ob Vektor-Elemente "ab"-Literal enthalten
grepl('ab',txtVect1)

In [62]:
# Prüfen, ob Vektor-Elemente Zahlen enthalten
grepl('[0-9]+',txtVect1)

Die Funktion **regexpr** verwendet dieselben Argumente wie *grepl*-Funktion. regexpr gibt einen ganzzahligen Vektor mit der gleichen Länge wie der Eingabevektor zurück. Jedes Element im zurückgegebenen Vektor gibt die **Zeichenposition** in jedem entsprechenden Zeichenfolgenelement im Eingabevektor an, an der die **(erste) Regex-Übereinstimmung** gefunden wurde. Eine Übereinstimmung am Anfang der Zeichenfolge wird mit der Zeichenposition 1 angezeigt. Konnte der Regex in einer bestimmten Zeichenfolge keine Übereinstimmung finden, ist das entsprechende Element im Ergebnisvektor -1. Der zurückgegebene Vektor hat auch ein **match.length-** Attribut. Dies ist ein weiterer ganzzahliger Vektor mit der Anzahl der Zeichen in der (ersten) Regex-Übereinstimmung in jeder Zeichenfolge oder -1 für Zeichenfolgen, die nicht übereinstimmen 

*Tipp: match.length-Attribut bitte in R Studio testen*

In [63]:
match <- regexpr ("a+", c ("abc", "def", "cba a", "aa"), perl = TRUE)
match

Die **gregexpr-** Funktion ist dieselbe wie *regexpr*, findet jedoch **alle Übereinstimmungen** in jeder Zeichenfolge. Es wird ein Vektor mit der gleichen Länge wie der Eingabevektor zurückgegeben. Jedes Element ist ein anderer Vektor, wobei ein Element für jede Übereinstimmung in der Zeichenfolge die Zeichenposition angibt, an der diese Übereinstimmung gefunden wurde. Jedes Vektorelement im zurückgegebenen Vektor hat auch ein match.length- Attribut mit der Länge aller Übereinstimmungen. Wenn in einer bestimmten Zeichenfolge keine Übereinstimmungen gefunden werden konnten, ist das Element im zurückgegebenen Vektor immer noch ein Vektor, jedoch mit nur einem Element -1.

*Tipp: match.length-Attribut bitte in R Studio testen*

In [64]:
gregexpr ("a+", c ("abc", "def", "cba a", "aa"), perl = TRUE)

Die **sub-** Funktion verfügt über drei erforderliche Parameter: 
* eine Zeichenfolge mit dem regulären Ausdruck
* eine Zeichenfolge mit dem Ersetzungstext
* Eingabevektor. 

**sub**-Funktion  gibt einen neuen Vektor mit der gleichen Länge wie der Eingabevektor zurück. 
Wenn eine Regex-Übereinstimmung in einem Zeichenfolgenelement gefunden wurde, wird sie durch den Ersetzungstext ersetzt. 
**Nur die erste Übereinstimmung** in jedem Zeichenfolgenelement wird ersetzt. 
Wenn in einigen Zeichenfolgen keine Übereinstimmungen gefunden wurden, werden diese unverändert in den Ergebnisvektor kopiert.

In [65]:
x <- c("r Tutorial, r Buch", "r Beispiel-Code, r Daten")
x

In [66]:
y <- sub("r ","HTML ", x)
y

Verwenden Sie **gsub** anstelle von *sub* , um **alle Regex-Übereinstimmungen in allen Zeichenfolgenelementen** in Ihrem Vektor zu ersetzen. Abgesehen davon, dass alle Übereinstimmungen ersetzt werden, funktioniert gsub genauso und verwendet genau die gleichen Argumente.

In [67]:
z <- gsub("r ","HTML ", x)
z

Sie können auch Gruppierung beim Ersetzen anwenden:

In [83]:
# Alle gematchten "a"-s in Eckigen klammern einschliessen 
x <- c("abc", "def", "cba a", "aa")
x

y = sub ("(a+)", "[\\1]", x, perl = TRUE)
y

z = gsub ("(a+)", "[\\1]", x, perl = TRUE)
z

In [73]:
# Damit können Sie alle EINZLNE "a"-s ansprechen (vergleichen Sie 4. Element [aa] vs. [a][a])
w = gsub ("(a{1})", "[\\1]", x, perl = TRUE)
w

Sie können auch \U und \L verwenden relevanten Text in Groß- oder Kleinbuchstaben zu ändern.

In [82]:
sub ("(a+)", "\\U\\1", c("abc", "def", "cba a", "aa"), perl = TRUE)
gsub ("(A+)", "\\L\\1", c("Abc", "def", "cbA A", "AA"), perl = TRUE)

Weitere Informationen bekommen Sie, wenn Sie einfach help("regexpr") angeben oder auf diese [Reqular-Expressions Webseite](http://www.regular-expressions.info/rlanguage.html).

[Hier](https://digitalfortress.tech/tricks/top-15-commonly-used-regex/) können Sie z.B. einige nützliche Reguläre Ausdrücke nachschlagen.

Herzlichen Glückwunsch! Sie sind mit Lektion 38. fertig!