# Regular expressions

Reguläre Ausdrücke, kurz "re", sind eine leistungsstarke Möglichkeit, Muster in Zeichenketten zu suchen, zu extrahieren und zu manipulieren. In Python wird das Modul re verwendet, um reguläre Ausdrücke zu verwenden.

Grundlegende Funktionen von re:
- re.search(pattern, string): Sucht den ersten Treffer des Musters im String.
- re.match(pattern, string): Sucht das Muster nur am Anfang des Strings.
- re.findall(pattern, string): Findet alle Treffer des Musters im String und gibt sie als Liste zurück.
- re.sub(pattern, repl, string): Ersetzt alle Treffer des Musters im String durch den Ersatzstring (repl).

- Ein bestimmtes Wort in einem String finden:

In [62]:
import re

def match_hello(string):
    pattern = r'hello'
    return re.search(pattern, string) is not None

# Example usage:
print(match_hello("Say  hello hello to everyone!"))  


True


In [None]:
print(match_hello("Hi there!"))              

- Ein Muster von Ziffern finden:


In [74]:
import re

def match_digits(string):
    pattern = r'\d'
    return re.search(pattern, string) is not None

# Example usage:
print(match_digits("There are  apples."))  # Output: True
print(match_digits("No digits here!"))        # Output: False


False
False


- Ein bestimmtes E-Mail-Muster finden:


In [15]:
import re

def match_email(string):
    pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
    return re.match(pattern, string) is not None

# Example usage:
print(match_email("john@example.com"))   # Output: True
print(match_email("not_an_email.com"))   # Output: False


True
False


- in dem regulären Ausdruck (?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+' wird der Ausdruck (?: ... ) verwendet, um eine nicht erfassende Gruppe von Zeichen anzugeben. Dies bedeutet, dass diese Gruppe für die Übereinstimmung von Zeichen verwendet wird, aber keine separate Gruppe in den gefundenen Übereinstimmungen erstellt wird.

Innerhalb dieser nicht erfassenden Gruppe gibt es mehrere Möglichkeiten, wie Zeichenketten erfasst werden können:

- '[a-zA-Z]': Übereinstimmung mit einem Buchstaben (Groß- oder Kleinbuchstabe).
- [0-9]: Übereinstimmung mit einer Ziffer.
- [$-_@.&+]:
  Übereinstimmung mit einem der Zeichen    _, @, ., & oder +.
- [!*\\(\\),]: Übereinstimmung mit einem der Zeichen !, *, (, ), ,.
- (?:%[0-9a-fA-F][0-9a-fA-F]): Dies ist eine nicht erfassende Gruppe, die für URLs mit Prozentkodierung verwendet wird. Es wird nach einem Prozentzeichen % gefolgt von zwei hexadezimalen Ziffern gesucht. %[0-9a-fA-F] entspricht einem einzelnen Zeichen mit einer hexadezimalen Ziffer (0-9 und a-f oder A-F), und [0-9a-fA-F][0-9a-fA-F] entspricht zwei solchen Zeichen.


- Einzelne Buchstaben suchen:


In [80]:
import re

# 1. Einzelne Buchstaben suchen
pattern = r'b'
print(re.findall(pattern, "banana"))  



['b']


In [86]:
# 2. Eine bestimmte Anzahl von Buchstaben suchen
pattern = r'lo{1}'
print(re.findall(pattern, "hello"))  

['lo']


In [84]:


# 3. Buchstaben von einer bestimmten Anzahl suchen
pattern = r'lo{1,3}'
print(re.findall(pattern, "hellooo")) 

['looo']


In [88]:

# 4. Buchstaben aus einer bestimmten Menge suchen
pattern = r'[aeiou]'
print(re.findall(pattern, "apple"))    # Ausgabe: ['a', 'e']



['a', 'e']


In [90]:
# 5. Buchstaben außerhalb einer bestimmten Menge suchen
pattern = r'[^aeiou]'
print(re.findall(pattern, "apple"))    # Ausgabe: ['p', 'p', 'l']



['p', 'p', 'l']


In [98]:
# 6. Einzelne Ziffern suchen
pattern = r'\d'
print(re.findall(pattern, "There are 123 apples.")) 


['1', '2', '3']


In [94]:
# 7. Nicht-Ziffern suchen
pattern = r'\D'
print(re.findall(pattern, "There are 123 apples."))  


['T', 'h', 'e', 'r', 'e', ' ', 'a', 'r', 'e', ' ', ' ', 'a', 'p', 'p', 'l', 'e', 's', '.']


In [102]:
# 8. Leerzeichen suchen
pattern = r'\s'
print(re.findall(pattern, "Hello        World"))  



[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


In [106]:
# 9. Nicht-Leerzeichen suchen
pattern = r'\S+'
print(re.findall(pattern, "Hello World"))  

['Hello', 'World']


In [108]:

# 10. Wörter suchen
pattern = r'\w+'
print(re.findall(pattern, "Hello World"))  



['Hello', 'World']


In [110]:
# 11. Nicht-Wörter suchen
pattern = r'\W+'
print(re.findall(pattern, "Hello World"))  # Ausgabe: [' ']



[' ']


In [112]:
# 12. Anfang eines Strings suchen
pattern = r'^Hello'
print(re.findall(pattern, "Hello World"))  


['Hello']


In [None]:
# 13. Ende eines Strings suchen
pattern = r'World$'
print(re.findall(pattern, "Hello World"))  



In [114]:
# 14. Genau eine Wiederholung suchen
pattern = r'lo{1}'
print(re.findall(pattern, "hello"))   


['lo']


In [118]:
# 15. Null oder eine Wiederholung suchen
pattern = r'lo{0,1}'
print(re.findall(pattern, "hello"))   

['l', 'lo']


In [116]:
# 16. Beliebige Zeichen außer einer Zeichenklasse suchen
pattern = r'.'
print(re.findall(pattern, "Hello\nWorld"))  

['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']
