# Regular Expressions


- **Regular Expressions (Reguläre Ausdrücke)** sind Muster, mit denen Text durchsucht, ersetzt oder extrahiert werden kann. In Python wird das Modul `re` verwendet, um mit regulären Ausdrücken zu arbeiten.

- **Importieren des Moduls**:
```python
import re
```

## Vorteile von regulären Ausdrücken:
- Sehr mächtig und flexibel bei der Textanalyse und -manipulation.
- Effizient, besonders für komplexe Such- und Ersetzungsoperationen.

 


## Beispiele von regulären Ausdrücken:
- **`r"\d+"`**: Eine oder mehr Ziffern.
- **`r"[A-Za-z]+"`**: Eine oder mehr Buchstaben (Groß- oder Kleinbuchstaben).
- **`r"^\d{4}$"`**: Genau 4 Ziffern am Anfang und Ende der Zeichenkette.

## Beispiele:

1. **`re.match()`** – Überprüfen, ob der reguläre Ausdruck am Anfang der Zeichenkette übereinstimmt:
   ```python
 

In [27]:
import re
text = "Python ist cool"
match = re.match("Python", text)

if match:
    print("Ja! Der reguläre Ausdruck am Anfang der Zeichenkette übereinstimmt!")
else:
    print("Keine Übereinstimmung")


Ja! Der reguläre Ausdruck am Anfang der Zeichenkette übereinstimmt!


In [26]:
import re
text = "Java ist cool"
match = re.match("Python", text)

if match:
    print("Ja! Der reguläre Ausdruck am Anfang der Zeichenkette übereinstimmt!")
else:
    print("Keine Übereinstimmung")


Keine Übereinstimmung


2. **`re.search()`** – Nach einem Muster in der gesamten Zeichenkette suchen:

 

In [51]:
import re

text = "Ich liebe Python"
pattern = r"Python"

search = re.search(pattern, text)

if search:
    print("Ja! Wir haben eine Übereinstimmung!")
else:
    print("Keine Übereinstimmung")


Ja! Wir haben eine Übereinstimmung!


3. **`re.findall()`** – Alle Übereinstimmungen des Musters finden:


In [52]:
import re
text = "Die Zahlen sind 123 und 456"
numbers = re.findall(r"\d", text)
#numbers = re.findall("[0-9]", text)
print(numbers)   
 


['1', '2', '3', '4', '5', '6']


4. **`re.sub()`** – Text ersetzen:

In [53]:
import re
text = "Das ist alt"
replaced = re.sub("alt", "neu", text)
print(replaced)  # Ausgabe: "Das ist neu"


Das ist neu


5. **`re.split()`** – Zeichenkette aufteilen:

In [54]:
import re
text = "Apfel, Banane,  Orange"
result = re.split(r",\s*", text)
print(result)  # Ausgabe: ['Apfel', 'Banane', 'Orange']


['Apfel', 'Banane', 'Orange']


## Wichtige Funktionen:
| Funktion        | Beschreibung                                                                 | Beispiel                                                      |
|-----------------|------------------------------------------------------------------------------|---------------------------------------------------------------|
| `re.search()`   | Sucht nach einem Muster in einer Zeichenkette und gibt das erste Vorkommen zurück. | `re.search(r"\d+", "Die Zahl ist 123")` → `123`              |
| `re.match()`    | Überprüft, ob ein Muster am Anfang der Zeichenkette übereinstimmt.           | `re.match(r"\d+", "123abc")` → `123`                          |
| `re.findall()`  | Gibt eine Liste aller Vorkommen des Musters in einer Zeichenkette zurück.    | `re.findall(r"\d+", "1, 2, 3 und 4")` → `['1', '2', '3', '4']` |
| `re.sub()`      | Ersetzt alle Vorkommen eines Musters in einer Zeichenkette durch einen angegebenen Ersatzstring. | `re.sub(r"\d+", "X", "Die Zahl ist 123")` → `Die Zahl ist X` |
| `re.split()`    | Teilt eine Zeichenkette anhand eines Musters und gibt eine Liste der Teile zurück. | `re.split(r"\s+", "Dies ist ein Test")` → `['Dies', 'ist', 'ein', 'Test']` |
| `re.finditer()` | Gibt einen Iterator zurück, der alle Übereinstimmungen als `Match`-Objekte liefert. | `re.finditer(r"\d+", "Die Zahl ist 123 und 456")` → `Match('123'), Match('456')` |`re.split(r'\s+', 'abc 123 xyz 456')` gibt `['abc', '123', 'xyz', '456']` zurück. |



In [60]:
print(re.match(r"\d+", "123abc"))

<re.Match object; span=(0, 3), match='123'>


## Wichtige reguläre Ausdrucks-Symbole

| Symbol | Beschreibung                                           |
|--------|--------------------------------------------------------|
| `.`    | Ein beliebiges Zeichen (außer dem Zeilenumbruch)        |
| `\d`   | Eine Ziffer (entspricht `[0-9]`)                       |
| `\w`   | Ein alphanumerisches Zeichen (entspricht `[a-zA-Z0-9_]`)|
| `\s`   | Ein Leerzeichen oder Tabulator                         |
| `+`    | Ein oder mehr Vorkommen des vorhergehenden Musters     |
| `*`    | Null oder mehr Vorkommen des vorhergehenden Musters    |
| `?`    | Null oder ein Vorkommen des vorhergehenden Musters     |
| `[]`   | Eine Reihe von Charakteren (z. B. `[a-z]` für alle Kleinbuchstaben) |
| `\|`   | Oder (z. B. `a\|b` für "a oder b")                     |
| `()`   | Eine Gruppe, die es ermöglicht, Teile des Musters zusammenzufassen und später zu referenzieren (z. B. `(abc)` für das Wort "abc") |


## Beispiel: Regulärer Ausdruck für ein Passwort mit Zahlen und Buchstaben

In [73]:
import re

# Regulärer Ausdruck: Ein Passwort mit mindestens einem Buchstaben und einer Zahl
pattern = r"^(?=.*[a-zA-Z])(?=.*\d)[a-zA-Z\d]+$"

# Testzeichenkette
password = "Passwort123"

# Verwende re.match(), um zu überprüfen, ob das Passwort gültig ist
result = re.match(pattern, password)

if result:
    print("Gültiges Passwort")
else:
    print("Ungültiges Passwort")


Gültiges Passwort


### Erklärung des regulären Ausdrucks:
- `^`: Beginn der Zeichenkette.
- `(?=.*[a-zA-Z])`: Positive Lookahead für mindestens einen Buchstaben (sowohl Groß- als auch Kleinbuchstaben).
- `(?=.*\d)`: Positive Lookahead für mindestens eine Ziffer.
- `[a-zA-Z\d]+`: Erlaubt nur Buchstaben und Ziffern in der Zeichenkette (mindestens ein Zeichen).
- `$`: Ende der Zeichenkette.

### Funktionsweise:
- `(?=.*[a-zA-Z])`: Der Ausdruck sucht nach mindestens einem beliebigen Buchstaben (Groß- oder Kleinbuchstabe).
- `(?=.*\d)`: Der Ausdruck sucht nach mindestens einer Ziffer.
- `[a-zA-Z\d]+`: Der Ausdruck erlaubt nur Buchstaben (a-zA-Z) und Ziffern (0-9) in der gesamten Zeichenkette.
