# Wprowadzenie do wyrażeń regularnych (regexp)

## 1. Czym są wyrażenia regularne?

Wyrażenia regularne (ang. **regular expressions**, w skrócie **regex** lub **regexp**) to potężne narzędzie służące do wyszukiwania, dopasowywania i manipulowania tekstem na podstawie wzorców. Pozwalają na opisanie skomplikowanych kryteriów wyszukiwania za pomocą prostego języka wzorców.

Wyrażenia regularne są szeroko stosowane w różnych językach programowania, w tym w Pythonie, do:

- Wyszukiwania wzorców w tekście.
- Walidacji danych (np. adresy e-mail, numery telefonów).
- Zamiany fragmentów tekstu.
- Parsowania danych.

## 2. Podstawy wyrażeń regularnych

Wyrażenia regularne składają się ze znaków i metaznaków, które razem tworzą wzorce dopasowania.

### 2.1. Podstawowe metaznaki

- `.` (kropka): Reprezentuje dowolny pojedynczy znak z wyjątkiem znaku nowej linii (`\n`).
- `^`: Dopasowuje początek linii.
- `$`: Dopasowuje koniec linii.
- `*`: Reprezentuje zero lub więcej wystąpień poprzedzającego znaku lub grupy.
- `+`: Reprezentuje jedno lub więcej wystąpień poprzedzającego znaku lub grupy.
- `?`: Reprezentuje zero lub jedno wystąpienie poprzedzającego znaku lub grupy.
- `{n}`: Dokładnie n wystąpień poprzedzającego znaku lub grupy.
- `{n,}`: Co najmniej n wystąpień.
- `{n,m}`: Od n do m wystąpień.

### 2.2. Grupy i klasy znaków

- `[]`: Definiuje klasę znaków. Dopasowuje dowolny pojedynczy znak z podanego zbioru.
  - Przykład: `[abc]` dopasuje `a`, `b` lub `c`.
- `[^]`: Negacja klasy znaków. Dopasowuje dowolny znak NIE będący w zbiorze.
  - Przykład: `[^abc]` dopasuje dowolny znak z wyjątkiem `a`, `b` lub `c`.
- `()` : Definiuje grupę. Umożliwia grupowanie znaków lub wyrażeń.

### 2.3. Sekwencje specjalne

- `\d`: Cyfra (równoważne `[0-9]`).
- `\D`: Nie-cyfra (równoważne `[^0-9]`).
- `\w`: Znak alfanumeryczny lub podkreślenie (równoważne `[a-zA-Z0-9_]`).
- `\W`: Nie-znak alfanumeryczny (równoważne `[^a-zA-Z0-9_]`).
- `\s`: Biały znak (spacja, tabulator, nowa linia).
- `\S`: Nie-biały znak.
- `\b`: Granica słowa.
- `\B`: Nie-granica słowa.

### 2.4. Alternatywa i wybór

- `|`: Operator alternatywy (lub). Pozwala na wybór między wieloma opcjami.
  - Przykład: `Jan|Piotr` dopasuje `Jan` lub `Piotr`.

## 3. Użycie wyrażeń regularnych w Pythonie

Python udostępnia moduł `re`, który umożliwia pracę z wyrażeniami regularnymi.

### 3.1. Importowanie modułu

```python
import re
```

### 3.2. Podstawowe funkcje modułu `re`

- `re.search(pattern, string)`: Przeszukuje cały ciąg znaków w poszukiwaniu pierwszego wystąpienia wzorca.
- `re.match(pattern, string)`: Sprawdza, czy wzorzec występuje na początku ciągu.
- `re.findall(pattern, string)`: Zwraca listę wszystkich niepokrywających się dopasowań wzorca w ciągu.
- `re.finditer(pattern, string)`: Zwraca iterator po wszystkich dopasowaniach.
- `re.sub(pattern, repl, string)`: Zastępuje wszystkie wystąpienia wzorca w ciągu na podany ciąg `repl`.
- `re.split(pattern, string)`: Dzieli ciąg na podstawie wzorca.

### 3.3. Przykłady użycia

#### 3.3.1. `re.search()`

```python
import re

tekst = "Kontakt: jan.kowalski@example.com"
wzorzec = r'\w+@\w+\.\w+'

dopasowanie = re.search(wzorzec, tekst)
if dopasowanie:
    print("Znaleziono adres e-mail:", dopasowanie.group())
else:
    print("Nie znaleziono adresu e-mail.")
```

**Wyjaśnienie wzorca:**

- `\w+`: Jeden lub więcej znaków alfanumerycznych.
- `@`: Znak `@`.
- `\w+`: Jeden lub więcej znaków alfanumerycznych.
- `\.`: Kropka (znak kropki musi być poprzedzony `\`).
- `\w+`: Jeden lub więcej znaków alfanumerycznych.

#### 3.3.2. `re.match()`

```python
import re

tekst = "Python jest wspaniały."
wzorzec = r'Python'

if re.match(wzorzec, tekst):
    print("Tekst zaczyna się od 'Python'.")
else:
    print("Tekst nie zaczyna się od 'Python'.")
```

#### 3.3.3. `re.findall()`

```python
import re

tekst = "Adam ma 23 lata, Ewa ma 22 lata, a Jan ma 45 lat."
wzorzec = r'\d+'

liczby = re.findall(wzorzec, tekst)
print("Znalezione liczby:", liczby)
```

**Wynik:**

```
Znalezione liczby: ['23', '22', '45']
```

#### 3.3.4. `re.sub()`

```python
import re

tekst = "To jest stara wersja pliku."
wzorzec = r'stara'
zamiennik = 'nowa'

nowy_tekst = re.sub(wzorzec, zamiennik, tekst)
print(nowy_tekst)
```

**Wynik:**

```
To jest nowa wersja pliku.
```

#### 3.3.5. `re.split()`

```python
import re

tekst = "Jan, Ewa, Piotr; Anna|Marek"

# Wzorzec do rozdzielenia na podstawie przecinka, średnika lub kreski pionowej
wzorzec = r'[;,|]'

imiona = re.split(wzorzec, tekst)
print(imiona)
```

**Wynik:**

```
['Jan', ' Ewa', ' Piotr', ' Anna', 'Marek']
```

## 4. Przykłady praktyczne

### 4.1. Walidacja adresu e-mail

In [4]:
import re

def sprawdz_email(email):
    wzorzec = r'^[\w\.-]+@[\w\.-]+\.\w{2,}$'
    if re.match(wzorzec, email):
        return True
    else:
        return False

email = "jan.kowalski@example.com"
if sprawdz_email(email):
    print("Poprawny adres e-mail.")
else:
    print("Niepoprawny adres e-mail.")

Poprawny adres e-mail.


### 4.2. Ekstrakcja numerów telefonów

In [5]:
import re

tekst = "Skontaktuj się z nami pod numerami: 123-456-789 lub 987 654 321."
wzorzec = r'\d{3}[- ]\d{3}[- ]\d{3}'

numery = re.findall(wzorzec, tekst)
print("Znalezione numery telefonów:", numery)

Znalezione numery telefonów: ['123-456-789', '987 654 321']


### 4.3. Usuwanie komentarzy z kodu

In [8]:
import re

kod = '''
def funkcja():
    # To jest komentarz
    print("Hello World")  # Inny komentarz
'''

# Wzorzec do usunięcia komentarzy
wzorzec = r'#.*'

kod_bez_komentarzy = re.sub(wzorzec, '', kod)
print(kod_bez_komentarzy)


def funkcja():
    
    print("Hello World")  



## 5. Flagi w wyrażeniach regularnych

Podczas korzystania z funkcji modułu `re`, można użyć flag, które zmieniają sposób działania wyrażeń regularnych.

- `re.IGNORECASE` lub `re.I`: Ignoruje wielkość liter.
- `re.MULTILINE` lub `re.M`: Zmienia zachowanie `^` i `$` tak, aby pasowały do początku i końca każdej linii, a nie tylko całego ciągu.
- `re.DOTALL` lub `re.S`: Sprawia, że kropka `.` dopasowuje także znak nowej linii `\n`.

### 5.1. Przykład z flagą `re.IGNORECASE`

In [9]:
import re

tekst = "Python jest Wspaniały."
wzorzec = r'python'

if re.search(wzorzec, tekst, re.IGNORECASE):
    print("Znaleziono 'python' niezależnie od wielkości liter.")
else:
    print("Nie znaleziono 'python'.")

Znaleziono 'python' niezależnie od wielkości liter.


### 5.2. Przykład z flagą `re.MULTILINE`

In [10]:
import re

tekst = '''To jest pierwszy wiersz.
To jest drugi wiersz.
Trzeci wiersz tutaj.'''

wzorzec = r'^To'

dopasowania = re.findall(wzorzec, tekst, re.MULTILINE)
print("Dopasowania:", dopasowania)

Dopasowania: ['To', 'To']


## 6. Grupy i odwołania wsteczne

Grupy pozwalają na przechwytywanie fragmentów dopasowań.

### 6.1. Grupy

- `(pattern)`: Definiuje grupę.
- Można odwołać się do grupy za pomocą `group(n)`, gdzie `n` to numer grupy (pierwsza grupa ma numer 1).

#### Przykład

In [11]:
import re

tekst = "Jan Kowalski, 30 lat"
wzorzec = r'(\w+) (\w+), (\d{2}) lat'

dopasowanie = re.search(wzorzec, tekst)
if dopasowanie:
    imie = dopasowanie.group(1)
    nazwisko = dopasowanie.group(2)
    wiek = dopasowanie.group(3)
    print(f"Imię: {imie}, Nazwisko: {nazwisko}, Wiek: {wiek}")

Imię: Jan, Nazwisko: Kowalski, Wiek: 30


### 6.2. Nazwane grupy

Można nadać nazwę grupie za pomocą `(?P<name>pattern)`.

#### Przykład

In [12]:
import re

tekst = "Produkt: ABC123, Cena: 19.99 PLN"
wzorzec = r'Produkt: (?P<produkt>\w+), Cena: (?P<cena>\d+\.\d{2}) PLN'

dopasowanie = re.search(wzorzec, tekst)
if dopasowanie:
    produkt = dopasowanie.group('produkt')
    cena = dopasowanie.group('cena')
    print(f"Produkt: {produkt}, Cena: {cena} PLN")

Produkt: ABC123, Cena: 19.99 PLN




### 6.3. Odwołania wsteczne

Pozwalają na dopasowanie wzorca na podstawie wcześniej zdefiniowanej grupy.

#### Przykład: Dopasowanie powtarzających się słów

In [7]:

import re

tekst = "To jest jest test."
wzorzec = r'\b(\w+)\s+\1\b'

dopasowanie = re.search(wzorzec, tekst)
if dopasowanie:
    powtorzone_slowo = dopasowanie.group(1)
    print(f"Znaleziono powtórzone słowo: {powtorzone_slowo}")
else:
    print("Nie znaleziono powtórzonych słów.")


Znaleziono powtórzone słowo: jest


## 7. Przydatne wskazówki

### 7.1. Surowe łańcuchy znaków (`r''`)

Podczas definiowania wzorców, zaleca się używanie surowych łańcuchów znaków, poprzedzając je literą `r`. Dzięki temu unikamy konieczności podwójnego ucieczki znaków specjalnych.

**Przykład:**

```python
wzorzec = r'\d+\.\d{2}'
```

Zamiast:

```python
wzorzec = '\\d+\\.\\d{2}'
```

### 7.2. Testowanie wzorców online

Istnieją narzędzia online, które pozwalają na interaktywne testowanie wyrażeń regularnych, np.:

- https://regex101.com/
- https://regexr.com/

### 7.3. Dokumentacja modułu `re`

Oficjalna dokumentacja modułu `re` w Pythonie zawiera szczegółowe informacje i dodatkowe funkcje:

- https://docs.python.org/3/library/re.html