## Wyrażenia regularne w Pythonie

### 1. Biblioteka [`re`](https://docs.python.org/3/library/re.html)

Najpopularniejszą biblioteką do pracy z wyrażeniami regularnymi w Pythonie jest biblioteka [`re`](https://docs.python.org/3/library/re.html). Biblioteka [`re`](https://docs.python.org/3/library/re.html) jest częścią standardowej biblioteki Pythona, więc nie trzeba jej instalować. Wystarczy zaimportować.

In [None]:
# importujemy bibliotekę `re`


Pierwszym zdaniem, jakie przeczytamy w dokumentacji biblioteki jest:

**"This module provides regular expression matching operations similar to those found in Perl."**

więc, jak łatwo się domyślić biblioteka wspiera standard `PCRE`. 

Popatrzmy jakie funkcje zawiera biblioteka re

In [None]:
# Sprawdżmy przestrzeń nazwa modułu `re`


Do najpopularniejszych funkcji biblioteki `re` należą:

| Funkcja       | Opis                                                                 | Przykład zastosowania                           |
| ------------- | -------------------------------------------------------------------- | ----------------------------------------------- |
| `re.match()`  | Sprawdza, czy początek stringu pasuje do wzorca.                     | `re.match(r'\d+', '123abc')` zwróci dopasowanie na `'123'` |
| `re.search()` | Przeszukuje string w poszukiwaniu pierwszego wystąpienia wzorca.     | `re.search(r'\d+', 'abc123def')` zwróci dopasowanie na `'123'` |
| `re.findall()`| Zwraca listę wszystkich niepokrywających się dopasowań wzorca.       | `re.findall(r'\d+', 'abc123def456')` zwróci `['123', '456']` |
| `re.finditer()`| Zwraca iterator zwracający wszystkie niepokrywające się dopasowania. | `re.finditer(r'\d+', 'abc123def456')` zwróci iterator obiektów dopasowania |
| `re.split()`  | Dzieli string na listę, używając wzorca jako separatora.             | `re.split(r'\d+', 'abc123def456')` zwróci `['abc', 'def', '']` |
| `re.sub()`    | Zastępuje wszystkie wystąpienia wzorca stringiem zastępczym.         | `re.sub(r'\d+', '-', 'abc123def456')` zwróci `'abc-def-'` |
| `re.compile()`| Kompiluje wzorzec do obiektu wyrażenia regularnego, aby używać go wielokrotnie. | `pattern = re.compile(r'\d+'); pattern.match('123abc')` zwróci dopasowanie na `'123'` |


W przykładowych zastosowaniach widzimy literę `r` przed napisem. Co ona oznacza ?

### 2. Surowe napisy (ang. Raw string)

Surowe napisy to napis z prefixem r (może być r lub R).

In [None]:
# Zwykły napis


In [None]:
# Surowy napis r''


In [None]:
# Surowy napis R''


To jaka jest róznica pomiędzy surowym napisem (czyli napisem z poprzedzającym go literą `r`), a zwykłym napisem?

W surowych napisach znak ucieczki (`\`) jest ignorowany i tym samym wszystkie sekwencje specjalne wygenerowane za jego pomocą też są ignorowane.

Co to sekwencje specjalne? 

Sekwencje specjalne to sekwencje znaków, które pełnią specjalną funkcję, np. `\n` - to sekwencja oznaczająca znak nowej linii (a nie jak mogłoby się wydawać backslash z literą alfabetu `n`).

In [None]:
# Znak nowej linii (sekwencje specjalne w Pythonie)


Taka sekwencja użyta wewnątrz surowego napisu traci swoją specjalną funkcję.

In [None]:
# Znak nowej linii w surowym napisie


W Pythonie do sekwencji specjalnych należą:

| Escape Sequence | Meaning Notes |
| --------------- | ------------- |  
| \\\\  |  Backslash (\) |    
| \\' |   Single quote (') |     
| \\"  |   Double quote (")  |    
| \a   |  ASCII Bell (BEL)  |    
| \b  |  ASCII Backspace (BS) |     
| \f |   ASCII Formfeed (FF) | 
| \n  |  ASCII Linefeed (LF) | 
| \N{name} | Character named name in the Unicode database (Unicode only) |
| \r  |  ASCII Carriage Return (CR) |   
| \t  |  ASCII Horizontal Tab (TAB)  | 
| \uxxxx  |  Character with 16-bit hex value xxxx (Unicode only) |
| \Uxxxxxxxx  |  Character with 32-bit hex value xxxxxxxx (Unicode only) | 
| \v  |  ASCII Vertical Tab (VT) | 
| \ooo | Character with octal value ooo |
| \xhh |  Character with hex value hh |

W **surowym napisie** Python ignoruje specjalną funkcję znaku ucieczki i traktuje ten znak jak i wszystkie sekwencje rozpoczynające się od znaku ucieczki jako zwykłe znaki. 

Dlaczego możemy chcieć pozbyć się specjalnej funkcji jakiejś sekwencji, a tak naprawdę specjalnej funkcji znaku `\` ?

Pozwala to na swobodne używanie znaku `\` w wyrażeniach regularnych, gdzie pełni inną, równie ważną rolę.

Kiedy już wiemy co oznacza litera `r` wróćmy do przykładowych zastosowań.

### 3. Przykładowe zastosowania podstawowych funkcji biblioteki `re`.

#### A. [`re.match`](https://docs.python.org/3/library/re.html#re.match)

Opis: Sprawdza, czy początek stringu pasuje do wzorca.

Zacznijmy od funkcji [`re.match`](https://docs.python.org/3/library/re.html#re.match) - funkcja szuka dopasowania, zaczynając od **początku** napisu. 

Jeżeli nie znajdzie dopasowania na **początku** napisu zwraca None.

In [None]:
# Dopasowanie numeru telefonu na początku napisu (`re.match`)


Jeżeli znajdzie dopasowanie na **początku** napisu zwraca obiekt klasy [`re.Match`](https://docs.python.org/3/library/re.html#re.Match).

In [None]:
# Dopasowanie numeru telefonu na początku napisu (`re.match`), text i pattern w oddzielnych linijkach


In [None]:
# Wynik ?


Obiekt klasy re.Match reprezentuje fragment napisu pasujący do wzorca.

Co potrafią obiekty klasy [`re.Match`](https://docs.python.org/3/library/re.html#re.Match) ?

In [None]:
# Co potrafi klasa `re.Match`


Do najpopularniejszych metod obiektu klasy re.Match należą:

| Metoda | Opis |
|--------|------|
| `start()` | Zwraca indeks początku dopasowania |
| `end()`   | Zwraca indeks końca dopasowania |
| `span()`  | Zwraca krotkę zawierającą indeks początku i końca dopasowania |
| `group()` | Zwraca całą dopasowaną część ciągu znaków |

Omówmy każdy z osobna.

In [None]:
# metoda start

# int

2. `end` - metoda zwracająca indeks końca dopasowania

In [None]:
# metoda end 

# int

Za pomocą metod `start` i `end` oraz szatkowaniu sekwencji łatwo możemy wyciąć z napisu dopasowany fragment.

In [None]:
# Wycinek zawierający dopasowanie


3. `span` - metoda zwracająca dwuelementową krotkę. Na pierwszej pozycji w krotce znajduje się indeks początku dopasowania, na drugiej indeks końca dopasowania.

In [None]:
# metoda span

# tuple

Za pomocą metody `span` równie łatwo jest wyciągnać z napisu dopasowany fragment.

In [None]:
# Wycinek zawierający dopasowanie za pomocą span


Ale nie trzeba ręcznie wycinać z tekstu dopasowania. Obiekt klasy `re.Match` sam potrafi zwrócić dopasowany tekst.

4. `group` - metoda zwracająca całą dopasowaną część ciągu znaków

In [None]:
# metoda group

# str

Sprawa się odrobinę komplikuję kiedy użyjemy grupowania.

Pogrupujmy nasze dopasowanie w trzy tercety.

In [None]:
# Dopasowanie numeru telefonu na początku napisu - grupowanie


Popatrzmy na metodę `start`.

In [None]:
# metoda start


Wydawałoby się bez zmian.

Ale metoda start posiada opcjonalny parametr `group`, a jej pełna sygnatura wygląda tak:

$$start([group])$$

, gdzie `group` jest numerem grupy (grupowania). I tak:

0 oznacza pełne dopasowanie.

In [None]:
# metoda start - pierwszy element


1 oznacza pierwszą grupę.

In [None]:
# metoda start - drugi element


2 oznacza drugą grupę

In [None]:
# metoda start - trzeci element


3 oznacza trzecią grupę

In [None]:
# metoda start - czwarty element


a 4 oznacza 4 grupę (o ile istnieje).

In [None]:
# metoda start - piąty element


W przeciwnym razie dostaniemy wyjątek `IndexError`.

Powyższ reguła dotyczy wszystkich poznanych metod.

In [None]:
# metoda end - czwarty element


In [None]:
# metoda span - czwarty element


In [None]:
# metoda group - czwarty element


Ponadto jeżeli zastosowaliśmy grupowanie w naszym wzorcu, pomocna może być metoda `groups()`. Metoda zwraca krotkę, której elementami są dopasowania wszystkich grup.

In [None]:
# metoda groups


#### Podsumowanie

Kompletny opis najpopularniejszych metod obiektów klasy `re.Match`:

| Metoda | Opis |
|--------|------|
| `start([group])` | Zwraca indeks początku dopasowania lub początku podciągu odpowiadającego określonej grupie. |
| `end([group])`   | Zwraca indeks końca dopasowania lub końca podciągu odpowiadającego określonej grupie. |
| `span([group])`  | Zwraca krotkę zawierającą indeks początku i końca dopasowania lub podciągu odpowiadającego określonej grupie. |
| `group([group1, ...])` | Zwraca całą dopasowaną część ciągu znaków lub podciąg odpowiadający określonej grupie. |
| `groups([default])` | Zwraca wszystkie podciągi odpowiadające grupom jako krotkę. Można podać wartość domyślną dla grup, które nie mają dopasowania. |

Kompletny przykład

In [None]:
# Dopasowanie numeru telefonu na początku stringu - całość
import re

result = re.match(r'\d{3}-\d{3}-\d{4}', '123-456-7890 is my phone number')
if result:
    print(f'Matched: {result.group()}')  # Output: Matched: 123-456-7890

#### B. [`re.search`](https://docs.python.org/3/library/re.html#re.search)

Opis: Przeszukuje string w poszukiwaniu **pierwszego** wystąpienia wzorca. Jedyną różnicą względem metody `re.match` jest fakt, że metoda `re.search` przeszukuje cały napis w poszukiwaniu wzorca, a nie patrzy tylko na początek napisu.

In [None]:
# Znajdowanie numeru telefonu w stringu (`search`)

text = 'Contact me at 123-456-7890 or 987-654-3210'

Widzimy, że w wyniku dostajemy obiekt klasy re.Match (pierwszy znaleziony), którego właściwości już sobie omówiliśmy w części dotyczącej metody `re.match`.

In [None]:
# Znajdowanie numeru telefonu w stringu (`search`)


A co jeżeli chcemy znaleźć wszystkie wystąpienia wzorca w tekście?

W takim przypadku pomoże nam metoda `re.findall`.

#### C. [`re.findall`](https://docs.python.org/3/library/re.html#re.findall)

Opis: Zwraca listę wszystkich niepokrywających się dopasowań wzorca.

In [None]:
# Znajdowanie wszystkich adresów e-mail w stringu (`findall`)

text = 'Send an email to test@example.com and info@company.org'

# Output: ['test@example.com', 'info@company.org']

Ale wynik jaki dostaliśmy nie wygląda już jak obiekt klasy `re.Match`.

In [None]:
# jakiej klasy jest wynik ?



Rzeczywiście tym razem w wyniku dostaliśmy listę dopasowań.

**Uwaga** \
W przypadku zastosowania grup, metoda `findall` zwraca listę dopasowań grup zamiast dopasowań pełnego wzorca. 

In [None]:
# Znajdowanie wszystkich adresów e-mail w stringu (`findall`) - grupowanie

text = 'Send an email to test@example.com and info@company.org'

# Output: ['example', 'company']

Idziemy dalej. 

Z grupami, czy bez metoda `findall` zwraca listę. I jak to z listą. W przypadku dużej liczby dopasowań martwimy się czy wystarczy nam pamięci ram, żeby całą listę do niej zapakować.

I jak to zwykle w tych przypadkach bywa, generatory (w ogólności iteratory, bo każdy generator jest iteratorem) przychodzą nam z pomocą - `re.finditer`.

#### D. [`re.finditer`](https://docs.python.org/3/library/re.html#re.finditer)

Opis: Zwraca iterator zwracający wszystkie niepokrywające się dopasowania.

In [None]:
# Znajdowanie wszystkich dat w formacie YYYY-MM-DD w stringu (`re.findall`)

log_data = '2023-01-01 entry, 2024-02-02 entry, 2025-03-03 entry'


Popatrzmy co zwróciła nam funkcja finditer.

In [None]:
# co zawraca funkcja `re.findall` ?

# iterator

In [None]:
# Jakiej klasy jest obiekt zwrócony przez funkcje `re.findall` ?


I tak jak to z iteratorami bywa.

Możemy się po nich przeiterować lub zrzutować na listę.

In [None]:
# Iterujemy po zwróconym obiekcie


Widzimy, że iterator zwraca nam kolejne obiekty doskonale już znanej nam klasy `re.Match`.

Zrzutujmy jeszcze na listę (przypomnienie: iterator po, którym już raz przeszliśmy jest wysycony. Trzeba utworzyć nowy).

In [None]:
# rzutowanie iteratora na listę

# tworzymy nowy iterator

# rzutujemy stworzony iterator na listę i wyświetlamy wynik


Kompletny przykład

In [None]:
# Całość
log_data = '2023-01-01 entry, 2024-02-02 entry, 2025-03-03 entry'
matches = re.finditer(r'\d{4}-\d{2}-\d{2}', log_data)

for match in matches:
    print(f'Found date: {match.group()}')  # Output: Found date: 2023-01-01, Found date: 2024-02-02, Found date: 2025-03-03

#### E. [`re.split`](https://docs.python.org/3/library/re.html#re.split)

Opis: Dzieli string na listę, używając wzorca jako separatora.

In [None]:
# Dzielenie stringu na części przy użyciu przecinków i spacji jako separatorów

text = 'apple, banana, cherry, date'

# Output: ['apple', 'banana', 'cherry', 'date']

#### F. [`re.sub`](https://docs.python.org/3/library/re.html#re.sub)

Opis: Zastępuje wszystkie wystąpienia wzorca stringiem zastępczym.

In [None]:
# Zastępowanie cyfr w stringu znakiem '#'

text = 'My phone number is 123-456-7890'

# Output: My phone number is ###-###-####

Alternatywnie, jeżeli planujemy wzorzec wykorzystywać w kilku miejscach, na kilka sposobów, to możemy stworzyć obiekt klasy `re.Pattern` za pomocą funkcji `re.compile`.

#### G. [`re.compile`](https://docs.python.org/3/library/re.html#re.compile)

Opis: Kompiluje wzorzec do obiektu wyrażenia regularnego, aby używać go wielokrotnie.

In [None]:
# Kompilowanie wzorca do wyszukiwania numerów telefonów

# odpowiedniki w metodach obiektu klasy re.Pattern: findall, finditer, match, search, split, sub

Jak widzimy obiekty klasy `re.Pattern` potrafią wszystko to o czym do tej pory mówiliśmy. Posiadają takie metody jak `findall`, `finditer`, `match`, `search`, `split`, `sub`. Są to odpowiedniki omówionych powyżej funkcji.

Przykład użycia

In [None]:
# przykład
text = 'Contact us at 123-456-7890 or 987-654-3210'

# wywołanie metody search obiektu klasy re.Pattern

# Output: Found: 123-456-7890


# wywołanie metody findall obiektu klasy re.Pattern

# Output: ['123-456-7890', '987-654-3210']

### 4. [Flagi](https://docs.python.org/3/library/re.html#flags)

Wszystkie omówione funkcje jako parametr opcjonalny mogą przyjmować [flagi](https://docs.python.org/3/library/re.html#flags). Flagi modyfikują zachowanie silnika wyrażeń regularnych.

Do najpopularniejszych flag biblioteki `re` należą:

| Flaga            | Opis                                                                                          | Przykład/Zastosowanie                                           |
|------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------|
| `re.ASCII`       | Umożliwia dopasowanie wzorców zgodnie z zestawem znaków ASCII (również `re.A`).               | `re.compile(r'\w+', re.ASCII)`                                  |
| `re.IGNORECASE`  | Ignoruje wielkość liter przy dopasowaniu (również `re.I`).                                     | `re.compile(r'hello', re.IGNORECASE)`                           |
| `re.MULTILINE`   | Traktuje początek i koniec każdej linii jako początek i koniec ciągu (również `re.M`).        | `re.compile(r'^start', re.MULTILINE)`                           |
| `re.DOTALL`      | Umożliwia dopasowanie znaku nowej linii przez kropkę `.` (również `re.S`).                    | `re.compile(r'.*', re.DOTALL)`                                  |
| `re.VERBOSE`     | Pozwala na bardziej przejrzyste wzorce przez ignorowanie białych znaków i komentarzy (również `re.X`). | `re.compile(r' \d+  # liczby \s* ', re.VERBOSE)`                  |
| `re.UNICODE`     | Umożliwia dopasowanie wzorców zgodnie ze standardem Unicode (również `re.U`).                 | `re.compile(r'\w+', re.UNICODE)`                                |