## Wyrażenia regularne w Pythonie

### 1. Biblioteka [`re`](https://docs.python.org/3/library/re.html)

Najpopularniejszą biblioteką do pracy z wyrażeniami regularnymi w Pythonie jest biblioteka [`re`](https://docs.python.org/3/library/re.html). Biblioteka [`re`](https://docs.python.org/3/library/re.html) jest częścią standardowej biblioteki Pythona, więc nie trzeba jej instalować. Wystarczy zaimportować.

In [1]:
# importujemy bibliotekę `re`
import re

Pierwszym zdaniem, jakie przeczytamy w dokumentacji biblioteki jest:

**"This module provides regular expression matching operations similar to those found in Perl."**

więc, jak łatwo się domyślić biblioteka wspiera standard `PCRE`. 

Popatrzmy jakie funkcje zawiera biblioteka re

In [3]:
# Sprawdżmy przestrzeń nazwa modułu `re`
dir(re)

['A',
 'ASCII',
 'DEBUG',
 'DOTALL',
 'I',
 'IGNORECASE',
 'L',
 'LOCALE',
 'M',
 'MULTILINE',
 'Match',
 'NOFLAG',
 'Pattern',
 'RegexFlag',
 'S',
 'Scanner',
 'T',
 'TEMPLATE',
 'U',
 'UNICODE',
 'VERBOSE',
 'X',
 '_MAXCACHE',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_cache',
 '_casefix',
 '_compile',
 '_compile_repl',
 '_compiler',
 '_constants',
 '_expand',
 '_parser',
 '_pickle',
 '_special_chars_map',
 '_subx',
 'compile',
 'copyreg',
 'enum',
 'error',
 'escape',
 'findall',
 'finditer',
 'fullmatch',
 'functools',
 'match',
 'purge',
 'search',
 'split',
 'sub',
 'subn',
 'template']

Do najpopularniejszych funkcji biblioteki `re` należą:

| Funkcja       | Opis                                                                 | Przykład zastosowania                           |
| ------------- | -------------------------------------------------------------------- | ----------------------------------------------- |
| `re.match()`  | Sprawdza, czy początek stringu pasuje do wzorca.                     | `re.match(r'\d+', '123abc')` zwróci dopasowanie na `'123'` |
| `re.search()` | Przeszukuje string w poszukiwaniu pierwszego wystąpienia wzorca.     | `re.search(r'\d+', 'abc123def')` zwróci dopasowanie na `'123'` |
| `re.findall()`| Zwraca listę wszystkich niepokrywających się dopasowań wzorca.       | `re.findall(r'\d+', 'abc123def456')` zwróci `['123', '456']` |
| `re.finditer()`| Zwraca iterator zwracający wszystkie niepokrywające się dopasowania. | `re.finditer(r'\d+', 'abc123def456')` zwróci iterator obiektów dopasowania |
| `re.split()`  | Dzieli string na listę, używając wzorca jako separatora.             | `re.split(r'\d+', 'abc123def456')` zwróci `['abc', 'def', '']` |
| `re.sub()`    | Zastępuje wszystkie wystąpienia wzorca stringiem zastępczym.         | `re.sub(r'\d+', '-', 'abc123def456')` zwróci `'abc-def-'` |
| `re.compile()`| Kompiluje wzorzec do obiektu wyrażenia regularnego, aby używać go wielokrotnie. | `pattern = re.compile(r'\d+'); pattern.match('123abc')` zwróci dopasowanie na `'123'` |


W przykładowych zastosowaniach widzimy literę `r` przed napisem. Co ona oznacza ?

### 2. Surowe napisy (ang. Raw string)

Surowe napisy to napis z prefixem r (może być r lub R).

In [4]:
# Zwykły napis
print("foo")

foo


In [5]:
# Surowy napis r''
print(r"foo")

foo


In [6]:
# Surowy napis R''
print(R"foo")

foo


To jaka jest róznica pomiędzy surowym napisem (czyli napisem z poprzedzającym go literą `r`), a zwykłym napisem?

W surowych napisach znak ucieczki (`\`) jest ignorowany i tym samym wszystkie sekwencje specjalne wygenerowane za jego pomocą też są ignorowane.

Co to sekwencje specjalne? 

Sekwencje specjalne to sekwencje znaków, które pełnią specjalną funkcję, np. `\n` - to sekwencja oznaczająca znak nowej linii (a nie jak mogłoby się wydawać backslash z literą alfabetu `n`).

In [8]:
# Znak nowej linii (sekwencje specjalne w Pythonie)
print("\n")





Taka sekwencja użyta wewnątrz surowego napisu traci swoją specjalną funkcję.

In [9]:
# Znak nowej linii w surowym napisie
print(r"\n")

\n


W Pythonie do sekwencji specjalnych należą:

| Escape Sequence | Meaning Notes |
| --------------- | ------------- |  
| \\\\  |  Backslash (\) |    
| \\' |   Single quote (') |     
| \\"  |   Double quote (")  |    
| \a   |  ASCII Bell (BEL)  |    
| \b  |  ASCII Backspace (BS) |     
| \f |   ASCII Formfeed (FF) | 
| \n  |  ASCII Linefeed (LF) | 
| \N{name} | Character named name in the Unicode database (Unicode only) |
| \r  |  ASCII Carriage Return (CR) |   
| \t  |  ASCII Horizontal Tab (TAB)  | 
| \uxxxx  |  Character with 16-bit hex value xxxx (Unicode only) |
| \Uxxxxxxxx  |  Character with 32-bit hex value xxxxxxxx (Unicode only) | 
| \v  |  ASCII Vertical Tab (VT) | 
| \ooo | Character with octal value ooo |
| \xhh |  Character with hex value hh |

W **surowym napisie** Python ignoruje specjalną funkcję znaku ucieczki i traktuje ten znak jak i wszystkie sekwencje rozpoczynające się od znaku ucieczki jako zwykłe znaki. 

Dlaczego możemy chcieć pozbyć się specjalnej funkcji jakiejś sekwencji, a tak naprawdę specjalnej funkcji znaku `\` ? \
Ponieważ pozwala to na swobodne używanie znaku `\` w wyrażeniach regularnych, gdzie pełni inną, równie ważną rolę.

Kiedy już wiemy co oznacza litera `r` wróćmy do przykładowych zastosowań.

### 3. Przykładowe zastosowania podstawowych funkcji biblioteki `re`.

#### A. [`re.match`](https://docs.python.org/3/library/re.html#re.match)

Opis: Sprawdza, czy początek stringu pasuje do wzorca.

Zacznijmy od funkcji [`re.match`](https://docs.python.org/3/library/re.html#re.match) - funkcja szuka dopasowania, zaczynając od **początku** napisu. 

Jeżeli nie znajdzie dopasowania na **początku** napisu zwraca None.

In [11]:
# Dopasowanie numeru telefonu na początku napisu (`re.match`)
text = "My phone number is 123-456-7890"
pattern = r'\d{3}-\d{3}-\d{4}'

result = re.match(pattern, text)
print(result)

None


Jeżeli znajdzie dopasowanie na **początku** napisu zwraca obiekt klasy [`re.Match`](https://docs.python.org/3/library/re.html#re.Match).

In [12]:
# Dopasowanie numeru telefonu na początku napisu (`re.match`), text i pattern w oddzielnych linijkach
text = "123-456-7890 is my phone number"
pattern = r'\d{3}-\d{3}-\d{4}'

result = re.match(pattern, text)
print(result)

<re.Match object; span=(0, 12), match='123-456-7890'>


In [13]:
# Wynik ?
type(result)

re.Match

Obiekt klasy re.Match reprezentuje fragment napisu pasujący do wzorca.

Co potrafią obiekty klasy [`re.Match`](https://docs.python.org/3/library/re.html#re.Match) ?

In [14]:
# Co potrafi klasa `re.Match`
print(dir(result))

['__class__', '__class_getitem__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']


Do najpopularniejszych metod obiektu klasy re.Match należą:

| Metoda | Opis |
|--------|------|
| `start()` | Zwraca indeks początku dopasowania |
| `end()`   | Zwraca indeks końca dopasowania |
| `span()`  | Zwraca krotkę zawierającą indeks początku i końca dopasowania |
| `group()` | Zwraca całą dopasowaną część ciągu znaków |

Omówmy każdy z osobna.

In [15]:
# metoda start
result.start()
# int

0

2. `end` - metoda zwracająca indeks końca dopasowania

In [16]:
# metoda end 
result.end()
# int

12

Za pomocą metod `start` i `end` oraz szatkowaniu sekwencji łatwo możemy wyciąć z napisu dopasowany fragment.

In [18]:
# Wycinek zawierający dopasowanie
text[result.start():result.end()]

'123-456-7890'

3. `span` - metoda zwracająca dwuelementową krotkę. Na pierwszej pozycji w krotce znajduje się indeks początku dopasowania, na drugiej indeks końca dopasowania.

In [17]:
# metoda span
result.span()
# tuple

(0, 12)

Za pomocą metody `span` równie łatwo jest wyciągnać z napisu dopasowany fragment.

In [19]:
# Wycinek zawierający dopasowanie za pomocą span
text[slice(*result.span())]
# text[result.span()[0]:result.span()[1]]

'123-456-7890'

Ale nie trzeba ręcznie wycinać z tekstu dopasowania. Obiekt klasy `re.Match` sam potrafi zwrócić dopasowany tekst.

4. `group` - metoda zwracająca całą dopasowaną część ciągu znaków

In [20]:
# metoda group
result.group()
# str

'123-456-7890'

Sprawa się odrobinę komplikuję kiedy użyjemy grupowania.

Pogrupujmy nasze dopasowanie w trzy tercety.

In [23]:
# Dopasowanie numeru telefonu na początku napisu - grupowanie
text = "123-456-7890 is my phone number"
pattern = r'(\d{3})-(\d{3})-(\d{4})'

result = re.match(pattern, text)
print(result)

<re.Match object; span=(0, 12), match='123-456-7890'>


Popatrzmy na metodę `start`.

In [24]:
# metoda start
result.start()

0

In [28]:
result.start(1)

0

In [26]:
result.start(2)

4

In [27]:
result.start(3)

8

Wydawałoby się bez zmian.

Ale metoda start posiada opcjonalny parametr `group`, a jej pełna sygnatura wygląda tak:

$$start([group])$$

, gdzie `group` jest numerem grupy (grupowania). I tak:

0 oznacza pełne dopasowanie.

In [33]:
# metoda start - pierwszy element
result.start(0)

0

1 oznacza pierwszą grupę.

In [32]:
# metoda start - drugi element
result.start(1)

0

2 oznacza drugą grupę

In [31]:
# metoda start - trzeci element
result.start(2)

4

3 oznacza trzecią grupę

In [30]:
# metoda start - czwarty element
result.start(3)

8

a 4 oznacza 4 grupę (o ile istnieje).

In [29]:
# metoda start - piąty element
result.start(4)

IndexError: no such group

W przeciwnym razie dostaniemy wyjątek `IndexError`.

Powyższ reguła dotyczy wszystkich poznanych metod.

In [35]:
# metoda end - czwarty element
result.end(3)

12

In [36]:
# metoda span - czwarty element
result.span(3)

(8, 12)

In [37]:
# metoda group - czwarty element
result.group(3)

'7890'

Ponadto jeżeli zastosowaliśmy grupowanie w naszym wzorcu, pomocna może być metoda `groups()`. Metoda zwraca krotkę, której elementami są dopasowania wszystkich grup.

In [38]:
# metoda groups
result.groups()

('123', '456', '7890')

#### Podsumowanie

Kompletny opis najpopularniejszych metod obiektów klasy `re.Match`:

| Metoda | Opis |
|--------|------|
| `start([group])` | Zwraca indeks początku dopasowania lub początku podciągu odpowiadającego określonej grupie. |
| `end([group])`   | Zwraca indeks końca dopasowania lub końca podciągu odpowiadającego określonej grupie. |
| `span([group])`  | Zwraca krotkę zawierającą indeks początku i końca dopasowania lub podciągu odpowiadającego określonej grupie. |
| `group([group1, ...])` | Zwraca całą dopasowaną część ciągu znaków lub podciąg odpowiadający określonej grupie. |
| `groups([default])` | Zwraca wszystkie podciągi odpowiadające grupom jako krotkę. Można podać wartość domyślną dla grup, które nie mają dopasowania. |

Kompletny przykład

In [39]:
# Dopasowanie numeru telefonu na początku stringu - całość
import re

result = re.match(r'\d{3}-\d{3}-\d{4}', '123-456-7890 is my phone number')
if result:
    print(f'Matched: {result.group()}')  # Output: Matched: 123-456-7890

Matched: 123-456-7890


#### B. [`re.search`](https://docs.python.org/3/library/re.html#re.search)

Opis: Przeszukuje string w poszukiwaniu **pierwszego** wystąpienia wzorca. Jedyną różnicą względem metody `re.match` jest fakt, że metoda `re.search` przeszukuje cały napis w poszukiwaniu wzorca, a nie patrzy tylko na początek napisu.

In [41]:
# Znajdowanie numeru telefonu w stringu (`search`)

text = 'Contact me at 123-456-7890 or 987-654-3210'
pattern = r'\d{3}-\d{3}-\d{4}'

result = re.search(pattern, text)
print(result)

<re.Match object; span=(14, 26), match='123-456-7890'>


Widzimy, że w wyniku dostajemy obiekt klasy re.Match (pierwszy znaleziony), którego właściwości już sobie omówiliśmy w części dotyczącej metody `re.match`.

In [42]:
# Znajdowanie numeru telefonu w stringu (`search`)
text = 'Contact me at 123-456-7890 or 987-654-3210'
pattern = r'\d{3}-\d{3}-\d{4}'

result = re.search(pattern, text)
if result:
    print(f'Matched: {result.group()}')  # Output: Matched: 123-456-7890

Matched: 123-456-7890


A co jeżeli chcemy znaleźć wszystkie wystąpienia wzorca w tekście?

W takim przypadku pomoże nam metoda `re.findall`.

#### C. [`re.findall`](https://docs.python.org/3/library/re.html#re.findall)

Opis: Zwraca **listę** (a nie obiekt klasy `re.Match`) wszystkich niepokrywających się dopasowań wzorca.

In [46]:
# Znajdowanie wszystkich adresów e-mail w stringu (`findall`)

text = 'Send an email to test@example.com and info@company.org'
# pattern = r'\S+@\S+'
pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
result = re.findall(pattern, text)
print(result)

# Output: ['test@example.com', 'info@company.org']

['test@example.com', 'info@company.org']


Ale wynik jaki dostaliśmy nie wygląda już jak obiekt klasy `re.Match`.

In [47]:
# jakiej klasy jest wynik ?
type(result)


list

Rzeczywiście tym razem w wyniku dostaliśmy listę dopasowań.

**Uwaga** \
W przypadku zastosowania grup, metoda `findall` zwraca listę dopasowań grup zamiast dopasowań pełnego wzorca. 

In [None]:
# Znajdowanie wszystkich adresów e-mail w stringu (`findall`) - grupowanie

text = 'Send an email to test@example.com and info@company.org'

# Output: ['example', 'company']

W przypadku kilku grup, będzie to lista tupli. Każda tupla będzie reprezentowała dopasowania grupy, której numer odopowiada pozycji tej tupli na liście.

Idziemy dalej. 

Z grupami, czy bez metoda `findall` zwraca listę. I jak to z listą. W przypadku dużej liczby dopasowań martwimy się czy wystarczy nam pamięci ram, żeby całą listę do niej zapakować.

I jak to zwykle w tych przypadkach bywa, generatory (w ogólności iteratory, bo każdy generator jest iteratorem, ale nie każdy iterator jest generatorem) przychodzą nam z pomocą - `re.finditer`.

#### D. [`re.finditer`](https://docs.python.org/3/library/re.html#re.finditer)

Opis: Zwraca iterator zwracający wszystkie niepokrywające się dopasowania.

In [48]:
# Znajdowanie wszystkich dat w formacie YYYY-MM-DD w stringu (`re.findall`)

log_data = '2023-01-01 entry, 2024-02-02 entry, 2025-03-03 entry'
pattern = r'\d{4}-\d{2}-\d{2}'

matches = re.finditer(pattern, log_data)

Popatrzmy co zwróciła nam funkcja finditer.

In [49]:
# co zawraca funkcja `re.findall` ?
print(type(matches))
# iterator

<class 'callable_iterator'>


In [50]:
# Jakiej klasy jest obiekt zwrócony przez funkcje `re.findall` ?
for match in matches:
    print(match.group())

2023-01-01
2024-02-02
2025-03-03


I tak jak to z iteratorami bywa.

Możemy się po nich przeiterować lub zrzutować na listę.

In [52]:
# Iterujemy po zwróconym obiekcie
for match in matches:
    match

Widzimy, że iterator zwraca nam kolejne obiekty doskonale już znanej nam klasy `re.Match`.

Zrzutujmy jeszcze na listę (przypomnienie: generator po, którym już raz przeszliśmy jest wysycony. Trzeba utworzyć nowy).

In [53]:
# rzutowanie generator na listę
print(list(matches))
# tworzymy nowy generator
matches = re.finditer(pattern, log_data)
# rzutujemy stworzony generator na listę i wyświetlamy wynik
print(list(matches))

[]
[<re.Match object; span=(0, 10), match='2023-01-01'>, <re.Match object; span=(18, 28), match='2024-02-02'>, <re.Match object; span=(36, 46), match='2025-03-03'>]


Kompletny przykład

In [54]:
# Całość
log_data = '2023-01-01 entry, 2024-02-02 entry, 2025-03-03 entry'
matches = re.finditer(r'\d{4}-\d{2}-\d{2}', log_data)

for match in matches:
    print(f'Found date: {match.group()}')  # Output: Found date: 2023-01-01, Found date: 2024-02-02, Found date: 2025-03-03

Found date: 2023-01-01
Found date: 2024-02-02
Found date: 2025-03-03


#### E. [`re.split`](https://docs.python.org/3/library/re.html#re.split)

Opis: Dzieli string na listę, używając wzorca jako separatora.

In [56]:
# Dzielenie stringu na części przy użyciu przecinków i spacji jako separatorów

text = 'apple, banana,   cherry, date'
# print(text.split(', '))

pattern = r',\s*'

result = re.split(pattern, text)
print(result)

# Output: ['apple', 'banana', 'cherry', 'date']

['apple', 'banana', 'cherry', 'date']


Na wyjściu dostajemy listę.

#### F. [`re.sub`](https://docs.python.org/3/library/re.html#re.sub)

Opis: Zastępuje wszystkie wystąpienia wzorca stringiem zastępczym.

In [57]:
# Zastępowanie cyfr w stringu znakiem '#'

text = 'My phone number is 123-456-7890'
pattern = r'\d'

result = re.sub(pattern, '#', text)
print(result)

# Output: My phone number is ###-###-####

My phone number is ###-###-####


Na wyjściu dostajemy zmodyfikowany napis.

Alternatywnie, jeżeli planujemy wzorzec wykorzystywać w kilku miejscach, na kilka sposobów, to możemy stworzyć obiekt klasy `re.Pattern` za pomocą funkcji `re.compile`.

#### G. [`re.compile`](https://docs.python.org/3/library/re.html#re.compile)

Opis: Kompiluje wzorzec do obiektu wyrażenia regularnego, aby używać go wielokrotnie.

In [None]:
# Kompilowanie wzorca do wyszukiwania numerów telefonów

# na liście metod obiektu klasy re.Pattern widzimy odpowiedniki funkcji: findall, finditer, match, search, split, sub

Jak widzimy obiekty klasy `re.Pattern` potrafią wszystko to o czym do tej pory mówiliśmy. Posiadają takie metody jak `findall`, `finditer`, `match`, `search`, `split`, `sub`. Są to odpowiedniki omówionych powyżej funkcji.

Przykład użycia

In [None]:
# przykład
text = 'Contact us at 123-456-7890 or 987-654-3210'

# wywołanie metody search obiektu klasy re.Pattern

# Output: Found: 123-456-7890


# wywołanie metody findall obiektu klasy re.Pattern

# Output: ['123-456-7890', '987-654-3210']

### 4. [Flagi](https://docs.python.org/3/library/re.html#flags)

Wszystkie omówione funkcje jako parametr opcjonalny mogą przyjmować [flagi](https://docs.python.org/3/library/re.html#flags). Flagi modyfikują zachowanie silnika wyrażeń regularnych.

Do najpopularniejszych flag biblioteki `re` należą:

| Flaga            | Opis                                                                                          | Przykład/Zastosowanie                                           | Flaga wbudowana |
|------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------| ------------------ |
| `re.ASCII`       | Umożliwia dopasowanie wzorców zgodnie z zestawem znaków ASCII (również `re.A`).               | `re.compile(r'\w+', re.ASCII)`                                  | `(?a)` |
| `re.IGNORECASE`  | Ignoruje wielkość liter przy dopasowaniu (również `re.I`).                                     | `re.compile(r'hello', re.IGNORECASE)`                           | `(?i)` |
| `re.MULTILINE`   | Traktuje początek i koniec każdej linii jako początek i koniec ciągu (również `re.M`).        | `re.compile(r'^start', re.MULTILINE)`                           | `(?m)` |
| `re.DOTALL`      | Umożliwia dopasowanie znaku nowej linii przez kropkę `.` (również `re.S`).                    | `re.compile(r'.*', re.DOTALL)`                                  | `(?s)` |
| `re.VERBOSE`     | Pozwala na bardziej przejrzyste wzorce przez ignorowanie białych znaków i komentarzy (również `re.X`). | `re.compile(r' \d+  # liczby \s* ', re.VERBOSE)`                  | `(?x)` |
| `re.UNICODE`     | Umożliwia dopasowanie wzorców zgodnie ze standardem Unicode (również `re.U`). Jest ustawiona domyślnie | `re.compile(r'\w+', re.UNICODE)` | brak |

#### Przykład zastosowania flagi re.IGNORECASE

Bez flagi `re.IGNORECASE`:

In [58]:
# przykład bez flagi re.IGNORECASE
text = "Ala ma kota"
pattern = r'ala'

result = re.search(pattern, text)
print(result)

None


Z flagą `re.IGNORECASE`:

In [59]:
# przykład zastosowania flagi re.IGNORECASE
text = "Ala ma kota"
pattern = r'ala'

result = re.search(pattern, text, re.IGNORECASE)
print(result)

<re.Match object; span=(0, 3), match='Ala'>


#### Flagi wbudowane (ang. *inline flags*)

Alternatywnym sposobem uwzględnienia flagi w wyrażeniu regularnych są tzw. flagi wbudowane (ang. *inline flag*), które umieszcza się wewnątrz wzorca. Taką wbudowaną flagę należy umieścić na samym początku wyrażenia regularnego. Na przykład:

In [61]:
# przykład liniowego zastosowania flagi ignorecase
text = "Ala ma kota"
pattern = r'(?i)ala'

result = re.search(pattern, text)
print(result)

<re.Match object; span=(0, 3), match='Ala'>


Co jest odpowiednikiem zastosowania flagi `re.IGNORECASE`