# Lab 6. Wyrażenia regularne w Pythonie, część 2

## 1. Inne metaznaki wyrażeń regularnych.

W tej części przedstawione zostaną kolejne elementy wyrażeń regularnych, w tym przwchwytywanie w przód praz tył oraz grupy. Bardzo przydatnym narzędziem do testowania wyrażeń regularnych jest to dostępne pod adresem https://regex101.com/.

| Metaznak | Opis                                                                                     
|----------|------------------------------------------------------------------------------------------
| `\A`     | Zwraca dopasowanie, jeśli określone znaki znajdują się na początku ciągu
| `\b`     | Zwraca dopasowanie, jeśli określone znaki znajdują się na początku lub końcu wyrazu
| `\B`     | Zwraca dopasowanie, jeśli określone znaki występują, ale NIE na początku ani końcu wyrazu
| `\d`     | Zwraca dopasowanie, jeśli ciąg zawiera cyfry (liczby od 0 do 9), to samo co [0-9]
| `\D`     | Zwraca dopasowanie, jeśli ciąg NIE zawiera cyfr, to samo co [^0-9]
| `\s`     | Zwraca dopasowanie, jeśli ciąg zawiera znak białej spacji
| `\S`     | Zwraca dopasowanie, jeśli ciąg NIE zawiera znaku białej spacji
| `\w`     | Zwraca dopasowanie, jeśli ciąg zawiera dowolne znaki słowa (litery od a do Z, cyfry od 0 do 9 oraz znak podkreślenia `_`) (czyli [a-zA-Z0-9_])
| `\W`     | Zwraca dopasowanie, jeśli ciąg NIE zawiera żadnych znaków, które zwraca \w
| `\Z`     | Zwraca dopasowanie, jeśli określone znaki znajdują się na końcu ciągu

**Flagi**

Implementacja silnika wyrażeń regularnych w Pythonie pozwala na ustaawienie poniższych flag:


* `re.A`, `re.ASCII` (ASCII-only matching) - dopasowanie uwzględniające tylko znaki ASCII,

* `re.I`, `re.IGNORECASE` (ignore case) - wyszukiwanie bez uwzględniania wielkości liter,

* `re.L`, `re.LOCALE` (locale dependent) - użycie \w, \W, \b, \B oraz wyszukiwanie bez uwzględniania znaków jest zależne od ustawień regionalnych. Używane tylko z regułami bajtowymi.

* `re.M`, `re.MULTILINE` (multi-line) - powoduje zmianę interpretowania metaznaczników `^` oraz `$`, które przy włączonej fladze są uwzględniane na końcu lub początku każdej linii, a nie tylko całego łańcucha jako całości,

* `re.S`, `re.DOTALL` (dot matches all) - jeżeli włączona to traktuje wszystkie znaki łącznie ze znakiem nowej linii jako dowolny znak, wyłączona wszystkie znaki poza znakiem nowej linii,

* `re.U`,`re.UNICODE` (Unicode matching) - dopasowanie uwzględniające dopasowanie wg. tablicy znaków Unicode, ale w Pythonie 3 jest ignorowane, zachowane dla wstecznej kompaybilności, gdyż Python 3 domyślnie korzysta z tego typu wyszukowania dla typu `str`

* `re.X`, `re.VERBOSE` (verbose) - pozwala na używanie białych znaków oraz komentarzy w wyrażeniach dla poprawienia ich czytelności. Zobacz przykład w: https://docs.python.org/3/library/re.html#re.VERBOSE

* `re.NOFLAG` - wyłącza wszystkie flagi, jeżeli są domyślnie jakieś ustawione - oczywiście dla tego jednego wyrażenia.

* `re.DEBUG` - wyświetla szczegółowe informacje o przetwarzanym wyrażeniu

In [166]:
text = r"""Adam Malinowski
.gitignore
2023-01-17 error "Page not found"
[2025-03-06] NOTICE "User admin logged in"
Code 3300 was invalid
https://www.onet.pl 200 176353
File /etc/passwd: permission denied
Józef
C:\Program Files
Ania
JOLA
marek
Kowalski
bodo363
PIN 0000 was invalid
/users/test is not a valid directory name
192.168.0.1 access denied
1000
666
"""

In [38]:
import re

In [167]:
# zwraca łańcuchy rozpoczynające się od A
re.findall(r'\AA.+', text, flags=re.DEBUG)

AT AT_BEGINNING_STRING
LITERAL 65
MAX_REPEAT 1 MAXREPEAT
  ANY None

 0. INFO 4 0b0 2 MAXREPEAT (to 5)
 5: AT BEGINNING_STRING
 7. LITERAL 0x41 ('A')
 9. REPEAT_ONE 5 1 MAXREPEAT (to 15)
13.   ANY
14.   SUCCESS
15: SUCCESS


['Adam Malinowski']

In [168]:
# zwraca wyrazy, które rozpoczynają się od znaku /
re.findall(r'\b/[a-z]+', text)

['/passwd', '/test']

In [169]:
# zwraca wyrazy, które kończą się znakiem ciągiem ski
re.findall(r'[a-zA-Z]+ski\b', text)

['Malinowski', 'Kowalski']

In [204]:
# zwraca wszystkie wyrazy
re.findall(r'\w+', text)

['Adam',
 'Malinowski',
 'gitignore',
 '2023',
 '01',
 '17',
 'error',
 'Page',
 'not',
 'found',
 '2025',
 '03',
 '06',
 'NOTICE',
 'User',
 'admin',
 'logged',
 'in',
 'Code',
 '3300',
 'was',
 'invalid',
 'https',
 'www',
 'onet',
 'pl',
 '200',
 '176353',
 'File',
 'etc',
 'passwd',
 'permission',
 'denied',
 'Józef',
 'C',
 'Program',
 'Files',
 'Ania',
 'JOLA',
 'marek',
 'Kowalski',
 'bodo363',
 'PIN',
 '0000',
 'was',
 'invalid',
 'users',
 'test',
 'is',
 'not',
 'a',
 'valid',
 'directory',
 'name',
 '192',
 '168',
 '0',
 '1',
 'access',
 'denied',
 '1000',
 '666']

In [98]:
# znajduje wszystkie wyrazy, które rozpoczynają się wielką literą i kolejne znaki to też wielkie litery
re.findall(r'\b[A-Z]+', text)

['A', 'M', 'P', 'NOTICE', 'U', 'C', 'F', 'J', 'A', 'JOLA', 'K', 'PIN']

In [205]:
re.findall(r'\b[^\d\W]+\b', text)

['Adam',
 'Malinowski',
 'gitignore',
 'error',
 'Page',
 'not',
 'found',
 'NOTICE',
 'User',
 'admin',
 'logged',
 'in',
 'Code',
 'was',
 'invalid',
 'https',
 'www',
 'onet',
 'pl',
 'File',
 'etc',
 'passwd',
 'permission',
 'denied',
 'Józef',
 'C',
 'Program',
 'Files',
 'Ania',
 'JOLA',
 'marek',
 'Kowalski',
 'PIN',
 'was',
 'invalid',
 'users',
 'test',
 'is',
 'not',
 'a',
 'valid',
 'directory',
 'name',
 'access',
 'denied']

## 2. Konsumowanie w przód i w tył

Konsumowanie w przód (Lookahead) oraz w tył (Lookbehind) pozwala na definiowanie wyrażeń, których część nie zostanie wyświetlona w wynikach jako dopasowanie, więc jest to coś w stylu odnajdź i przytnij.

In [208]:
text = "Python 3.10 is awesome, but Python 2.7 is outdated."

# Znajdź wszystkie wystąpienia "Python", po których występuje wersja zaczynająca się od "3", ale wersji nie wyświetlaj
pattern = r"Python(?=\s3\.\d+)"
matches = re.findall(pattern, text)

print("Konsumowanie w przód:", matches)

Konsumowanie w przód: ['Python']


In [209]:
# Znajdź wszystkie wersje, które są poprzedzone słowem "Version"
text = "Version 3.10 is stable, but version 2.7 is deprecated."

pattern = r"(?<=Version\s)\d\.\d+"
matches = re.findall(pattern, text, flags=re.I)

print("Konsumowanie w tył:", matches)

Konsumowanie w tył: ['3.10', '2.7']


In [210]:
text = "Standardowa cena to $100, ale cena po rabacie to $80."

# Znajdź liczby, które są poprzedzone znakiem dolara i następują po nich przecinki lub kropki
pattern = r"(?<=\$)\d+(?=[,.])"
matches = re.findall(pattern, text)

print("Konsumowanie w przód oraz w tył:", matches)

Konsumowanie w przód oraz w tył: ['100', '80']


In [211]:
text = "cat, caterpillar, dog, catalog"

# Znajdź wszystkie słowa zaczynające się od "cat", ale nie kończące się na "er"
pattern = r"cat(?!er)"
matches = re.findall(pattern, text)

print("Negatywne konsumowanie w przód:", matches)

Negatywne konsumowanie w przód: ['cat', 'cat']


In [143]:
text = "error404, success200, error500, success404"

# Znajdź wszystkie kody błędów, które nie są poprzedzone słowem "success"
pattern = r"(?<!success)\d{3}"
matches = re.findall(pattern, text)

print("Negatywne wyszukiwanie w tył:", matches)

Negatywne wyszukiwanie w tył: ['404', '500']


## 3. Grupy

Grupy są elementem wyrażeń regularnych, które pozwalają na podział elementów odnalezionego wyrażenia na części (również możemy je nazwać) i ponowne do nich odwołanie w tym wyrażeniu.
Grupy definiujemy umieszczając wyrażenia w nawiasach `()`.

In [213]:
# przykład 1
text = 'Data narodzin Adama to 1995-05-20'

re.findall(r'(\d{4})-(\d{2})-(\d{2})', text)

# dla ciekawości przetestuj
# re.findall(r'(\d{4})-(\d{2})-(\d{2})', text, flags=re.DEBUG)

[('1995', '05', '20')]

In [214]:
# przykład 2
# teraz zmienimy wyrażenie oczekując innego separatora z odłowaniem do grupy
# dodaliśmy grupę, która zawiera - a następnie poprzez \2 odwołujemy się do drugiej grupy w naszym wyrażeniu
# oczywiście może nie jest porządanym, aby ten znak separatora przechwytywać, ale to już inna kwestia
re.findall(r'(\d{4})(-)(\d{2})(\2)(\d{2})', text)

[('1995', '-', '05', '-', '20')]

In [215]:
# przykład 3
# grupom możemy nadać nazwy
re.findall(r'(?P<rok>\d{4})-(?P<miesiac>\d{2})-(?P<dzien>\d{2})', text)

[('1995', '05', '20')]

In [134]:
# przykład 4 - grupa nie przechwytująca
# jeżeli chcemy określić grupę we wzorcu, ale nie umieszczać jej dopasowania w wynikach to poprzedzamy
# wyrażenie w danej grupie znakami ?:
re.findall(r'(\d{4})-(?:\d{2})-(\d{2})', text)

[('1995', '20')]

In [203]:
# przykład z grupą oraz alternatywnym wyrażeniem, wyszukuje początek ścieżki w stylu Unix oraz Windows
re.findall(r'(\b/[a-z]+|\b[a-zA-Z]:\\\w+)', text)

['/passwd', 'C:\\Program', '/test']

In [201]:
re.findall(r'(\b/[a-z]+)', text)

['/passwd', '/test']

## Zadania

1. Napisz wyrażenia, które ze zmiennej `text` (tej na początku notebooka) wypiszą:
* 1.1 wszystkie liczby,
* 1.2 wszystkie liczby co najmniej dwucyfrowe,
* 1.3 wszystkie liczby, które zawierają co najmniej dwa kolejne zera,
* 1.4 wszystkie wyrazy, które nie zawierają cyfr,


2. Napisz wyrażenie regularne z grupowaniem, które w jednej grupie umieści kod kierunkowy kraju, a w drugiej numer telefonu dla numerów z komórki poniżej. Obie wartości mają zawierać tylko same cyfry bez żadnych dodatkowych znaków w wynikach.

In [144]:
tel = ['+48 555 444 333', 
'(48) 555-444-333',
'(+48)555444333',
'+48 555444333', 
 '+48555444333', 
 '48555444333']

3. Wykorzystując konsumowanie w przód oraz w tył wyświetl wszystkie ceny z poniższego tekstu, ale bez oznaczenia waluty.

In [216]:
tekst = """
Komputer: 3999.00 PLN, myszka: $30.0, monitor: 399.00 Euro, podkładka: 39 zł
"""