![alt text](img/LM.png)
# Kurs: Deep Learning, Text Mining i XAI w Pythonie
### Prowadzący: Piotr Ćwiakowski
### Autorzy: Piotr Ćwiakowski, Maciej Wilamowski

## Lekcja 5. Wyrażenia regularne

### Spis treści:

1. Wprowadzenie  
2. Funkcje tekstowe
3. Podstawowe kwantyfikatory  
4. Szukanie wzoru w specyficznej lokalizacji  
5. Nazwy grup  
6. Asercje lookarounds
7. Kompilacja regex  

## 1. Wprowadzenie
Wyrażenia regularne to wzorce, które opisują łańcuchy symboli. Istnieje cała teoretyczna dziedzina informatyki zajmująca się językami regularnymi. Z naszego punktu widzenia to zbiór zasad, które pozwalają na definiowanie charakterytycznych struktur tekstu (adres email, numer telefonu, adres IP etc.). Samo wyrażenie regularne to nic innego jak ciąg znaków zbudowanych według pewnych sztywno określonych reguł. Następnie inne teksty/stringi są analizowane, żeby sprawdzić czy w całości lub który ich fragment pasuje do danego wyrażenia regularnego.

Wyrażenia regularne to od dawna rozwijaną dziedzina algorytmiki. Dzięki temu implementacje tych rozwiązań są bardzo szybkie i pozwalają na efektywną pracę z tekstem. Przede wszystkim na wyszukiwanie i zamienianie, ale również na strukturalizowanie tekstów (np. przy pracy z logami). Zobaczmy jak praca z wyrażeniami regularnymi wygląda w praktyce. Zacznijmy od najprostszego przykładu w którym znajdziemy wszystkie fragmenty pasujące do danego wyrażenia regularnego. Kiedy wyszukamy całość stringa to oczywiście znajdziemy jedno wystąpienie. Oczywiście możemy również wyszukiwać fragmentów, co pozwoli na ich wylistowanie (do poszukiwania pozycji warto używać funkcji `search`).

In [1]:
import re

In [2]:
text = "abcdeadbce"
print(re.findall("abcdeadbce", text))
print(re.findall("abcde", text))
print(re.findall("bc", text))

['abcdeadbce']
['abcde']
['bc', 'bc']


Dla uproszczenia będziemy w przyszłości listę zamieniać z powrotem na string, aby zwiększyć czytelność.

## 2. Funkcje tekstowe

Wyrażenia regularne używamy zwykle w połączeniu z funkcjami tekstowymi. Przypomnijmy najważniejsze z nich i przypomnijmy, że w pythonie funkcje tekstowe to (przeważnie) metody obiektu tekstowego:

In [3]:
print('Ala ma kOta'.casefold())
print('ala ma kota'.capitalize())
print('ala ma kota'.upper())
print('ala ma kota'.lower())
print('Ala Ma Kota'.swapcase())
print('ala ma kota'.title())

ala ma kota
Ala ma kota
ALA MA KOTA
ala ma kota
aLA mA kOTA
Ala Ma Kota


In [4]:
print('ala ma kota'.center(20))
print('ala ma kota'.count('a'))

    ala ma kota     
4


In [5]:
print('ala ma kota'.startswith('a'))
print('ala ma kota'.endswith('a'))
print('ala ma kota'.index('a'))
print('ala ma kota'.find('a'))

True
True
0
0


In [6]:
# Wiele metod stringów jest niezwektoryzowanych, trzeba używać pętli:
# lok = 0

# for i in range('ala ma kota'.count('a')):
#     lok = 'ala ma kota'.index('a', lok)
#     print(lok, 'ala ma kota'[lok])
#     lok += 1

In [7]:
print('ala ma kota'.replace('ala', 'piotr'))
print('ala ma kota'.rfind('a'))
print('ala ma kota'.rindex('a'))

piotr ma kota
10
10


In [8]:
txt = "For only {price:.2f} dolars!"
print(txt.format(price = 49))

For only 49.00 dolars!


In [9]:
price = 67
f"For only {price:.2f} dolars!"

'For only 67.00 dolars!'

In [10]:
# Na marginesie: Najprostszy sposób zamiany kropek na przecinki:
f"For only {price:.2f} dollars!".replace('.', ',')

'For only 67,00 dollars!'

In [11]:
print('ala ma kota'.isalnum())
print('ala ma kota'.isalpha())
print('56.00'.isdecimal())
print('ala ma kota'.isdigit())

False
False
False
False


In [12]:
print('ala ma kota'.isidentifier())
print('ala ma kota'.islower())
print('5645'.isnumeric())
print('ala ma kota'.isprintable())

False
True
True
True


In [13]:
print(' '.isspace())
print('Ala ma kota'.istitle())
print('ALA Ma KOTA'.isupper())

True
False
False


In [14]:
print('ala ma kota'.ljust(20, '_'))
print('ala ma kota'.rjust(20, '_'))
print('   ala ma kota  '.lstrip())
print('  ala ma kota  '.rstrip())
print('  ala ma kota  '.strip())
print('ala ma kota'.zfill(10))
print('50'.zfill(10))

ala ma kota_________
_________ala ma kota
ala ma kota  
  ala ma kota
ala ma kota
ala ma kota
0000000050


In [15]:
# Przykład.
# Załóżmy trzy kolumny z danymi: rok, miesiąc, dzień:
# ROK   MIESIAC DZIEN
# 1998   4        2

# ROK = 1998
# MIESIAC = 11
# DZIEN = 12

# str(DZIEN) + '-' + str(MIESIAC) + '-' + str(ROK)
# '0' + str(DZIEN) + '-' + '0' + str(MIESIAC) + '-' + str(ROK)
# str(DZIEN).zfill(2) + '-' + str(MIESIAC).zfill(2) + '-' + str(ROK)

In [16]:
print('Ala ma kota'.partition('a'))
print('Ala ma kota'.rpartition('a'))

('Al', 'a', ' ma kota')
('Ala ma kot', 'a', '')


In [17]:
print('ala ma kota'.split(' '))
print('ala ma kota'.split(' ', 1))
print('ala ma kota'.rsplit(' ', 1))

['ala', 'ma', 'kota']
['ala', 'ma kota']
['ala ma', 'kota']


In [18]:
print('ala ma kota'.splitlines())
print('ala\nma\nkota'.splitlines())
print('ala\rma\rkota'.splitlines())
print('ala\r\nma\r\nkota'.splitlines())
print('''ala
ma kota'''.splitlines())

['ala ma kota']
['ala', 'ma', 'kota']
['ala', 'ma', 'kota']
['ala', 'ma', 'kota']
['ala', 'ma kota']


In [19]:
print(' '.join(['ala', 'ma', 'kota']))

ala ma kota


In [20]:
# 97, 98, 99 - kody UNICODE
dict = {"a": "123", "b": "456", "c": "789"}
string = "abc"
print(string.maketrans(dict))

{97: '123', 98: '456', 99: '789'}


In [21]:
# first string
firstString = "abc"
secondString = "ghi"
thirdString = "ab"

string = "abcdef"
print("Original string:", string)

translation = string.maketrans(firstString, secondString, thirdString)

# translate string
print("Translated string:", string.translate(translation))

Original string: abcdef
Translated string: idef


Funkcje tekstowe znajdujące się w module `re` poznamy w toku lekcji.

## 3. Podstawowe klasy znaków i kwantyfikatory
Przyjrzyjmy się teraz temu co powoduje, że wyrażenia regularne pozwalają na znacznie więcej niż zwykły search. Są to kwantyfikatory i klasy znaków - znaki specjalne które będą interpretowane jako fragment wyrażenia regularnego, a nie zwykły tekst. Pierwsza grupa dotyczy "treści" znaków:
* .  to dowolny znak
* \s to biały znak (spacja, tab, nowa linia)
* \d to dowolna cyfra
* \w to dowolna litera lub cyfra

Każde z powyższych zawiera również negację kiedy jest pisane wielką literą ( \S, \W, \D).

Druga dotyczy liczby powtórzeń (umieszczamy je po informacji o znaku):
* *: przynajmniej zero powtórzeń danego znaku.
* +: przynajmniej jedno powtórzenie danego znaku.
* ?: Najwyżej jedno powtórzenie
* {n}: Dokładnie n powtórzeń
* {n,}: Co najmniej n powtórzeń 
* {n,m}: Pomiędzy n a m powtórzeń
* {,m}: Co najwyżej m powtórzeń

In [22]:
# Zapis pierwszych trzech kantyfikatorów za pomocą nawiasów klamrowych:
# . - {0,}
# + - {1,}
# ? - {,1}

In [23]:
text = "abcdeadbce"
# Poniższy przykład zwróci nam każdy znak w naszym stringu
print(re.findall(".", text))
print("".join(re.findall(".", text)))

['a', 'b', 'c', 'd', 'e', 'a', 'd', 'b', 'c', 'e']
abcdeadbce


In [24]:
# Co możemy zobaczyć również na trudniejszym przykładzie
text = '''The quick brown fox jumps over the lazy dog
aaabcdeadbce ściółka żądli
9872-23-3234-343-3234
ala_ma_kota+a'''
print("".join(re.findall(".", text)))
print(text)

The quick brown fox jumps over the lazy dogaaabcdeadbce ściółka żądli9872-23-3234-343-3234ala_ma_kota+a
The quick brown fox jumps over the lazy dog
aaabcdeadbce ściółka żądli
9872-23-3234-343-3234
ala_ma_kota+a


Jak widać "zniknęły" nam znaki nowej linii. O znakach nowej linii warto pamiętać, że mogą być różnie traktowane w zależności od konfiguracji wyrażeń regularnych. Czasami wyszukiwanie będzie następować po liniach. Zobaczmy teraz jak na naszym dłuższym przykładzie zachowa się każdy z iteratorów.

In [25]:
re.findall("\s", text)

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', '\n', '\n']

In [26]:
print("Liczba białych znaków", len(re.findall("\s", text)))
print("Cyfry:", "".join(re.findall("\d", text)))
print("Litery lub cyfry:", "".join(re.findall("\w", text)))

Liczba białych znaków 13
Cyfry: 98722332343433234
Litery lub cyfry: Thequickbrownfoxjumpsoverthelazydogaaabcdeadbceściółkażądli98722332343433234ala_ma_kotaa


W powyższym przykładzie zwróćmy uwagę na to, że podkreślenie jest traktowane jak znak słowny (\w). Zobaczmy też jak zachowają się przeciwieństwa.

In [27]:
print("Liczba NIE białych znaków", len(re.findall("\S", text)))
print("NIE Cyfry:", "".join(re.findall("\D", text)))
print("NIE litery lub NIE cyfry:", "".join(re.findall("\W", text)))

Liczba NIE białych znaków 93
NIE Cyfry: The quick brown fox jumps over the lazy dog
aaabcdeadbce ściółka żądli
----
ala_ma_kota+a
NIE litery lub NIE cyfry:         
  
----
+


Sprawdźmy jak możemy teraz wykorzystać operatory ilościowe w połączeniu z powyższymi przykładami.

In [28]:
print("Podwójne 'a':\n",
      re.findall("a{2}", text))
print("Pojedyncze lub podwójne 'a':\n",
      re.findall("a{1,2}", text))
print("Przynajmniej jedno 'a':\n",
      re.findall("a+", text))
# Warto porównać wyniki dwóch powyższych wyszukiwań
print("Podwójne 'a' po którym następuje 'b':\n",
      re.findall("a{2}b", text))
print("Przynajmniej jedno 'a' i coś:\n",
      re.findall("a.?", text))

Podwójne 'a':
 ['aa']
Pojedyncze lub podwójne 'a':
 ['a', 'aa', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']
Przynajmniej jedno 'a':
 ['a', 'aaa', 'a', 'a', 'a', 'a', 'a', 'a', 'a']
Podwójne 'a' po którym następuje 'b':
 ['aab']
Przynajmniej jedno 'a' i coś:
 ['az', 'aa', 'ab', 'ad', 'a ', 'al', 'a_', 'a_', 'a+', 'a']


Kwantyfikatory dzielą się leniwe i chciwe. Chciwe biorą maksymalny możliwy podciąg, leniwe minimalny. Zobaczmy różnicę:

In [29]:
text = 'aababcdeadbce ściółka żądli'

print("Działanie kwantyfikatora chciwego:\n",
      re.findall("a.*b", text))
print("Działanie kwantyfikatora leniwego:\n",
      re.findall("a.*?b", text))

Działanie kwantyfikatora chciwego:
 ['aababcdeadb']
Działanie kwantyfikatora leniwego:
 ['aab', 'ab', 'adb']


Kwantyfikatory leniwe:

* ??: 0 lub 1, preferowane 0.  
* +?: 1 lub więcej, preferowane mniej  
* *?: 0 lub więcej, preferowane mniej  
* {n,}?: n lub więcej, preferowane mniej  
* {n,m}?: pomiędzy n i m, preferowane mniej  
* {,m}?: najwyżej m, preferowane mniej  

Przeanalizujmy przykłady:

In [30]:
x = "1888 is the longest year in Roman numerals: MDCCCLXXXVIII"
print(re.findall("CC?", x)) # C i C co najmniej raz
print(re.findall("CC??", x)) # C i C maksymalnie raz, ale wolimy zero
print(re.findall("C{2,3}.?", x))
print(re.findall("C{2,3}?.?", x))
print(re.findall("C{2,}", x))
print(re.findall("C{2,}?", x))
print(re.findall("C[LX]+", x))
print(re.findall("C[LX]+?",x))

['CC', 'C']
['C', 'C', 'C']
['CCCL']
['CCC']
['CCC']
['CC']
['CLXXX']
['CL']


Możliwe jest również definiowanie klasy znaków, gdzie pomagają dwa symbole specjalne: 
* \- w nawiasie kwadratowym oznacza wybranie przedziału znaków zgodnie z porządkiem ASCII: http://www.asciitable.com/ 
* ^ w nawiasie kwadratowym oznacza negację (wybierz wszystko oprócz)

In [31]:
print(re.findall('[A-Za-z]', 'A[la'))
print(re.findall('[A-z]', 'A[la'))
print(re.findall('[^A-z]', 'A[la'))
print(re.findall('[^A-Za-z]', 'A[la'))
print(re.findall('[5-91d-f\\-]', 'A12gd-'))

['A', 'l', 'a']
['A', '[', 'l', 'a']
[]
['[']
['1', 'd', '-']


Dodatkowo możemy korzystać ze znaku `|` (alternatywa), który pozwala na znalezienie jednego z kilku wzorców:

In [32]:
text = '''The quick brown fox jumps over the lazy dog
aaabcdeadbce ściółka żądli
9872-23-3234-343-3234
ala_ma_kota+a'''

In [33]:
print("Ciągi dwuliterowe zawierające jakieś litery od b do e:\n",
      re.findall("[b-e]{2}", text))
print("Ciągi dwuliterowe zawierające jakieś litery od b do e lub trzyliterowe od a do e:\n",
      re.findall("[b-e]{2}|[a-e]{3}", text))
print("Ciągi dwuliterowe zawierające jakieś litery od b do e lub trzyliterowe od a do e lub dwuliterowe od c do k:\n",
      re.findall("[b-e]{2}|[a-e]{3}|[c-k]{2}", text))

Ciągi dwuliterowe zawierające jakieś litery od b do e:
 ['bc', 'de', 'db', 'ce']
Ciągi dwuliterowe zawierające jakieś litery od b do e lub trzyliterowe od a do e:
 ['aaa', 'bc', 'de', 'adb', 'ce']
Ciągi dwuliterowe zawierające jakieś litery od b do e lub trzyliterowe od a do e lub dwuliterowe od c do k:
 ['he', 'ic', 'he', 'aaa', 'bc', 'de', 'adb', 'ce', 'ci']


### Usuwanie znaków interpunkcyjnych
W wyrażeniach regularnych Pythona nie ma symbolu obejmującego wszystkie znaki interpunkcyjne. Jednak dość często chcemy oczyścić wczytany tekst ze wszystkich znaków interpunkcyjnych. Zobaczmy jak to można zrobić:

In [34]:
import string

' '.join(word.strip(string.punctuation) for word in "Hello, world. I'm a boy, you're a girl.".split())

"Hello world I'm a boy you're a girl"

In [35]:
p = re.compile("[" + re.escape(string.punctuation) + "]")
print(p.sub("", "\"hello world!\", he's told me."))

hello world hes told me


### Więcej ciekawych przykładów:
* https://stackoverflow.com/questions/18429143/strip-punctuation-with-regex-python

## 4. Szukanie wzoru w specyficznej lokalizacji
Możemy również zdefiniować w jakim miejscu ma pojawić się dane wyrażenie.
* ^: szuka wzorca na początku ciągu znaków.
* $: szuka wzorca na końcu ciągu znaków.
* \b: szuka wzorca na początku, lub końcu wyrazu
* \B: szuka wzorca który nie jest na początku lub końcu żadnego wyrazu 

In [36]:
print("dowolny wyraz na początku stringa:\n",
      re.findall("^\S+", text))

dowolny wyraz na początku stringa:
 ['The']


In [37]:
print("dowolny wyraz na końcu stringa:\n",
      re.findall("\S+$", text))

dowolny wyraz na końcu stringa:
 ['ala_ma_kota+a']


In [38]:
text = '''The quick brown Fox jumps over the lazy dog
aaabcdeadbce ściółka żądli
9872-23-3234-343-3234
ala_ma_kota'''
print("'a' na początku słowa:\n",
      re.findall("\\ba", text))

'a' na początku słowa:
 ['a', 'a']


In [39]:
# Musimy pamiętać, że dla Pythona string to coś co też trzeba odkodować
# o ile nie wskażemy wprost przez przedrostek r,
# że to surowy tekst to musimy wstawić znak ucieczki przez \b
print("'a' na początku słowa:\n",
      re.findall(r"\ba", text))

'a' na początku słowa:
 ['a', 'a']


In [40]:
print("'a' na początku stringa:\n",
      re.findall(r"^a", text))

'a' na początku stringa:
 []


In [41]:
print("'a' na końcu słowa:\n",
      re.findall(r"a\b", text))

'a' na końcu słowa:
 ['a', 'a']


In [42]:
print("'a' nie na końcu słowa:\n",
      re.findall(r"a\B", text))

'a' nie na końcu słowa:
 ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']


In [43]:
print("'a' nie na początku słowa:\n",
      re.findall(r"\Ba", text))

'a' nie na początku słowa:
 ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']


In [44]:
# Uwzględniamy tylko początek ciągu znaków a nie początek linii.
print("Słowa rozpoczynane wielką literą:\n",
      re.findall(r"\b[A-Z]\w*", text))

print("Słowa rozpoczynane wielką literą:\n",
      re.findall(r"\b[A-Z][A-Za-z]*", text))

Słowa rozpoczynane wielką literą:
 ['The', 'Fox']
Słowa rozpoczynane wielką literą:
 ['The', 'Fox']


Wyrażenia ^ i $ to kotwice, ponieważ wskazują na konkretną pozycję w tekście.
Z kolei granice (boundaries) wskazują pozycje relatywne: np. początek każdego wyrazu.
Więcej informacji zanjdziemy np. tutaj:
http://www.rexegg.com/regex-boundaries.html#wordboundary

## 5. Grupy i nazwy grup

Niekiedy definiując klasę ciągów znaków chcemy traktować pewien ciąg jako jeden spójny,
nierozdzielalny kawałek. W tym celu ujmujemy w nawiasy segment, który ma stanowić całość.
Przykładowo, klasę złożoną z napisów typu X, XYX, XYXYX itd. możemy zdefiniować jako "(XY)*X".
Kwantyfikator nie odnosi się wtedy do ostatniego znaku, ale do ciągów znaków.

In [45]:
[re.match("XY*X", x) for x in ("XXX", "XY", "YXY", "XYXYXYYXY", "XYX")]

[<re.Match object; span=(0, 2), match='XX'>,
 None,
 None,
 <re.Match object; span=(0, 3), match='XYX'>,
 <re.Match object; span=(0, 3), match='XYX'>]

In [46]:
[re.match("(XY)*X", x) for x in ("XXX", "XY", "YXY", "XYXYXYYXY", "XYX")]

[<re.Match object; span=(0, 1), match='X'>,
 <re.Match object; span=(0, 1), match='X'>,
 None,
 <re.Match object; span=(0, 5), match='XYXYX'>,
 <re.Match object; span=(0, 3), match='XYX'>]

Grupy mają swoje aliasy - numer znalezionej grupy. Można odwołaś się do niej, np. przy podmienianiu stringów. Przydatne, przestudiujmy przykłady:

In [47]:
print(re.sub('(ab)', '\\1\\1', "abc and ABC"))
print(re.sub('([ab])', '\\1\\1', "abc and ABC"))
# re.sub('[ab]', '\\1\\1', "abc and ABC") # nie zadziała

ababc and ABC
aabbc aand ABC


In [48]:
# Zwróćmy uwagę jeszcze na ten przykład:
print(re.sub('.*([A-Z]{4})(X)([A-Z]{4}).*', '\\1\\3', "YXABCDXABCDYX"))
#       YX    ABCD   X    ABCD   YX
# symbole \\n wrażliwe są jedynie na grupy:
print(re.sub('(.*)([A-Z]{4})(X)([A-Z]{4}).*', '\\1\\3', "YXABCDXABCDYX"))
print(re.sub('(.*)([A-Z]{4})(X)([A-Z]{4}).*', '\\2\\4',"YXABCDXABCDYX"))

ABCDABCD
YXX
ABCDABCD


Wyrażenia regularne pozwalają na robienie złożonych wyszukiwań, gdzie podamy również nazwy grup. Jest to szczególnie przydatne kiedy będziemy pracować z ustrukturalizowanym lub semi-ustrukturalizowanym tekstem. Przykładowe zastosowania to:
* parsowanie logów
* analiza postów/chatów
* nagłówków wiadomości pocztowych

In [49]:
lines = [ '| 17:23 <@maciek> lorem ipsum',
'| 17:25 <+piotrek> walorem',
'| 17:26 <-maciek> text text +']
for line in lines:
    group = re.search(r'(?P<time>\d{2}:\d{2})\s<(?P<user>.*)>(?P<text>.*)', line)
    # Sprawdźmy czy udało się coś znaleźć
    if group:
        print(group.groupdict())

{'time': '17:23', 'user': '@maciek', 'text': ' lorem ipsum'}
{'time': '17:25', 'user': '+piotrek', 'text': ' walorem'}
{'time': '17:26', 'user': '-maciek', 'text': ' text text +'}


Powyższy przykład będzie bardzo pomocny w poznaniu jeszcze jednego zagadnienia. Zobaczmy co się stanie jeżeli w miejscu gdzie jest tekst, umieścimy dozwolony znak ">". Spowoduje to umieszczenie dużej części tekstu wewnątrz pola dla usera.

In [50]:
import re
lines = [ '| 17:23 <@maciek> lorem ipsum',
'| 17:25 <+piotrek> walorem',
'| 17:26 <-maciek> text text> +']
for line in lines:
    group = re.search(r'(?P<time>\d{2}:\d{2})\s<(?P<user>.*)>(?P<text>.*)', line)
    # Sprawdźmy czy udało się coś znaleźć
    if group:
        print(group.groupdict())

{'time': '17:23', 'user': '@maciek', 'text': ' lorem ipsum'}
{'time': '17:25', 'user': '+piotrek', 'text': ' walorem'}
{'time': '17:26', 'user': '-maciek> text text', 'text': ' +'}


Przyczyną/rozwiązaniem tego problemu jest greedy search (przeciwieństwo: lazy search). Najtrudniej jest wyszukać kombinację jak powyżej przeszukując linię od początku do końca. W tym celu po kwantyfikatorze dotyczącym długości możemy wstawić znak zapytania, który pozwoli nam na stwierdzenie, ze wyszukiwanie ma być leniwe - najkrótszego (a nie najdłuższego) wystąpienia, które spełnia warunek.

In [51]:
import re
lines = [ '| 17:23 <@maciek> lorem ipsum',
'| 17:25 <+piotrek> walorem',
'| 17:26 <-maciek> text text> +']
for line in lines:
    group = re.search(r'(?P<time>\d{2}:\d{2})\s<(?P<user>.*?)>(?P<text>.*)', line)
    # Sprawdźmy czy udało się coś znaleźć
    if group:
        print(group.groupdict())

{'time': '17:23', 'user': '@maciek', 'text': ' lorem ipsum'}
{'time': '17:25', 'user': '+piotrek', 'text': ' walorem'}
{'time': '17:26', 'user': '-maciek', 'text': ' text text> +'}


## 6. asercje "Lookarounds"
Niekiedy, wyszukując pewne wyrażenie, interesuje nas tylko taki przypadek, który poprzedza/okala lub po którym następuje określony inny ciąg znaków. Ograniczeniem jest niestety fakt, że asercja musi składać się ze skończonej liczby znaków,

In [52]:
# Następowanie (pozytywne/negatywne)
print(re.findall('\\d+', '100 osób wydało na lody średnio 15 zł'))
print(re.findall('\\d+(?= zł)', '100 osób wydało na lody średnio 15 zł'))
print(re.findall('\\d+(?! zł)', '100 osób wydało na lody średnio 15 zł'))
print(re.findall('\\d+(?! zł|\\d+)', '100 osób wydało na lody średnio 15 zł'))
print(re.findall('\\d+(?!\\d* zł)', '100 osób wydało na lody średnio 15 zł'))

['100', '15']
['15']
['100', '1']
['100']
['100']


In [53]:
# Poprzedzanie (pozytywne/negatywne)
print(re.findall('(?<=Sprzedano\\s)\\d+', 'Sprzedano 100 sztuk, kupiono 120'))
print(re.findall('(?<!Sprzedano\\s)\\d+', 'Sprzedano 100 sztuk, kupiono 120'))
print(re.findall('Sprzedano (\\d+)', 'Sprzedano 100 sztuk, kupiono 120'))

['100']
['00', '120']
['100']


## 7. Kompilowanie
Na koniec warto napisać trzy słowa o efektywności. Za każdy razem kiedy korzystamy z polecenia z wyrażeniem regularnym jest ono kompilowane od nowa (o ile interpreter się nie zorientuje i nie zoptymalizuje naszego działania). Z tego powodu kiedy wykorzystujemy wyrażenia regularne w pętli warto raz je skompilować na początku a później już tylko wykonywać.

In [54]:
import re
lines = [ '| 17:23 <@maciek> lorem ipsum',
'| 17:25 <+piotrek> walorem',
'| 17:26 <-maciek> text text> +']
pattern = re.compile(r'(?P<time>\d{2}:\d{2})\s<(?P<user>.*?)>(?P<text>.*)')
for line in lines:
    group = re.search(pattern, line)
    # Sprawdźmy czy udało się coś znaleźć
    if group:
        print(group.groupdict())

{'time': '17:23', 'user': '@maciek', 'text': ' lorem ipsum'}
{'time': '17:25', 'user': '+piotrek', 'text': ' walorem'}
{'time': '17:26', 'user': '-maciek', 'text': ' text text> +'}


# 8. Podsumowanie

Praca z wyrażeniami regularnymi może poczatkowo sprawiać wiele problemów, być bardzo nieintuicyjna. Nie zmienia to faktu, iż jest to bardzo szybkie i przydatne narzędzie. Co więcej wyrażenia regularne są obsługiwane przez chyba wszystkie języki programowania, co powoduje, że jest to w uniwersalna umiejętność. Na szczęście w internecie możemy znaleźć bardzo wiele gotowych przepisów, jeżeli odpowiednio sformułujemy zapytanie to szybko znajdziemy odpowiedź na stackoverflow.

Oprócz tego istnieje wiele tutoriali:
* https://www.guru99.com/python-regular-expressions-complete-tutorial.html
* https://developers.google.com/edu/python/regular-expressions
* https://www.regular-expressions.info/quickstart.html
* http://www.rexegg.com/

Oraz narzedzi do prostego testowania wyrazeń regularnych:
* https://regex101.com/
* https://regexr.com/