# Regular Expressions (pl. wyrażenia regularne)
+ date: 2018-01-29
+ category: python
+ tags: regular expressions, regular, expressions

Wyrażenia regularne to wzorce pasujące do tekstu opisane za pomocą formalnej składni. W rozmowach zapewne często słyszałeś wyrażenia regularne, nazywane "regex" lub "regexp". Wyrażenia regularne mogą zawierać wiele reguł, od znalezienia powtórzeń po dopasowywania tekstu i wiele więcej. Wraz z postępem w Pythonie zobaczysz, że wiele problemów z parsowaniem można rozwiązać za pomocą wyrażeń regularnych (są to również zwykłe pytania dotyczące rozmowy o pracę!).


Jeśli znasz Perl, zauważysz, że składnia wyrażeń regularnych jest bardzo podobna w Pythonie. Do tego wykładu użyjemy modułu re z Pythona.


Zaczynajmy!

## Wyszukiwanie wzorów (ang. *patterns*) w tekście
Jednym z najczęstszych zastosowań modułu re jest wyszukiwanie wzorców w tekście. Poniżej szybki przykład zastosowania metody wyszukiwania w module re w celu znalezienia tekstu:

In [7]:
import re

# Lista wzorów do wyszukania
patterns = [ 'slowo1', 'slowo2' ]

# Tekst do analizy
text = 'Jest to string, który zawiera słowo1, lecz nie zawiera slowo2'

for pattern in patterns:
    print 'Szukam "%s" w: \n"%s"' % (pattern, text),
    test = re.search(pattern,  text)
    # Weryfikacja dopasowania
    if re.search(pattern,  text):
        print '\n'
        print 'Znaleziono dopasowanie. \n'
    else:
        print '\n'
        print 'Brak dopasowania.\n'

Szukam "slowo1" w: 
"Jest to string, który zawiera słowo1, lecz nie zawiera slowo2" 

Brak dopasowania.

Szukam "slowo2" w: 
"Jest to string, który zawiera słowo1, lecz nie zawiera slowo2" 

Znaleziono dopasowanie. 



Wwidzimy, że re.search() pobiera wzór, skanuje tekst, a następnie zwraca **Znaleziono dopasowanie**. Jeśli nie znajduje żadenego wzorca, zwraca  **Brak dopasowania**. Aby uzyskać jaśniejszy obraz tego obiektu dopasowania, sprawdź poniżej:

In [44]:
# Lista wzorów do wyszukania
pattern = 'slowo1'

# Tekst do analizy
text = 'Jest to string, który zawiera slowo1, lecz nie zawiera slowo2.'

test = re.search(pattern,  text)

type(test)

_sre.SRE_Match

Ten **dopasowany** zwracany przez metodę search() jest czymś więcej niż tylko Boolean lub None, zawiera informacje o dopasowaniu, w tym oryginalny string wejściowy, użyte wyrażenie regularne i położenie match. Zobaczmy metody, których możemy użyć na obiekcie match:

In [45]:
# Pokaż początek match
match.start()

22

In [47]:
# Pokaż koniec
match.end()

27

## Split z wykorzystaniem wyrażeń regularnych
Zobaczmy jak możemy wykonać split za pomocą składni moduły re. Powinno to wyglądać podobnie jak metoda split() string.

In [49]:
# Znak po którym dzielimy
split_term = '@'
# String który dzielimy
phrase = 'Jaka jest domena adresu email: hello@gmail.com'

# Split stringu
re.split(split_term, phrase)

['Jaka jest domena adresu email: hello', 'gmail.com']

Zwróć uwagę, jak re.split() zwraca listę stringów, podzieloną w miejscu wystąpienia '@' (split_term), który zostaje pominięty w liście. Stwórz kilka przykładów, aby się upewnić że rozumiesz!

## Wyszukanie wszytkich wystąpień wzorca
Możemy użyć re.findall() aby znaleźć wszystkie wystąpienia w stringu, np:

In [50]:
# Zwraca listę wszystkich match
re.findall('match','test phrase match is in middle')

['match']

## Składnia wyrażeń regularnych z użyciem modułu re
Większą część tej lekcji poświęcimy sposobie użycia re z Pythonem. Wyrażenia regularne obsługują ogromną różnorodność wzorów, po prostu znajdując miejsce, w którym wystąpił pojedynczy ciąg znaków.

Możemy użyć *metacharacters* razem z re, aby znaleźć określone typy wzorów.

Ponieważ będziemy testować wiele form składni wielokrotnych, stwórzmy funkcję, która wydrukuje wyniki, z podaniem listy różnych wyrażeń regularnych i frazy do przeanalizowania:

In [3]:
def multi_re_find(patterns,phrase):
    '''
    Pobiera listę wzorów regex
    Drukuje listę wszystkich dopasowań
    '''
    for pattern in patterns:
        print 'Przeszukaj frazę wykorzystując re: %r' %pattern
        print re.findall(pattern, phrase)
        print '\n'

### Składnia powtórzeń

Istneieje pięć sposobów na wyrażenie powtórzeń we wzorcu:
There are five ways to express repetition in a pattern:

    1.) Wzorzec, po którym następuje meta-charecter '*', jest powtarzany zero lub więcej razy.
    2.) Zmiana '*' na '+', powoduje że wzorzec musi pojawić się co najmniej raz.
    3.) Wykorzystanie '?' oznacza, że worzec pojawia się zero lub jeden raz.
    4.) Jeżeli chcesz określić liczbę wystąpień, użyj '{m}' po wzorcu, gdzie m określa liczbę powtórzeń wzorca.
    5.) Użyj {m, n} gdzie m określa minimalną liczbą powtórzeń, a n maksymalną. Pominięcie n ({m,}) oznacza, że wartość pojawia się co najmniej m razy, bez maksimum.
    
Now we will see an example of each of these using our multi_re_find function:

In [9]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['sd*',         # s bez lub wieloma d
                'sd+',          # s z jednym lub wieloma d
                'sd?',          # s bez lub z jednym d
                'sd{3}',        # s z trzema d
                'sd{2,3}',      # s z dwoma lub trzema d
                ]

multi_re_find(test_patterns, test_phrase)

Przeszukaj frazę wykorzystując re: 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']


Przeszukaj frazę wykorzystując re: 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']


Przeszukaj frazę wykorzystując re: 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']


Przeszukaj frazę wykorzystując re: 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']


Przeszukaj frazę wykorzystując re: 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']




## Zestawy znaków
Zestawy znaków są używane, gdy chcesz dopasować dowolną grupę znaków w punkcie wejścia. Nawiasy służą do konstruowania danych zestawu znaków. Na przykład: [ab] wyszukuje wystąpienia a lub b.
Zobaczmy kilka przykładów:

In [10]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = [ '[sd]',    # wystąpienie s lub d
                 's[sd]+']   # s z jednym lub więcej s lub d
            

multi_re_find(test_patterns,test_phrase)

Przeszukaj frazę wykorzystując re: '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']


Przeszukaj frazę wykorzystując re: 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']




Pierwsze [sd] zwraca każdą instancję. Drugie s[sd]+ po prostu zwraca wszystko zaczynające się od s, a drugim znakiem jest s lub d.

## Wyukluczenia
Możemy użyć ^, aby wykluczyć terminy, włączając je do notacji składni nawiasów. Na przykład: [^ ...] dopasuje dowolny pojedynczy znak, który nie znajduje się w nawiasie. Zobaczmy kilka przykładów:

In [15]:
test_phrase = 'To jest ciag! Ale ma interpunkcje. Jak mozemy ja usunac?'

Użyj [^!.? ], aby sprawdzić zgodność, zwraca te znaki które nie są!,.,? lub spacją. Dodaj +, aby sprawdzić, czy dopasowanie pojawia się co najmniej raz, co w zasadzie zwraca same słówa.

In [16]:
re.findall('[^!.? ]+',test_phrase)

['To',
 'jest',
 'ciag',
 'Ale',
 'ma',
 'interpunkcje',
 'Jak',
 'mozemy',
 'ja',
 'usunac']

## Zakresy znaków
W miarę jak zestawy znaków stają się większe, wpisywanie każdego znaku, który powinien (lub nie powinien) pasować, może stać się bardzo uciążliwe. Bardziej kompaktowy format przy użyciu zakresów znaków pozwala zdefiniować zestaw znaków obejmujący wszystkie sąsiadujące znaki między punktem początkowym i końcowym. Używany format to [początek-koniec].

Typowe przypadki użycia to wyszukanie określonego zakresu liter w alfabecie, na przykład [a-f] zwróci wyniki z literami od a do f.

Przejdźmy przez kilka przykładów:

In [19]:
test_phrase = 'To jest przykladowe zdanie. Sprawdzmy czy znajdziemy przykladowe fragmenty tekstu.'

test_patterns=[ '[a-z]+',      # sekwencja małych liter
                '[A-Z]+',      # sekwencja wielkich liter
                '[a-zA-Z]+',   # sekwencja małych i wielkich liter
                '[A-Z][a-z]+'] # jedna wielka litera z pozostałymi małymi literami
                
multi_re_find(test_patterns,test_phrase)

Przeszukaj frazę wykorzystując re: '[a-z]+'
['o', 'jest', 'przykladowe', 'zdanie', 'prawdzmy', 'czy', 'znajdziemy', 'przykladowe', 'fragmenty', 'tekstu']


Przeszukaj frazę wykorzystując re: '[A-Z]+'
['T', 'S']


Przeszukaj frazę wykorzystując re: '[a-zA-Z]+'
['To', 'jest', 'przykladowe', 'zdanie', 'Sprawdzmy', 'czy', 'znajdziemy', 'przykladowe', 'fragmenty', 'tekstu']


Przeszukaj frazę wykorzystując re: '[A-Z][a-z]+'
['To', 'Sprawdzmy']




## Escape Codes
Możesz użyć specjalnych escape codes, aby znaleźć określone typy wzorców w danych, takie jak cyfry, "nie cyfry", spacje i wiele innych. Na przykład:

<table border="1" class="docutils">
<colgroup>
<col width="14%" />
<col width="86%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Kod</th>
<th class="head">Znaczenie</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\d</span></tt></td>
<td>cyfra</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\D</span></tt></td>
<td>nie cyfra</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\s</span></tt></td>
<td>white space (tab, space, nowa linia, etc.)</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\S</span></tt></td>
<td>nie white space</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\w</span></tt></td>
<td>alfanumeryczny</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\W</span></tt></td>
<td>nie alfanumeryczny</td>
</tr>
</tbody>
</table>

Escapes są oznaczone prefiksem znaku z backslash (\). Niestety, backslash jest znakiem escape w normalnych w normalnych łańcuchach napisanych w Pythonie, co skutkuje trudnościami w odczytania wyrażeń. Używanie nieprzetworzonych łańcuchów, możliwe jest poprzez użycie prefiksu r, które przy tworzeniu wyrażeń regularnych eliminuje ten problem i zapewnia czytelność.

Uważam, że użycie prefiksu r do uniknięcia backshlash jest prawdopodobnie jedną z rzeczy, które początkującym uniemożliwiają odczyt kodu regex. Mam nadzieję, że po przeanalizowaniu poniższych przykładów ta składnia stanie się jasna.

In [20]:
test_phrase = 'Ten string zawiera kilka liczb 1233 oraz symbol #hashtag'

test_patterns=[ r'\d+', # sekwencja cyfr
                r'\D+', # sekwencja nie cyfr
                r'\s+', # sekwencja white space
                r'\S+', # sekwencja nie white space
                r'\w+', # sekwencja znaków alfanumerycznych
                r'\W+', # sekwencja znaków nie alfanumerycznych
                ]

multi_re_find(test_patterns,test_phrase)

Przeszukaj frazę wykorzystując re: '\\d+'
['1233']


Przeszukaj frazę wykorzystując re: '\\D+'
['Ten string zawiera kilka liczb ', ' oraz symbol #hashtag']


Przeszukaj frazę wykorzystując re: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


Przeszukaj frazę wykorzystując re: '\\S+'
['Ten', 'string', 'zawiera', 'kilka', 'liczb', '1233', 'oraz', 'symbol', '#hashtag']


Przeszukaj frazę wykorzystując re: '\\w+'
['Ten', 'string', 'zawiera', 'kilka', 'liczb', '1233', 'oraz', 'symbol', 'hashtag']


Przeszukaj frazę wykorzystując re: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' #']




## Podsumowanie
Powinieneś teraz dobrze rozumieć, jak używać modułu wyrażeń regularnych w Pythonie. Jest mnóstwo bardziej skomplikowanych zastosowań, ale byłoby nierozsądnie przejść przez każdy przypadek użycia. Zamiast tego spójrz na pełną [dokumentację] (https://docs.python.org/2/library/re.html#regular-expression-syntax), jeśli zajdzie potrzeba sprawdzenia konkretnego przypadku.

Możesz również sprawdzić ładne tabele podsumowań w tym [po angielsku](http://www.tutorialspoint.com/python/python_reg_expressions.htm) oraz inny [opis po polsku](http://home.agh.edu.pl/~mkuta/tk/WyrazeniaRegularne.html)