# Wyrażenia regularne
## Wprowadzenie
Wyrażeń regularnych używamy wtedy kiedy chcemy znaleźć w tekście fragmenty o określonym wzorcu, ale niekoniecznie wskazując dosłownie jaki ciąg znaków nas interesuje. Poniżej dwa przykłady:

1. Zadanie: znaleźć w poniższym tekście numer telefonu czyli ciąg znaków o wzorcu xxx-xxx-xxx gdzie x oznacza dowolną cyfrę z zakresu 0-9:

`Mój numer telefonu to 123-456-789, możesz do mnie zadzwonić.`

Zadanie wydaje się proste, ale nie jest tak trywialne. W jaki sposób zaimplementować algorytm, który znajdzie wystąpienia danego patternu w tekście?

---
2. Zadanie: znaleźć w poniższym tekście adres mailowy:

`Mój adres mailowy to abc@gmail.com, możesz do mnie napisać`

Ponownie - jak zlokalizować ten fragment tekstu, w którym znajduje się adres mailowy?

---
Do rozwiązywania tego typu problemów służą wyrażenia regularne.

## Proste patterny
https://regex101.com/

### `r-string`

In [1]:
print('Hello\nworld\t.')

Hello
world	.


In [2]:
print(r'Hello\nworld\t.')

Hello\nworld\t.


### Używanie patternów

In [3]:
import re

In [4]:
text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890

. ^ $ * + ? { } [ ] \ | ( )
- _ = /

253-234-623
321-555-4321
5135-2446-1533

123.555.1234
123*555*1234
'''

In [5]:
# r-string bywa niezbędny tam, gdzie używamy znaków specjalnych
# dobrze jednak mieć nawyk używania go w każdym patternie

pattern = re.compile(r'abc')
pattern

re.compile(r'abc', re.UNICODE)

In [6]:
type(pattern)

re.Pattern

Metodę `finditer()` wywołujemy na patternie, przekazując do niej tekst, który przeszukujemy. Tworzy ona iterator, który zwraca kolejne dopasowania tego patternu w tekście.

In [9]:
matches = pattern.finditer(text_to_search)
matches

<callable_iterator at 0x73d1780d45b0>

In [10]:
for match in matches:
    print(match)

<re.Match object; span=(1, 4), match='abc'>


In [11]:
text_to_search[1:4]

'abc'

Pojedyncze dopasowanie jest instancją klasy `re.Match`.

---

In [12]:
pattern = re.compile('555')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(120, 123), match='555'>
<re.Match object; span=(149, 152), match='555'>
<re.Match object; span=(162, 165), match='555'>


---

In [13]:
def find_patterns(pattern, text_to_search):
    pattern = re.compile(pattern)
    matches = pattern.finditer(text_to_search)

    for match in matches:
        print(match)

In [14]:
find_patterns("123", text_to_search)

<re.Match object; span=(55, 58), match='123'>
<re.Match object; span=(145, 148), match='123'>
<re.Match object; span=(153, 156), match='123'>
<re.Match object; span=(158, 161), match='123'>
<re.Match object; span=(166, 169), match='123'>


## Znaki specjalne
```
.       - Any Character Except New Line
\d      - Digit (0-9)
\D      - Not a Digit (0-9)
\w      - Word Character (a-z, A-Z, 0-9, _)
\W      - Not a Word Character
\s      - Whitespace (space, tab, newline)
\S      - Not Whitespace (space, tab, newline)

\b      - Word Boundary
\B      - Not a Word Boundary
^       - Beginning of a String
$       - End of a String

[]      - Matches Characters in brackets
[^ ]    - Matches Characters NOT in brackets
|       - Either Or
( )     - Group

Quantifiers:
*       - 0 or More
+       - 1 or More
?       - 0 or One
{3}     - Exact Number
{3,4}   - Range of Numbers (Minimum, Maximum)

```

In [15]:
find_patterns('.', text_to_search)  # Any Character Except New Line

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [16]:
find_patterns('\D', text_to_search)  # Not a Digit (0-9)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Ma

In [17]:
find_patterns('\w', text_to_search)  # Word Character (a-z, A-Z, 0-9, _)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [18]:
find_patterns('\W', text_to_search)  # Not a Word Character (a-z, A-Z, 0-9, _)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(27, 28), match='\n'>
<re.Match object; span=(54, 55), match='\n'>
<re.Match object; span=(65, 66), match='\n'>
<re.Match object; span=(66, 67), match='\n'>
<re.Match object; span=(67, 68), match='.'>
<re.Match object; span=(68, 69), match=' '>
<re.Match object; span=(69, 70), match='^'>
<re.Match object; span=(70, 71), match=' '>
<re.Match object; span=(71, 72), match='$'>
<re.Match object; span=(72, 73), match=' '>
<re.Match object; span=(73, 74), match='*'>
<re.Match object; span=(74, 75), match=' '>
<re.Match object; span=(75, 76), match='+'>
<re.Match object; span=(76, 77), match=' '>
<re.Match object; span=(77, 78), match='?'>
<re.Match object; span=(78, 79), match=' '>
<re.Match object; span=(79, 80), match='{'>
<re.Match object; span=(80, 81), match=' '>
<re.Match object; span=(81, 82), match='}'>
<re.Match object; span=(82, 83), match=' '>
<re.Match object; span=(83, 84), match='['>
<re.Match object; span=(84, 8

---

In [19]:
find_patterns('\w*', text_to_search)

<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(1, 27), match='abcdefghijklmnopqurtuvwxyz'>
<re.Match object; span=(27, 27), match=''>
<re.Match object; span=(28, 54), match='ABCDEFGHIJKLMNOPQRSTUVWXYZ'>
<re.Match object; span=(54, 54), match=''>
<re.Match object; span=(55, 65), match='1234567890'>
<re.Match object; span=(65, 65), match=''>
<re.Match object; span=(66, 66), match=''>
<re.Match object; span=(67, 67), match=''>
<re.Match object; span=(68, 68), match=''>
<re.Match object; span=(69, 69), match=''>
<re.Match object; span=(70, 70), match=''>
<re.Match object; span=(71, 71), match=''>
<re.Match object; span=(72, 72), match=''>
<re.Match object; span=(73, 73), match=''>
<re.Match object; span=(74, 74), match=''>
<re.Match object; span=(75, 75), match=''>
<re.Match object; span=(76, 76), match=''>
<re.Match object; span=(77, 77), match=''>
<re.Match object; span=(78, 78), match=''>
<re.Match object; span=(79, 79), match=''>
<re.Match object; span=(80, 80), match

## Escape character
Pozbawia znaki specjalne specjalnego znaczenia.

Używamy go kiedy chcemy wyszukać znaki takie jak `. ^ $ * + ? { } [ ] \ | ( )`

In [20]:
find_patterns('.', text_to_search)  # any character

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [21]:
find_patterns('\.', text_to_search)  # .

<re.Match object; span=(67, 68), match='.'>
<re.Match object; span=(148, 149), match='.'>
<re.Match object; span=(152, 153), match='.'>


In [22]:
# r-string !

find_patterns(r'\\', text_to_search)  # literally backslash

<re.Match object; span=(87, 88), match='\\'>


In [23]:
find_patterns('3.5', text_to_search)

<re.Match object; span=(57, 60), match='345'>
<re.Match object; span=(147, 150), match='3.5'>
<re.Match object; span=(160, 163), match='3*5'>


In [24]:
find_patterns('3\.5', text_to_search)

<re.Match object; span=(147, 150), match='3.5'>


> ZADANIA

## Złożone patterny

In [26]:
find_patterns('\d\d\d-\d\d\d-\d\d\d', text_to_search)

<re.Match object; span=(104, 115), match='253-234-623'>
<re.Match object; span=(116, 127), match='321-555-432'>


In [28]:
find_patterns(r'\d+-\d+-\d+', text_to_search)

<re.Match object; span=(104, 115), match='253-234-623'>
<re.Match object; span=(116, 128), match='321-555-4321'>
<re.Match object; span=(129, 143), match='5135-2446-1533'>


In [29]:
find_patterns('\d{3}-\d{3}-\d{3}', text_to_search)

<re.Match object; span=(104, 115), match='253-234-623'>
<re.Match object; span=(116, 127), match='321-555-432'>


In [30]:
find_patterns('\d{3}-\d{3}-\d{2}', text_to_search)

<re.Match object; span=(104, 114), match='253-234-62'>
<re.Match object; span=(116, 126), match='321-555-43'>


---

**Adres e-mail**

https://www.youtube.com/watch?v=xxX81WmXjPg  email validating

In [None]:
text = """
Mój adres email to abc@email.com, napisz do mnie wiadomość
Mój adres email to ab-c@email.com, napisz do mnie wiadomość
"""

# text = "Mój adres email to abc@email.com, napisz do mnie wiadomość"
# text = "Mój adres email to ab-c@email.com, napisz do mnie wiadomość"

In [None]:
find_patterns('\w+@\w+\.\w+', text)

In [None]:
find_patterns('\s\w+@\w+\.\w+', text)

Gdybyśmy chcieli zawrzeć myślnik w adresie email (przed @):

In [None]:
find_patterns('[a-zA-Z0-9\-]+@\w+\.\w+', text)

---

**Liczby**

In [None]:
text = "Wylosowane liczby to 32, 83, 8 i 144 a także 90, ale to nie jest li123czba"

In [None]:
find_patterns('[0-9]+', text)  # * zamiast +

In [None]:
find_patterns('\b[0-9]+\b', text)  # r-string ponieważ \b to backspace

In [None]:
find_patterns('[0-9]{2}', text)  # tylko liczby dwucyfrowe

## Funkcje biblioteki re
### `re.sub`

Funkcja `re.sub()` zwraca stringa z podmienionymi wystąpieniami patternu na dowolny zadany tekst.

In [31]:
text = """#python #programowanie
Chcę nauczyć się Pythona!"""

print(text)

#python #programowanie
Chcę nauczyć się Pythona!


In [32]:
print(re.sub('#\w+', "<tag>", text))

<tag> <tag>
Chcę nauczyć się Pythona!


Możemy ograniczyć liczbę podmian do *n* pierwszych:

In [33]:
print(re.sub('#\w+', "<tag>", text, 1))

<tag> #programowanie
Chcę nauczyć się Pythona!


### `re.findall`

Zwraca listę wszystkich wystąpień patternu, ale bez informacji o położeniu:

In [34]:
re.findall('#\w+', text)

['#python', '#programowanie']

### `re.search`

Przeszukuje stringa w poszukiwaniu patternu. Zwraca pierwszy napotkany match lub `None`

In [35]:
text  # print()

'#python #programowanie\nChcę nauczyć się Pythona!'

---

In [36]:
match = re.search('#\w+', text)
match

<re.Match object; span=(0, 7), match='#python'>

In [37]:
match.group()

'#python'

In [38]:
match.span()

(0, 7)

---

In [39]:
re.search('xyz', text) is None

True

In [40]:
re.search('a', text)

<re.Match object; span=(14, 15), match='a'>

---

Aby sprawdzić czy dany pattern występuje w tekście, czy nie, możemy zrzutować output funkcji `re.search` na `bool`:

In [41]:
bool(re.search('a', text))

True

In [42]:
bool(re.search('xyz', text))

False

### `re.match`

Porównuje pattern do początku przekazanego stringa.

Zwraca obiekt `re.Match` albo None

In [45]:
text = ' abc@email.com dalej może być dowolny tekst ....'

re.match('\w+@\w+\.\w+', text)

In [46]:
text = 'dowolny tekst abc@email.com'

re.match('\w+@\w+\.\w+', text)

In [47]:
text = 'abc@email.com xyz@email.com'

re.match('\w+@\w+\.\w+', text)

<re.Match object; span=(0, 13), match='abc@email.com'>

In [48]:
text = 'abc@email.com xyz@email.com'

re.match('^\w+@\w+\.\w+$', text)

### `re.finditer`

Działa tak samo jak `re.Pattern.finditer`, ale wywołujemy ją z poziomu `re` a nie z poziomu patternu:

In [49]:
results = re.finditer('\w+@\w+\.\w+', text)
results

<callable_iterator at 0x73d1780d4670>

In [50]:
for item in results:
    print(item)

<re.Match object; span=(0, 13), match='abc@email.com'>
<re.Match object; span=(14, 27), match='xyz@email.com'>


> ZADANIA