# Regulární výrazy

- Hledání a vybírání částí textu
- Nový jazyk, musím se jej učit 😔
- Jednodušší než procházet text písmenko po písmenku Pythonem 😺

Funkce `re.match(pattern, string)` (porovnává celý string) a `re.search(pattern, string)` (hledá **v** stringu).

In [32]:
import re

# author: Stephen Crane
poem = """
The chatter of a death-demon from a tree-top

    Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.
    The grey-green woods impassive
    Had watched the threshing of his limbs.

    A canoe with flashing paddle,
    A girl with soft searching eyes,
    A call: 'John!'
    . . . . . . . . . . . .
    Come, arise, hunter!
    Can you not hear?

    The chatter of a death-demon from a tree-top. 
"""

## `match` vs. `search`

In [15]:
re.match('chatter', poem)

In [16]:
print(re.match('chatter', poem))

None


In [17]:
re.search('chatter', poem)

<_sre.SRE_Match object; span=(9, 16), match='chatter'>

## Opakování

In [18]:
re.search('oo', poem)

<_sre.SRE_Match object; span=(57, 59), match='oo'>

In [19]:
re.search('o{2}', poem)

<_sre.SRE_Match object; span=(57, 59), match='oo'>

In [20]:
re.search('o{3}', poem)

## Wildcards

In [21]:
re.search('bl..d', poem)

<_sre.SRE_Match object; span=(63, 68), match='blood'>

In [83]:
re.search(r'\w\w\w\w', poem)

<_sre.SRE_Match object; span=(5, 9), match='chat'>

In [84]:
re.search('\d\d', '0 to hundred in 20 seconds')

<_sre.SRE_Match object; span=(16, 18), match='20'>

## Opakování (2)

- `*`: předchozí znak 0 - ∞ krát
- `+`: předchozí znak 1 - ∞ krát
- `?`: předchozí znak 0 - 1 krát

- `*?`: předchozí znak 0 - ∞ krát, zastavuji co nejdřív
- `+?`: předchozí znak 1 - ∞ krát, zastavuji co nejdřív

In [63]:
re.search('T.+e', poem)

<_sre.SRE_Match object; span=(1, 41), match='The chatter of a death-demon from a tree'>

In [64]:
re.search('T.+?e', poem)

<_sre.SRE_Match object; span=(1, 4), match='The'>

# Cvičení

Najděte v [Ústavě ČR](https://www.psp.cz/docs/laws/constitution.html) slib prezidenta republiky. 

Najdete jej ve formátu "Slib prezidenta republiky zní: ..."

In [29]:
import requests

constitution = requests.get('https://www.psp.cz/docs/laws/constitution.html').text

## Escaping

Aneb když chci najít opravdu tečky.

In [43]:
re.search('. . .', poem)

<_sre.SRE_Match object; span=(14, 19), match='f a d'>

In [45]:
re.search(r'\. \. \.', poem)

<_sre.SRE_Match object; span=(318, 323), match='. . .'>

## Skupiny

- Pro opakování
- Nebo pro vytažení více částí najednou

In [42]:
re.search(r'(\. )+', poem)

<_sre.SRE_Match object; span=(318, 340), match='. . . . . . . . . . . '>

In [80]:
match = re.search('A (.+) with (.+) (.+)', poem)
match.groups()

('canoe', 'flashing', 'paddle,')

In [81]:
print(match.group(0))
print(match.group(3))

A canoe with flashing paddle,
paddle,


## Modifikátory

- Python hledá po řádcích (`re.DOTALL` to mění)
    - `re.DOTALL` způsobí, že tečka může znamenat i znak konce řádku
- Python porovnává velikost písmen (`re.IGNORECASE` to mění)

In [53]:
re.search('come', poem)

In [54]:
re.search('come', poem, re.IGNORECASE)

<_sre.SRE_Match object; span=(346, 350), match='Come'>

In [91]:
re.search('Blood .+\.', poem)

In [62]:
match = re.search('Blood .+\.', poem, re.DOTALL)
print(match.group(0))

Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.
    The grey-green woods impassive
    Had watched the threshing of his limbs.

    A canoe with flashing paddle,
    A girl with soft searching eyes,
    A call: 'John!'
    . . . . . . . . . . . .
    Come, arise, hunter!
    Can you not hear?

    The chatter of a death-demon from a tree-top.


In [89]:
print(re.search('Blood .+?\.', poem, re.DOTALL + re.IGNORECASE).group(0))

Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.


## Cvičení

Z ústavy vytáhněte právě jen text slibu prezidenta.

Je mezi uvozovkami:

    Slib prezidenta republiky zní: "..."

## Středně pokročilý tutorial s pěknými obrázky

https://code.tutsplus.com/tutorials/8-regular-expressions-you-should-know--net-6149

![matching a slug](https://cdn.tutsplus.com/net/uploads/legacy/404_regularExpressions/images/slug.jpg)

## Nástroj na zkoušení regexu

https://pythex.org/