# Regulární výrazy

- Hledání a vybírání částí textu
- Nový jazyk, musím se jej učit 😔
- Jednodušší než procházet text písmenko po písmenku Pythonem 😺

Funkce `re.match(pattern, string)` (porovnává celý string) a `re.search(pattern, string)` (hledá **v** stringu).

In [1]:
import re

# author: Stephen Crane
poem = """
The chatter of a death-demon from a tree-top

    Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.
    The grey-green woods impassive
    Had watched the threshing of his limbs.

    A canoe with flashing paddle,
    A girl with soft searching eyes,
    A call: 'John!'
    . . . . . . . . . . . .
    Come, arise, hunter!
    Can you not hear?

    The chatter of a death-demon from a tree-top. 
"""

In [2]:
re.search(r'\n\n', poem)

<re.Match object; span=(45, 47), match='\n\n'>

In [3]:
re.search(r'^$', poem, re.MULTILINE)

<re.Match object; span=(0, 0), match=''>

In [4]:
re.search(r'\n\n*', poem, re.MULTILINE)

<re.Match object; span=(0, 1), match='\n'>

In [5]:
veta = "Babicka sla na vylet (moje babicka) a vratila se (nalita)."

re.search(r'\(.+?\)', veta)

<re.Match object; span=(21, 35), match='(moje babicka)'>

## `match` vs. `search`

In [6]:
re.match('chatter', poem)

In [7]:
print(re.match('chatter', poem))

None


In [8]:
re.search('chatter', poem)

<re.Match object; span=(5, 12), match='chatter'>

## Opakování

In [9]:
re.search('oo', poem)

<re.Match object; span=(53, 55), match='oo'>

In [10]:
re.search('o{2}', poem)

<re.Match object; span=(53, 55), match='oo'>

In [11]:
re.search('o{3}', poem)

## Wildcards

In [12]:
re.search('bl..d', poem)

<re.Match object; span=(59, 64), match='blood'>

In [13]:
re.search(r'\w\w\w\w', poem)

<re.Match object; span=(5, 9), match='chat'>

In [14]:
re.search('\d\d', '0 to hundred in 20 seconds')

<re.Match object; span=(16, 18), match='20'>

## Opakování (2)

- `*`: předchozí znak 0 - ∞ krát
- `+`: předchozí znak 1 - ∞ krát
- `?`: předchozí znak 0 - 1 krát

- `*?`: předchozí znak 0 - ∞ krát, zastavuji co nejdřív
- `+?`: předchozí znak 1 - ∞ krát, zastavuji co nejdřív

In [15]:
re.search('T.+e', poem)

<re.Match object; span=(1, 41), match='The chatter of a death-demon from a tree'>

In [16]:
re.search('T.+?e', poem)

<re.Match object; span=(1, 4), match='The'>

# Cvičení

Najděte v [Ústavě ČR](https://www.psp.cz/docs/laws/constitution.html) slib prezidenta republiky. 

Najdete jej ve formátu "Slib prezidenta republiky zní: ..."

## Escaping

Aneb když chci najít opravdu tečky.

In [17]:
re.search('. . .', poem)

<re.Match object; span=(14, 19), match='f a d'>

In [18]:
re.search(r'\. \. \.', poem)

<re.Match object; span=(318, 323), match='. . .'>

## Skupiny

- Pro opakování
- Nebo pro vytažení více částí najednou

In [19]:
re.search(r'(\. )+', poem)

<re.Match object; span=(318, 340), match='. . . . . . . . . . . '>

In [20]:
match = re.search('A (.+) with (.+) (.+)', poem)
match.groups()

('canoe', 'flashing', 'paddle,')

In [21]:
print(match.group(0))
print(match.group(3))

A canoe with flashing paddle,
paddle,


## Modifikátory

- Python hledá po řádcích (`re.DOTALL` to mění)
    - `re.DOTALL` způsobí, že tečka může znamenat i znak konce řádku
- Python porovnává velikost písmen (`re.IGNORECASE` to mění)

In [22]:
re.search('come', poem)

In [23]:
re.search('come', poem, re.IGNORECASE)

<re.Match object; span=(346, 350), match='Come'>

In [24]:
re.search('Blood .+\.', poem)

In [25]:
match = re.search('Blood .+\.', poem, re.DOTALL)
print(match.group(0))

Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.
    The grey-green woods impassive
    Had watched the threshing of his limbs.

    A canoe with flashing paddle,
    A girl with soft searching eyes,
    A call: 'John!'
    . . . . . . . . . . . .
    Come, arise, hunter!
    Can you not hear?

    The chatter of a death-demon from a tree-top.


In [26]:
print(re.search('Blood .+?\.', poem, re.DOTALL + re.IGNORECASE).group(0))

Blood - blood and torn grass -
    Had marked the rise of his agony -
    This lone hunter.


In [27]:
re.search('kůň', 'příliš žluťoučký kůň')

<re.Match object; span=(17, 20), match='kůň'>

## Cvičení

Z ústavy vytáhněte právě jen text slibu prezidenta.

Je mezi uvozovkami:

    Slib prezidenta republiky zní: "..."

## Středně pokročilý tutorial s pěknými obrázky

https://code.tutsplus.com/tutorials/8-regular-expressions-you-should-know--net-6149

![matching a slug](https://cdn.tutsplus.com/net/uploads/legacy/404_regularExpressions/images/slug.jpg)

## Nástroj na zkoušení regexu

https://pythex.org/