# Regulární výrazy

https://kodim.cz/kurzy/python-data-1/ziskavani-dat/regularni-vyrazy/regularni-vyrazy

## Jak fungují regulární výrazy

Regulární výraz (zkratky regexp, regex či RE z anglického regular expression) je **textový řetězec**, který slouží jako vzor **pro vyhledávání textu**. 

Ukážeme si to s tečkou.

Tečka zastupuje **právě jeden** libovolný znak. 

`.es = pes, ves, les...`

### Co jsou **metaznaky**?

Metaznaky mají v regulárních výrazech zvláštní význam - mohou **zastoupit nějaký znak** (nebo více znaků). 



Mezi metaznaky patří:

 `\` `^` `$` `.` `[` `]` `|` `(` `)` `?` `*` `+`  `{` `}`

Pokud chceme takové znaky používat v regulárním výrazu jako obyčejné (bez jejich zvláštního významu), je třeba je tzv. escapovat --> doplnit zpětným lomitkem. 

Například: `.` vs `\.`

`.es = pes, ves, les...`

`\.es = .es`

Pojďme si to zkusit v online nástroji  https://regex101.com.

In [None]:
'''
Vítejte ve Směnárně Na Růžku!
Kurzy měn pro 19. 12. 2020 jsou:

1 €   = 26.35 Kč
1 $   = 21.76 Kč
1 £   = 28.78 Kč
1 DKK = 3.54 Kč

Neúčtujeme žádné poplatky.
'''

### Libovolný znak


Zápis | Význam
---------|----------
 . | libovolný znak 
 [ ] | jeden z uvedených znaků
 [^ ] | jeden z neuvedených znaků

In [None]:
## Najdi řádek, kde je kurz eura.
€

## Označ i jedničku před znakem měny.
1 €


In [None]:
## řádky, které mají v sobě znak dolaru NEBO eura
1 [€$]


Zápis | Význam
---------|----------
 [1-5] | libovolný znak z rozsahu 1, 2, 3, 4, 5
 [A-Z ] | všechna velká písmena
 [a-z ] | všechna malá písmena
 [a-c ] | všechna malá písmena z rozsahu a, b, c



### Počet opakování

Kvantifikátor | Počet opakování
--------------|----------------
? | minimálně 0krát, maximálně 1krát
\* | minimálně 0krát (maximálně neomezeno)
\+ | minimálně 1krát (maximálně neomezeno)
{n} | právě nkrát
{m,n} | minimálně mkrát, maximálně nkrát
{m,} | minimálně mkrát (maximálně neomezeno)

In [None]:
# označ celou část našeho řádku s kurzem měn před symbolem =
# před = jsou tři mezery

1 [€$] {3}

# nebo

1 [€$] +

In [None]:
## Morseova abeceda

.--- .- -.-. .... -.-. .. -.. --- -- ..- -.-.-- ... --- ... -.-.-- -. ..- -.. .. -- ... . -.-.--

## Najdi SOS
# ... --- ...

\.{3} -{3} \.{3}

Platí, že regulární výrazy jsou **žravé** (nenasytné), tedy zaberou vždy maximální možný počet znaků.

Existují tzv. **líné** kvantifikátory (co možná nejmenší počet znaků). 

Ty se od výše zmíněných (tzv. nenasytných) liší v zápisu tak, že výše uvedený kvantifikátor zprava doplníme o otazník (?). 

Líné kvantifikátory tedy budou `??`, `*?`, `+?`, `{m,n}?`, `{m,}?`.

### Předdefinované skupiny znaků

Zápis | Význam
------- | -------
\d | číslice 0-9
\D | jakýkoliv znak kromě číslic 0-9
\w | znaky „slova” (ekvivalentní zápisu [a-zA-Z0-9_])
\W | jakýkoliv znak kromě znaků „slova” (ekvivalentní zápisu [^a-zA-Z0-9_])
\s | „bílé” znaky (mezera, tabulátor, znaky pro zalomení řádků)
\S | jakýkoliv znak kromě „bílých” znaků




Note:

_[0-9] is not always equivalent to \d. In python3, [0-9] matches only 0123456789 characters, while \d matches [0-9] and other digit characters, for example Eastern Arabic numerals ٠١٢٣٤٥٦٧٨٩._

In [None]:
## Pojďme si to vyzkoušet

## Co zvádnou předdefinované skupiny najít v tomto textu?

'''
hadi_notace_ma_podtrzitka
9A55423
9A5 5423
+420 735 123 456
Václavské nám. 837/11, 110 00 Nové Město
19. prosince 2020
frantisek.novak@ocelove-mesto.cz
80-902734-1-6
'''

In [None]:
## Příklady

## Nepovinný znak
# BE colour vs AE color
colou?r

## Výběr ze znaků
# license vs licence
licen[sc]e

## Nepovinné mezery
##  19. 12. 2020 vs 19.12.2020
\d{1,2}\. ?\d{1,2}\. ?\d{4}

# Označení několika slov
# Václavské náměstí 11, 110 00 Nové Město

[\w ]* 
#pozn. \w nezahrnuje mezery

## Celý řádek s kurzem dolaru nebo eura

1 [€$] += +\d+.\d+ Kč


## Číslo bankovního účtu
# Číslo bankovního účtu má v Česku tvar:
# - předčíslí (nepovinné, 0 až 6 číslic), zakončené je pomlčkou,
# - číslo účtu (max. 10 číslic),
# - lomítko,
# - kód banky (právě 4 číslice).

\d{6,10}/\d{4} 
# Pokud bychom neuvažovali předčíslí

### Začátek a konec

Znak | Význam
------- | -------
^ | začátek řetězce (textu v němž se vyhledává)
$ | konec řetězce (textu v němž se vyhledává)

###  Může se hodit

Znak | Význam
------- | -------
\| | nebo --> sobota\|neděle
\(\)| opakování určité sekvence znaků


<br>
<br>