# Regulární výrazy (Regular expressions)

Regulární výrazy (zkráceně regex) jsou šablony pro vyhledávání textu.

Můžeme si je představit jako "šablonu" pro text, který chceme najít. Například regex popisující PSČ v Polsku (dvě číslice, pomlčka, tři číslice) najde všechny výskyty textu odpovídající této šabloně.

## Speciální znaky v regex

Regulární výrazy jsou řetězce znaků. Některé znaky se berou doslovně (např. `a` znamená malé písmeno a), jiné mají speciální význam:

- `.` - libovolný znak (kromě nového řádku)
- `[abcd123]` - kterýkoli ze znaků v hranatých závorkách
- `[0-9a-fA-F]` - rozsah znaků (číslice 0-9 nebo písmena a-f)
- `[^0-9]` - znak `^` znamená negaci - znaky, které NEODPOVÍDAJÍ těm v závorkách
- `\d` - číslice (digit)
- `\w` - písmeno, číslice nebo podtržítko
- `\W` - znaky, které neodpovídají `\w`
- `+` - předchozí znak se musí vyskytovat alespoň jednou
- `?` - předchozí znak se musí vyskytovat právě jednou nebo vůbec
- `*` - předchozí znak se může vyskytovat libovolněkrát
- `{3,9}` - předchozí znak se musí opakovat 3 až 9krát
- `{,9}` - předchozí znak se musí opakovat 0 až 9krát
- `{3,}` - předchozí znak se musí opakovat alespoň 3krát
- `\` - dává speciální význam písmenům (např. `\d`) nebo ho naopak odebírá (např. `\+` znamená doslovný znak plus)

## Příklad - časový formát

Vytvoříme regex pro vyhledávání času ve formátu HH:MM (např. 21:30).

## Modul re v Pythonu

Pro práci s regulárními výrazy musíme importovat modul `re`.

Důležité funkce:
- `findall` - vrací seznam všech nalezených řetězců
- `match` - kontroluje, zda text odpovídá regex od samého začátku
- `search` - hledá regex kdekoli v textu
- `sub` - nahrazuje text odpovídající regex jiným textem

Raw string: řetězec s předponou `r` (např. `r'\d{2}-\d{3}'`) - Python v něm nenahrazuje `\n` za nový řádek apod.

In [4]:
# [0-2]\d:[0-5]\d

# [0-2] - číslo 0, 1 nebo 2
# \d - libovolná číslice
# : - doslovně dvojtečka
# [0-5] - číslice 0, 1, 2, 3, 4 nebo 5
# \d - libovolná číslice

# Tento regex najde časy jako 21:30

In [3]:
import re

# Příklad raw stringu
my_zipcode_regex = r'\d{2}-\d{3}'
print(my_zipcode_regex)

\d{2}-\d{3}


## re.findall - hledání všech výskytů

In [5]:
import re

example_text = """Julianne Chairkeys +48 889 156 078
Ethelbert Patch +48 604 947 843
Adrian Peterson +48 791 640 996
Paul Hutt +48 516 111 667
Dorothy Waters +48 735 606 830"""

regex = r'\+\d{1,3} \d{3} \d{3} \d{3}'

found = re.findall(regex, example_text)
print('Nalezeno', len(found), 'telefonních čísel:')
print(found)

Nalezeno 5 telefonních čísel:
['+48 889 156 078', '+48 604 947 843', '+48 791 640 996', '+48 516 111 667', '+48 735 606 830']


### Úloha: Najdi všechna PSČ

V textu níže najdi všechna PSČ ve formátu XX-XXX (dvě číslice, pomlčka, tři číslice).

In [7]:
text = """Bydlím na adrese 50-540 Wrocław. 
Můj přítel bydlí v 14-329 Van Nuys.
Naše pobočka je v 00-950 Warszawa."""

# DOPLŇ regex pro PSČ v Polsku
regex_psc = r'___________'

vysledek = re.findall(regex_psc, text)
print(vysledek)

[]


## re.match - kontrola od začátku

Funkce `match` kontroluje, zda text odpovídá regex OD ZAČÁTKU. Pokud ano, vrací objekt `Match`, jinak vrací `None`.

In [9]:
import re

print(re.match(r'\d\d-\d\d\d', '12-345'))

<re.Match object; span=(0, 6), match='12-345'>


✅ MATCH - text začíná přesně podle vzoru:
* \d\d = dvě číslice → 12 ✓
* - = pomlčka → - ✓
* \d\d\d = tři číslice → 345 ✓



In [15]:
# prepis regex usporneji

In [10]:
print(re.match(r'\d\d-\d\d\d', '12345'))

None


❌ NE MATCH - text sice obsahuje správné znaky, ale chybí pomlčka:
* Regex hledá: 12-345
* Text má: 12345 (bez pomlčky)

In [11]:
print(re.match(r'[A-Z]{2}\d{5}', 'WA56123'))

<re.Match object; span=(0, 7), match='WA56123'>


✅ MATCH:
* [A-Z]{2} = dvě velká písmena → WA
* \d{5} = pět číslic → 56123

In [12]:
print(re.match(r'[A-Z]{2}\d{5}', 'WAW4444'))

None


❌ NE MATCH - text začíná TŘEMI velkými písmeny:

* Regex chce: 2 velká písmena + 5 číslic
* Text má: WAW (3 písmena) + 4444 (4 číslice)

In [13]:
print(re.match(r'[a-zA-Z]+ [a-zA-Z]+', 'John Connor'))

<re.Match object; span=(0, 11), match='John Connor'>


✅ MATCH:

* [a-zA-Z]+ = jedno nebo více písmen → John
*  = mezera →  
* [a-zA-Z]+ = jedno nebo více písmen → Connor

In [14]:
print(re.match(r'[a-zA-Z]+ [a-zA-Z]+', '007 John Connor'))

None


❌ NE MATCH - text začíná číslicemi 007:

* Regex očekává, že text ZAČÍNÁ písmeny
* Ale text začíná číslicemi → `re.match` vrací `None`

Důležité: `re.match` kontroluje jenom od začátku. Pokud bychom použili `re.search` (hledá kdekoli), tak například příklad 6 by našel _John Connor_ uvnitř textu.

### Úloha: Oprav chyby

Následující kód obsahuje chyby v regex. Oprav je tak, aby všechny výrazy vrátily Match objekt.

In [19]:
# Chceme najít email ve formátu: jmeno@domena.cz
print(re.match(r'[a-z]+@[a-z]+', 'jan.novak@gmail.com'))  # OPRAV regex

None


In [20]:
# Chceme najít datum ve formátu DD.MM.RRRR
print(re.match(r'\d{2}.\d{2}.\d{4}', '25.12.2023'))  # OPRAV regex

<re.Match object; span=(0, 10), match='25.12.2023'>


In [21]:
# Chceme najít české mobilní číslo začínající +420
print(re.match(r'+420\d{9}', '+420123456789'))  # OPRAV regex

error: nothing to repeat at position 0

## re.search - hledání kdekoli v textu

Funkce `search` hledá regex KDEKOLI v textu (nejen na začátku). Vrací první nalezený výskyt.

In [22]:
import re

print(re.search(r'\d\d-\d\d\d', 'John Connor, 14-329 Hayvenhurst Drive, Apt. 12 Van Nuys, Los Angeles'))

<re.Match object; span=(13, 19), match='14-329'>


In [27]:
print(re.search(r'\d\d-\d\d\d', 'My zip code is: 14329'))

None


In [28]:
print(re.search(r'[A-Z]{2}\d{5}', 'License plate: WA56123'))

<re.Match object; span=(15, 22), match='WA56123'>


In [29]:
print(re.search(r'[A-Z]{2}\d{5}', 'WAW4444'))

None


In [30]:
print(re.search(r'[a-zA-Z]+ [a-zA-Z]+', 'John Connor'))

<re.Match object; span=(0, 11), match='John Connor'>


In [31]:
print(re.search(r'[a-zA-Z]+ [a-zA-Z]+', '007 John Connor'))

<re.Match object; span=(4, 15), match='John Connor'>


### Úloha: match vs search

Vysvětli, proč některé výrazy níže vrací `None` a jiné `Match` objekt.

In [32]:
text = "Můj email je: jan@example.com"

print("match:", re.match(r'\w+@\w+\.\w+', text))
print("search:", re.search(r'\w+@\w+\.\w+', text))

# OTÁZKA: Proč match vrací None a search vrací Match objekt?

match: None
search: <re.Match object; span=(14, 29), match='jan@example.com'>


## re.Match objekt

Funkce `match` a `search` vrací objekt `Match`, který obsahuje podrobné informace o nalezeném textu:

- `start()` - pozice prvního znaku nalezeného textu
- `end()` - pozice posledního znaku nalezeného textu
- `group()` - nalezený text

In [33]:
import re

text = "License plate: WA56123"
vysledek = re.search(r'[A-Z]{2}\d{5}', text)

if vysledek:
    print("Nalezeno:", vysledek.group())
    print("Začíná na pozici:", vysledek.start())
    print("Končí na pozici:", vysledek.end())

Nalezeno: WA56123
Začíná na pozici: 15
Končí na pozici: 22


### Úloha: Extrahuj informace

Z textu níže extrahuj telefonní číslo a vypiš jeho pozici.

In [None]:
text = "Pro více informací volejte na +420 123 456 789 nebo pište email."

# DOPLŇ regex pro české telefonní číslo
regex = r'___________'

vysledek = re.search(regex, text)

if vysledek:
    print("Telefon:", vysledek.group())
    print("Pozice:", vysledek.start(), "-", vysledek.end())

## re.sub - nahrazování textu

Funkce `sub` nahrazuje všechny výskyty textu odpovídajícího regex jiným textem.

In [34]:
import re

text = 'John Connor, email: jconnor@gmail.com'
vysledek = re.sub(r'[A-Z]\w+', r'****', text)
print(vysledek)

**** ****, email: jconnor@gmail.com


### Úloha: Anonymizace telefonních čísel

Nahraď všechna telefonní čísla v textu pomocí "XXX XXX XXX".

In [35]:
text = """Kontakty:
Jan: +420 777 888 999
Petra: +420 606 123 456
Martin: +420 555 000 111"""

# DOPLŇ kód pro nahrazení telefonních čísel
anonymizovany = re.sub(r'___________', '___________', text)
print(anonymizovany)

Kontakty:
Jan: +420 777 888 999
Petra: +420 606 123 456
Martin: +420 555 000 111


## Praktické příklady

### Příklad 1: Validace emailu

In [None]:
import re

def je_platny_email(email):
    regex = r'\w+@\w+\.\w+'
    return re.match(regex, email) is not None

# Test
print(je_platny_email('jan@example.com'))
print(je_platny_email('neplatny.email'))
print(je_platny_email('jana.novakova@firma.cz'))

### Příklad 2: Čeština PSČ

Najdi všechna česká PSČ ve formátu XXX XX (tři číslice, mezera, dvě číslice).

In [None]:
text = """Naše pobočky:
Praha: 110 00
Brno: 602 00
Ostrava: 702 00"""

regex = r'\d{3} \d{2}'
psc = re.findall(regex, text)
print("Nalezená PSČ:", psc)

### Úloha: Vytvoř regex pro DIČ

České DIČ (daňové identifikační číslo) má formát: CZ + 8-10 číslic.
Vytvoř regex, který najde všechna DIČ v textu.

In [None]:
text = """Faktury:
Firma A: DIČ CZ12345678
Firma B: DIČ CZ9876543210
Firma C: DIČ SK12345678"""

# VYTVOŘ regex pro české DIČ
regex_dic = r'___________'

dic = re.findall(regex_dic, text)
print("České DIČ:", dic)

### Úloha: Extrakce domén z URL

Z textu obsahujícího URL adresy extrahuj pouze názvy domén (bez http:// nebo https://).

In [None]:
text = """Odkazy:
https://www.google.com
http://example.org
https://github.com"""

# DOPLŇ regex pro extrakci domén
regex = r'___________'

domeny = re.findall(regex, text)
print("Domény:", domeny)