# Regulární výrazy

## V regex101

Zadání: https://kodim.cz/kurzy/python-data-1/ziskavani-dat/regularni-vyrazy/regularni-vyrazy

regular expressions 101: https://regex101.com/

### 1 Předčíslí u čísla účtu

#### Regulární výraz(y):

Pro číslo účtu bez předčíslí:

`\d{6,10}/\d{4}`

Pro číslo účtu s předčíslím:

`\d{0,6}-?\d{6,10}/\d{4}`

#### Vstup pro ověření:

2300117015/2010

123-2300117015/2100

4567-2300117015/2100

0000002300117015/2100


### 2 Číslo účtu podruhé

#### Regulární výraz(y):
Normální číslo účtu:

`\d{6,10}/\d{4}`

`[12][0-2]\d{4,8}/2100`

#### Vstup pro ověření:

2300117015/2010

123-2300117015/2100

4567-2300117015/2100

2300117015/2100

### 3 Registrační značka

#### Regulární výraz(y):

`\d[A-Z]\w \d{4}`

Nebo bez podtržítka (jinak zahrnuto ve \w): 

`\d[A-Z]([A-Z]|[0-9]) \d{4}`

`\d(A|B|C|E|H|J|K|L|M|P|S|T|U|Z)\w \d{4}`

#### Vstup pro ověření:

4A6 8244

6B2 6635

2AD 3824

7C1 5025


7C_ 5025


AC8 5484

924 1541

8A2 25C2

3P 4564

1A 25364

### 4 Telefonní číslo

#### Regulární výraz(y):
`(\+420)? ?\d{3} ?\d{3} ?\d{3}`

Nebo:

`(\+\d{1,3})?( ?\d{3}){3}`

#### Vstup pro ověření:

123 456 789

123456789

+420 123 456 789

+421 123 456 789

+1 123 456 789

123 456 78

### 5 Ministerstva

#### Regulární výraz(y):
`Ministerstvo[\w ]*`

#### Vstup pro ověření:
Ministerstvo pro místní rozvoj, Celní správa České republiky, Ministerstvo životního prostředí, Ministerstvo práce a sociálních věcí, Český statistický úřad, Nejvyšší kontrolní úřad

### 6 Nápravy

#### Regulární výraz(y):

`\w{1},\w{1} m`

`\w{2},\w{2} t`

Univerzálnější varianta (více číslic před/za čárkou):

`\d+,\d+ m`

`\d+,\d+ t`

#### Vstup pro ověření:
Maximální hmotnosti trojnápravy při dílčím rozvoru náprav jsou:

- do 1,3 m včetně - 21,00 t,
- nad 1,3 m do 1,4 m včetně - 24,00 t,
- nad 1,4 m do 1,8 m včetně - 27,00 t,

### 7 Slavný soude

#### Regulární výraz(y):
`\d{1,2} ?[A-Z]{1,3} ?\d{1,4}/\d{4}`

#### Vstup pro ověření:

63 C 397/2014

631397/2014

AA C 397/2014

### 8 Ave, Caesar!

#### Regulární výraz(y):
* `I?(V|X)?I{0,3}`
* `(V|X|I)+`
* `[VXI]{1,3}`

#### Vstup pro ověření:

IX. století

Matematika pro VII. třídu

Star Trek III

Karel IV.

papež Benedict V.

Bělá je X. část statutárního města Děčín.

III. patro

II. stupeň povodňové aktivity

Konstantin XI. Dragases

## V Pythonu
Zadání: https://kodim.cz/kurzy/python-data-1/ziskavani-dat/regularni-vyrazy/python-re

### 1 Uživatelské jméno

Náš systém vyžaduje od uživatele zadání uživatelského jména. Uživatelské jméno smí obsahovat pouze malá písmena a smí být maximálně 8 znaků dlouhé. Požádej uživatele o zadání uživatelského jména a pomocí regulárního výrazu vyhodnoť, zda je zadané správné.

In [66]:
import re

regularni_vyraz = re.compile(r"[a-z]{1,8}")

uzivatelske_jmeno = "uzivatel"
# uzivatelske_jmeno = "UZIVATEL"
# uzivatelske_jmeno = "uziv222"
# uzivatelske_jmeno = "outlonvahavy"
splnuje = regularni_vyraz.fullmatch(uzivatelske_jmeno)
print(splnuje)

print("V pořádku.") if splnuje else print("Nesplňuje požadavky.")

<re.Match object; span=(0, 8), match='uzivatel'>
V pořádku.


### 2 E-mail s tečkou

Uprav program na ověření e-mailu tak, aby akceptoval i e-maily, které mají v první části tečku, např. jiri.pesik@python.cz.

In [67]:
import re

# Pokud dovolíme max. jednu tečku:
# regularni_vyraz = re.compile(r"\w+\.?\w+@\w+\.cz")

# Obecněji i pro více teček v první části:
regularni_vyraz = re.compile(r"(\w+\.?)+@\w+\.cz")

# email = "outlonvahavy@zoopraha.cz"
# email = "outlon.vahavy@zoopraha.cz"
email = "out.lon.vaha.vy@zoopraha.cz"
splnuje1 = regularni_vyraz.fullmatch(email)

print(splnuje1)
print("V pořádku.") if splnuje1 else print("Nesplňuje požadavky.")

print("-"*10)

# Pro porovnání: metoda search najde email v textu
email = "Moje adresa je outlon.vahavy@zoopraha.cz a pracuji v ZOO Praha"
splnuje2 = regularni_vyraz.search(email)

print(splnuje2)
if splnuje2:
    print(f"Email je mezi indexy {splnuje2.span()}")
print("V pořádku.") if splnuje2 else print("Nesplňuje požadavky.")

<re.Match object; span=(0, 27), match='out.lon.vaha.vy@zoopraha.cz'>
V pořádku.
----------
<re.Match object; span=(15, 40), match='outlon.vahavy@zoopraha.cz'>
Email je mezi indexy (15, 40)
V pořádku.


### 3 Záznamy

Uvažujme aplikaci, která si ukládá informace o činnosti uživatelů do textového souboru. Příklad souboru je níže.

* Napiš program, který vypíše všechna telefonní čísla, která jsou v textovém souboru zmíněna.
* Nahraď tato telefonní čísla nějakým řetězcem (např. "XXX"), aby nebyla v záznamech dostupná.

In [68]:
zaznamy = """
    searchNumber: pavca.czechitas action: search phone number of user dita
    user: pavca action: send sms to phone number +420728123456
    user: jirka: action: send 2 sms to phone number +420734123456
    """

import re

# 2 varianty (fungují stejně):
# regularniVyraz = re.compile(r"[+\d]{13}")
regularniVyraz = re.compile(r"\+\d{12}")
vysledky = regularniVyraz.findall(zaznamy)

for vysledek in vysledky:
    print(vysledek)

anonymni_zaznamy = regularniVyraz.sub("X" * 9, zaznamy)
print(anonymni_zaznamy)

+420728123456
+420734123456

    searchNumber: pavca.czechitas action: search phone number of user dita
    user: pavca action: send sms to phone number XXXXXXXXX
    user: jirka: action: send 2 sms to phone number XXXXXXXXX
    


### 4 Adresy stránek

Adresy webových stránek zpravidla začínají záhadným shlukem písmen http:// nebo https://. Například náš web najdete pod adresou https://kodim.cz. Zkrátka HTTP nebo HTTPS je ve skutečnosti označení protokolu, což je nějaký popis toho, jak by měla vypadat komunikace mezi dvěma zařízeními. Standardního tvaru můžeme využít, abychom z textu vytáhli všechny adresy. Napiš program, který z proměnné emailSRadami vytáhne všechny webové stránky, které jsou tam zmíněny.

In [69]:
emailSRadami = """
    Ahoj,
    posílám ti pár tipů, kam se podívat. https://realpython.com nabízí spoustu článků i kurzů. http://docs.python.org nabízí tutoriál i rozsáhlou dokumentaci. http://www.learnpython.org nabízí hezky strukturovaný kurz pro začátečníky, rozebírá ale i nějaká pokročilejší témata. https://www.pluralsight.com je placený web, který ale kvalitou kurzů víceméně nemá konkurenci. Určitě ale sleduj i web https://www.czechitas.cz a přihlašuj se na naše kurzy!
    """

import re
regularni_vyraz = re.compile(r"https?://[\w\.]*")
vysledky = regularni_vyraz.findall(emailSRadami)

for vysledek in vysledky:
    print(vysledek)

https://realpython.com
http://docs.python.org
http://www.learnpython.org
https://www.pluralsight.com
https://www.czechitas.cz


### 5 IP adresy

Počítačové sítě jsou ve skutečnosti postavené na číselných adresách, které jsou označeny jako IP adresy. Každá IP adresy je čtveřice čísel v rozsahu 0 až 255, které jsou odděleny tečkou. Například IP adresy webu Czechitas v internetu je 51.68.166.161. My ale pro zjednodušení budeme kontrolovat pouze to, zda je číslo v rozsahu 0 až 299.

Uvažuj, že vytváříš aplikaci, která pošle testovací zprávu (tzv. ping) počítači s nějaou IP adresou. Napiš program, která požádá uživatele o IP adresu a zkontroluj, zda je adresa platná. Např. adresa 325.125.100.128 není platná (první číslo je větší než 255), adresa 152.145.146 také není platá (jde o trojici čísel, nikoli čtveřici), adresa 192.168.1.0 je platná (čtveřice čísel v daném rozsahu).

In [70]:
import re

# Jednodušší, ale na zápis delší varianta
# regularni_vyraz = re.compile(r"[12]?\d{1,2}\.[12]?\d{1,2}\.[12]?\d{1,2}\.[12]?\d{1,2}")

# Varianta s opakováním skupiny čísel (xxx.) třikrát
regularni_vyraz = re.compile(r"([12]?\d{1,2}\.){3}[12]?\d{1,2}")

adresa = "192.168.1.0"
# adresa = "325.125.100.128"
# adresa = "152.145.146"
adresaPlatna = regularni_vyraz.fullmatch(adresa)

if adresaPlatna:
    print("V pořádku.")
else:
    print("Adresa není platná.")

V pořádku.


### 6 Práce s kódem

Chceš pomoci firmě, která vyvinula e-mailového klienta pro český trh. Níže je kousek kódu, který generuje popisky políček pro zadání adres příjemců, příjemců v kopii, příjemců ve skryté kopii a tlačítka pro odeslání nebo uložení. Nyní by firma ráda expandovala na německý trh. Bohužel vývojáři vkládali popisky do aplikace jako řetězce a ztratili přehled o řetězcích, které v aplikaci mají a které je potřeba je přeložit.

* Zkopíruj si následující kód, uložený jako řetězec, do svého programu.
* Vyhledej v programu všechny řádky, kde je ukládán řetězec do proměnné, např. řádek sender_field_title = "Příjemce".
* Pomocí dalšího regulárního výrazu vytáhni z každého řádku samotný řetězec (může být i s uvozovkami), např. "Příjemce".

In [71]:
kod = """
    sender_field_title = "Příjemce"
    copy_field_title = "Kopie"
    if blind_copy == True:
        blind_copy_title = "Skrytá kopie"
    if action == "send":
        button_title = "Odeslat"
    else:
        button_title = "Uložit koncept"
    """

import re

regularni_vyraz = re.compile(r"[\w_]* = \"[\w ]*\"")
vysledky = regularni_vyraz.findall(kod)

for vysledek in vysledky:
    regularni_vyraz_vnitrni = re.compile(r"\"[\w ]*\"")
    vysledky_vnitrni = regularni_vyraz_vnitrni.findall(vysledek)
    print(vysledky_vnitrni[0])

"Příjemce"
"Kopie"
"Skrytá kopie"
"Odeslat"
"Uložit koncept"
