## Regulární výrazy
Regulární výrazy jsou vzory, které popisují řetězce. Můžeme například vytvořit výraz, který bude odpovídat libovolné **e-mailové adrese**, **libovolnému datu**, **telefonnímu číslu** nebo **číslu kreditní karty** atd.

V jazyce Python můžeme použít pro práci s regulárními výrazy modul `re`. Tento modul nám například pomůže *vyhledat* v textu řetězce odpovídající vzoru nebo zkontrolovat, zda daný text *přesně odpovídá* danému vzoru.


### Cvičení 1: Regex editor    
Nejprve si zkusíme napsat pár regulárních výrazů v [regex editoru](https://regex101.com/).

1. Napiš regulární výraz, který bude odpovídat všem třem řetězcům: 

```plaintext
pes
přes
prales
```

1. Napiš regulární výraz, který bude odpovídat řetězcům 
```plaintext
babička
prababička
praprababička
prapraprababička
...
```
1. Uprav předchozí řetězec tak, aby počet předpon `pra` nepřesáhl 3. 

2. Vytvoř regulární výraz, který bude odpovídat libovolnému e-mailu, který končí na `@gmail.com`. Řetězec před zavináčem nesmí být prázdný
```plaintext
a@gmail.com
master111@gmail.com
2_PAC@gmail.com
honza.vomacka@gmail.com
@gmail.com          xxxxx
```
   
1. Rozšiř svůj regulární výraz tak, aby odpovídal libovolnému e-mailu, který končí na `@gmail.com` nebo `@outlook.com`.

```plaintext
a@gmail.com
master111@gmail.com
honza.vomacka@gmail.com
login@outlook.com
@gmail.com       xxxxx
@outlook.com     xxxxx
```

6. Napiš regulární výraz odpovídající státním poznávacím značkám. Povolená písmena v první trojici jsou: A, S, U, L, K, H, E, P, C, J, B, M, T, Z.  Příklady řetězců, které by měl výraz odpovídat:
```plaintext
4A2 5057
6B5 4422
3T5 4321
```
-----------------------


### Modul `re`
Nyní si ukážeme, jak pracovat s regulárními výrazy v Pythonu. Použijeme k tomu modul `re`. V učebnici jsme si ukázali několik základních funkcí tohoto modulu: `re.match()`, `re.search()`, `re.fullmatch`, `re.findall()`, `re.finditer`, `re.split`, `re.sub()`, `re.subn()`. Nyní si je vyzkoušíme na konkrétních příkladech.




#### Cvičení 2a: `re.search()`
Pokud se v textu vyskytuje řetězec odpovídající telefonnímu číslu ve formátu `+xxx xxx xxx xxx`, pak chceme o této skutečnosti spravit uživatele.

#### Cvičení 2b: `re.findall()`
Uprav volání tak, aby vrátilo všechny výskyty telefonních čísel se slovenskou předvolbou `+421`, které se v textu vyskytují. Vytvoř seznam všech těchto čísel. 


In [None]:
import re

text = """
V dnešní době je mnoho způsobů, jak se spojit s ostatními lidmi! Můžete volat na telefonní číslo +420 123 456 789, nebo poslat SMS na +420 987 654 321. Když potřebujete rychlou odpověď, zavolejte mi na číslo +420 555 555 555. Ovšem někdy je lepší poslat e-mail na info@example.com.

Náš zákaznický servis je k dispozici 24/7 na slovenském čísle +421 111 222 333. Pokud máte nějaké dotazy ohledně našich produktů, neváhejte zavolat. Až budete v okolí, zajděte na kávu na naši kavárnu v ulici Hlavní 123, kde nás můžete kontaktovat na +421 444 555 666.

Pamatujete, že naše telefonní čísla jsou tu pro vás? Ať už jde o dotazy, reklamace nebo jednoduše přátelský rozhovor, rádi vám odpovíme na všem!
"""

# TODO: pokud se v textu nenachazi telefonni cislo, informuj uzivatele
first_match = ...
if first_match:
    ...


# TODO: najdi vsechna telefonni cisla se slovenskou predvolbou v textu
# uloz je do seznamu
# POZOR! - je mozne, ze pro zachyceni cele sekvence bude potreba cely regex uzavrit do r'(...)'
slovakian_numbers = ...


#### Cvičení 3: `re.match()`
Pomocí funkce `re.match()` v kombinaci s `filter()` a (lambda) funkcí získej seznam emailů, které mají správnou doménu: @gmail.com, @outlook.com, @seznam.cz nebo @centrum.cz.



In [None]:
emails = ['jan.novak@centrum.cz',
 'eda_kucera@outlook.eu',
 'hotman87@outlook.cz',
 'login@seznam.cz',
 'jan.novak@seznam.com',
 'login@seznam.eu',
 'eda_kucera@gmail.com',
 'login@outlook.com',
 'hotman87@centrum.com',
 'jan.novak@gmail.cz',
 'login@outlook.eu',
 'hotman87@gmail.cz',
 'jan.novak@centrum.cz',
 'jan.novak@centrum.cz',
 'eda_kucera@centrum.com',
 'hotman87@seznam.cz',
 'login@outlook.cz',
 'hotman87@outlook.cz',
 'jan.novak@outlook.eu',
 'jan.novak@seznam.eu']

# TODO use re.match tofind all emails with correct domain: gmail.com, outlook.com, seznam.cz, centrum.cz
correct_emails = ...
correct_emails

#### Cvičení 4
Vytvořte seznam loginů emailů z minulého cvičení. Za login bereme vše, co je před zavináčem. Pro provedení můžete použít například `re.match()` v kombinaci s funkcí `map`.


<br></br>
*Hint*: `re.match()` vrací objekt typu `Match`. Pokud chceme z takto namatchovaných řetězců získat pouze část, která odpovídá nějakému podvýrazu, můžeme použít tzv. *capturing groups*. V regulárním výrazu je pro to potřeba vytvořit skupinu pomocí kulatých závorek. Na jednotlivé skupiny pak můžeme odkazovat funkcí `group()` a indexu skupiny. 

```python
date_string = "Today is January 20, 2024."

# Use re.search with capturing groups for the month, day, and year
match = re.search(r'(\w+) (\d{1,2}), (\d{4})', date_string) # Januar 20, 2024

match.group() # January 20, 2024
match.group(1) # January
match.group(2) # 20
match.group(3) # 2024
```

In [None]:
# TODO: pouzijte map a funkci pro ziskani loginu z emailu
def email_to_login(email):
    match = ...
    return ...


list(map(email_to_login, list(correct_emails)))

In [None]:
correct_emails

#### Cvičení 5: `re.split()`
Použij text ze cvičení 2a. Pomocí funkce `re.split()` rozděl text na věty. Pravidlem pro rozdělení pro zjednodušení bude, že věta končí tečkou, otazníkem nebo vykřičníkem a následuje mezera. Výsledkem bude seznam vět.

In [None]:
# TODO: pouzijte re.split pro rozdeleni textu na vety

#### Cvičení 5b: Bonus challenge
Svoje řešení můžeš vyšperkovat tak, že kritérium rozdělení rozšíříš o to, že po mezeře musí následovat velké písmeno a zároveň zajistíš, že se interpunkce ani velké písmeno neztratí.

<br></br>
*Hint*: k tomuto cvičení ti velmi dobře poslouží koncepty *lookbehind conditional* a *lookahead conditional*. Zkus si je nastudovat:) 



In [None]:
# TODO pouzijte re.split a lookbehind/lookahead pro rozdeleni textu na vety

#### Cvičení 6: `re.sub()`
Pomocí funkce `re.sub()` nahraď všechny výskyty číselných hodnot v textu jejich slovními ekvivalenty. Například `15` nahraď `patnáct` atd. 


In [None]:
fruits = '''
Snědl jsem na svačinu 10 jablek, 15 hrušek a 5 banánů. Nebo 15 jablek, 5 hrušek a 10 banánů?
Nene. ve skutečnosti to bylo 5 jablek, 10 hrušek a 15 banánů.
'''

# TODO: nahradte vsechny vyskyty cisel jejich slovnimi ekvivalenty
# 1 -> jeden, 2 -> dva, 3 -> tri, ...

#### Cvičení 6b: Bonus challenge
Použij text o ovoci ze cvičení 6. Zkus pomocí funkce `re.sub()` nahradit všechny výskyty čísel za jejich druhé mocniny. 

<br></br>
*Hint*: `re.sub()` umožňuje jako druhý argument předat funkci, která se aplikuje na každý match. Tato funkce musí mít jeden argument, kterým je objekt typu `Match`. Funkce musí vracet řetězec, kterým se nahradí match.

In [None]:
fruits = '''
Snědl jsem na svačinu 10 jablek, 15 hrušek a 5 banánů. Nebo 15 jablek, 5 hrušek a 10 banánů?
Nene. ve skutečnosti to bylo 5 jablek, 10 hrušek a 15 banánů.
'''

# TODO: pouzijte re.sub a lambda vyraz pro nahrazeni vsech cisel jejich druhymi mocninami

#### Bonus: 
Zadefinuj funkci `check_password(password)`, která bude kontrolovat, zda heslo splňuje následující podmínky: 
- minimálně z osm znaků
- obsahovat malá i velká písmena
- musí obsahovat nejméně jednu číslici
- musí také obsahovat jeden ze symbolů: ? ! / %

In [None]:
# bonusove cviceni
def check_password(password):
    # TODO: doplnte regularni vyraz/y pro kontrolu hesla


    # priklad vypisu pro uzivatele
    # if match:
    #     print(f"{password} is a valid password.")
    # else:
    #     print(f"{password} is not a valid password.")

# Example usage:
passwords_to_check = ["Abcd123!", "strongPassword", "weak123", "NoSymbol123"]

for password in passwords_to_check:
    check_password(password)