# Regular expressions / Regulární výrazy  

🇬🇧 Regular expressions – you may also come across the name regex.  You can think of them as a "template" for the text you want to find.     
🇨🇿 Regulární výrazy (také známé jako regex) jsou často používány pro hledání vzorců v textu. Můžete si je představit jako "šablonu" pro text, který chcete najít.  

🇬🇧 A regular expression describing some text (e.g., a postal code in Poland: two digits, dash, three digits) can find all occurrences of text that match that template (e.g., all Polish zip codes).  
🇨🇿 Regulární výraz, který popisuje nějaký text (např. polské PSČ: dvě číslice, pomlčka, tři číslice), dokáže najít všechny výskyty textu, které odpovídají této šabloně (např. všechna polská PSČ).  


## How to write them / Jak je napsat?  

🇬🇧 Regular expressions are strings of characters; some are taken literally (e.g., `d` simply means a lowercase `d`), others mean that characters of some kind are expected in a given place (e.g., `\d` means that any digit should be in a given place), others decide how many times a character can repeat (e.g., `\d{4,8}` looks for a string of 4 to 8 digits).  
🇨🇿 Regulární výrazy jsou řetězce znaků; některé jsou brány doslovně (např. `d` jednoduše znamená malé písmeno `d`), jiné znamenají, že na určitém místě se očekává nějaký znak (např. `\d` znamená, že na daném místě by měla být jakákoliv číslice), další určují, kolikrát se může znak opakovat (např. `\d{4,8}` hledá řetězec 4 až 8 číslic).  

| Regex               | Matching example                                                                 |
|---------------------|----------------------------------------------------------------------------------|
| `\d{3}\s?\d{2}`     | Jan Novák, adresa Václavské náměstí 1, 110 00 Praha                              |
| `adresa \w+`        | Jan Novák, adresa Polní 12, 602 00 Brno                                          |
| `\+420\d{9}`        | Moje telefonní čísla: +420777123456, +420602987654, +421987654321                |
| `\d{3}\-?\d{3}\-?\d{2}\-?\d{2}` | Platná DIČ čísla: 123-456-78-90, 1234567890, 111-222-33-44, ale ne 12345         |
| `\d{3}\-\d{2}\-\d{2}`  | Česká PSČ: **123-45-67**                                                |
| `\d{2}\-\d{3}`          | Česká PSČ: **50-540**                                                  |
| `\d{9}`                 | Český telefonní číslo: **123456789**                                    |
| `\+420\d{9}`            | Český telefonní číslo s předvolbou: **+420123456789**                   |
| `\d{3}\-?\d{3}\-?\d{2}` | Český daňový identifikační číslo (IČO): **123-456-78** nebo **12345678** |

## Special characters / Speciální znaky

* `.` - any character (except the newline character) / `.` - jakýkoliv znak (kromě znaku nového řádku)  
* `[abcd123]` - any of the characters given in brackets will be matched / `[abcd123]` - jakýkoliv znak uvedený v hranatých závorkách bude odpovídat  
* `[0-9a-fA-F]` - as above, in addition with a dash defines a range of characters / `[0-9a-fA-F]` - stejně jako výše, navíc pomlčka definuje rozsah znaků  
* `[^0-9]` - the `^` character means that we want to find characters that do not match those given in parentheses / `[^0-9]` - znak `^` znamená, že chceme najít znaky, které neodpovídají těm uvedeným v závorkách  
* `\d` - digit / `\d` - číslice  
* `\w` - a digit, a letter or a `_` character / `\w` - číslice, písmeno nebo znak `_`  
* `\W` - all characters that do not match `\w` / `\W` - všechny znaky, které neodpovídají `\w`  
* `+` - the preceding character must appear at least once / `+` - předchozí znak se musí objevit alespoň jednou  
* `?` - the preceding character must appear either exactly once or not at all / `?` - předchozí znak se musí objevit buď přesně jednou, nebo vůbec  
* `*` - the preceding character can appear any number of times / `*` - předchozí znak se může objevit libovolný početkrát  
* `{3,9}` - the preceding character must repeat from 3 to 9 times / `{3,9}` - předchozí znak se musí opakovat od 3 do 9 krát  
* `{,9}` - the preceding character must repeat from 0 to 9 times / `{,9}` - předchozí znak se musí opakovat od 0 do 9 krát  
* `{3,}` - the preceding character must repeat at least 3 times / `{3,}` - předchozí znak se musí opakovat alespoň 3 krát  
* `\` - gives special meaning to letters (e.g., `\d` is any number), or takes it away (`\+` means we are looking for a literal "plus" sign) / `\` - dává speciální význam písmenům (např. `\d` je jakékoliv číslo), nebo jej odebere (`\+` znamená, že hledáme doslovný znak "plus")  

### Example of a regular expression / Příklady regulárních výrazů  

`[0-2]\d:[0-5]\d`  
* `[0-2]` - number 0, 1 or 2 / `[0-2]` - číslo 0, 1 nebo 2  
* `\d` - any digit / `\d` - jakákoliv číslice  
* `:` - literally: colon - no special meaning for regex / `:` - doslovně: dvojtečka - žádný speciální význam pro regex  
* `[0-5]` - the digit 0, 1, 2, 3, 4 or 5 / `[0-5]` - číslice 0, 1, 2, 3, 4 nebo 5  
* `\d` - any digit / `\d` - jakákoliv číslice  

🇬🇧 Such a regex can be used to search for hours, such as 21:30.  
🇨🇿 Takový regex lze použít pro vyhledání času, například 21:30.  


### Regular expressions in Python / Regulární výrazy v Pythonu  

🇬🇧 To use regular expressions, you need to import the `re` module.  
🇨🇿 Pro použití regulárních výrazů musíte importovat modul `re`.  

🇬🇧 You will find there functions including:  
🇨🇿 V tomto modulu najdete funkce, jako jsou:  

* `findall` – 🇬🇧 a function that returns a list of matching strings (or tuples of strings) / 🇨🇿 funkce, která vrací seznam odpovídajících řetězců (nebo n-tic řetězců)  
* `match` – 🇬🇧 a function that checks if the text matches the regular expression (from the very beginning); it returns an object that describes the match in detail, or `None` if the text could not be matched at all / 🇨🇿 funkce, která kontroluje, zda text odpovídá regulárnímu výrazu (od samotného začátku); vrací objekt, který podrobně popisuje shodu, nebo `None`, pokud text nelze vůbec shodovat  
* `search` – 🇬🇧 function that checks if the text matching the regular expression is located anywhere in the text; returns an object that describes the match in detail, or `None` if the text could not be matched at all / 🇨🇿 funkce, která kontroluje, zda text odpovídající regulárnímu výrazu je kdekoliv v textu; vrací objekt, který popisuje shodu v detailu, nebo `None`, pokud text nelze vůbec shodovat  
* `sub` – 🇬🇧 a function that substitutes the text matching the expression for another / 🇨🇿 funkce, která nahrazuje text odpovídající výrazu jiným textem  

🇬🇧 In addition, Python gives us the syntax of the so-called raw string: a string preceded by the letter `r`. In such strings, Python does not replace the `\n` with a newline character, etc.  
🇨🇿 Kromě toho Python poskytuje syntaxi tzv. „raw string“: řetězec, který je předchází písmenem `r`. V takových řetězcích Python nenahrazuje `\n` znakem nového řádku atd.  

`my_zipcode_regex = r'\d{2}-\d{3}'`  

🇬🇧 Descriptions of the remaining Python functions is included as a HOWTO article in [Python documentation](https://docs.python.org/3/howto/regex.html).  
🇨🇿 Popis zbývajících funkcí Pythonu je zahrnut v článku HOWTO v [dokumentaci Pythonu](https://docs.python.org/3/howto/regex.html).  


### re.findall  

### Komentář  

Nejčastějším použitím regexu v Pythonu je vyhledávání známých hodnot v řetězcích. Využití to má hlavně v situacích, kdy si nejste jisti, že ostatní uživatelé správně zadali data/údaje. Tehdy můžete použít několik funkcí z knihovny `re` k vyhledávání tvaru řetězce/šablony.  

První je funkce `re.findall(regex, text)`. Tato funkce najde všechny souvislé řetězce, které splňují definici regexu.  


In [None]:
import re
 
example_text = """Julianne Chairkeys +48 889156078
Ethelbert Patch +48 604947843
Adrian Peterson +48 791640996
Paul Hutt+48 516111667
Dorothy Waters +48 735606830"""
 
regex = r'\+\d{1,3} \d{9}'
 
found = re.findall(regex, example_text)
print('Found', len(found), 'phone numbers:')
print(found)

### re.match  

#### Komentář  
Funkce `re.match(regex, text)` se používá k přesné shodě formátu. Pokud řetězec neodpovídá přesně formátu, vrátí `None`.  


In [None]:
import re
 
print(re.match(r'\d\d-\d\d\d', '12-345'))
print(re.match(r'\d\d-\d\d\d', '12345'))
print(re.match(r'[A-Z]{2}\d{5}', 'WA56123'))
print(re.match(r'[A-Z]{2}\d{5}', 'WAW4444'))
print(re.match(r'[a-zA-Z]+ [a-zA-Z]+', 'John Connor'))
print(re.match(r'[a-zA-Z]+ [a-zA-Z]+', '007 John Connor'))

### re.search  

#### Komentář  
Funkce `re.search(regex, text)` se používá k nalezení shody v celém řetězci, a to i s její přesnou polohou.  


In [None]:
import re
 
print(re.search(r'\d\d-\d\d\d', 'John Connor, 14-329 Hayvenhurst Drive, Apt. 12  Van Nuys, Los Angeles, California'))
print(re.search(r'\d\d-\d\d\d', 'My zip code is: 14329'))
print(re.search(r'[A-Z]{2}\d{5}', 'License plate: WA56123'))
print(re.search(r'[A-Z]{2}\d{5}', 'WAW4444'))
print(re.search(r'[a-zA-Z]+ [a-zA-Z]+', 'John Connor'))
print(re.search(r'[a-zA-Z]+ [a-zA-Z]+', '007 John Connor'))

### re.match Object / Objekt re.match  

🇬🇧 The `re.match` and `re.search` functions return much more information than just the matched text; all this information is collected in the `re.Match` object.  
🇨🇿 Funkce `re.match` a `re.search` vracejí mnohem více informací než jen odpovídající text; všechny tyto informace jsou shromážděny v objektu `re.Match`.  

* `my_match.start()` – 🇬🇧 returns a number - the number of the first character from the matched text / 🇨🇿 vrátí číslo, které představuje pozici prvního znaku z odpovídajícího textu  
* `my_match.end()` – 🇬🇧 returns a number - the number of the last character from the matched text / 🇨🇿 vrátí číslo, které představuje pozici posledního znaku z odpovídajícího textu  
* `my_match.group()` – 🇬🇧 the matched text / 🇨🇿 vrátí odpovídající text  



### re.sub  

#### Komentář  
Funkce `re.sub(regex, nový_text, text)` se používá k nalezení shody v celém řetězci a k nahrazení této shody novým textem.  


In [None]:
import re
 
print(re.sub(r'[A-Z]\w+', r'****', 'John Connor, email: jconnor@gmail.com'))

## Cvičení z LMS / Exercise from LMS  

### Exercise 1 / Cvičení 1  

🇬🇧 Write a `find_emails_in_file(filename)` function that takes one argument: the name of a file to search in.  
🇨🇿 Napiš funkci `find_emails_in_file(filename)`, která přijme jeden argument: název souboru, ve kterém se má hledat.  

🇬🇧 The function should return a list of strings — email addresses found in the indicated file.  
🇨🇿 Funkce by měla vrátit seznam řetězců – e-mailových adres nalezených v uvedeném souboru.  

🇬🇧 Contrary to appearances, a regex that correctly describes an email is quite difficult. Below is a practical one prepared for you:  
🇨🇿 Na rozdíl od toho, jak to vypadá, regex, který správně popisuje e-mail, je poměrně složitý. Níže je praktický, který jsme pro tebe připravili:  


```python
"(?:[a-z0-9!#$%&'*+\/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+\/=?^_`{|}~-]+)*|\"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*\")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])"
```


In [None]:
email_regex = "(?:[a-z0-9!#$%&'*+\/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+\/=?^_`{|}~-]+)*|\"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*\")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])"

In [None]:
print(
    'The find_emails_in_file function found',
    len(find_emails_in_file('data.txt')),
    'email addresses (expected 40)'
)

if find_emails_in_file('data.txt')[0] == 'abalint@gmail.com':
    print('First address found is abalint@gmail.com - as expected')
else:
    print(
        f'The first address returned from the function is '
        f'{find_emails_in_file("data.txt")[0]!r} - expected abalint@gmail.com'
    )

if find_emails_in_file('data.txt')[-1] == 'o.pospisil@protonmail.com':
    print('The final address returned is o.pospisil@protonmail.com - as expected')
else:
    print(
        f'The final address returned from the function is '
        f'{find_emails_in_file("data.txt")[-1]!r} - expected o.pospisil@protonmail.com'
    )

### Exercise 2 / Cvičení 2  

🇬🇧 Write a `strip_non_letters(text)` function that takes a string as an argument and returns it leaving only upper and lowercase letters without accents and diacritics.  
🇨🇿 Napiš funkci `strip_non_letters(text)`, která přijme řetězec jako argument a vrátí ho tak, že v něm budou ponechány pouze velká a malá písmena bez diakritiky a akcentů.  


In [None]:
if strip_non_letters('Thę łązy dóg') == 'Th zy dg':
    print('The function removed non-standard characters correctly')
else:
    print('For the phrase "Thę łązy dóg" the expected result is "Th zy dg"')
    print('but the function returned', repr(strip_non_letters('Th zy dg')))