# re

Použití pro
+ regulární výrazy
+ práci s textem, zpracování textu

## Úvod

Import knihovny:

In [1]:
import re

V rámci této knihovny ukládáme regulární výrazy ve tvaru `r"string"` v rámci tzv. __raw string__ z důvodu odlišného chování:

In [2]:
print("hello\neveryone")

hello
everyone


In [3]:
print(r"hello\neveryone")

hello\neveryone


## Základní funkce knihovny re

Použití funkce `re.match` na zjištění, jestli daný řetězec začíná nějakým výrazem:

In [4]:
if re.match(r"Hi", "Hello everyone!"):
    print("Match")
else:
    print("Not really")

Not really


Dalšími možnostmi jsou použití funkcí `re.search` a `re.findall`. První jmenovaná se používá pro vyhledání řetězce kdekoliv v textu a ta druhá potom pro vyhledání všech takových míst.

In [5]:
match = re.search(r"every", "Hello everyone!")
if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())
else:
    print("Not really")

every
6
11
(6, 11)


In [6]:
print(re.findall(r"o", "Hello everyone!"))

['o', 'o']


Dále se používá funkce `re.sub` pro nahrazování řetězců jiným řetězcem.

In [8]:
print(re.sub(r"a", "o", "Hella everyane!"))

Hello everyone!


## Speciální znaky používané pro regulární výrazy

Nejjednoduším speciálním znakem je `.`, která zastupuje libovolný znak.

In [8]:
pattern=r"H."
string="Hello everyone!"

if re.match(pattern,string):
    print("Match")

Symboly `^` a `$` se používají pro začátek a konec řetězce. 

In [9]:
pattern = r"^gr.y$"

if re.match(pattern,"gray"):
    print("Match 1")
    
if re.match(pattern,"grey"):
    print("Match 2")
    
if re.match(pattern,"grey mouse"):
    print("Match 3")

## Třídy znaků
Další možností je použití tzv. třídy znaků ve tvaru `[abc]`, případně `[A-Z]`, `[0-9]`, `[A-Za-z]` apod.

In [10]:
pattern=r"[aeiou]"
string="Hello everyone!"

print(re.findall(pattern,string))

Mezi speciální znaky se mohou dále počítat např. `+` pro \"jedna a více opakování\", `*` pro \"nula a více opakování\" a `?` pro \"nula nebo jedna\" opakování. Pokud je třeba zvolit přesně rozmezí počtu opakování, pak se toto rozmezí může psát do složených závorek, např. `{1,3}`.

In [11]:
pattern=r"ice-?cream"
string="I like ice-cream, do you like icecream?"

print(re.findall(pattern,string))

In [12]:
pattern=r"0{2,3}$"
if re.match(pattern,"0"):
    print("Match 0")
if re.match(pattern,"00"):
    print("Match 1")
if re.match(pattern,"000"):
    print("Match 2")
if re.match(pattern,"0000"):
    print("Match 3")

V rámci tříd znaků můžeme využít i inverze s použití symbolu `^`. S její pomocí se mohou např. nalézt celý řetězec obsažený v uvozovkách.

In [13]:
text=""" Some text with "another text & some digits 0123456" in quotes. """

pattern=r"\"[^\"]+\""
for i in re.findall(pattern,text):
    print(i)
    
pattern=r"\"([^\"]+)\""
for i in re.findall(pattern,text):
    print(i)

"another text & some digits 0123456"
another text & some digits 0123456


## Skupiny
V tomto příkladě se vyskytovaly tzv. skupiny definované závorkou `()`. Pomocí ní se mohou z výrazu extrahovat určité úseky, nastavit opakování apod.

In [14]:
text=""" Some text text with "another text & some digits 0123456" in in quotes. """

pattern=r"([a-zA-Z]+) \1"
for i in re.findall(pattern,text):
    print(i)

text
in


Jedna z velice často používaných funkcí je nahrazování řetězce jiným za použití funkce `re.sub` ve tvaru `re.sub(what,by,text)`. V druhém argumentu může být místo řetězce obsažena i funkce, která naleznutý řetězec dokáže zpracovat. Zde je ale potřeba uvědomit si, že vstup do této funkce je ve tvaru `re.match`. 

Příklad u textu se špatným formátováním začátku nové věty (často chybí mezera za tečkou a věta začíná malým písmenem):

In [15]:
text="""Lorem ipsum dolor sit amet, consectetur adipiscing
elit. fusce fermentum nulla a nisi consequat gravida.nullam 
pharetra nibh vitae dictum sagittis. Sed laoreet 
nec turpis sed convallis.Ut egestas, enim ut tincidunt bibendum, 
nisi dui luctus magna, eget porta turpis velit nec erat. 
Duis magna erat, gravida nec ornare et. """

text=re.sub(r"\. ?([A-Za-z])",r". \1",text) # adding space where it should be

def upper(match):
    return match.group().upper()

text=re.sub(r"\. [a-z]",upper,text) # capitalize each sentence
print(text)

Lorem ipsum dolor sit amet, consectetur adipiscing
elit. Fusce fermentum nulla a nisi consequat gravida. Nullam 
pharetra nibh vitae dictum sagittis. Sed laoreet 
nec turpis sed convallis. Ut egestas, enim ut tincidunt bibendum, 
nisi dui luctus magna, eget porta turpis velit nec erat. 
Duis magna erat, gravida nec ornare et. 


Na tomto příkladě je ukázána užitečnost funkce `re.sub`. Ve vytvořené funkci `upper` se potom využívají funkce třídy `string`.

In [16]:
print("helLo wORLd".upper())
print("helLo wORLd".capitalize())
print("helLo wORLd".lower())

HELLO WORLD
Hello world
hello world


## Speciální třídy

Existují některé speciální třídy znaků, jako např. `\d` pro čísla `[0-9]`, `\s` pro whitespace `[\t\n\r\f\v]` a `\w` pro `[A-Za-z0-9_]`. Při použití Unicode potom `\w` zahrnuje i speciální znaky (diakritiku, azbuku,...). Velká písmena `\D`, `\S` a `\W` se potom používají jako opak k `\d`, `\s` a `\w`.

In [17]:
text="hello, čau, привет, 你好, 😀"

pattern=r"[\w]+"
for i in re.findall(pattern,text):
    print(i)

hello
čau
привет
你好


## Některé ukázky použití regexu

### HTML

Demonstrováno bude např. odstranění všech atributů tagů z HTML kódu.

In [18]:
html="""Lorem ipsum <b style="color:blue">dolor</b> sit amet, consectetur adipiscing elit. <br>
<a href="http://example.com">Fusce <b>fermentum</b> nulla</a> a <i>nisi</i> consequat gravida."""

Lorem ipsum <b style="color:blue">dolor</b> sit amet, consectetur adipiscing elit. <br>
<a href="http://example.com">Fusce <b>fermentum</b> nulla</a> a <i>nisi</i> consequat gravida.

In [19]:
pattern=r"<([a-z]+)[^>]*>"
print(html,"\n\n",re.sub(pattern,r"<\1>",html))

Lorem ipsum <b style="color:blue">dolor</b> sit amet, consectetur adipiscing elit. <br>
<a href="http://example.com">Fusce <b>fermentum</b> nulla</a> a <i>nisi</i> consequat gravida. 

 Lorem ipsum <b>dolor</b> sit amet, consectetur adipiscing elit. <br>
<a>Fusce <b>fermentum</b> nulla</a> a <i>nisi</i> consequat gravida.


Podobným způsobem se mohou hledat párové HTML tagy.

In [20]:
pattern=r"(<([a-z]+)( ?[\w]+=\"[^\"]+\")* *>.*</\2>)"

for i in re.findall(pattern,html):
    print(i)

('<b style="color:blue">dolor</b>', 'b', ' style="color:blue"')
('<a href="http://example.com">Fusce <b>fermentum</b> nulla</a>', 'a', ' href="http://example.com"')
('<i>nisi</i>', 'i', '')


### e-mail

V praxi se mohou regulární výrazy používat třeba k ověřování správného zadávání e-mailové adresy.

In [21]:
maybe_email="abc@nic"

pattern=r"[\w\.-]+@[\w\.-]+\.[\w]+"
if re.match(pattern,maybe_email):
    print("Correct")
else:
    print("Incorrect")

Incorrect


In [22]:
maybe_email="abc@nic.com"

pattern=r"[\w\.-]+@[\w\.-]+\.[\w]+"
if re.match(pattern,maybe_email):
    print("Correct")
else:
    print("Incorrect")

Correct


Stejným výrazem se však dají extrahovat všechny e-mailové adresy z textu.

In [23]:
text="""
<html>...
Lorem ipsum dolor <a>sit amet</a>, consectetur adipiscing elit.<br> Phasellus 
ultrices posuere <a>tincidunt</a>. Proin <a>eu sodales</a> est, eu finibus odio. 
Suspendisse et q-uam@maur.up.is. Etiam ultrices ex lorem, sed dignissim 
libero varius tincidunt. Quisque eget libero interdum, efficitur enim 
vitae, feugiat libero. In nec luctus nisl. Nun_c98@porta.com commodo enim quis 
imperdiet. Fusce non@ma.ssa lacus.
...</html>
"""
pattern=r"[\w\.-]+@[\w\.-]+\.[\w]+"
for i in re.findall(pattern,text):
    print(i)

q-uam@maur.up.is
Nun_c98@porta.com
non@ma.ssa


Z tohoto důvodu se nedoporučuje psát e-mailové adresy přímo do html kódu. 