<h1>Regulárne výrazy - Regexy</h1>

<p>Pri práci s dátami alebo obecne s textovými reťazcami v Pythone, môžeme naraziť na rôzne situácie, kedy nám nebudú postačovať základné Python metódy a funkcie ako <code>split()</code>, <code>join()</code>, <code>find()</code>, <code>index()</code>, <code>replace()</code> a podobne.</p>

<h2>CTRL+F</h2>
<p>Každý z nás už isto vyhľadával informácie pomocou príkazu <code>CTRL+F</code>. Regulárne výrazy nám umožňujú vyhľadávať na rovnakom princípe, s tým rozdielom, že je možné si definovať <b>"pattern"</b>, podľa ktorého hľadáme v texte.</p>

<h2>Príklady využitia regexov</h2>

<p>Využitie regexov nemá medze a je možné ich využívať v rozličných odvetviach na rôzne use casy, napríklad:</p>

<ul>
    <li>scrapovanie dát z webových stránok</li>
    <li>čistenie štruktúrovaných/neštruktúrovaných dát</li>
    <li>vyhľadávanie</li>
    <li>vývoj webových/mobilných aplikácií (emaily, telefónne čísla, heslá, ip adresy)</li>
    <li>úprava súborov a formátovania</li>
    <li>machine learning</li>
    <li>textová analýza</li>
    <li>...</li>
</ul>

<h2>Štruktúrované vs. neštruktúrované dáta</h2>

<img src="http://www.plus2net.com/php_tutorial/images/pdf-student-table.jpg" />
<img src="https://i.stack.imgur.com/2yRyh.png" />

<h2>Práca s regexami v Pythone</h2>

<p>V Pythone je možné pracovať s regexami pomocou modulu s názvom <code>re</code>, ktorý obsahuje všetky potrebné funkcie a metódy na prácu. V prvom kroku, si muísme modul importnúť, aby sme jeho a dané funkcie a metódy mohli používať v našom kóde. Modul re je súčasťou Pythonu, nie je potrebné inštalovať žiadne dodatočné knižnice/moduly.</p>

In [1]:
#Import modulu s nazvom re
import re

<table style="width: 720px"><thead><tr>
		<td>Sekvence</td>
		<td>Význam</td>
	</tr></thead><tbody>
	<tr>
		<td>\t</td>
		<td>tabulátor</td>
	</tr>
	<tr>
		<td>\n</td>
		<td>nový řádek</td>
	</tr>
<tr>
		<td>\b</td>
		<td>začátek nebo konec slova</td>
	</tr>
<tr>
		<td>\B</td>
		<td>místo, které není na začátku ani na konci slova</td>
	</tr>
<tr>
		<td>\d</td>
		<td>číslice</td>
	</tr>
<tr>
		<td>\D</td>
		<td>libovolný znak, který není číslicí</td>
	</tr>

<tr>
		<td>\w</td>
		<td>libovolné písmeno, číslice včetně podtržítka</td>
	</tr>
<tr>
		<td>\W</td>
		<td>libovolný znak, který není písmeno, číslice včetně podtržítka</td>
	</tr>
<tr>
		<td>\\</td>
		<td>zpětné lomítko</td>
	</tr>
<tr>
		<td>\s</td>
		<td>neviditelný znak (tabulátor, nový řádek…)</td>
	</tr>
<tr>
		<td>\S</td>
		<td>znak, který není neviditelný znak</td>
	</tr>
    
    <tr>
		<td>^</td>
		<td>začiatok reťazca</td>
	</tr>
    
    <tr>
		<td>$</td>
		<td>koniec reťazca</td>
	</tr>

</tbody></table>

<h2>Príklad: Telefónne čísla</h2>

<p>Jedným z pomerne často vyskytujúcich sa use casov je práca s telefónnymi číslami. Telefónne čísla (pracujeme s dátami v rámci Česka a Slovenska) môžu byť v nasledujúcich formátoch:</p>

<ul>
    <li>123456789</li>
    <li>+420123456789</li>
    <li>00420123456789</li>
    <li>0905123456789</li>
    <li>+421905123456789</li>
    <li>...</li>
</ul>

In [2]:
#Vytvorime si pattern pre najdenie telefonnych cisel a ulozime si ho do premennej s nazvom phone_regex
phone_regex = re.compile(r'\d\d\d\d\d\d\d\d\d')

<code>re.compile</code> má na starosti prevod patternu na regex objekt, ktorý môže byť nájdený pomocou metódy <code>search()</code> alebo <code>match()</code>

<p>Prefix <code>r'</code> znamená, že pracujeme s <b>raw string</b> = je ignorované escapovanie znakov. Viď ukážka nižšie.</p>

In [3]:
print('Ahoj \nSvet')

Ahoj 
Svet


In [4]:
print(r'Ahoj \nSvet')

Ahoj \nSvet


<h2>Search()</h2>
<p>V tejto chvíli vyhľadávame nad textom pomocou search(), ktorý vráti buď:</p>
<ul>
    <li><code>None</code> - ak nenájde žiadnu zhodu</li>
    <li><code>Match objekt</code> - ak nájde zhodu (1 alebo viac)</li>
</ul>

<p>Search() hľadá vždy prvý výskyt</p>

In [5]:
#Do premennej my_number si ulozime vysledky vratene metodou search() nad telefonnym cislom
my_number = phone_regex.search('My number is 123456789')

In [6]:
my_number

<_sre.SRE_Match object; span=(13, 22), match='123456789'>

<h2>Match()</h2>
<p>Match objekt obsahuje v sebe už nájdené výsledky (1 alebo viac), ktorý obsahuje metódu <code>group()</code>, pomocou ktorej si výsledky vypíšeme.</p>

In [16]:
print('Phone number found: ' + my_number.group())

Phone number found: 420123456789


<h2>Zgrupovanie cez zátvorky</h2>
<p>Taktiež môžeme hľadaný výraz zgrupiť cez <code>(\d\d\d)(\d\d\d\d\d\d)</code>, čo nám umožní vybrať výsledky iba z vybranej skupiny.</p>

In [11]:
phone_regex = re.compile(r'(\d\d\d)(\d\d\d\d\d\d\d\d\d)')

In [12]:
my_number = phone_regex.search('My number is: 420123456789')

In [13]:
my_number

<_sre.SRE_Match object; span=(14, 26), match='420123456789'>

In [14]:
#Vypis vsetkych skupin ako tuple
my_number.groups()

('420', '123456789')

In [17]:
prefix, number = my_number.groups()

In [18]:
print('Prefix is: ', prefix, '\n''Number is: ', number)

Prefix is:  420 
Number is:  123456789


In [19]:
#Vypis oboch skupin
my_number.group()

'420123456789'

In [20]:
#Alebo cez group bez 0
my_number.group(0)

'420123456789'

In [21]:
#Vypis prvej skupiny - prva zatvorka
my_number.group(1)

'420'

In [22]:
#Vypis druhej skupiny - druha zatvorka
my_number.group(2)

'123456789'

<h2>Výber jednej alebo druhej podmienky</h2>

<p>Rovnako ako v programovaní pri skladaní podmienok, je možné aj pri písaní patternu pre regex využívať OR - <code>|</code> - ktorý nám vráti buď prvú alebo druhú nájdenú zhodu (alebo n-tú, podľa počtu | v patterne). Vždy vracia prvý nájdený výsledok</p>

In [24]:
phone_regex = re.compile(r'\d\d\d|\d')

In [25]:
my_number = phone_regex.search('My number is 123456789')

In [30]:
my_number.group()

'123'

<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>faculty</b> vložte regex pattern, ktorý bude hľadať fakultu <b>Chrabromil alebo Slizolin</b> pomocou <code>re.compile</code></li>
    <li>Použite <code>search()</code> metódu nad textom <i>"Klobuk sa pýta. Si Chrabromil alebo Slizolin?".</i>Výsledok uložte do premennej <b>f</b>.</li>
    <li>Vypíšte si cez <code>group()</code> výsledky</li>
</ul>

In [31]:
#1
faculty = re.compile(r'Chrabromil|Slizolin')

In [36]:
#2
faculty.search('Klobuk sa pýta. Si Slizolin alebo Chrabromil?').group()

'Slizolin'

In [35]:
#3
f.group()

'Slizolin'

<h2>Úlohy</h2>

<ul>
    <li>Skúste v texte prehodiť Chrabromil a Slizon naopak. - Klobuk sa pýta. Si Slizolin alebo Chrabromil?</li>
</ul>

In [37]:
chrabromil = re.compile(r'Chrabromilský (klobúk|meč|kabát)')

In [38]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský meč.')

In [39]:
mo.group()

'Chrabromilský meč'

<h2>?, *, +</h2>

<p>Pri práci s regexami môžeme definovať, či je hľadaný výraz povinný alebo nepovinný prostredníctvom operátorov:</p>

<ul>
    <li><code>?</code> - 0 - 1 zhôd (výraz sa tam môže nachádzať alebo nemusí)</li>
    <li><code>\*</code> - 0 - n zhôd (výraz sa tam môže nachádzať ľubovoľnom počte, alebo vôbec)</li>
    <li><code>\+</code> - 1 - n zhôd (výraz sa tam nachádza aspoň 1x alebo v ľubovoľnom počte)</li>
</ul>

In [56]:
#Ukazka 0 az 1
chrabromil = re.compile(r'Chrabromilský (klobúk|(super)+meč|kabát)')

In [59]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský supermeč.')

In [60]:
mo.group()

'Chrabromilský supermeč'

In [13]:
#Ukazka 0 az N


In [14]:
#Ukazka 1 az N


<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>cool_regex</b> napíšte pattern, ktorý nájde vo vete slovo <b>cool</b>, bez ohľadu na to koľko krát sa tam môže vyskytnúť písmeno o. </li>
    <li>Otestuj správnosť nad textovým výrazom <i>'Toto je cool'</i></li>
    <li>Otestuj správnosť nad textovým výrazom <i>'Toto je cooooool'</i></li>
</ul>

In [61]:
cool_regex = re.compile(r'co*l')

In [63]:
cool_regex.search('Toto je cooooool').group()

'cooooool'

<h2>Konkrétny počet hodnôt</h2>

<p>Ak chceme vybrať konkrétny počet výskytu danej hodnoty, môžeme použiť <code>{počet</code>}.</p>

In [64]:
phone_regex = re.compile(r'\d\d\d\d\d')

In [65]:
phone_regex = re.compile(r'\d{9}')

In [68]:
my_number = phone_regex.search('My number is: 123456789')

In [70]:
my_number.group()

'123456789'

In [71]:
phone_regex = re.compile(r'\d{3,9}')

In [72]:
my_number = phone_regex.search('My number is: 123456')

In [73]:
my_number.group()

'123456'

<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>find_r</b> ulož pattern, ktorý nájde výraz, obsahujúci viac ako 3 znaky. Pre viac ako je {pocet,}.</li>
    <li>Použi pattern nad textovým výrazom 'Hr, Harry Potter nám utiekol s tekvicou.'</li>
</ul>

In [74]:
find_r = re.compile(r'\w{3,}')

In [76]:
find_r.search('Hr, Harry Potter nám utiekol s tekvicou.').group()

'Harry'

<h2>Findall()</h2>

<p>Kým <code>search()</code> metóda vracia prvú nájdenú zhodu, <code>findall()</code> vracia všetky nájdené zhody nad hľadaným textom.</p>

In [77]:
phone_regex = re.compile(r'\d{3,9}')

In [78]:
my_numbers = phone_regex.findall('My home number is 123456. My work number is 12345678')

In [81]:
my_numbers

['123456', '12345678']

<h2>Úlohy</h2>

<ul>
    <li>Vytvorte si premennú s názvom find_stars a uložte do nej pattern, ktorý nájde všetky zhody obsahujúce v sebe -</li>
    <li>Pattern otestujte nad výrazom "Stars, stars, ---stars---"</li>
</ul>

In [82]:
#konkretny znak pomocou [-]
find_stars = re.compile(r'[-]+')

In [83]:
find_stars.findall('Stars, stars, ---stars---')

['---', '---']

<h2>Vytuningovanie</h2>

In [87]:
phone_regex2 = re.compile(r'[+]?\d*')

In [90]:
my_number = phone_regex2.search('420123456789')

In [91]:
my_number.group()

'420123456789'

In [92]:
phone_regex3 = re.compile(r'[+|00]?\d{2}[0|1]?\d*')

In [93]:
my_numbers = phone_regex3.findall('+42012345678, +421987654321, 00421123456, 12345678, ahoj')

In [94]:
my_numbers

['+42012345678', '+421987654321', '00421123456', '12345678']

<h2>Začiatok a koniec reťazca</h2>

In [98]:
phone_regex4 = re.compile(r'[+]?\d{2}[0|1]?\d*$')

In [101]:

my_numbers = phone_regex4.findall('+42012345678, +421987654321, 00421123456, 12345678, ahoj, +421987654321')

In [102]:
my_numbers

['+421987654321']

<h2>Case sensitive</h2>

<p>Regexy sú defaultne case sensitive - rozlišujú malé a veľké písmená. Ak chceme ignorovať toto pravidlo, je potrebné nastaviť <code>re.IGNORECASE</code>.</p>

In [103]:
chrabromil = re.compile(r'Chrabromilský (klobúk|kabát)', re.IGNORECASE)

In [104]:
mo = chrabromil.search('Harry dostal na Vianoce CHRABROMILSKý kabát.')

In [105]:
mo.group()

'CHRABROMILSKý kabát'

In [106]:
foo_regex = re.compile(r'fo*?')

In [107]:
foo_regex.findall('foo')

['f']

In [108]:
foo_regex = re.compile(r'fo*')

In [109]:
foo_regex.findall('foo')

['foo']

In [112]:
import urllib

In [115]:
import urllib.request
with urllib.request.urlopen('http://python.org/') as response:
   html = response.read()

In [126]:
nadpisy = re.findall(r'<h(\d)>(.*?)</h\d>',\
str(html))

In [127]:
nadpisy

[('1', 'Functions Defined'),
 ('1', 'Compound Data Types'),
 ('1', 'Intuitive Interpretation'),
 ('1', 'Quick &amp; Easy to Learn'),
 ('1', 'All the Flow You&rsquo;d Expect')]

<h2>Escapovanie znakov</h2>

<p>Escapovanie sa robí pomocou <code>\</code>. Je potrebné najmä preto, aby sme vedeli odlíšiť v texte operátory ako ., ?, *, prípadne iné znaky, ako úvodzovky.</p>

<p>Príklad: Nájdite v texte všetky možné desatiné čísla na 1 alebo 2 desatiné miesta oddelene bodkou.</p>

In [134]:
number_regex = re.compile(r'[0-9]+\.{1}\d{1,2}')

In [135]:
numbers = number_regex.findall('123.11, 122.1, 123, 0.21')

In [136]:
numbers

['123.11', '122.1', '0.21']

<h2>sub()</h2>

<p>Keď chceme priamo nájdený pattern nahradiť za iný pattern, výraz, môžeme použiť <code>sub()</code>, kde prvou hodnotou je pattern , cim nahradzujeme a vstupné dáta.</p>

In [137]:
text1 = '***//Python Excercies// - 12'

In [139]:
pattern = re.compile('[\W+]')

In [142]:
pattern.sub('', text1)

'PythonExcercies12'

In [143]:
regex = re.compile(r'\s+')
text = 'Ahoj   Svet'
regex.sub(' ', text)

'Ahoj Svet'

In [145]:
text = '01, jan 2018'
re.findall('[a-zA-Z]+', text)

['jan']

<h1>Úloha</h1>

<ul>
    <li>Vypíšte z premennej text iba číselené hodnoty.</li>
</ul>

In [146]:
re.findall('[0-9]+', text)

['01', '2018']

<h2>Úlohy</h2>

<ul>
    <li>Z emailov "zuck26@facebook.com, page33@google.com, jeff42@amazon.com" vyparsujte cez regexy nasledujúci vystup uvedený nižšie.</li>
</ul>

In [15]:
emails = "zuck26@facebook.com, page33@google.com, jeff42@amazon.com"

desired_output = [('zuck26', 'facebook', 'com'),
 ('page33', 'google', 'com'),
 ('jeff42', 'amazon', 'com')]

<h2>Úloha</h2>
<ul>
    <li>Vypíšte všetky slová, začínajúce na h alebo H z textu "Hi, Harry, this is great. From hermiona"</li>
</ul>

In [147]:
text = 'Hi, Harry, this is great. From hermiona'

In [149]:
re.findall(r'\bh\w+', text, flags=re.IGNORECASE)

['Hi', 'Harry', 'hermiona']