<h1>Regulárne výrazy - Regexy</h1>

<p>Pri práci s dátami alebo obecne s textovými reťazcami v Pythone, môžeme naraziť na rôzne situácie, kedy nám nebudú postačovať základné Python metódy a funkcie ako <code>split()</code>, <code>join()</code>, <code>find()</code>, <code>index()</code>, <code>replace()</code> a podobne.</p>

<h2>CTRL+F</h2>
<p>Každý z nás už isto vyhľadával informácie pomocou príkazu <code>CTRL+F</code>. Regulárne výrazy nám umožňujú vyhľadávať na rovnakom princípe, s tým rozdielom, že je možné si definovať <b>"pattern"</b>, podľa ktorého hľadáme v texte.</p>

<h2>Príklady využitia regexov</h2>

<p>Využitie regexov nemá medze a je možné ich využívať v rozličných odvetviach na rôzne use casy, napríklad:</p>

<ul>
    <li>scrapovanie dát z webových stránok</li>
    <li>čistenie štruktúrovaných/neštruktúrovaných dát</li>
    <li>vyhľadávanie</li>
    <li>vývoj webových/mobilných aplikácií (emaily, telefónne čísla, heslá, ip adresy)</li>
    <li>úprava súborov a formátovania</li>
    <li>machine learning</li>
    <li>textová analýza</li>
    <li>...</li>
</ul>

<h2>Štruktúrované vs. neštruktúrované dáta</h2>

<img src="http://www.plus2net.com/php_tutorial/images/pdf-student-table.jpg" />
<img src="https://i.stack.imgur.com/2yRyh.png" />

<h2>Práca s regexami v Pythone</h2>

<p>V Pythone je možné pracovať s regexami pomocou modulu s názvom <code>re</code>, ktorý obsahuje všetky potrebné funkcie a metódy na prácu. V prvom kroku, si muísme modul importnúť, aby sme jeho a dané funkcie a metódy mohli používať v našom kóde. Modul re je súčasťou Pythonu, nie je potrebné inštalovať žiadne dodatočné knižnice/moduly.</p>

In [912]:

import re

<table style="width: 720px"><thead><tr>
		<td>Sekvence</td>
		<td>Význam</td>
	</tr></thead><tbody>
	<tr>
		<td>\t</td>
		<td>tabulátor</td>
	</tr>
	<tr>
		<td>\n</td>
		<td>nový řádek</td>
	</tr>
<tr>
		<td>\b</td>
		<td>začátek nebo konec slova</td>
	</tr>
<tr>
		<td>\B</td>
		<td>místo, které není na začátku ani na konci slova</td>
	</tr>
<tr>
		<td>\d</td>
		<td>číslice</td>
	</tr>
<tr>
		<td>\D</td>
		<td>libovolný znak, který není číslicí</td>
	</tr>

<tr>
		<td>\w</td>
		<td>libovolné písmeno, číslice včetně podtržítka</td>
	</tr>
<tr>
		<td>\W</td>
		<td>libovolný znak, který není písmeno, číslice včetně podtržítka</td>
	</tr>
<tr>
		<td>\\</td>
		<td>zpětné lomítko</td>
	</tr>
<tr>
		<td>\s</td>
		<td>neviditelný znak (tabulátor, nový řádek…)</td>
	</tr>
<tr>
		<td>\S</td>
		<td>znak, který není neviditelný znak</td>
	</tr>
    
    <tr>
		<td>^</td>
		<td>začiatok reťazca</td>
	</tr>
    
    <tr>
		<td>$</td>
		<td>koniec reťazca</td>
	</tr>

</tbody></table>

<h2>Príklad: Telefónne čísla</h2>

<p>Jedným z pomerne často vyskytujúcich sa use casov je práca s telefónnymi číslami. Telefónne čísla (pracujeme s dátami v rámci Česka a Slovenska) môžu byť v nasledujúcich formátoch:</p>

<ul>
    <li>123456789</li>
    <li>+420123456789</li>
    <li>00420123456789</li>
    <li>0905123456789</li>
    <li>+421905123456789</li>
    <li>...</li>
</ul>

In [913]:
phone_regex = re.compile(r'\d\d\d\d\d\d\d\d\d')

<code>re.compile</code> má na starosti prevod patternu na regex objekt, ktorý môže byť nájdený pomocou metódy <code>search()</code> alebo <code>match()</code>

<p>Prefix <code>r'</code> znamená, že pracujeme s <b>raw string</b> = je ignorované escapovanie znakov. Viď ukážka nižšie.</p>

In [634]:
print('Ahoj \nSvet')

Ahoj 
Svet


In [635]:
print(r'Ahoj \nSvet')

Ahoj \nSvet


<h2>Search()</h2>
<p>V tejto chvíli vyhľadávame nad textom pomocou search(), ktorý vráti buď:</p>
<ul>
    <li><code>None</code> - ak nenájde žiadnu zhodu</li>
    <li><code>Match objekt</code> - ak nájde zhodu (1 alebo viac)</li>
</ul>

<p>Search() hľadá vždy prvý výskyt</p>

In [914]:
my_number = phone_regex.search('My number is 123456789.')

In [637]:
my_number

<_sre.SRE_Match object; span=(13, 22), match='123456789'>

<h2>Match()</h2>
<p>Match objekt obsahuje v sebe už nájdené výsledky (1 alebo viac), ktorý obsahuje metódu <code>group()</code>, pomocou ktorej si výsledky vypíšeme.</p>

In [638]:
print('Phone number found: ' + my_number.group())

Phone number found: 123456789


<h2>Zgrupovanie cez zátvorky</h2>
<p>Taktiež môžeme hľadaný výraz zgrupiť cez <code>(\d\d\d)(\d\d\d\d\d\d)</code>, čo nám umožní vybrať výsledky iba z vybranej skupiny.</p>

In [640]:
phone_regex = re.compile(r'(\d\d\d)(\d\d\d\d\d\d\d\d\d)')

In [641]:
my_number = phone_regex.search('My number is 420123456789.')

In [642]:
my_number

<_sre.SRE_Match object; span=(13, 25), match='420123456789'>

In [915]:
my_number.groups()

()

In [644]:
prefix, number = my_number.groups()

In [645]:
print('Prefix is:', prefix,'\n''Number is:', number)

Prefix is: 420 
Number is: 123456789


In [916]:
my_number.group(0)

'123456789'

In [917]:
my_number.group()

'123456789'

In [918]:
my_number.group(1)

IndexError: no such group

In [649]:
my_number.group(2)

'123456789'

<h2>Výber jednej alebo druhej podmienky</h2>

<p>Rovnako ako v programovaní pri skladaní podmienok, je možné aj pri písaní patternu pre regex využívať OR - <code>|</code> - ktorý nám vráti buď prvú alebo druhú nájdenú zhodu (alebo n-tú, podľa počtu | v patterne). Vždy vracia prvý nájdený výsledok</p>

In [650]:
phone_regex = re.compile(r'\d\d\d|\d')

In [651]:
my_number = phone_regex.search('My number is 123456789.')

In [652]:
my_number.group()

'123'

<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>faculty</b> vložte regex pattern, ktorý bude hľadať fakultu <b>Chrabromil alebo Slizolin</b> pomocou <code>re.compile</code></li>
    <li>Použite <code>search()</code> metódu nad textom <i>"Klobuk sa pýta. Si Chrabromil alebo Slizolin?".</i>Výsledok uložte do premennej <b>f</b>.</li>
    <li>Vypíšte si cez <code>group()</code> výsledky</li>
</ul>

In [653]:

faculty = re.compile (r'Chrabromil|Slizolin')

In [654]:

f = faculty.search('Klobuk sa pýta. Si Chrabromil alebo Slizolin?')

In [655]:

f.group()

'Chrabromil'

<h2>Úlohy</h2>

<ul>
    <li>Skúste v texte prehodiť Chrabromil a Slizon naopak. - Klobuk sa pýta. Si Slizolin alebo Chrabromil?</li>
</ul>

In [656]:
f = faculty.search('Klobuk sa pýta. Si Slizolin alebo Chrabromil?')

In [657]:
f.group()

'Slizolin'

In [658]:
chrabromil = re.compile(r'Chrabromilský (klobúk|meč|kabát)')
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský meč.')

In [659]:
mo.group()

'Chrabromilský meč'

<h2>?, *, +</h2>

<p>Pri práci s regexami môžeme definovať, či je hľadaný výraz povinný alebo nepovinný prostredníctvom operátorov:</p>

<ul>
    <li><code>?</code> - 0 - 1 zhôd (výraz sa tam môže nachádzať alebo nemusí)</li>
    <li><code>\*</code> - 0 - n zhôd (výraz sa tam môže nachádzať ľubovoľnom počte, alebo vôbec)</li>
    <li><code>\+</code> - 1 - n zhôd (výraz sa tam nachádza aspoň 1x alebo v ľubovoľnom počte)</li>
</ul>

In [683]:

chrabromil = re.compile(r'Chrabromilský (klobúk|(super)?meč|kabát)')

In [684]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský meč.')

In [685]:
mo.group()

'Chrabromilský meč'

In [686]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský supermeč.')

In [687]:
mo.group()

'Chrabromilský supermeč'

In [667]:

chrabromil = re.compile(r'Chrabromilský (klobúk|(super)*meč|kabát)')

In [674]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský supersupersupermeč.')

In [675]:
mo.group()

'Chrabromilský supersupersupermeč'

In [676]:

chrabromil = re.compile(r'Chrabromilský (klobúk|(super)+meč|kabát)')

In [681]:
mo = chrabromil.search('Harry dostal na Vianoce Chrabromilský supersupersupermeč.')

In [682]:
mo.group()

'Chrabromilský supersupersupermeč'

<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>cool_regex</b> napíšte pattern, ktorý nájde vo vete slovo <b>cool</b>, bez ohľadu na to koľko krát sa tam môže vyskytnúť písmeno o. </li>
    <li>Otestuj správnosť nad textovým výrazom <i>'Toto je cool'</i></li>
    <li>Otestuj správnosť nad textovým výrazom <i>'Toto je cooooool'</i></li>
</ul>

In [688]:
cool_regex = re.compile('co*l')

In [690]:
cool_regex.search('Toto je cooooool').group()

'cooooool'

<h2>Konkrétny počet hodnôt</h2>

<p>Ak chceme vybrať konkrétny počet výskytu danej hodnoty, môžeme použiť <code>{počet</code>}.</p>

In [691]:
phone_regex = re.compile(r'\d\d\d\d\d\d\d\d\d')

In [692]:
phone_regex1 = re.compile(r'\d{9}')

In [693]:
my_number = phone_regex1.search('My number is 123456789.')

In [694]:
my_number.group()

'123456789'

In [695]:
phone_regex2 = re.compile(r'\d{3,9}')

In [696]:
my_number = phone_regex2.search('My number is 123456.')

In [697]:
my_number.group()

'123456'

<h2>Úlohy</h2>

<ul>
    <li>Do premennej <b>find_r</b> ulož pattern, ktorý nájde výraz, obsahujúci viac ako 3 znaky. Pre viac ako je {pocet,}.</li>
    <li>Použi pattern nad textovým výrazom 'Hr, Harry Potter nám utiekol s tekvicou.'</li>
</ul>

In [736]:
find_r = re.compile('\w{3,}')

In [737]:
find_r.search('Hr, Harry Potter nám utiekol s tekvicou.').group()

'Harry'

<h2>Findall()</h2>

<p>Kým <code>search()</code> metóda vracia prvú nájdenú zhodu, <code>findall()</code> vracia všetky nájdené zhody nad hľadaným textom.</p>

In [738]:
phone_regex2 = re.compile(r'\d{3,9}')

In [739]:
my_numbers = phone_regex2.findall('My home number is 123456. My work number is 987654321')

In [742]:
my_numbers

['123456', '987654321']

<h2>Úlohy</h2>

<ul>
    <li>Vytvorte si premennú s názvom find_stars a uložte do nej pattern, ktorý nájde všetky zhody obsahujúce v sebe -</li>
    <li>Pattern otestujte nad výrazom "Stars, stars, ---stars---"</li>
</ul>

In [766]:
find_stars = re.compile(r'[-]+')
find_stars.findall("Stars, stars, ---stars---")

['---', '---']

<h2>Vytuningovanie</h2>

In [743]:
phone_regex2 = re.compile(r'[+]?\d*')

In [744]:
my_numbers = phone_regex2.search('+420987654321')

In [745]:
my_numbers.group()

'+420987654321'

In [746]:
my_numbers = phone_regex2.search('987654321')

In [747]:
my_numbers.group()

'987654321'

In [754]:
phone_regex3 = re.compile(r'[+|00]?\d{2}[0|1]?\d*')

In [755]:
my_numbers = phone_regex3.findall('+420987654321, +421987654321, 0042198765432112349876, 123456789, ahoj')

In [756]:
my_numbers

['+420987654321', '+421987654321', '0042198765432112349876', '123456789']

<h2>Začiatok a koniec reťazca</h2>

In [757]:

phone_regex4 = re.compile(r'^[+]?\d{2}[0|1]?\d*')

In [758]:
my_numbers = phone_regex4.findall('+420987654321, +421987654321, 12349876, 123456789, ahoj')

In [759]:
my_numbers

['+420987654321']

In [760]:

phone_regex5 = re.compile(r'[+]?\d{2}[0|1]?\d*$')

In [761]:
my_numbers = phone_regex5.findall('+420987654321, +421987654321, 12349876, ahoj, 123456789')

In [776]:
my_numbers

['123456789']

<h2>Case sensitive</h2>

<p>Regexy sú defaultne case sensitive - rozlišujú malé a veľké písmená. Ak chceme ignorovať toto pravidlo, je potrebné nastaviť <code>re.IGNORECASE</code>.</p>

In [789]:
chrabromil = re.compile(r'Chrabromilský (klobúk|(super)?meč|kabát)', re.IGNORECASE)

In [790]:
mo = chrabromil.search('Harry dostal na Vianoce CHRABROMILSKý Supermeč.')

In [791]:
mo.group()

'CHRABROMILSKý Supermeč'

In [792]:
chrabromil = re.compile(r'[á, ý, ú]')

In [793]:
mo = chrabromil.findall('Harry dostal na Vianoce CHRABROMILSKý Supermeč.')

In [794]:
mo

[' ', ' ', ' ', ' ', 'ý', ' ']

In [798]:
chrabromil = re.compile(r'[b-d]', re.IGNORECASE)

In [799]:
mo = chrabromil.findall('Harry dostal na Vianoce CHRABROMILSKý Supermeč.')

In [800]:
mo

['d', 'c', 'C', 'B']

In [828]:
foo_regex = re.compile(r'fo*?')

In [829]:
foo_regex.findall('foo')

['f']

<h2>Escapovanie znakov</h2>

<p>Escapovanie sa robí pomocou <code>\</code>. Je potrebné najmä preto, aby sme vedeli odlíšiť v texte operátory ako ., ?, *, prípadne iné znaky, ako úvodzovky.</p>

<p>Príklad: Nájdite v texte všetky možné desatiné čísla na 1 alebo 2 desatiné miesta oddelene bodkou.</p>

In [830]:
number_regex = re.compile(r'[0-9]+\.{1}\d{1,2}')

In [831]:
numbers = number_regex.findall('123.11, 123.1, 123, 0.21')

In [832]:
numbers

['123.11', '123.1', '0.21']

<h2>sub()</h2>

<p>Keď chceme priamo nájdený pattern nahradiť za iný pattern, výraz, môžeme použiť <code>sub()</code>, kde prvou hodnotou je pattern , cim nahradzujeme a vstupné dáta.</p>

In [833]:
text1 = '**//Python Exercises// - 12. '
pattern = re.compile('[\W+]')
pattern.sub('', text1)

'PythonExercises12'

In [839]:
regex = re.compile('\s+')
text = "Ahoj   ja som Sveta"
regex.sub(' ', text)

'Ahoj ja som Sveta'

In [840]:
re.sub('\s+', ' ', text)

'Ahoj ja som Sveta'

In [842]:
text = '01, Jan 2018'
re.findall('[a-zA-Z]+', text)

['Jan']

<h1>Úloha</h1>

<ul>
    <li>Vypíšte z premennej text iba číselené hodnoty.</li>
</ul>

In [843]:
re.findall('[0-9]+', text)

['01', '2018']

<h2>Úlohy</h2>

<ul>
    <li>Z emailov "zuck26@facebook.com, page33@google.com, jeff42@amazon.com" vyparsujte cez regexy nasledujúci vystup uvedený nižšie.</li>
</ul>

In [891]:
emails = "zuck26@facebook.com, page33@google.com, jeff42@amazon.com"

desired_output = [('zuck26', 'facebook', 'com'),
 ('page33', 'google', 'com'),
 ('jeff42', 'amazon', 'com')]

In [848]:
pattern = r'(\w+)@([A-Za-z0-9]+)\.([A-Z]{2,4})'
re.findall(pattern, emails, flags=re.IGNORECASE)

[('zuck26', 'facebook', 'com'),
 ('page33', 'google', 'com'),
 ('jeff42', 'amazon', 'com')]

<h2>Úloha</h2>
<ul>
    <li>Vypíšte všetky slová, začínajúce na h alebo H z textu "Hi, Harry, this is great. From hermiona"</li>
</ul>

In [892]:
text = "Hi, Harry, this is great. From hermiona"

In [893]:

import re
re.findall(r'\bH\B\w+', text, flags=re.IGNORECASE)

['Hi', 'Harry', 'hermiona']

In [897]:
import pandas as pd

In [898]:
df = pd.read_csv('../csv/fit.recepty.csv', sep=',')

In [899]:
df.head()

Unnamed: 0,code,date,comments,likes,caption,image
0,BMbZ0FgDQwJ,1478348282,7,4630,CHEESECAKE S AVOKÁDOVÝM KRÉMEM A LESNÍMI PLODY...,https://scontent-vie1-1.cdninstagram.com/t51.2...
1,BMZgKXojUDE,1478284501,0,2617,BRUSINKOVÁ GRANOLA S OŘECHY PODLE @cookingwith...,https://scontent-vie1-1.cdninstagram.com/t51.2...
2,BMYwzARDJkj,1478259668,0,1882,Bulgur se špenátem 120 g bulguru Hrst baby š...,https://scontent-vie1-1.cdninstagram.com/t51.2...
3,BMUkWHbjUW2,1478118923,0,1715,Avomajo od @cukrfree.cz\n\nIngredience\n\n2 zr...,https://scontent-vie1-1.cdninstagram.com/t51.2...
4,BMUjn2DDwA-,1478118544,7,2263,Zapečená špagetová dýně alá boloňské špagety p...,https://scontent-vie1-1.cdninstagram.com/t51.2...


In [911]:
results = pd.Series(df["caption"]).str.extractall('(\d+[\w*[" "]*\w*)')
results.reset_index(inplace=True)
results.head()

Unnamed: 0,level_0,match,0
0,0,0,50g jablečných sušenek
1,0,1,30g mandlí
2,0,2,50g vloček
3,0,3,60ml mléka
4,0,4,20g hořké čokolády
