In [None]:
# << Р Е Г У Л А Р Н И  И З Р А З И >>

# ~ Sadržaj ~

# - Raw stringovi
# - Funkcije, metode i Match objekti
# - Specijalni karakteri i sekvence
# - Predstavljanje skupova
# - Predstavljanje ponavljanja
# - Grupisanje i grupe
# - Pozicija unutar stringa
# - Izbor
# - moduli `re`, `os` i `getopt`

In [1]:
# Raw stringovi

# Stringovi mogu sadržavati specijalne karaktere kao što su \n, \t, \\, \", ...

# Raw stringovi tretiraju ovakve karaktere kao bilo koji drugi karakter (nemaju specijalno značenje)!

# Npr.
string = "Fića\tTea\nJela"
print(string)
# Fića    Tea
# Jela

raw_string = r"Fića\tTea\nSaša"
print(raw_string)
# Fića\tTea\nSaša

Fića	Tea
Jela
Fića\tTea\nSaša


In [2]:
# ~ Funkcije i metode ~

# Za kreiranje izraza koristi se funkcija `compile()`.

import re

sablon_rijec = re.compile(r"rijec")
sablon_od = re.compile(r"od")
tekst = "rijeci od cetiri slova"

In [2]:
# Za pretragu stringa koriste se metode `match()`, `search()`, `finditer()`.

# Match objekti | metoda `match()`

# Match objekti sadrže informacije o rezultatima pretrage.
# Ukoliko nema pogotka, umesto Match objekta povratna vrijednost je `None`.

import re

sablon_rijec = re.compile(r"rijec")
sablon_od = re.compile(r"od")
tekst = "rijeci sa cetiri slova"

print(sablon_rijec.match(tekst))  # <re.Match object; span=(0, 5), match='rijec'>
print(sablon_od.match(tekst))     # None

<re.Match object; span=(0, 5), match='rijec'>
None


In [3]:
# Metoda `search()`

# Pretražuje string da bi ispitala da li sadrži patern/шаблон
# (traži PRVO POJAVLJIVANJE paterna/шаблона u stringu)!

sablon_rijec = re.compile(r"rijec")
sablon_od = re.compile(r"od")
tekst = "rijeci od cetiri slova"

print(sablon_rijec.search(tekst))  # <re.Match object; span=(0, 5), match='rijec'>
print(sablon_od.search(tekst))     # <re.Match object; span=(7, 9), match='od'>

<re.Match object; span=(0, 5), match='rijec'>
<re.Match object; span=(7, 9), match='od'>


In [10]:
# Metoda `finditer()`

# Proširen je `tekst` za pretragu, radi lakšeg razumijevanja metoda
# `finditer()`, koji vraća SVA POJAVLJIVANJA određene riječi u stringu.

sablon_rijec = re.compile(r"rijec")
sablon_od = re.compile(r"od")
tekst = "rijeci od cetiri slova i rijeci od tri slova"

for pogodak in sablon_rijec.finditer(tekst):
    print(pogodak)


<re.Match object; span=(0, 5), match='rijec'>
<re.Match object; span=(25, 30), match='rijec'>


In [11]:
# ~ Metode `start()`, `end()` i `span()` ~

# Metode `start()`, `end()` i `span()` vraćaju
# informacije o poziciji pogotka unutar stringa.

import re

sablon = re.compile(r"ovu")
tekst = "pronadji ovu rijec"
pogodak = sablon.search(tekst)  # <re.Match object; span=(9, 12), match='ovu'>

if pogodak:
    pocetak = pogodak.start()   # 9
    kraj = pogodak.end()        # 12
    print(tekst[pocetak:kraj])  # ovu
    print(pogodak.span())       # (9, 12) √


ovu
(9, 12)


In [13]:
# Zadatak 1

# Na programskom jeziku Python sastaviti program koji ispisuje pozicije pojavljivanja riječi u tekstu.
"""
Unesite tekst: nebo je plavo, trava je zelena
Unesite reč za pretragu: je
Riječ se javlja na poziciji 5
Riječ se javlja na poziciji 21
"""

import re

text = input("Unesite tekst: ")
pattern = re.compile(input("Unesite riječ za pretragu: "))

for match in pattern.finditer(text):
    print("Riječ se javlja na poziciji: {}".format(match.start()))


Riječ se javlja na poziciji: 5
Riječ se javlja na poziciji: 21


In [None]:
# ~ Specijalni karakteri i sekvence ~

# Specijalni karakteri su:  \ . ? * + ^ $ | ( ) [ ] { }
# Specijalne sekvence su: \d \D \w \W \s \S \A \Z \B \b

In [None]:
# ■ Predstavljanje skupova ■

# » KREIRANJE SKUPA karaktera:
# Za kreiranje se koriste specijalni karakteri `[ ]` unutar kojih se navode elementi skupa.

# Primjeri - Opis
# ~-~-~-~-~-~-~-~
# [abc]    - Karakteri se mogu NABRAJATI POJEDINAČNO, a navode se jedan za drugim bez razmaka.
# [a-c]    - Može se ZADATI OPSEG karaktera korišćenjem znaka `–`.
# [^abc]   - Mogu se izabrati samo KARAKTERI koji se nalaze VAN SKUPA korišćenjem znaka ^ na početku skupa
# [.?*+(}] - Specijalni karakteri NEMAJU specijalno ZNAČENJE UNUTAR skupa!

In [None]:
# » Korišćenje postojećih skupova √

# .  - Bilo koji karakter sem novog reda
# \d - Bilo koja decimalna cifra [0-9]
# \D - Sve što nije decimalna cifra [^0-9]
# \w - Bilo koji word karakter [a-zA-Z0-9_]
# \W - Sve što nije word karakter [^a-zA-Z0-9_]
# \s - Bilo koji whitespace karakter [ \t\n\r\f\v]
# \S - Sve što nije whitespace karakter [^ \t\n\r\f\v]

# Napomena:
# \. - Sama tačka, ne znači bilo koji karakter (analogno za ostale specijalne karaktere)

In [18]:
# Zadatak 2

"""Na programskom jeziku Python sastaviti funkciju koja pronalazi godine izbora u zvanje
saradnika u nastavi i ispisuje ih na standardnom izlazu sortirane u opadajućem poretku.
Npr.

Milica, 2015
Aleksa, 2019
Jovan, 2017
Vladimir, 2016
"""

import re

def find_and_sort(filename):
    with open(filename) as file:
        text = file.read()
    pattern = re.compile(r"\d\d\d\d")
    #pattern = re.compile(r"[\d]{4}")
    years = pattern.findall(text)
    years.sort(reverse=True)
    return years

filename = input("Unesite naziv datoteke: ")  # izbor.txt
years = find_and_sort(filename)
print("Godine izbora u zvanje:", ", ".join(years))

# Da li se mogao napraviti kompaktniji regularni izraz? √

Godine izbora u zvanje: 2019, 2017, 2016, 2015


In [None]:
# ■ Predstavljanje ponavljanja ■

# » Kreiranje ponavljanja karaktera:
# Za kreiranje se koriste specijalni karakteri `{ }` unutar kojih se navodi BROJ PONAVLJANJA.

# Primjer - Opis
# ~-~-~-~-~-~-~-
# {m}     - Prethodno navedeni karakter se ponavlja tačno m puta.
# {m,n}   - Prethodno navedeni karakter se ponavlja najmanje m, a najviše n puta.
# {m,}    - Prethodno navedeni karakter se ponavlja najmanje m puta, ne postoji gornja granica.
# {,n}    - Prethodno navedeni karakter se ponavlja najviše n puta, a ne postoji donja granica.

In [None]:
# » Korišćenje postojećih ponavljanja:
# Koriste se specijalni karakteri `?`,`*` i `+`.

# Specijalni karakter - Ekvivalentno sa - Opis
# ~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-
#           ?         -      {0,1}      - Prethodno navedeni karakter se pojavljuje jednom ili nijednom.
#           *         -      {0,}       - Prethodno navedeni karakter se ponavlja proizvoljan broj puta;
#                                         ne postoje ni gornja ni donja granica.
#           +         -      {1,}       - Prethodno navedeni karakter se ponavlja najmanje jedanput, a
#                                         ne postoji gornja granica.

In [21]:
# ■ Grupisanje i grupe ■

# Za grupisanje se koriste specijalni karakteri `( )`.

import re

tekst = "abababab"
sablon = re.compile(r"(ab)*")

print(sablon.match(tekst))

<re.Match object; span=(0, 8), match='abababab'>


In [22]:
# Primjer 1

tekst = "abababab"
sablon = re.compile(r"(a)(b)")

pogodak = sablon.match(tekst)

print(pogodak.group())      # ab
print(pogodak.group(0))     # ab
print(pogodak.group(1))     # a
print(pogodak.group(2))     # b
print(pogodak.group(1, 2))  # ('a', 'b')
print(pogodak.groups())     # ('a', 'b')

ab
ab
a
b
('a', 'b')
('a', 'b')


In [23]:
# Primjer 2

tekst = "abababab"
sablon = re.compile(r"(a(b))")

pogodak = sablon.match(tekst)

print(pogodak.group(0))  # ab
print(pogodak.group(1))  # ab
print(pogodak.group(2))  # b

ab
ab
b


In [3]:
# Zadatak 3

# Na programskom jeziku Python sastaviti funkciju koja učitanoj datoteci mijenja format
# u kom su zapisani podaci o studentu.
"""
Npr.

162/2018, Dorotea Pavlović
28/2019, Filip Ristić
413/2019, Jelena Petrović

Mijenja se u:

18/162, Pavlović Dorotea
19/28, Ristić Filip
19/413, Petrović Jelena
"""

import re

def rewrite(filename):
    with open(filename, "r+", encoding="UTF-8") as file:
        text = file.read()
        pattern = re.compile(r"(\d{1,4})/\d{2}(\d{2}),\s+(\w+)\s+(\w+)")  # групиши посљедње цифре године!
        new_text = pattern.sub(r"\2/\1, \4 \3", text)  # промијени позицију група: 1, 2, 3, 4 <--- A-HA! √
        file.seek(0)
        #file.truncate()
        file.write(new_text)
filename = input("Unesite naziv datoteke: ")  # studenti.txt
rewrite(filename)  # TODO: пронађи грешку у коду! :wink:

# Na linku ispod možete pročitati više o `r+`, `w+` i `a+`.
# link: https://mkyong.com/python/python-difference-between-r-w-and-a-in-open/#what-is-means-in-open

In [None]:
# ■ Pozicija unutar stringa ■

# Može se eksplicitno tražiti određena pozicija unutar stringa:

# Specijalni karakter ili sekvenca - Opis
# ---------------------------------|-----
#           ^                      - POČETAK stringa
#           $                      - KRAJ stringa
#           \A                     - POČETAK stringa
#           \Z                     - KRAJ stringa
#           \b                     - PRAZAN string na početku ILI na kraju riječi
#           \B                     - PRAZAN string svuda osim na početku i na kraju riječi

In [5]:
# ■ Izbor ■ `ILI` опција "pipe character" `|`

# Za izbor se koristi specijalni karakter `|`.

# Primjer 1

import re

sablon = re.compile(r"a|b")

print(sablon.match("a"))  # <re.Match object; span=(0, 1), match='a'>
print(sablon.match("b"))  # <re.Match object; span=(0, 1), match='b'>
print(sablon.match("c"))  # None

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>
None


In [6]:
# Primjer 2

sablon = re.compile(r"a|b|c")

print(sablon.match("a"))  # <re.Match object; span=(0, 1), match='a'>
print(sablon.match("b"))  # <re.Match object; span=(0, 1), match='b'>
print(sablon.match("c"))  # <re.Match object; span=(0, 1), match='c'>

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>
<re.Match object; span=(0, 1), match='c'>


In [7]:
# Primjer 3

sablon = re.compile(r"(a|b)c")

print(sablon.match("ac"))   # <re.Match object; span=(0, 2), match='ac'>
print(sablon.match("bc"))   # <re.Match object; span=(0, 2), match='bc'>
print(sablon.match("abc"))  # None
print(sablon.match("ab"))   # None
print(sablon.match("c"))    # None

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 2), match='bc'>
None
None
None


In [8]:
# Zadatak 4

"""
Na programskom jeziku Python napisati program koji pronalazi i ispisuje sve nekorektne e-mail adrese
iz zadatate datoteke. Smatrati da korektna adresa ima oblik local@domain pri čemu važi sljedeće:
 - Oba dijela adrese (local i domain) smiju da sadrže slova, brojeve, tačke, crtice i pluseve;
 - Oba dijela adrese moraju da počinju slovom;
 - Prvi dio (local) ne smije da ima više od 64 karaktera;
 - Drugi dio (domain) mora da se završi tačkom praćenom sa dva ili tri slova.
"""
'''
Primjer datoteke:

fica@student.etf.rs
dora.gmail.com
5a5a@yahoo.com
pavlovic.tea@student.etf.bg.ac.rs
i++@yahoo.com
jela_petrovic@gmail.com
a"b(c)d,e:f;g<h>i[j\k]l@etf.rs
d@j.edu
f121p-h0m3@dva+2.mkv
aleksandar@mail.mp3
a123456785678901234567890123436++@etf.bg.ac.rs
'''

import re

pattern = re.compile(r"^[a-zA-Z][\w.+-]{0,63}@[a-zA-Z][\w.+-]*.[a-zA-Z]{2,3}$")

with open("mejlovi.txt") as mails:
    for mail in mails:
        if not pattern.match(mail):
            print(mail.strip())


dora.gmail.com
5a5a@yahoo.com
a"b(c)d,e:f;g<h>i[j\k]l@etf.rs
aleksandar@mail.mp3


In [9]:
# Zadatak 5 - Domaći

# Na programskom jeziku Python sastaviti program koji izdvaja različite riječi iz HTML datoteke.
# Ignorisati sadržaj zadat između oznaka `<>`.
"""
Primjer HTML datoteke:

<html>
    <head>
        <title>Jednostavan HTML dokument</title>
    </head>
    <body>
        <p> Prvi paragraf.</p>
        <p>Drugi paragraf!</p>
    </body>
</html>
"""

import re

with open("html.txt") as html:
    content = html.read()

pattern = re.compile(r"<[^<>]+>|[\s,.!?]+")
words = pattern.split(content)
words = set(words)
words.remove("")

print(*words, sep=" ")

HTML dokument paragraf Jednostavan Drugi Prvi
