# Regularni izrazi 1


Osnove funkcije pretrazivanja uz pomoć python regularnih izraza.

In [2]:
import re #biblioteka za rad s regesima
from regex import test_re

## Funkcija `match()`

In [3]:
# tekst
text = "Mačke su pametnije od pasa."
## pattern = "Ma[cč]ke su .*"
pattern = "pametnije .*"

mobj = re.match(pattern, text)
if mobj:
    print("Pronađen je podudaranje:", mobj.group())
else:
    print("Nema podudaranja.")

Nema podudaranja.


### Detalji o `re.match()`

- `re.match(pattern, string)` pokušava pronaći podudaranje *na početku* stringa. Ako pattern odgovara od početka, vraća `Match` objekt; u suprotnom vraća `None`.
- Najčešće korištene metode `Match` objekta:
  - `m.group()` — vraća cijeli podudarajući tekst.
  - `m.groups()` — vraća tuple hvatanih grupa (ako su definirane zagradama u patternu).
  - `m.span()` — vraća tuple (start, end) pozicije podudaranja.
- Primjer: ako želimo provjeriti počinje li tekst riječju 'Mačke', koristimo `re.match(r"Ma[cč]ke", text)`.

Napomena: u primjeru iz bilježnice `pattern = "pametnije .*"` `re.match` neće pronaći podudaranje jer tekst ne počinje tim uzorkom.

## Funkcija `search()`

In [14]:
# primjer search
text = "Mačke su pametnije od pasa."
## pattern = "Ma[cč]ke su .*"
pattern = "pametnije .*"

mobj = re.search(pattern, text)
if mobj:
    print("Pronađen je podudaranje:", mobj.group())
else:
    print("Nema podudaranja.")


Pronađen je podudaranje: pametnije od pasa.


### Detalji o `re.search()`

- `re.search(pattern, string)` traži prvo pojavljivanje uzorka gdje god u stringu — nije ograničeno na početak.
- Ako nađe podudaranje vraća `Match` objekt (prvo podudaranje), inače `None`.
- Za pronalaženje svih pojavljivanja koristi se `re.finditer()` ili `re.findall()`.
- Primjer razlike s `match`: za isti `pattern = "pametnije .*"` `re.search` će pronaći podudaranje u tekstu jer se ta fraza pojavljuje u sredini rečenice.
- Korisni flagovi: `re.IGNORECASE` za ignoriranje veličine slova, `re.MULTILINE` i dr.

Savjet: kad želiš testirati samo postoji li podudaranje, možeš koristiti `bool(re.search(...))`.

Search može traziti podudaranje u bilo kom dijelu teksta.


## Funkcija `findall()`

### Detalji o `re.findall()`

- `re.findall(pattern, string)` vraća listu svih nepokrivenih podudaranja uzorka u tekstu.
- Ako pattern sadrži hvatajuće grupe (zagrade), `findall` vraća listu tupleova s uhvaćenim grupama; inače vraća listu stringova.
- Korisno kada želiš brzo izvući sve podudaranja bez iteriranja kroz `finditer()`.
- Primjer upotrebe: traženje svih pojavljivanja određene riječi ili obrasca u tekstu.


In [16]:
# primjer findall
text = "Mačke su pametnije od pasa. Mačke vole mlijeko."
pattern = r"Ma[cč]ke"
matches = re.findall(pattern, text)
print('Pronađena pojavljivanja:', matches)

# primjer s grupama
text2 = "Ivan ima 3 jabuke, Ana ima 5 jabuka"
pattern2 = r"(\w+) ima (\d+)"
groups = re.findall(pattern2, text2)
print('Grupe (ime, broj):', groups)

Pronađena pojavljivanja: ['Mačke', 'Mačke']
Grupe (ime, broj): [('Ivan', '3'), ('Ana', '5')]


In [18]:
matches = re.findall( 'ab', 'abbabbaab')
print(matches)

['ab', 'ab', 'ab']


## Regex uzorci

In [4]:
# alias (specijalni znakovi)

text = "Ovo je #1 primjer. "

test_re(
    text,
    [
        (r'\d+', 'samo znamenke'),
    ]
)  #pronalazi znamenku

--------------------
=> Uzorak \d+ (samo znamenke)
'Ovo je #1 primjer. '
 ........'1'


In [None]:
# alias (specijalni znakovi)

text = "Ovo je #2 primjer. "

test_re(
    text,
    [
        (r'\d+', 'samo znamenke'),
        (r'\D+', 'sve osim znamenki'),
        (r'\w+', 'samo slova , znamenke i _'),
        
    ]
)  #pronalazi znamenku


--------------------
=> Uzorak \d+ (samo znamenke)
'Ovo je #2 primjer. '
 ........'2'
--------------------
=> Uzorak \D+ (sve osim znamenki)
'Ovo je #2 primjer. '
 'Ovo je #'
 .........' primjer. '
--------------------
=> Uzorak \w+ (samo slova , znamenke i _)
'Ovo je #2 primjer. '
 'Ovo'
 ....'je'
 ........'2'
 ..........'primjer'


## Klase uzorka

In [9]:
test_re(
    'abbabbaab', # tekstni uzorak
    [
        (r'[ab]+', 'ili a ili b'),
        (r'a[ab]b+', 'a iza toga a ili b barem jednom'),
        (r'a[ab]b+?', 'a iza toga a ili b barem jednom(nepohlepno)'),
    ]
)

--------------------
=> Uzorak [ab]+ (ili a ili b)
'abbabbaab'
 'abbabbaab'
--------------------
=> Uzorak a[ab]b+ (a iza toga a ili b barem jednom)
'abbabbaab'
 'abb'
 ...'abb'
 ......'aab'
--------------------
=> Uzorak a[ab]b+? (a iza toga a ili b barem jednom(nepohlepno))
'abbabbaab'
 'abb'
 ...'abb'
 ......'aab'


## Kvantifikatori

In [11]:
test_re(
    'abbaabbba',
    [
        (r'ab*', 'Iza a slijedi 0 ili vise b-ova' ),
        (r'a[ab]{2,4}', 'Iza a slijedi 2 ili 4 a ili b' )
    ]
)

--------------------
=> Uzorak ab* (Iza a slijedi 0 ili vise b-ova)
'abbaabbba'
 'abb'
 ...'a'
 ....'abbb'
 ........'a'
--------------------
=> Uzorak a[ab]{2,4} (Iza a slijedi 2 ili 4 a ili b)
'abbaabbba'
 'abbaa'


## Grupe

In [12]:
test_re(
    'abbaaabbbbaaaaa',
    [
        ('a(ab)', 'Iza a slijedi ab'),
        (r'a(a*b*)', 'Iza a slijedi nula ili vise a ili b')
    ]
)

--------------------
=> Uzorak a(ab) (Iza a slijedi ab)
'abbaaabbbbaaaaa'
 ....'aab'
--------------------
=> Uzorak a(a*b*) (Iza a slijedi nula ili vise a ili b)
'abbaaabbbbaaaaa'
 'abb'
 ...'aaabbbb'
 ..........'aaaaa'


## Zadatak

In [16]:
text = "Ovo je neki čudni tekst ?$! sa ---?!*$.%- interpunkcijskim znakovima."
regex_uzorci = [
    (r'\w+', 'rijec na pocetku niza'),
    (r'\S+$', 'zadnja riječ s interpunkcijom'),
    (r'\st\S* \S+', 'počinje s t i sljedeča riječ'),
    (r'\s+\w+m\s+', 'završava s m')
]

for pattern, opis in regex_uzorci:
    sobj = re.search(pattern, text)
    print(sobj.group()) # ako postoji podudaranje ispisi ga

Ovo
znakovima.
 tekst ?$!
 interpunkcijskim 
