<div style="color: orange">

# Formalne metode u softverskom inženjerstvu

## Laboratorijska vježba – Softverski alati za rad sa regex obrazcima

</div>

U ovoj laboratorijski vježbi obradiće se alati *grep* i *sed* koji služe za procesiranje teksta, kao i Python biblioteka za rad sa *regex* obrazcima. Konkretno, *grep* služi za pretragu teksta, dok *sed* služi za zamjenu dijelova teksta. Oba alata, kao ulaze, pored teksta za obradu, prihvataju i *regex* obrazce za pretragu, odnosno transformaciju, teksta. Postoje dva relevantna *regex* standarda: POSIX i PCRE. POSIX standard ima dvije varijante: BRE (Basic Regular Expressions) i ERE (Extended Regular Expressions). Preferiraćemo da koristimo PCRE i ERE standarde. Možemo smatrati da je ERE standard podskup PCRE standarda. Relevantne man stranice su: `man regex` i `man pcre`.

Ukoliko se vježba radi u VSCode okruženju, moguće je otvoriti integrisani terminal (npr. Git Bash pod Windows operativnim sistemom) u svrhu izvršavanja komandi. Uz ovaj *notebook*, obezbijeđen je i skup primjera tekstualnih fajlova. Potrebno je osigurati da se primjeri nalaze u istom direktorijumu kao i ovaj *notebook*, te da je trenutni radni direktorijum otvorenog terminala taj isti direktorijum.

### Softverski alat *grep* (*Global Regular Expression Print*)

Komanda `grep` na Linux operativnim sistemima omogućava pretragu i filtriranje linija nad fajlovima i standardnim ulazom, na osnovu *regex* obrazaca, upotrebom sopstvenog *regex engine*-a. Za detaljne informacije o upotrebi *grep* alata, mogu se iskoristiti komande `grep --help` i `man grep`. 

Sintaksa grep komande je `grep [OPTION]… PATTERN [FILE]…`.

OPTION je niz argumenata, opcija, kojima se podešava način funkcionisanja *regex* engine-a. PATTERN je obrazac po kom se vrši pretraga i treba se staviti pod navodnike ukoliko sadrži razmake. FILE je niz putanja na fajlove nad kojima se vrši pretraga. Ukoliko se ne specificira nijedna putanja, pretraga se vrši nad standardnim ulazom `grep` komande. Podrazumijevano se ispisuju linije koje sadrže poklapanja sa specificiranim *regex* obrazcem. Sa opcijom `-E` specificiramo da se radi sa ERE regex standardom. Sa opcijom `-P` specificiramo da se radi sa PCRE regex standardom. Obrazac, PATTERN, takođe možemo navesti kao vrijednost argumenta `-e` ili argumenta `--regexp` (`--regexp=PATTERN`).

Na Windows operativnom sistemu se *grep* može koristiti kroz okruženja poput Git Bash.

### Upoznavanje kroz primjere – *grep*

1. Kako bismo mogli brzo naći objašnjenje za parametre `-P` ili `-E`? Lako, samo proslijedimo izlaz iz `grep --help` u `grep`!
    
    ```bash
    grep --help | grep -E -e '-E'
    grep --help | grep -E -e '-P'
    ```
1. Kako dobiti i linije iz susjedstva pronađenih linija (tzv. kontekst)? Možemo koristiti opciju `-C` da dobijemo i specificirani broj okolnih linija. Na primjer, možemo pronaći informacije o argumentu `-C` iz `grep --help`, ali tako da se sa `grep` komandom filtrira izlaz, s kontekstom od okolnih 5 linija, s obzirom na liniju koja sadrži podstring `-C`.

    ```bash
    grep --help | grep -E -C 5 -e "-C"
    ```

    Umjesto `-C`, mogu se koristiti i `-A` i `-B` da se dobije specificiran broj linija ispod ili iznad, respektivno.

1. Kako pokrenuti `grep` nad nekim fajlom, tako da se pronađu sve pojave podstringa "TODO"?
    
    ```bash
    grep -E -e "TODO" example1.txt
    ```

1. Kako pokrenuti `grep` nad nekim fajlom, tako da se pronađu sve pojave podstringa "TODO", ali da nije bitna veličina slova? Dodamo argument `-i` (*case-insensitive*).
    
    ```bash
    grep -E -i -e "TODO" example1.txt
    ```

1. Kako da se samo prebroje linije sa poklapanjima? Argument `-c`.

    ```bash
    grep -E -c -i -e "TODO" example1.txt
    ```

1. Kako da se samo izlistaju poklapanja? Argument `-o`.
    
    ```bash
    grep -E -i -o -e "TODO" example1.txt
    ```

1. Kako da se samo prebroje poklapanja? Proslijedimo `grep ... -o ...` u `wc -l` (koji broji linije).
    
    ```bash
    grep -E -i -o -e "TODO" example1.txt | wc
    ```

1. Kako pokrenuti `grep` nad svim fajlovima u nekom direktorijumu? Možemo koristiti *wildcard* karakter, `*`, kao argument za niz fajlova.
    
    ```bash
    grep -E --exclude-dir=* -e "TODO" *
    ```

    Dodajemo `--exclude-dir=*` kako *grep* ne bi pokušavao analizirati direktorijume kao tekstualne fajlove.

1. Kako pokrenuti `grep` nad svim `.txt` fajlovima u nekom direktorijumu? Možemo koristiti *wildcard* karakter sa sufiksom `.txt`, `*.txt`, kao argument za niz fajlova.
    
    ```bash
    grep -E --exclude-dir=* -e "TODO" *.txt
    ```

2. Kako pokrenuti `grep` nad svim fajlovima u nekom direktorijumu čije ime počinje sa `example`? Možemo koristiti *wildcard* karakter sa prefiksom `example`, `example*`, kao argument za niz fajlova.
    
    ```bash
    grep -E --exclude-dir=* -e "TODO" example*
    ```

    NAPOMENA: `example*.txt` bi se pretvorilo u niz svih fajlova sa prefiksom `example` i sufiksom `.txt`!

3. Prethodna komanda ispisuje sve linije konkatenirane. Kako da se dobije spisak fajlova u kojima se nalazi bar jedan podstring koji odgovara obrazcu po kom se vrši pretraga? Sa `-l` opcijom.

    ```bash
    grep -E --exclude-dir=* -l -e "TODO" *
    ```

4. Kako da se uradi isto, ali da se pretraga vrši rekurzivno po svim podfolderima?

    ```bash
    grep -E -r -l -e "TODO" *
    ```

5. Kako da se pronađu sve linije sa poklapanjima, po fajlovima, rekurzivno kroz podfoldere, ali da piše i broj linije?

    ```bash
    grep -E -r --line-number -e "TODO" *
    ```

1. A kako da ne pišu uopšte nazivi fajlova, sa `-i`, nad `*.txt*` fajlovima? `-no-filename`!

    ```bash
    grep -E -r --no-filename -i -e "TODO" *.txt
    ```

2. Ako hoćemo, uz `-r -o` argumente, da nađemo pojave riječi "is", koji obrazac možemo unijeti tako da se poklapanja ne pronađu u sklopu riječi poput "this" i "list"? `\bis\b`!

    ```bash
    grep -E -r -o -e "\bis\b" *
    ```

    Šta se dešava ako ne uključimo podobrazac za graničnike riječi, `\b`? Probajte! Zašto se tada pronalazi više poklapanja?

3. Kako pronaći sve linije, sa `-r`, iz `*.txt` fajlova, koje ne sadrže poklapanje sa datim obrazcem? `--invert-match`.
   
    ```bash
    grep -E -r --invert-match -e "\bis\b" *.txt
    ```

1.	Kako pronaći sve linije kojie imaju poklapanje i sa obrazcem A, a i sa obrazcem B? Pipeline!
    
    ```bash
    grep -E -e "\bis\b" example2.txt | grep -E -e "\bof\b"
    ```

    Da li je ovo isto kao `grep -E -e "\bis\b.*\bof\b" example.txt`? (*Hint*: Nije.)

1. Kako pronaći sve linije koje imaju poklapanje sa regexom A ili sa regexom B? Operator ILI (unija, alternative), `|`!

    ```bash
    grep -E -e "\bis\b|\bof\b" example2.txt
    ```

### Softverski alat *sed* (*a stream editor*)

Sed je neinteraktivni editor teksta. Može da, u jednom prolazu, procesira tok teksta ili učita tekstualni fajl, nađe sva poklapanje po nekom *regex*-u i da ih izmjeni prema odgovarajućem supstitucionom obrazcu. Taj obrazac može biti, jednostavno, drugi string, a može i da koristi supstitucione povratne reference (*backreferences*), čime se u zamjenski string umeće sadržaj referencirane *capture* grupe. Koristan je za prilagođavanje ulaza za naredni korak u *pipeline*-u komandi. Cilj izučavanja ovog alata je da se razumije mogućnost *regex engine*-a da vrši supstituciju poklapanja ili dijelova poklapanja nad ulaznim stringom. Ova mogućnost postoji i u drugim okruženjima, uključujući *regex* biblioteke programskih jezika, kao i na stranici *regex101*. Mana *sed* alata je što nije *Perl compliant*, tj. ne podržava PCRE *regex* standard

Komanda `sed` na Linux operativnim sistemima omogućava procesiranje teksta u fajlovima i nad standardnim ulazom, na osnovu *regex* obrazaca, upotrebom sopstvenog *regex engine*-a. Za detaljne informacije o upotrebi *sed* alata, mogu se iskoristiti komande `sed --help` i `man sed`, kao i *online* dokumentacija, https://www.gnu.org/software/sed/manual/sed.html.

Na Windows operativnom sistemu se *sed* može koristiti kroz okruženja poput Git Bash.

Sintaksa `sed` komande, za supstitucije, je `sed -r "s/REGEX/SUBSTITUTION/[FLAGS]" [FILE]`.

`s/` naznačava da se vrši supstitucija, tako da se, prema specificiranom obrazcu, transformiše dio ulaznog teksta. Transformacija se vrši tako što se, na osnovu specifikovanog pravila supstitucije (supstitucionog stringa) mijenja dio teksta koji se poklapa sa specifikovanim *regex* obrazcem. Transformisani tekst je izlaz komande `sed`. Posljednja kosa crta je obavezna čak iako se ne koriste flagovi. Neki bitniji argumenti i flegovi su:
 - `-r` (ERE standard)
 - `/i` – case-insensitivity
 - `/g` – globalna zamjena, ako se ne stavi onda sed mijenja u svakoj liniji samo prvo poklapanje.


### Upoznavanje kroz primjere - *sed*

1. Ispisati sadržaj fajla `primjer.txt`:

    ```bash
    cat primjer.txt
    ```

2. Supstituirati, u svakoj liniji, prvu pojavu simbola `a` sa simbolom `X`.
    
    ```bash
    sed -r 's/a/X/' primjer.txt
    ```

3. Supstituirati, u svakoj liniji, svaku pojavu simbola `a` sa simbolom `X`. Ovdje koristimo `/g` fleg.
    
    ```bash
    sed -r 's/a/X/g' primjer.txt
    ```

4. Kako transformisati tekst tako da se obrišu sva poklapanja? Supstitucija praznim stringom!

    ```bash
    sed -r 's/a//g' primjer.txt
    ```

5. Kako, u svakoj liniji, zamijeniti samo N-to poklapanje? Fleg `/N`.
    
    ```bash
    sed -r 's/a/X/2' primjer.txt
    ```

6. Kako u svakoj liniji zamijeniti sve pojave od N-te nadalje? `/Ng`
    
    ```bash
    sed -r 's/a/X/2g' primjer.txt
    ```

7. Kako zamijeniti poklapanja na određenom opsegu linija? `sed -r 'N,M s/...`

    ```bash
    sed -r '4,7 s/a/X/g' primjer.txt
    ```

8. Kako prije/poslije svakog poklapanja u izlaznom tekstu dodati specificiranu liniju teksta? Nije u pitanju supstitucija, nećemo koristiti `s/` komandu. Sintaksa je `sed -r '/REGEX/a"Nova linija"'`, gdje `a` znači *after*. Na primjer, ako želimo dodati novu liniju sa sadržajem "Nova linija" nakon svake linije koja sadrži poklapanje sa *regex*-om `b`:

    ```bash
    sed -r '/b/a"Nova linija"' primjer.txt
    ```

9. Kako da bude prije poklapanja? Umeće se (*insert*-uje, `i`) na mjesto linije gdje ima poklapanje!

    ```bash
    sed -r '/b/i"Nova linija"' primjer.txt
    ```

10. Kako da dodamo liniju i ispod i iznad? Sa `-e` argumentom možemo navesti više izraza sa komandama koje treba da se izvrše.

    ```bash
    sed -r -e '/b/iNova linija iznad' -e '/b/aNova linija ispod' primjer.txt
    ```

    Na sličan način možemo izvršiti i veći broj supstitucija:

    ```bash
    sed -r -e 's/a/X/g' -e 's/b/Y/g' primjer.txt
    ```

11. Kako da promijenimo čitavu liniju ako se naiđe na poklapanje u njoj? `c` kao change.
    
    ```bash
    sed -r '/b/cNova linija' primjer.txt
    ```

12. Možemo koristiti `sed` i za ispisivanje opsega linija, sa specificiranim korakom.
    
    Na primjer, za ispis parnih linija:
    ```bash
    sed -n '0~2p' primjer.txt
    ```

    Za ispis neparnih linija:
    ```bash
    sed -n '1~2p' primjer.txt
    ```

13. Možemo koristiti i *backreference*. (https://www.gnu.org/software/sed/manual/html_node/Back_002dreferences-and-Subexpressions.html)

    Backreference-a (`\1`, `\2` itd.) referencira podizraz regularnog izraza koji odgovara nekoj *capture* grupi. Ako se navede u *regex* obrazcu, zahtijeva se da se na njenom odgovarajućem mjestu u poklapanju ponovi sadržaj poklopljen sa referenciranom *capture* grupom. Ako se navede u supstitucionom stringu, onda će u novi string, na odgovarajuću poziciju, biti umetnut sadržaj s kojim se poklopila referencirana *capture* grupa. Nerijetko se, u drugim okruženjima, za ovakav vid backreferenci koristi `$1`, `$2` itd., umjesto `\1`, `\2` itd.

    Šta će biti ispisi narednih komandi?

    ```bash
    echo 'abcdefgh' | sed -r 's/(..)c/X\1Y/'
    ```

    ```bash
    echo 'abcdefgh' | sed -r 's/(..)c(.*)/X\1Y\2Z\2/'
    ```

14. Recimo da želimo da filtriramo sve TODO komentare i komentare sa `todo` u njima, tako da se pretvore u stavku sa checkbox kutijom lijevo od njih (`[ ]`), te da se ukloni `TODO: ` sa početka komentara:

    ```bash
    grep -r -i --no-filename -e "TODO" *.txt | sed -r 's/.*/\[ \] \0/i' | sed -r 's/\[ \] TODO:? ?(.*?)/\[ \] \1/i'
    ```

15. Kako da zamijenimo svaku pojavu slova `a`, ili `A`, sa slovom `X`, ali za koju važi da imamo i slovo `b` ili razmak prisutan u istoj liniji?

    ```bash
    sed -r '/b| /s/a/X/gi' primjer.txt
    ```

16. Kako da zamijenimo string literale pod navodnicima sa onim što je pod navodnicima? Možda bi probali

    ```bash
    echo 'S="aaa" + "bbb"' | sed -r 's/"(.*?)"/\1/g'
    ```

    Ali ovo ne radi! Problem: u *sed*-u nije podržan kvantifikator nepohlepnosti. Možemo li nekako da izbjegnemo potrebu za tim kvantifikatorom?
    
    Može! Sve osim navodnika, proizvoljan broj puta. `[^"]*` umjesto `.*`!

    ```bash
    echo 'S="aaa" + "bbb"' | sed -r 's/"([^"]*?)"/\1/g'
    ```

### Perl i AWK

Ako treba nešto iz PCRE standarda, može se koristiti Perl. `perl` komanda je Perl interpreter (Perl je programski jezik, *Practical Extraction and Report Language*). Smatra se jednim od najnečitljivijih jezika.
Primjer: 
```bash 
    echo 'S="aaa" + "bbb"' | perl -pe 's:\"(.*?)\":\1:g'
```

AWK program (programski jezik) je takođe koristan u ovom kontekstu. Kad god se nađe poklapanje, on može da izvrši kod (akciju/reakciju) koja kao argument prima poklapanje. Postoje različite implementacije (nawk, mawk, gawk itd.).

Postoje i `a2p` i `s2p` kompajleri (*awk* skripte u *perl* skripte, *sed* skripte u *perl* skripte, respektivno). 

### Regex101

Regex101 (https://regex101.com/) je stranica za eksperimentisanje sa regexima, uzimajući u obzir različite implementacije standarda. Podržava pronalaženje poklapanja, supstitucije i ispis liste transformisanih poklapanja.

### *Regex* obrazci u Python-u

Python biblioteka re sadrži funkcije za rad sa regularnim izrazima. Slijedi jednostavan primjer.

In [3]:
import re

# Define the regex pattern to search for
# \b denotes word boundary, \w denotes word characters
pattern = r"\b\w+\b"  

# The string to search within
search_string = "Here are some words: apple, banana, avocado, grape."

# Perform the search
matches = re.findall(pattern, search_string)

if matches:
    print("Found matches:")
    print(matches)
else:
    print("No matches found.")

Found matches:
['Here', 'are', 'some', 'words', 'apple', 'banana', 'avocado', 'grape']


Možemo pristupati i poklapanjima pojedinačnih *capture* grupa. Slijedi primjer.

In [4]:
import re

# Define a regex pattern with capture groups for day, month, and year
pattern = r"(\d{2})/(\d{2})/(\d{4})"  # Matches dates in DD/MM/YYYY format

# The string to search within
search_string = "Important dates are 01/01/2022 and 12/31/2024."

# Perform the search
matches = re.finditer(pattern, search_string)

# Extract and print capture group data for each match
for match in matches:
    day = match.group(1)   # First capture group: day
    month = match.group(2) # Second capture group: month
    year = match.group(3)  # Third capture group: year
    print(f"Found date: {day}/{month}/{year}")

Found date: 01/01/2022
Found date: 12/31/2024


Takođe, možemo vršiti i supstitucije. Slijedi primjer.

In [None]:
import re

# The regular expression pattern to match dates in the format "dd/mm/yyyy"
# \b denotes word boundary, \d denotes digits
pattern = r"\b(\d{2})\/(\d{2})\/(\d{4})\b"

# The string to perform the substitution on
text = "12/25/2023, Deadline: 01/15/2024"

# Perform the substitution to change the date format to "yyyy-mm-dd"
replaced_text = re.sub(pattern, r"\3-\1-\2", text)

print("Original text:", text)
print("After substitution:", replaced_text)

### Zaključak

Upoznali smo se sa alatima za rad sa *regex* obrazcima, uključujući *grep*, *sed* i Python biblioteku *re*.

### Dodatni primjeri za *grep*

1. Kako samo provjeriti postoji li ijedno poklapanje? `-q`! Ako postoji `return code` će biti `0`! `Return code` posljednje komande možemo dobiti sa `$?`.

    ```bash
    grep -E -q -e "\bis\b|\bof\b" example2.txt
    echo $?
    ```

2. Kako ispisati sve riječi minimalne dužine 10 iz `.txt` fajlova, sortirane, bez ponavljanja, ignorišući veličinu slova?

    ```bash
    grep -E --no-filename -o -e '\b\w{4,7}\b' *.txt | sort --ignore-case | uniq -i
    ```

    Kako bi se napravilo da se izlazne riječi ispišu isključivo malim slovima?

3. Kako dobiti spisak svih fajlova koji imaju `2` u imenu?
    
    ```bash
    find . -name "*.txt" | grep -E e ".*2.*"
    ```

4. Kako proslijediti listu fajlova dobijenu komandom `find` kao spisak fajlova za `grep`?

    ```bash
    find . -name "*.txt" | xargs grep -E -l '\bis\b'
    ```
    
    Vidjeti https://www.man7.org/linux/man-pages/man1/xargs.1.html.

    >This manual page documents the GNU version of xargs. xargs reads items from the standard input, delimited by blanks (which can be protected with double or single quotes or a backslash) or       newlines, and executes the command (default is echo) one or more times with any initial arguments followed by items read from standard input.  Blank lines on the standard input are ignored.    

5. Pronalaženje svih pojava riječi iz skupa riječi u skupu fajlova (npr. engleskih imena).
    - Preuzimamo spisak mogućih riječi (npr. engleska imena, https://github.com/dominictarr/random-name/blob/master/first-names.txt)
    - Sakupljamo tekstualne fajlove nad kojima vršimo pretragu (npr. https://gist.github.com/phillipj/4944029)
    - Možemo izvršiti: 
      
      ```bash
      grep -o -f first-names.txt alice_in_wonderland.txt
      ```
    - Da bi se izbjegli duplikati, sortiramo sa `sort`, pa uklanjamo ponavljanja sa `uniq`.
      
      ```bash
      grep -o -f first-names.txt alice_in_wonderland.txt | sort | uniq
      ```
    - Da bi samo pune riječi bile poklopljene, možemo dodati argument `-w` (jer npr. Bea, Bird, Cal, Cate, Ki itd. nisu imena u djelu, već dijelovi riječi poput Beautiful, Birds, Call, Caterpillar, Kings itd.):
      
      ```bash
      grep -o -w -f first-names.txt alice_in_wonderland.txt | sort | uniq
      ```

    - Izlaz komandi, naravno, možemo preusmjeriti u fajl:
      ```bash
      grep -o -w -f first-names.txt alice_in_wonderland.txt | sort | uniq > alisa_imena.txt
      ```

### Zadaci za vježbu

Za izradu narednih zadataka, može se koristiti Regex101 (Substition; List function sa ispisom `$0\n`) ili bilo koji od opisanih softverskih alata.
 
Zadatak 1) 
Preuzeti JSON fajl sa spiskom oglasa za drugu godinu (https://efee.etf.unibl.org:8443/api/public/oglasne-ploce/2). Napisati komande koje treba da izvrše:
1.	Ispis samo linija koje sadrže naslov oglasa.
2.	Uklanjanje svih cifara i zagrada iz svih naslova.
3.	Zamjenu redoslijeda riječi u nazivima sa dvije i sa tri riječi.
 
Zadatak 2
Preuzeti izvorni kod stranice https://etf.unibl.org/. Napisati komande koje treba da izvrše:
1.	Ekstrakciju `<img>` elemenata koji počinju sa `<img>` i završavaju sa `/>`.
2.	Ekstrakciju linkova pod src atributom `<img>` elemenata.
3.	Dodavanje prefiksa https://etf.unibl.org/ na ekstrahovane relativne linkove (oni koji počinju sa `/`).
 
NAPOMENA: Po potrebi koristiti `-z` flag za `grep` da se naznači da tok podataka završava sa `\0` a ne sa `\n`.
 
Zadatak 3 
Preuzeti izvorni kod stranice https://etf.unibl.org/. Napisati komande koje treba da izvrše:
1.	Ekstrakciju elemenata koji počinju sa `<a>` i završavaju sa `</a>` ili počinju sa `<a` i završavaju sa `/>`.
2.	Ekstrakciju linkova pod `href` atributom `<a>` elemenata.
3.	Dodavanje prefiksa https://etf.unibl.org/ na sve relativne linkove (linkovi koji počinju sa `/`) iz stavke 2 i uklanjanje sufiksa `.html` sa svih pronađenih linkova.
 
NAPOMENA: Po potrebi koristiti `-z` flag za grep da se naznači da tok podataka završava sa `\0` a ne sa `\n`.

### Dodatni zadaci za vježbu
1. Korištenjem razvojnog okruženja (npr. VSCode), pretražiti trenutni direktorijum sa Ctrl+Shift+F pretragom, tako da se pronađu svi TODO komentari!
   
1.	Upoznati sa *lookaround* (*positive*/*negative* *lookahead*/*lookbehind*) funkcionalnostima PCRE standarda:
https://www.regular-expressions.info/lookaround.html.

2.	Upoznati se sa sintaksom za imenovane capture grupe:
https://www.regular-expressions.info/named.html.

3.	Istražiti više o regex obrazcima:
https://www.regular-expressions.info/tutorial.html i
https://www.rexegg.com/.
Pri tome, upoznati se sa konceptima klasa karaktera, *non-capture* grupa i rekurzivnih *capture* grupa.

4.	Upoznati se sa Java bibliotekom za rad sa regex obrazcima:
https://www.baeldung.com/regular-expressions-java i
https://www.baeldung.com/java-regex-token-replacement.