# PREDAVANJE 8 - NORMALIZACIJA TEKSTA

[Link](https://moodle.srce.hr/2024-2025/pluginfile.php/9760408/mod_resource/content/4/Predavanje%208.pdf)

* U obradi prirodnog jezika normalizacija teksta je proces koji se primjenjuje na
tekst prije njegove obrade, odnosno na početku računalnih programa

* Normalizacija teksta standardno uključuje:
    *  tokenizaciju teksta (eng. tokenization),
    * korjenovanje riječi u tekstu (eng. stemming),
    * lematizaciju teksta (eng. lemmatization),
    * označavanje vrsta riječi u tekstu (eng. Part-of-Speech Tagging, POS tagging, POST),
    * prepoznavanje imenovanih entiteta (eng. named entitiy recognition),
    * djelomično raščlanjivanje teksta (eng. partial parsing, chunking).

## Tokenizacija

* U obradi prirodnog jezika tokenizacija (eng. tokenization) je temeljni proces kojim se tekst
rastavlja na svoje sastavne dijelove (tokene) – rečenice, riječi, simbole i interpunkcijske
znakove

* Cilj tokenizacije je izgraditi rječnik tokena koji se pojavljuju u dokumentima iz korpusa. Ovaj
rječnik kasnije koriste ostale metode obrade prirodnog jezika, kao npr. TF-IDF statistička
mjera.

* Tokeni koji se dobiju pomoću tokenizacije, a s kojima ne započinje rečenica, često imaju
prefiks ‘##’

* Postoje različite vrste tokenizacije teksta:
    * tokenizacija po rečenicama (eng. sentence tokenization),
    * tokenizacija po riječima (eng. word tokenization),
    * tokenizacija po podriječima (eng. subword tokenization),
    * tokenizacija po znakovima (eng. character tokenization).

### Tokenizacija po rečenicama

* Tokenizacija po rečenicama (eng. sentence tokenization) ulazni
tekst dijeli na rečenice
* Moguci problemi ako:
    * rečenice ne počinju velikim slovima
    * u rečenici postoje točke koje ne označavaju kraj rečenice (npr. “Mr.
Smith”).


* U Pythonu postoji **PunktSentenceTokenizer** za tokenizaciju
engleskog jezika koji je već istreniran na velikoj količini teksta i koji
dobro tokenizira tekst po rečenicama

In [13]:
import nltk
from nltk import sent_tokenize

In [11]:

# PunktSentenceTokenizer

tekst = "Mr. Smith is a medical doctor, and he owns his own clinic."
tokeni_recenice = nltk.sent_tokenize(tekst)
print(tokeni_recenice)

['Mr. Smith is a medical doctor, and he owns his own clinic.']


### Tokenizacija po riječima

* Tokenizacija po riječima (eng. word tokenization) je proces rastavljanja
teksta na riječi prema određenim delimiterima
* **Delimiteri** su znakovi koji odvajaju jednu riječ od ostalih riječi (npr. zarez,
prazno mjesto, dvotočka, i sl.).
* **tokenizacija po riječima** je najčešći oblik tokenizacije u obradi prirodnog jezika.

* Nedostaci tokenizacije po riječima:
    * U fazi testiranja algoritma može se naići na riječi koje se ne nalaze u rječniku
(eng. Out Of Vocabulary words, OOV words) kojeg smo dobili tokenizacijom
korpusa dokumenata
    * Rječnik dobiven tokenizacijom korpusa dokumenata može biti ogroman

![image.png](attachment:ce178c49-3ec5-44c1-a94f-3620a1023fbf.png)

In [None]:
import nltk
from nltk import word_tokenize

tekst = "Bojna Zrinski i bojna Frankopan bile su prve dvije specijalne postrojbe Oruzanih snaga Republike Hrvatske."
tokeni_rijeci = nltk.word_tokenize(tekst)
print(tokeni_rijeci)

### Tokenizacija po podriječima

* Tokenizacija po podriječima (eng. subword tokenization) se nalazi
između tokenizacije po riječima i tokenizacije po znakovima

* Temelji se na dva pravila:
    * česte riječi se ne rastavljaju na podriječi (npr. riječ “djevojčica” se ne
rastavlja na podriječi),
    * rijetke riječi se rastavljaju na podriječi koje su značajne (npr. riječ
“djevojčicama” se rastavlja na “djevojčica” i “ma”).

Prvi dio riječi na koju se rijetke riječi rastavljaju predstavlja korijen
riječi, a drugi dio sufiks (tj. dodatnu informaciju ili kontekst)

* Nedostatak:
 - gubi se dio semantičkih informacija.

* Prednost:
 - mogu se modelirati riječi izvan rječnika (riječi na koje se nije
naišlo tijekom treniranja algoritma) budući da je velika vjerojatnost da će se u rječniku pronaći podriječi od kojih se
sastoji nova riječ.

Većina uspješnih NLP algoritama **(npr. ChatGPT) koristi
tokenizaciju po podriječima.**

* Najpoznatiji algoritami za tokenizaciju po podriječima
uključuju:
 - Byte-Pair Encoding (BPE) algoritam (koriste ga GPT-2 i
RoBERTa),
 - **WordPiece algoritam** (koriste ga BERT i DistilBERT),
 - **Unigram algoritam** (koriste ga XLNet i ALBERT), i
 - SentencePiece algoritam (ne pretpostavlja da su razmaci
delimiteri između riječi).

### Tokenizacija po znakovima

* Tokenizacija po znakovima (eng. character tokenization) je proces rastavljanja
teksta na slova i znakove

* Prednosti: 
 - mala veličina rječnika,
 - mala vjerojatnost da će se u novom tekstu pojaviti znakovi koji nisu u rječniku,
 - smanjena vremenska i prostorna složenost.
*  Nedostaci:
    - velike ulazne sekvence,
    - pojedinačni znak ne govori mnogo o kontekstu, tj. nije puno značajan.

In [16]:
tekst = "Bojna Zrinski i bojna Frankopan bile su prve dvije specijalne postrojbe Oruzanih snaga Republike Hrvatske."

print("Podjela teksta na znakove: ")

podjela_na_znakove = [i for i in tekst]
print(podjela_na_znakove)
jedinstveni_znakovi = []

for znak in podjela_na_znakove:
    if znak not in jedinstveni_znakovi:
        jedinstveni_znakovi.append(znak)
        
print("\nJedinstveni znakovi: ")
print(jedinstveni_znakovi)

Podjela teksta na znakove: 
['B', 'o', 'j', 'n', 'a', ' ', 'Z', 'r', 'i', 'n', 's', 'k', 'i', ' ', 'i', ' ', 'b', 'o', 'j', 'n', 'a', ' ', 'F', 'r', 'a', 'n', 'k', 'o', 'p', 'a', 'n', ' ', 'b', 'i', 'l', 'e', ' ', 's', 'u', ' ', 'p', 'r', 'v', 'e', ' ', 'd', 'v', 'i', 'j', 'e', ' ', 's', 'p', 'e', 'c', 'i', 'j', 'a', 'l', 'n', 'e', ' ', 'p', 'o', 's', 't', 'r', 'o', 'j', 'b', 'e', ' ', 'O', 'r', 'u', 'z', 'a', 'n', 'i', 'h', ' ', 's', 'n', 'a', 'g', 'a', ' ', 'R', 'e', 'p', 'u', 'b', 'l', 'i', 'k', 'e', ' ', 'H', 'r', 'v', 'a', 't', 's', 'k', 'e', '.']

Jedinstveni znakovi: 
['B', 'o', 'j', 'n', 'a', ' ', 'Z', 'r', 'i', 's', 'k', 'b', 'F', 'p', 'l', 'e', 'u', 'v', 'd', 'c', 't', 'O', 'z', 'h', 'g', 'R', 'H', '.']


### OSCAR korpus

OSCAR korpus (Open Super-large Crawled Aggregated coRpus) je veliki višejezični korpus koji se trenutno sastoji od podataka za 166 jezika (uključuje i
hrvatski jezik).
* Ovaj se korpus može koristiti za izgradnju rječnika tokena za određene jezike.

In [9]:
import datasets

dataset = datasets.load_dataset('oscar', 'unshuffled_deduplicated_hr',
split = 'train[:3]')
brojac = 1

for sample in dataset:
    print ("Uzorak br. " + str(brojac))
    print(sample['text'] + '\n')
    brojac = brojac + 1 

README.md:   0%|          | 0.00/303k [00:00<?, ?B/s]

oscar.py:   0%|          | 0.00/14.8k [00:00<?, ?B/s]

The repository for oscar contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/oscar.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N]  y


Downloading data:   0%|          | 0.00/81.0 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/46.7M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/321484 [00:00<?, ? examples/s]

Uzorak br. 1
U raspravi je sudjelovao i HSS-ov saborski zastupnik rekavši kako poljoprivrednici ne osjete mjere o kojima ministar govori jer poljoprivrednike u Hrvatskoj najviše opterećuje nedostatak tržišta oko čega se naši pregovarač s EU i sam ministar moraju zauzeti, to je prva mjera za revitalizaciju OPG-ova.

Uzorak br. 2
Uza sve moguće flatbreadove (još uvijek ne znam kako bih to rekla na hrvatskom) flatbread sa češnjakom je sasvim logičan slijed: jeli…
Pozdrav :) ja sam Mari i za ovdje pripremam svakodnevna, jednostavna veganska jela za cijelu obitelj.

Uzorak br. 3
Zadržavamo pravo promjene i pogrešaka u cijenama i pisanom tekstu. Zalihe prikazanih artikala ograničene su i nisu uvijek dostupne na svim prodajnim mjestima.

