# Rad sa tekstom

U zajednici koja se bavi obradom prirodnih jezika (engl. Natural Language Processing) postoji nekoliko popularnih paketa među kojima svakako prednjače [NLTK](https://www.nltk.org/), [SpaCy](https://spacy.io/) i [FastText](https://fasttext.cc/). U primerima koji sledi biće opisana NLTK.

### NLTK paket

NLTK je paket koji ima najdužu istoriju i koji nudi najviše mogućnosti u radu sa tekstom. Koriste ga lingvisti, istraživači koji se bave digitalnom humanistikom, kao i istraživači u domenu obrade prirodnih jezika. Više o samom paketu i njegovim funkcionalnostima se može naći na [zvaničnom sajtu](https://www.nltk.org/), a nadalje slede primeri nekoliko najvažnijih i najčešće korišćenih metoda. Alat podržava rad sa velikim brojem jezika, a primeri koji slede će se odnositi na engleski jezik.

NLTK paket se može instalirati pomoću conda `alata` komandom `conda install -c anaconda nltk` u skladu sa [zvaničnim smernicama](https://anaconda.org/anaconda/nltk). 

In [1]:
import nltk
nltk.download('punkt')
nltk.download('universal_tagset')

[nltk_data] Downloading package punkt to /Users/andjelka/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package universal_tagset to
[nltk_data]     /Users/andjelka/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


True

Tekst koji ćemo koristiti za vežbu preuzet je sa Vikipedijinog članka o Nikoli Tesli na engleskom jeziku.   

In [2]:
test_text = """Born and raised in the Austrian Empire, Mr. Tesla studied engineering and physics in the 1870s without receiving a degree, and gained practical experience in the early 1880s working in telephony and at Continental Edison in the new electric power industry. He emigrated in 1884 to the U.S.A., where he became a naturalized citizen. He worked for a short time at the Edison Machine Works in New York City before he struck out on his own."""

In [3]:
test_text

'Born and raised in the Austrian Empire, Mr. Tesla studied engineering and physics in the 1870s without receiving a degree, and gained practical experience in the early 1880s working in telephony and at Continental Edison in the new electric power industry. He emigrated in 1884 to the U.S.A., where he became a naturalized citizen. He worked for a short time at the Edison Machine Works in New York City before he struck out on his own.'

Inteligentna podela teksta na rečenice se postiže pozivom metode `sent_tokenizer`. Kao separatori se koriste znaci interpunkcije poput tačke, upitnika ili uzvičnika. Metoda je sposobna da razna pojave ovih karatkera i u drugim kontekstima i pridruži im ispravnu funkciju. Na primer, tačka koja je sastavni deo skraćenica U.S.A. ili datuma 20.02.2020. neće uticati na pogrešno razbijanje rečenice. 

In [4]:
sentences = nltk.tokenize.sent_tokenize(test_text)

In [5]:
sentences

['Born and raised in the Austrian Empire, Mr. Tesla studied engineering and physics in the 1870s without receiving a degree, and gained practical experience in the early 1880s working in telephony and at Continental Edison in the new electric power industry.',
 'He emigrated in 1884 to the U.S.A., where he became a naturalized citizen.',
 'He worked for a short time at the Edison Machine Works in New York City before he struck out on his own.']

Rečenice se dalje mogu deliti na tokene. To se postiže pozivom metode `word_tokenize`.

In [6]:
sentence = 'He worked,  for a short time, at the Edison Machine Works in New York City before he struck out on his own.'

In [7]:
tokens = nltk.tokenize.word_tokenize(sentence)

In [8]:
tokens

['He',
 'worked',
 ',',
 'for',
 'a',
 'short',
 'time',
 ',',
 'at',
 'the',
 'Edison',
 'Machine',
 'Works',
 'in',
 'New',
 'York',
 'City',
 'before',
 'he',
 'struck',
 'out',
 'on',
 'his',
 'own',
 '.']

Ovako izdvojeni tokeni se dalje mogu filtrirati. Na primer, mogu se eliminisati znaci interpunkcije ili reči koje se jako često pojavljuju i koje svojim značenjem ne doprinose zadatku. Takve reči se zovu funkcijske ili stop reči i za svaki jezik postoji lista reči koja se ubraja u ovu kategoriju. Na primer, za engleski jezik to su članovi a i the, predlozi poput in, at, on i slično. Sam izbor kriterijuma filtriranja pre svega zavisi od zadatka i ne može se grubo generalizovati. 

In [9]:
import string

In [10]:
# svi interpunkcijski karakteri 
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [11]:
tokens_without_punctuation = [token for token in tokens if token not in string.punctuation]

In [12]:
tokens_without_punctuation

['He',
 'worked',
 'for',
 'a',
 'short',
 'time',
 'at',
 'the',
 'Edison',
 'Machine',
 'Works',
 'in',
 'New',
 'York',
 'City',
 'before',
 'he',
 'struck',
 'out',
 'on',
 'his',
 'own']

In [13]:
from nltk.corpus import stopwords

In [14]:
stopwords_list = stopwords.words('english')

In [15]:
len(stopwords_list)

179

In [16]:
stopwords_list[0:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [17]:
tokens_without_stopwords = [token for token in tokens if token not in stopwords_list]

In [18]:
tokens_without_stopwords

['He',
 'worked',
 ',',
 'short',
 'time',
 ',',
 'Edison',
 'Machine',
 'Works',
 'New',
 'York',
 'City',
 'struck',
 '.']

### Lematizacija i stemovanje

Nakon filtriranja, tokeni se dalje mogu dalje obrađivati. Na primer, tokeni poput plays, played, playing i playing bi mogli da se dovedu u vezu sa infinitivom glagola play, a tokeni poput apples ili oranges sa imenicama jednine apple i orange. U zavisnosti da li se ovo uvezivanje vrši po lingvističkim pravilima ili primenom heuristika, možemo govoriti o `lematizaciji` ili `stemovanju`.

Porterov stemer je jedan od najpoznatijih stemera za engleski jezik. Njime se dosledno primenjuje niz pravila kako bi se dobio `stem` - veštački koren reči. Na primer, neka pravila su odsecanje ed sufiksa (played->play), zamena sufiksa ational sufiksom ate (relational->relate) ili ization sufiksom ize (organization->organize). Osim ovakvih pravila postoje i pravila koja se zasnivaju na analizi vokala i konsonanata. O njima i samom algorimu se može pročitati više u [zvaničnoj dokumentaciji](https://www.nltk.org/_modules/nltk/stem/porter.html). 

In [19]:
stemmer = nltk.stem.PorterStemmer()

In [20]:
stemmer.stem('played')

'play'

In [21]:
words = ['played', 'playing', 'plays', 'interesting', 'apples', 'books', 'are', 'is']

In [22]:
stems = [stemmer.stem(word) for word in words]

In [23]:
stems

['play', 'play', 'play', 'interest', 'appl', 'book', 'are', 'is']

Neke popularne alternative Porterovom stemeru su SnowballStemmer, LancasterStemmer, RegexpStemmer...

Za razliku od stemovanja, lematizacijom se tokenu pridružuje gramatički koren (takozvana lema). Na primer, glagolu are se pridružuje lema be, a imenici boxes lema box. NLTK paket nudi mogućnost rada sa [WordNet](https://wordnet.princeton.edu/) lematizatorom, manualno kreiranom leksičkom bazom. 

In [24]:
lemmatizer = nltk.stem.WordNetLemmatizer()

In [25]:
lemmatizer.lemmatize('are', pos = 'v')

'be'

In [26]:
lemmatizer.lemmatize('boxes', pos = 'n')

'box'

Uz token, lematizer očekuje i informaciju o vrsti reči (eng. part-of-speach) kao aproksimaciju konteksta u kojem se token nalazi. 

Za automatsko dobijanje vrste reči, mogu se koristiti takozvani POS tager. POS tageri pridružuju tokenima odgovarajuće POS obeležje. To su obično klasifikatori za labeliranje sekvenci trenirani na velikoj kolekciji obeleženog teksta tako da maksimizuju verovatnoće pojavljivanja određenih sekvenci. 

In [27]:
nltk.pos_tag(tokens)

[('He', 'PRP'),
 ('worked', 'VBD'),
 (',', ','),
 ('for', 'IN'),
 ('a', 'DT'),
 ('short', 'JJ'),
 ('time', 'NN'),
 (',', ','),
 ('at', 'IN'),
 ('the', 'DT'),
 ('Edison', 'NNP'),
 ('Machine', 'NNP'),
 ('Works', 'NNP'),
 ('in', 'IN'),
 ('New', 'NNP'),
 ('York', 'NNP'),
 ('City', 'NNP'),
 ('before', 'IN'),
 ('he', 'PRP'),
 ('struck', 'VBD'),
 ('out', 'RP'),
 ('on', 'IN'),
 ('his', 'PRP$'),
 ('own', 'JJ'),
 ('.', '.')]

POS tager podrazumevano koristi takozvani PennTreebank skup tagova. U njemu, na primer, tag NNP označava vlastitu imenicu, NN imenicu, DT član, IN predlog... Detaljan opis ove sheme tagova se može pronaći [ovde](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html). 

Da bi mogli da spojimo POS tager sa lematizacijom, moramo uskladiti tagove koji se pridružuju tokenima. WordNet lematizator koristi svoj skromniji skup tagova  ("a", "s", "r", "n", "v" redom sa znacenjima ADJ, ADJ_SAT, ADV, NOUN, VERB).

In [28]:
from nltk.corpus import wordnet


def get_wordnet_pos(word):
    # uparujemo tagove
    tag_dict = {"J": wordnet.ADJ,
                "S": wordnet.ADJ_SAT,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    # izdvajamo prvi karakter taga koji bi pridruzio POS tager
    tag = nltk.pos_tag([word])[0][1][0].upper()

    # mapiramo ga u odgovarajuci WordNet tag ili postavljamo podrazumevano obelezje imenice
    return tag_dict.get(tag, wordnet.NOUN)

In [29]:
lemmatized_tokens = []
for token in tokens: 
    postag = get_wordnet_pos(token)
    lemmatized_tokens.append(lemmatizer.lemmatize(token, postag))
lemmatized_tokens

['He',
 'work',
 ',',
 'for',
 'a',
 'short',
 'time',
 ',',
 'at',
 'the',
 'Edison',
 'Machine',
 'Works',
 'in',
 'New',
 'York',
 'City',
 'before',
 'he',
 'struck',
 'out',
 'on',
 'his',
 'own',
 '.']

Da li ćemo iskoristiti lematizaciju ili stemovanje zavisi od prirode zadatka koji rešavamo, kao i resura kojima raspolažemo. Lematizacija zahteva postojanje leksičke baze nalik WordNetu i njeno korišćenje može da uspori program, dok steming daje nešto nepreciznije rezultate ali brže. 

Lematizacija i stemovanje se ubrajaju u zadatke `normalizacije` teksta tj. reči. U zavisnosti od tipa tekstualnog sadržaja mogu postojati potrebe i za drugim vrstama normalizacije. Na primer, jezik na društvenim mrežama je često vrlo specifičan, obiluje mnoštvom skraćenica i reči koje odstupaju od standardnog pravopisa. Tako se recimo skraćenica u2 se svodi na 'you too', skraćenica tmrw na 'tomorrow', a cooool na 'cool'. 

Prethodno opisani postupci nam omogućavaju da kreiramo vokabular tj. skup svih reči koji se nalazi u nekom tekstu ili kolekciji tekstova (korpusu). Nad vokabularom dalje kreiramo atribute potrebne za rad primenu algoritama mašinskog učenja. 