## Активирање на библиотеката

multiprocessing:
Чекори за создавање на процеси:
1. Дефинирање на објектниот процес
2. Повикување на методот start() на процесот за да се извршува.
3. Повикување на методот join() на процесот. Чека додека процесот не ја заврши работата, а потоа прекинува

In [5]:
import multiprocessing
import random
import time

In [6]:
def myFunc():
    print('calling myFunc from process n: %s' % i)
    for j in range(0, i):
        print('output from myFunc is: %s' % j)

In [8]:
for i in range(6):
    process = multiprocessing.Process(target=myFunc(), args=(i,))
    process.start()
    process.join()

calling myFunc from process n: 0
calling myFunc from process n: 1
output from myFunc is: 0
calling myFunc from process n: 2
output from myFunc is: 0
output from myFunc is: 1
calling myFunc from process n: 3
output from myFunc is: 0
output from myFunc is: 1
output from myFunc is: 2
calling myFunc from process n: 4
output from myFunc is: 0
output from myFunc is: 1
output from myFunc is: 2
output from myFunc is: 3
calling myFunc from process n: 5
output from myFunc is: 0
output from myFunc is: 1
output from myFunc is: 2
output from myFunc is: 3
output from myFunc is: 4


## Пример за користење редица за синхронизација (почеток)

In [21]:
class Producer(multiprocessing.Process):
    def __init__(self, queue):
        multiprocessing.Process.__init__(self)
        self.queue = queue

    def run(self):
        for i in range(10):
            item = random.randint(0, 256)
            self.queue.put(item)
            print("Process Producer: item %d appended to queue %s" % (item, self.name))
            time.sleep(1)
            print("The size of queue is %s" % self.queue.qsize())

In [22]:
class Consumer(multiprocessing.Process):
    def __init__(self, queue):
        multiprocessing.Process.__init__(self)
        self.queue = queue

    def run(self):
        while True:
            if self.queue.empty():
                print("the queue is empty")
                break
            else:
                time.sleep(2)
                item = self.queue.get()
                print('Process Consumer: item %d popped from by %s \n' % (item, self.name))
                time.sleep(1)

In [23]:
queue = multiprocessing.Queue()
process_producer = Producer(queue)
process_consumer = Consumer(queue)
process_producer.start()
process_consumer.start()
process_producer.join()
process_consumer.join()

## Базен на процеси (Process Pool)

### Се базира на дистрибуција на податоците преку различни процеси кои паралелно работат на податоците

apply() - Блокира додека не е подготвен резултатот
apply_sync() - Враќа резултат објект, не заклучува главна нишка додека не се извршат сите деца класи
map() - Блокира додека не е подготвен резултат и ги исекува податоците што се повторуваат во голем број парчиња кои се поднесуваат во процесниот фонд како посебни задачи. 
map_async() - Ако е одреден повратен повик, тогаш треба да се повика, што прифаќа еден аргумент. Кога резултат ќе биде подготвен на него се применува повратен повик (освен ако повикот не успее). Повикот треба да се изврши веднаш, во спротивно нишката што се справува со резултатите ќе биде блокирана

# NLTK Токенизација

NLTK има модук tokenize со два методи:
1. word_tokenize() - делење реченици на зборови
2. sent_tokenize() - делење голем текст на реченици

## Едноставен пример на токенизација

In [24]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

text = "I am so lucky! I won a lottery."
word_tokenization_result = word_tokenize(text)
sentence_tokenization_result = sent_tokenize(text)

In [25]:
print(word_tokenization_result)

['I', 'am', 'so', 'lucky', '!', 'I', 'won', 'a', 'lottery', '.']


In [26]:
print(sentence_tokenization_result)

['I am so lucky!', 'I won a lottery.']


# Токенизација со тагирање (познати тагови)

Целта е да се изврши токенизација на текст со додавање на POS (Part-Of-Speech) обележување (tagging) на добиените токени. (Поделба на именки, глаголи, прилози)

In [27]:
import nltk
import time

nltk.download('gutenberg')
nltk.download('averaged_perceptron_tagger')

corpus = {f_id: nltk.corpus.gutenberg.raw(f_id)
          for f_id in nltk.corpus.gutenberg.fileids()}

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\dimit\AppData\Roaming\nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\dimit\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [29]:
tokens = {}
start_time = time.time()
for f_id, doc in corpus.items():
    tokens[f_id] = nltk.pos_tag(nltk.word_tokenize(doc))
end_time = time.time()

print("Time:", end_time - start_time)

Time: 102.9447078704834


In [31]:
tokens

{'austen-emma.txt': [('[', 'NNS'),
  ('Emma', 'NNP'),
  ('by', 'IN'),
  ('Jane', 'NNP'),
  ('Austen', 'NNP'),
  ('1816', 'CD'),
  (']', 'NNP'),
  ('VOLUME', 'NNP'),
  ('I', 'PRP'),
  ('CHAPTER', 'VBP'),
  ('I', 'PRP'),
  ('Emma', 'NNP'),
  ('Woodhouse', 'NNP'),
  (',', ','),
  ('handsome', 'NN'),
  (',', ','),
  ('clever', 'NN'),
  (',', ','),
  ('and', 'CC'),
  ('rich', 'JJ'),
  (',', ','),
  ('with', 'IN'),
  ('a', 'DT'),
  ('comfortable', 'JJ'),
  ('home', 'NN'),
  ('and', 'CC'),
  ('happy', 'JJ'),
  ('disposition', 'NN'),
  (',', ','),
  ('seemed', 'VBD'),
  ('to', 'TO'),
  ('unite', 'VB'),
  ('some', 'DT'),
  ('of', 'IN'),
  ('the', 'DT'),
  ('best', 'JJS'),
  ('blessings', 'NNS'),
  ('of', 'IN'),
  ('existence', 'NN'),
  (';', ':'),
  ('and', 'CC'),
  ('had', 'VBD'),
  ('lived', 'VBN'),
  ('nearly', 'RB'),
  ('twenty-one', 'CD'),
  ('years', 'NNS'),
  ('in', 'IN'),
  ('the', 'DT'),
  ('world', 'NN'),
  ('with', 'IN'),
  ('very', 'RB'),
  ('little', 'JJ'),
  ('to', 'TO'),
  ('dist

# Примери за токенизација со класата Pool

In [None]:
import multiprocessing as mp
import time

import nltk

nltk.download('gutenberg')
nltk.download('averaged_perceptron_tagger')

corpus = {f_id: nltk.corpus.gutenberg.raw(f_id)
          for f_id in nltk.corpus.gutenberg.fileids()}


# За секој од документите се активира функцијата за токенизација:
def tokenize_and_pos_tag(pair):
    f_id, doc = pair
    return f_id, nltk.pos_tag(nltk.word_tokenize(doc))


# Потоа се импортира мултипроцесирањето
# if __name__ == '__main__':
# automatically uses mp.cpu_count() as number of workers
# mp.cpu_count() is 4 -> use 4 jobs
start_time = time.time()
with mp.Pool() as pool:
    tokens = pool.map(tokenize_and_pos_tag, corpus.items())
end_time = time.time()
print(end_time - start_time)