# Пример 1

## Токенизација

In [5]:
import nltk
from nltk.tokenize import word_tokenize

In [7]:
s = "Ви посакувам успешен ден!"
word_tokenize(s)

['Ви', 'посакувам', 'успешен', 'ден', '!']

In [8]:
s.split(" ")

['Ви', 'посакувам', 'успешен', 'ден!']

# Пример 2

## Препознавање на сопствените именки за англискиот јазик

In [12]:
import nltk
from nltk import ne_chunk
from nltk.tokenize import word_tokenize

In [19]:
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\dimit\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\dimit\AppData\Roaming\nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\dimit\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.


True

In [26]:
s = "Mark is studying at Stanford University in California"

In [27]:
print(ne_chunk(nltk.pos_tag(word_tokenize(s)), binary=False))

(S
  (PERSON Mark/NNP)
  is/VBZ
  studying/VBG
  at/IN
  (ORGANIZATION Stanford/NNP University/NNP)
  in/IN
  (GPE California/NNP))


## Препознавање на сопствените именки за македонскиот јазик

In [28]:
s = "Марко студира на ФИНКИ во Скопје"

In [29]:
print(ne_chunk(nltk.pos_tag(word_tokenize(s)), binary=False))

(S (PERSON Марко/JJ) студира/NNP на/NNP ФИНКИ/NNP во/NNP Скопје/NN)


Не зависат од јазикот што се обработува:
1. Токенизација
2. Препознавање на сопствените именки (NER)
3. Морфолошка сегментација
4. Порамнување реченици од двојазичен превод
5. Препознавање говор

Зависат од јазикот што се обработува:
1. WordNet
2. Класификација на текстови
3. Парсирање
4. Тагирање
5. Стемирање и Лематизација
6. Одговарање прашања

## Паралелизација со помош на проток (Pipeline)

In [36]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
import numpy as np

corpus = ['this is the first document.',
          'this is the second document.',
          'third document document number three',
          'number four to repeat number four']
vocabulary = ['this', 'is', 'first', 'second', 'third', 'repeat', 'document', 'number', 'to', ' four', 'the']

In [37]:
pipe = Pipeline([
    ('count', CountVectorizer(vocabulary=vocabulary)),
    ('tfid', TfidfTransformer())
]).fit(corpus)

In [38]:
pipe['count'].transform(corpus).toarray()

array([[1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1],
       [1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 2, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 2, 1, 0, 0]], dtype=int64)

In [39]:
pipe['tfid'].idf_

array([1.51082562, 1.51082562, 1.91629073, 1.91629073, 1.91629073,
       1.91629073, 1.22314355, 1.51082562, 1.91629073, 2.60943791,
       1.51082562])

In [40]:
pipe.transform(corpus).shape

(4, 11)

https://github.com/ParthasarathySubburaj/Medium_Blogs/tree/master/Multiprocessing_and_Multithreading_in_Python