Тестуємо матеріал статті [Python Packages for NLP-Part 1. Polyglot- Python package for NLP… | by Himanshu Sharma | Towards Data Science](https://towardsdatascience.com/python-packages-for-nlp-part-1-2d49126749ef)

## Встановлюємо Polyglot та інші необхідні бібліотеки

> **На жаль, на локальному комп'ютері під Windows не вийшло все так прямолінійно, як хотілось - багато бінарних файлів в бібліотеках або не скомпільовані або скомпільовані під інші версії, що створює помилки і завдає багато зайвого клопоту, щоб налаштовувати все вручну!** 
> **Здається, що під ОС Linux все має встановлюватись без проблем. Треба перевірити.**

Для цієї статті ми використали *Google Colab*. Код нижче встановлюємо *polyglot* та інші необхідні бібліотеки. Встанавлення пройшло гладко.

In [1]:
!pip3 install polyglot
!pip3 install pyicu
!pip3 install pycld2
!pip3 install morfessor

Collecting polyglot
  Downloading polyglot-16.7.4.tar.gz (126 kB)
[?25l[K     |██▋                             | 10 kB 23.6 MB/s eta 0:00:01[K     |█████▏                          | 20 kB 26.6 MB/s eta 0:00:01[K     |███████▉                        | 30 kB 30.1 MB/s eta 0:00:01[K     |██████████▍                     | 40 kB 31.8 MB/s eta 0:00:01[K     |█████████████                   | 51 kB 34.3 MB/s eta 0:00:01[K     |███████████████▋                | 61 kB 35.3 MB/s eta 0:00:01[K     |██████████████████▏             | 71 kB 29.1 MB/s eta 0:00:01[K     |████████████████████▊           | 81 kB 29.7 MB/s eta 0:00:01[K     |███████████████████████▍        | 92 kB 30.6 MB/s eta 0:00:01[K     |██████████████████████████      | 102 kB 30.5 MB/s eta 0:00:01[K     |████████████████████████████▌   | 112 kB 30.5 MB/s eta 0:00:01[K     |███████████████████████████████▏| 122 kB 30.5 MB/s eta 0:00:01[K     |████████████████████████████████| 126 kB 30.5 MB/s 
[?25hBuild

Після встановлення бібліотек вище також потрібно встановити деякі функції поліглоту, що використовуватимуться у цій статті.

In [14]:
!polyglot download embeddings2.en
!polyglot download pos2.en
!polyglot download ner2.en
!polyglot download morph2.en
!polyglot download sentiment2.en
!polyglot download transliteration2.hi

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package embeddings2.en is already up-to-date!
[polyglot_data] Downloading package pos2.en to /root/polyglot_data...
[polyglot_data]   Package pos2.en is already up-to-date!
[polyglot_data] Downloading package ner2.en to /root/polyglot_data...
[polyglot_data]   Package ner2.en is already up-to-date!
[polyglot_data] Downloading package morph2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package morph2.en is already up-to-date!
[polyglot_data] Downloading package sentiment2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package sentiment2.en is already up-to-date!
[polyglot_data] Downloading package transliteration2.hi to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package transliteration2.hi is already up-to-date!


Також встановимо модуль української транслітерації

In [15]:
!polyglot download transliteration2.uk

[polyglot_data] Downloading package transliteration2.uk to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package transliteration2.uk is already up-to-date!


In [3]:
import polyglot
from polyglot.detect import Detector
from polyglot.text import Text, Word
from polyglot.mapping import Embedding
from polyglot.transliteration import Transliterator

## Виконання операцій ОПМ (NLP)

Давайте почнемо з вивчення деяких функціональних можливостей обробки природних мов (ОПМ, *англ* natural language processing NLP), що надає *polyglot*. Але перед тим введемо деякі зразки даних, над якими будемо працювати.

In [4]:
sample_text = '''Piyush is an Aspiring Data Scientist and is working hard to get there. He stood Kaggle grandmaster 4 year consistently. His goal is to work for Google.'''

### Language Detection

Polyglot’s language detector can easily identify the language in which the text is written.

In [5]:
#Language detection
detector = Detector(sample_text)
print(detector.language)

name: English     code: en       confidence:  99.0 read bytes:   940


### Sentences and Words

In order to extract the sentences or words from the text/corpus, we can use polyglot functions.

In [6]:
#Tokenize
text = Text(sample_text)
text.words

WordList(['Piyush', 'is', 'an', 'Aspiring', 'Data', 'Scientist', 'and', 'is', 'working', 'hard', 'to', 'get', 'there', '.', 'He', 'stood', 'Kaggle', 'grandmaster', '4', 'year', 'consistently', '.', 'His', 'goal', 'is', 'to', 'work', 'for', 'Google', '.'])

In [7]:
text.sentences

[Sentence("Piyush is an Aspiring Data Scientist and is working hard to get there."),
 Sentence("He stood Kaggle grandmaster 4 year consistently."),
 Sentence("His goal is to work for Google.")]

### POS Tagging

Part of speech tagging is an important NLP operation that helps us in understanding the text and their tagging.

In [8]:
#POS tagging
text.pos_tags

[('Piyush', 'NOUN'),
 ('is', 'VERB'),
 ('an', 'DET'),
 ('Aspiring', 'ADJ'),
 ('Data', 'PROPN'),
 ('Scientist', 'NOUN'),
 ('and', 'CONJ'),
 ('is', 'VERB'),
 ('working', 'VERB'),
 ('hard', 'ADJ'),
 ('to', 'PART'),
 ('get', 'VERB'),
 ('there', 'ADV'),
 ('.', 'PUNCT'),
 ('He', 'PRON'),
 ('stood', 'VERB'),
 ('Kaggle', 'NUM'),
 ('grandmaster', 'NOUN'),
 ('4', 'NUM'),
 ('year', 'NOUN'),
 ('consistently', 'ADV'),
 ('.', 'PUNCT'),
 ('His', 'PRON'),
 ('goal', 'NOUN'),
 ('is', 'VERB'),
 ('to', 'PART'),
 ('work', 'VERB'),
 ('for', 'ADP'),
 ('Google', 'NOUN'),
 ('.', 'PUNCT')]

### Named Entity Recognition

NER is used to identify the person, organization, and location if any in the corpus/text dataset.

In [9]:
#Named entity extraction
text.entities

[I-ORG(['Google'])]

### Morphological Analysis

In [10]:
#Morphological Analysis
words = ["programming", "parallel", "inevitable", "handsome"]
for w in words:
     w = Word(w, language="en")
     print(w, w.morphemes)

programming ['program', 'ming']
parallel ['parallel']
inevitable ['ine', 'vi', 'table']
handsome ['hand', 'some']


 ### Sentiment Analysis

We can analyze the sentiment of a sentence.

In [11]:
#Sentiment analysis
text = Text("Himanshu is a good programmer.")
for w in text.words:
   print(w, w.polarity)

Himanshu 0
is 0
a 0
good 1
programmer 0
. 0


### Transliteration

We can transliterate text into different languages.

In [18]:
#Transliteration
transliterator = Transliterator(source_lang="uk", target_lang="en")
new_text = ""
for i in "Всім привіт і до побачення !".split():
  new_text = new_text + " " + transliterator.transliterate(i)
new_text

' vsim privit i do pobachenna '