*Polyglot* - це безкоштовне програмне забезпечення: ліцензія GPLv3, споряджене
документацією: http://polyglot.readthedocs.org, що призначене для обробки природної мови (ОПМ, *англ* natural language processing NLP).

*Polyglot* підтримує багато мов:

- Токенізація (165 мов)
- Виявлення мови (196 мов)
- Розпізнавання іменованої особи (40 мов)
- Частина позначення мовлення (16 мов)
- Аналіз настроїв (136 мов)
- Вбудовування слів (137 мов)
- Морфологічний аналіз (135 мов)
- Транслітерація (69 мов)

У кожному з представлених функціоналів наявна українська мова!

Матеріал цієї статті базується на оригінальній статті [Python Packages for NLP-Part 1 | by Himanshu Sharma | Towards Data Science](https://towardsdatascience.com/python-packages-for-nlp-part-1-2d49126749ef)

## Встановлюємо Polyglot та інші необхідні бібліотеки

> На жаль, на локальному комп'ютері під Windows не вийшло все так прямолінійно, як хотілось - багато бінарних файлів в бібліотеках або не скомпільовані або скомпільовані під інші версії, що створює помилки і завдає багато зайвого клопоту, щоб налаштовувати все вручну!
>
> Здається, що під ОС Linux все має встановлюватись без проблем. Але це треба перевірити.

Для цієї статті ми використали *Google Colab*. Код нижче встановлюємо *polyglot* та інші необхідні бібліотеки. Встанавлення пройшло гладко.

In [1]:
!pip3 install polyglot
!pip3 install pyicu
!pip3 install pycld2
!pip3 install morfessor

Collecting polyglot
  Downloading polyglot-16.7.4.tar.gz (126 kB)
[K     |████████████████████████████████| 126 kB 7.1 MB/s eta 0:00:01
[?25hBuilding wheels for collected packages: polyglot
  Building wheel for polyglot (setup.py) ... [?25l[?25hdone
  Created wheel for polyglot: filename=polyglot-16.7.4-py2.py3-none-any.whl size=52578 sha256=8ac146875e2abf73dad5309c12fa3f781cb90c8e047b0dc501c7643de3a72cec
  Stored in directory: /root/.cache/pip/wheels/09/bc/67/75c9de8e9726460bc0b101ad225ad025cb8ce9e0759beb9d52
Successfully built polyglot
Installing collected packages: polyglot
Successfully installed polyglot-16.7.4
Collecting pyicu
  Downloading PyICU-2.7.4.tar.gz (298 kB)
[K     |████████████████████████████████| 298 kB 7.5 MB/s 
[?25hBuilding wheels for collected packages: pyicu
  Building wheel for pyicu (setup.py) ... [?25l[?25hdone
  Created wheel for pyicu: filename=PyICU-2.7.4-cp37-cp37m-linux_x86_64.whl size=1374735 sha256=322231159ffd92a39d3aee103065045bebff3fb8381d042

Після встановлення бібліотек вище також потрібно встановити деякі функції поліглоту, що використовуватимуться у цій статті.

In [2]:
!polyglot download embeddings2.en
!polyglot download pos2.en
!polyglot download ner2.en
!polyglot download morph2.en
!polyglot download sentiment2.en
!polyglot download transliteration2.hi

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data] Downloading package pos2.en to /root/polyglot_data...
[polyglot_data] Downloading package ner2.en to /root/polyglot_data...
[polyglot_data] Downloading package morph2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data] Downloading package sentiment2.en to
[polyglot_data]     /root/polyglot_data...
[polyglot_data] Downloading package transliteration2.hi to
[polyglot_data]     /root/polyglot_data...


Також встановимо модуль української транслітерації

In [3]:
!polyglot download transliteration2.uk

[polyglot_data] Downloading package transliteration2.uk to
[polyglot_data]     /root/polyglot_data...


In [6]:
import polyglot
from polyglot.detect import Detector
from polyglot.text import Text, Word
from polyglot.mapping import Embedding
from polyglot.transliteration import Transliterator

## Виконання операцій ОПМ

Давайте почнемо з вивчення деяких функціональних можливостей ОПМ, що надає *polyglot*. Але перед тим введемо деякі зразки даних, над якими будемо працювати.

In [4]:
sample_text = '''Piyush is an Aspiring Data Scientist and is working hard to get there. He stood Kaggle grandmaster 4 year consistently. His goal is to work for Google.'''
sample_text_ukr = '''Мовлення як вид людської діяльності завжди зорієнтоване на виконання певного комунікативного завдання. Висловлюючи думки і почуття, людина ставить конкретну мету — щось повідомити, про щось переконати тощо. Існує багато визначень тексту.'''

### Виявлення мови

Детектор мови в *polyglot* може легко ідентифікувати мову, на якій написаний текст.

In [7]:
#Language detection
detector = Detector(sample_text)
print(detector.language)
detector = Detector(sample_text_ukr)
print(detector.language)

name: English     code: en       confidence:  99.0 read bytes:   940
name: Ukrainian   code: uk       confidence:  99.0 read bytes:   971


### Речення та слова

Для того, щоб витягнути речення або слова з тексту/корпусу, ми можемо використовувати функції *polyglot*.

In [8]:
#Tokenize
text = Text(sample_text)
text.words

WordList(['Piyush', 'is', 'an', 'Aspiring', 'Data', 'Scientist', 'and', 'is', 'working', 'hard', 'to', 'get', 'there', '.', 'He', 'stood', 'Kaggle', 'grandmaster', '4', 'year', 'consistently', '.', 'His', 'goal', 'is', 'to', 'work', 'for', 'Google', '.'])

In [9]:
text.sentences

[Sentence("Piyush is an Aspiring Data Scientist and is working hard to get there."),
 Sentence("He stood Kaggle grandmaster 4 year consistently."),
 Sentence("His goal is to work for Google.")]

### Відмічання частин мови

Відмічання (*англ.* tagging) частин мови (*англ.* part of speech, PoS) є важливою операцією ОПМ, що допомагає нам зрозуміти текст та його позначення тегами.

In [None]:
#POS tagging
text.pos_tags

[('Piyush', 'NOUN'),
 ('is', 'VERB'),
 ('an', 'DET'),
 ('Aspiring', 'ADJ'),
 ('Data', 'PROPN'),
 ('Scientist', 'NOUN'),
 ('and', 'CONJ'),
 ('is', 'VERB'),
 ('working', 'VERB'),
 ('hard', 'ADJ'),
 ('to', 'PART'),
 ('get', 'VERB'),
 ('there', 'ADV'),
 ('.', 'PUNCT'),
 ('He', 'PRON'),
 ('stood', 'VERB'),
 ('Kaggle', 'NUM'),
 ('grandmaster', 'NOUN'),
 ('4', 'NUM'),
 ('year', 'NOUN'),
 ('consistently', 'ADV'),
 ('.', 'PUNCT'),
 ('His', 'PRON'),
 ('goal', 'NOUN'),
 ('is', 'VERB'),
 ('to', 'PART'),
 ('work', 'VERB'),
 ('for', 'ADP'),
 ('Google', 'NOUN'),
 ('.', 'PUNCT')]

### Розпізнавання іменованої особи/об'єкта

Розпізнавання іменованої особи (*англ.* Named Entity Recognition, або NER) використовується для ідентифікації особи, організації та місцезнаходження, якщо такі є у наборі даних корпусу/тексту.

In [10]:
#Named entity extraction
text.entities

[I-ORG(['Google'])]

### Морфологічний аналіз

In [11]:
# Morphological Analysis
words = ["programming", "parallel", "inevitable", "handsome"]
for w in words:
     w = Word(w, language="en")
     print(w, w.morphemes)

programming ['program', 'ming']
parallel ['parallel']
inevitable ['ine', 'vi', 'table']
handsome ['hand', 'some']


 ### Аналіз настроїв

Ми можемо проаналізувати настрій речення.

In [None]:
#Sentiment analysis
text = Text("Himanshu is a good programmer.")
for w in text.words:
   print(w, w.polarity)

Himanshu 0
is 0
a 0
good 1
programmer 0
. 0


### Транслітерація

Ми можемо транслітерувати текст між різними мовами.

In [None]:
#Transliteration
transliterator = Transliterator(source_lang="uk", target_lang="en")
new_text = ""
for i in "Всім привіт і до побачення !".split():
  new_text = new_text + " " + transliterator.transliterate(i)
new_text

' vsim privit i do pobachenna '