# Vietnamese Language Processing Pipeline

In this notebook, we will learn how to use Vietnamese NLP Tools to do NLP Pipeline including:

- Sentence Segmentation
- Tokenization
- POS Tagging
- Named-Entity Recognition

We will use [underthesea](https://github.com/undertheseanlp/underthesea) for Vietnamese NLP Pipeline.

## Running example


In [None]:
text = ("Vì vậy, Văn phòng Chính phủ đã báo cáo Thủ tướng cần phải thực hiện các biện pháp phòng chống dịch cao hơn khuyến cáo của WHO. "
        "Chiều mùng 3 Tết, Thủ tướng chủ trì họp, đưa ra thông điệp chống dịch bệnh. Công điện số 05 của Thủ tướng ban hành ngày 28/1/2020, "
        "tức mùng 4 Tết Nguyên đán Canh Tý đã nêu nhiều biện pháp quyết liệt, như tạm thời ngừng cấp phép các chuyến bay từ Việt Nam đến "
        "các vùng có dịch của Trung Quốc và ngược lại; phòng chống dịch cho các hành khách trên các phương tiện vận tải; giao "
        "Bộ Y tế hoàn thành kịch bản ứng phó với dịch bệnh, đảm bảo thuốc, trang thiết bị y tế...")

## Underthesea

[Underthesea](https://github.com/undertheseanlp/underthesea) is an open-source NLP Tool for Vietnamese. Underthesea can be used to perform NLP tasks in NLP pipeline. We can use that tool to do text classification as well.

In [None]:
!pip install -q underthesea

[K     |████████████████████████████████| 11.0 MB 14.4 MB/s 
[K     |████████████████████████████████| 591 kB 71.2 MB/s 
[K     |████████████████████████████████| 1.0 MB 69.4 MB/s 
[?25h

### Sentence tokenization

In [None]:
from underthesea import sent_tokenize

sent_tokenize(text)

['Vì vậy, Văn phòng Chính phủ đã báo cáo Thủ tướng cần phải thực hiện các biện pháp phòng chống dịch cao hơn khuyến cáo của WHO.',
 'Chiều mùng 3 Tết, Thủ tướng chủ trì họp, đưa ra thông điệp chống dịch bệnh.',
 'Công điện số 05 của Thủ tướng ban hành ngày 28/1/2020, tức mùng 4 Tết Nguyên đán Canh Tý đã nêu nhiều biện pháp quyết liệt, như tạm thời ngừng cấp phép các chuyến bay từ Việt Nam đến các vùng có dịch của Trung Quốc và ngược lại; phòng chống dịch cho các hành khách trên các phương tiện vận tải; giao Bộ Y tế hoàn thành kịch bản ứng phó với dịch bệnh, đảm bảo thuốc, trang thiết bị y tế...']

### Text normalization

In [None]:
from underthesea import text_normalize
text_normalize('Ðảm baỏ chất lựơng phòng thí nghịêm hoá học')

'Đảm bảo chất lượng phòng thí nghiệm hóa học'

### Word Tokenization

In [None]:
from underthesea import word_tokenize

sentence = 'Vì vậy, Văn phòng Chính phủ đã báo cáo Thủ tướng cần phải thực hiện các biện pháp phòng chống dịch cao hơn khuyến cáo của WHO.'
word_tokenize(sentence)

['Vì vậy',
 ',',
 'Văn phòng',
 'Chính phủ',
 'đã',
 'báo cáo',
 'Thủ tướng',
 'cần',
 'phải',
 'thực hiện',
 'các',
 'biện pháp',
 'phòng chống',
 'dịch',
 'cao',
 'hơn',
 'khuyến cáo',
 'của',
 'WHO',
 '.']

In [None]:
word_tokenize(sentence, format="text")

'Vì_vậy , Văn_phòng Chính_phủ đã báo_cáo Thủ_tướng cần phải thực_hiện các biện_pháp phòng_chống dịch cao hơn khuyến_cáo của WHO .'

### POS Tagging

In [None]:
from underthesea import pos_tag
pos_tag(sentence)

[('Vì vậy', 'C'),
 (',', 'CH'),
 ('Văn phòng', 'N'),
 ('Chính phủ', 'N'),
 ('đã', 'R'),
 ('báo cáo', 'V'),
 ('Thủ tướng', 'N'),
 ('cần', 'V'),
 ('phải', 'V'),
 ('thực hiện', 'V'),
 ('các', 'L'),
 ('biện pháp', 'N'),
 ('phòng chống', 'V'),
 ('dịch', 'N'),
 ('cao', 'A'),
 ('hơn', 'A'),
 ('khuyến cáo', 'N'),
 ('của', 'E'),
 ('WHO', 'Np'),
 ('.', 'CH')]

### Chunking

In [None]:
from underthesea import chunk
chunk(sentence)

[('Vì vậy', 'C', 'O'),
 (',', 'CH', 'O'),
 ('Văn phòng', 'N', 'B-NP'),
 ('Chính phủ', 'N', 'B-NP'),
 ('đã', 'R', 'O'),
 ('báo cáo', 'V', 'B-VP'),
 ('Thủ tướng', 'N', 'B-NP'),
 ('cần', 'V', 'B-VP'),
 ('phải', 'V', 'B-VP'),
 ('thực hiện', 'V', 'B-VP'),
 ('các', 'L', 'B-NP'),
 ('biện pháp', 'N', 'B-NP'),
 ('phòng chống', 'V', 'B-VP'),
 ('dịch', 'N', 'B-NP'),
 ('cao', 'A', 'B-AP'),
 ('hơn', 'A', 'B-AP'),
 ('khuyến cáo', 'N', 'B-NP'),
 ('của', 'E', 'B-PP'),
 ('WHO', 'Np', 'B-NP'),
 ('.', 'CH', 'O')]

### Dependency Parsing

In [None]:
!pip install -q underthesea[deep]

In [None]:
from underthesea import dependency_parse

sentence = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
dependency_parse(sentence)



[('Tối', 5, 'obl:tmod'),
 ('29/11', 1, 'compound'),
 (',', 4, 'punct'),
 ('Việt Nam', 5, 'nsubj'),
 ('thêm', 0, 'root'),
 ('2', 7, 'nummod'),
 ('ca', 5, 'obj'),
 ('mắc', 5, 'obj'),
 ('Covid-19', 5, 'punct')]

### Named-Entity Recognition

In [None]:
from underthesea import ner
text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
ner(text)

[('Chưa', 'R', 'O', 'O'),
 ('tiết lộ', 'V', 'B-VP', 'O'),
 ('lịch trình', 'V', 'B-VP', 'O'),
 ('tới', 'E', 'B-PP', 'O'),
 ('Việt Nam', 'Np', 'B-NP', 'B-LOC'),
 ('của', 'E', 'B-PP', 'O'),
 ('Tổng thống', 'N', 'B-NP', 'B-LOC'),
 ('Mỹ Donald Trump', 'Np', 'B-NP', 'I-LOC')]

## Other NLP Toolkits

- [VnCoreNLP](https://github.com/vncorenlp/VnCoreNLP) (Java)
- [UETnlp](https://github.com/phongnt570/UETnlp) (Java)
- [trankit](https://github.com/nlp-uoregon/trankit)
- [pyvi](https://github.com/trungtv/pyvi)
- [PhoNLP](https://github.com/VinAIResearch/PhoNLP)

## Other NLP tasks in Vietnamese



### Spelling & Grammar Error Correction

Correct sentences with spelling and grammar errors such as "Cô ấy rất sinh đẹp."

### Diacritics Restoration

Restore diactritics in Vietnamese sentences. For instance
"truong dai hoc khoa hoc va cong nghe hien dang la co so dao tao cntt hang dau viet nam."