In [None]:
# Download underthesea Open-source Vietnamese Natural Language Process Toolkit: https://github.com/undertheseanlp/underthesea
!pip install underthesea
# Auto print ExecuteTime 
!pip install ipython-autotime
%load_ext autotime

In [None]:
import re                                               # library for regular expression operations
from nlp_utils import *                                 # library for standardlize VNM, download from https://gist.github.com/nguyenvanhieuvn/72ccf3ddf7d179b281fdae6c0b84942b
from underthesea import word_tokenize, sent_tokenize    # library for VNM word tokenization

time: 1.55 ms (started: 2021-10-20 16:26:37 +00:00)


In [None]:
# Import the Vietnamese stopwords file, download from: https://github.com/stopwords/vietnamese-stopwords 
f = open('vietnamese-stopwords.txt', 'r')
vnm_stopwords = f.read().splitlines()
f.close()

# Get punctuations sring from NLTK
punctuations = """!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~…“”–"""

time: 3.1 ms (started: 2021-10-20 16:26:38 +00:00)


In [None]:
class VnmPreprocessing():
  def __init__(self):
    pass

  def preprocess2sent(self, input):
    text = self.replace_num(input)
    text = self.standardize_unicode(text)
    text = self.standardize_marks(text)
    text = self.lowercasing(text)

    sent_list = sent_tokenize(text)

    return sent_list

  def preprocess2word(self, input):
    text = self.replace_num(input)
    text = self.standardize_unicode(text)
    text = self.standardize_marks(text)

    tokens = word_tokenize(text)
    tokens_clean = self.lower_rm_stopword_punct(tokens)

    return tokens_clean

  def replace_num(self, text):
    newtext = text

    # remove date time ?
    newtext = re.sub(r'\d+[/-]\d+([/-]\d+)*', ' date', newtext)
    newtext = re.sub(r'\d+[:]\d+([:]\d+)*', ' time', newtext)

    # remove currency ?
    # newtext = re.sub(r'\d+([.,]\d+)*$', ' dollar', newtext)
    # newtext = re.sub(r'$\d+([.,]\d+)*', ' dollar', newtext)

    # remove simple int number, float number may be following space or "(" like "(12.122.122)"
    newtext = re.sub(r'-?\d+([.,]\d+)*', ' num', newtext)
    return newtext

  def standardize_unicode(self, text):
    std_uni_text = convert_unicode(text)
    return std_uni_text

  def standardize_marks(self, text):
    std_marks_text = chuan_hoa_dau_cau_tieng_viet(text)
    return std_marks_text

  def lowercasing(self, text):
    text1 = text
    return text1.lower()
    
  def lower_rm_stopword_punct(self, tokens):
    tokens_clean = []

    for word in tokens:                         # Go through every word in your tokens list
        word = word.lower()                     # Lowercasing
        if (word not in vnm_stopwords and       # remove stopwords
            word not in punctuations):          # remove punctuation
            tokens_clean.append(word)
    return tokens_clean


time: 37.3 ms (started: 2021-10-20 16:26:38 +00:00)


In [None]:
text = """Ngày 12 12:12:134342 12/12 12/12/12 $12131 12313$ 12.12.12 12,12,12 Cục hàng không: Mở cửa đường bay là cần thiết và an toàn. Lãnh đạo Cục Hàng không Việt Nam đề nghị "các địa phương căn cứ vào tình hình thực tiễn để từng bước nối lại đường bay nội địa". Tại cuộc tọa đàm với các chuyên gia sáng 8/10, ông Võ Huy Cường - Cục phó Hàng không Việt Nam, nói việc mở cửa hàng không "đang là đòi hỏi bức thiết của xã hội".
"Đóng cửa rất dễ, nhưng việc này sẽ gây nhiều khó khăn cho cả địa phương, sân bay và kinh tế chung của đất nước", ông nói và cho rằng các địa phương cần chủ động đề ra biện pháp mở cửa trở lại, tạo hành lang an toàn để người dân, doanh nghiệp đi lại và tham gia các hoạt động kinh tế - xã hội.
Trong quá trình mở cửa, ngành hàng không "không thể làm thay các địa phương", mà chỉ có thể hỗ trợ phòng chống dịch bằng cách vận chuyển người có nhu cầu đi lại đáp ứng tiêu chuẩn kiểm soát Covid-19; sẵn sàng cung cấp thông tin lịch trình hành khách, dự báo số lượng từng ngày để các địa phương tính toán phương án...
Về việc Nội Bài là sân bay quốc gia nhưng phải chờ TP Hà Nội quyết định cho mở lại đường bay nội địa hay không, ông Cường nêu nhận định có thể chính quyền thủ đô quan điểm đây là một vùng đặc biệt quan trọng căn cứ theo Luật Thủ đô, khi có dịch bệnh hoặc vấn đề gì đó thì "đóng trước, mở sau". "Tình hình dịch bệnh trên toàn quốc là lý do Hà Nội quan ngại việc sẽ gánh chịu một làn sóng lây nhiễm, chúng tôi hoàn toàn hiểu và thông cảm với Hà Nội về điều đó", ông Cường nói.
Về phía Cục Hàng không Việt Nam, ông Cường nêu quan điểm "mở cửa lại đường hàng không là an toàn, từng bước, hiệu quả, bền vững". Hiện ngành hàng không có các cơ sở hậu cần kỹ thuật lớn tập trung ở sân bay Tân Sơn Nhất và Nội Bài.
Do vậy, nếu riêng Tân Sơn Nhất mở cửa, rõ ràng chỉ có một cơ sở hạ tầng kỹ thuật đáp ứng hiệu quả trong hoạt động khai thác. Các đường bay khác sẽ phải về Nội Bài, và nếu phải bay mà không có hành khách thì chắc chắn không hiệu quả, nghĩa là không thể bền vững.
Dẫn thống kê của Tổ chức Hàng không dân dụng quốc tế (ICAO), ông Võ Huy Cường cho hay đến cuối tháng 8/2020, có hơn một tỷ lượt khách quốc tế di chuyển bằng đường hàng không, chỉ phát hiện 41 hành khách lây nhiễm chéo. Thời gian qua, các hãng hàng không tổ chức bay nhiều chuyến vào vùng dịch đưa công dân về song không ai bị lây nhiễm.
"Ngành hàng không đã áp dụng tất cả các biện pháp phòng dịch nghiêm ngặt, cho thấy, việc di chuyển bằng đường hàng không đến giai đoạn hiện nay là an toàn nhất", ông Cường nhấn mạnh.
Theo ông, khi có sự cố xảy ra về lây nhiễm, hãng hàng không có thể nhanh chóng truy vết vì đã có đầy đủ thông tin hành khách là ai, đi chuyến bay nào, ngồi ghế nào, địa chỉ, nơi đến. Thực tế, ngành hàng không đã nhiều lần hỗ trợ cho Bộ Y tế truy vết, không chỉ quốc tế mà cả các chuyến bay nội địa khi nghi ngờ có F0 đi lại trên chuyến bay.
Theo Phó tổng giám đốc Tổng công ty Cảng hàng không Việt Nam (ACV) Nguyễn Quốc Phương, đơn vị đã họp với các hãng hàng không, đưa ra 4 tiêu chí: Hành khách xanh, quy trình phục vụ xanh, nhà ga - cơ sở hạ tầng xanh, máy bay - phương tiện vận chuyển xanh.
"Chúng tôi chuẩn bị rất chu đáo cho việc tái khôi phục hoạt động hàng không, sẽ đảm bảo an toàn, thuận lợi nhất cho người dân", ông Phương nói và cho rằng trong bối cảnh nhu cầu đi lại của người dân rất lớn hiện nay, việc để hành khách đến sân bay và di chuyển tiếp là một phương án khả thi, an toàn hơn so với đi bằng đường bộ và các phương tiện cá nhân.
Phân tích nguyên nhân khiến các địa phương e ngại việc mở lại đường bay nội địa, TS Trần Đắc Phu, Cố vấn cao cấp Trung tâm Đáp ứng khẩn cấp sự kiện y tế công cộng, nói do tỷ lệ tiêm vaccine cả nước còn thấp và không đồng đều, trong khi người đã tiêm đủ hai liều vẫn còn khả năng nhiễm bệnh.
Theo ông, để mở lại hàng không, trước mắt cần quy định riêng cho hành khách từ vùng nguy cơ cao. Khi Việt Nam tiêm chủng toàn quốc với tỷ lệ cao sẽ bỏ các hàng rào xét nghiệm, cách ly. "Tiêu chí kiếm soát dịch cần thống nhất giữa các địa phương, không để mỗi nơi làm một kiểu dẫn đến mở chỗ này lại nghẽn chỗ kia" ông Phu nói.
Phó tổng giám đốc Bamboo Airways Nguyễn Mạnh Quân dẫn kinh nghiệm nhiều nước trên thế giới, cho thấy quy định mức cao nhất cho phép hành khách đi lại là tiêm đủ vaccine hai mũi, có xét nghiệm trong 72 tiếng trước khi xuất phát và cách ly khi tới nơi.
Hiện Việt Nam đã có hơn 13 triệu người tiêm đủ 2 mũi. Do vậy ở giai đoạn một, với các đường bay nội địa có thể cho phép người đã tiêm đủ liều, xét nghiệm âm tính được tham gia dịch vụ vận tải hàng không.
Ông Quân cũng cho rằng, đường bay nội địa dài nhất chỉ mất 2,5 giờ hành trình nên sẽ không dẫn tới nguy cơ như trên đường bộ kéo dài nhiều ngày. Sau khi có bộ tiêu chí thống nhất dành cho hành khách, tùy theo mức độ chống dịch ở từng đia phương để điều chỉnh quy định cho các sân bay. 
Từ 10/10, Cục Hàng không Việt Nam dự kiến mở lại 10 đường bay nội địa giai đoạn một. Đó là các đường bay giữa TP HCM với Thanh Hóa/Khánh Hòa/Phú Yên/Bình Định/Phú Quốc với tần suất 4 chuyến khứ hồi mỗi ngày. Đường bay TP HCM với Thừa Thiên Huế có một chuyến khứ hồi mỗi tuần; TP HCM với Nghệ An có 2 chuyến mỗi tuần. Đường bay Thanh Hóa - Khánh Hòa/Buôn Ma Thuột/Phú Quốc có một chuyến mỗi ngày.
Hành khách khi bay phải tuân thủ 5K, khai báo y tế tại điểm xuất phát và điểm đến, có chứng nhận tiêm đủ liều vaccine trong ít nhất 14 ngày, hoặc có giấy chứng nhận khỏi bệnh Covid-19 không quá 6 tháng tính đến thời điểm xuất phát. Với hành khách từ vùng được đánh giá là "nguy cơ rất cao tương ứng với màu đỏ (cấp 4)" phải có xét nghiệm âm tính trong 72 tiếng trước giờ khởi hành.
Trong số các tỉnh, thành đồng ý mở lại đường bay nội địa hiện chưa có Hà Nội. Lãnh đạo thành phố nêu lo ngại khi mở lại ngay vận tải hành khách hàng không, sẽ có 385 chuyến bay mỗi ngày trên toàn quốc (thực tế dự kiến đến sân bay Nội Bài là 90 chuyến). Tương ứng với số chuyến bay là hàng chục nghìn hành khách từ khắp cả nước, dẫn đến nguy cơ rất lớn về dịch bệnh.
Trong khi đó, công suất các khu cách ly tập trung trên địa bàn Hà Nội hiện là 110.000 người, nên có thể chỉ trong thời gian ngắn mở cửa trở lại hàng không và đường sắt, số người cần cách ly tập trung sẽ vượt năng lực của thành phố."""

vnmPre = VnmPreprocessing()
tokens = vnmPre.preprocess2word(text)
sents = vnmPre.preprocess2sent(text)

print(tokens)
print(sents)

['num', 'time', 'date', 'date', 'num', 'num', 'num', 'num', 'cục', 'hàng không', 'mở cửa', 'đường bay', 'cần thiết', 'an toàn', 'lãnh đạo', 'cục', 'hàng không', 'việt nam', 'đề nghị', 'địa phương', 'căn cứ', 'tình hình', 'thực tiễn', 'nối', 'đường bay', 'nội địa', 'tọa đàm', 'chuyên gia', 'date', 'võ huy cường', 'cục phó', 'hàng không', 'việt nam', 'cửa hàng không', 'đòi hỏi', 'bức thiết', 'xã hội', 'đóng cửa', 'địa phương', 'sân bay', 'kinh tế', 'đất nước', 'địa phương', 'chủ động', 'đề', 'biện pháp', 'mở cửa', 'trở lại', 'hành lang', 'an toàn', 'dân', 'doanh nghiệp', 'đi lại', 'tham gia', 'hoạt động', 'kinh tế', 'xã hội', 'mở cửa', 'ngành', 'hàng không', 'thay', 'địa phương', 'phòng chống', 'dịch', 'vận chuyển', 'nhu cầu', 'đi lại', 'đáp ứng', 'tiêu chuẩn', 'kiểm soát', 'covid', 'num', 'sẵn sàng', 'cung cấp', 'thông tin', 'lịch trình', 'hành khách', 'dự báo', 'số lượng', 'địa phương', 'tính toán', 'phương án', '...', 'nội bài', 'sân bay', 'quốc gia', 'chờ', 'tp', 'hà nội', 'quyết địn