# I. Từ ghép và từ đơn trong tiếng việt 


In [1]:
!pip install underthesea



## 1. Sentence Segmentation

In [2]:
from underthesea import sent_tokenize
text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'
sent_tokenize(text)

['Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng.',
 'Amanda cũng thoải mái với mối quan hệ này.']

## 2. Text Normalization

In [3]:
from underthesea import text_normalize
text_normalize('Ðảm baỏ chất lựơng phòng thí nghịêm hoá học')

'Đảm bảo chất lượng phòng thí nghiệm hóa học'

## 3. Word Segmentation

In [4]:
from underthesea import word_tokenize
sentence = 'Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò'
word_tokenize(sentence)
word_tokenize("Hoa hồng là một loại hoa được mọi người yêu thích ")

['Hoa hồng',
 'là',
 'một',
 'loại',
 'hoa',
 'được',
 'mọi',
 'người',
 'yêu',
 'thích']

In [5]:
word_tokenize(sentence, format="text")

'Chàng trai 9X Quảng_Trị khởi_nghiệp từ nấm sò'

## 4. POS Tagging

In [6]:
from underthesea import pos_tag
pos_tag('Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét')

[('Chợ', 'N'),
 ('thịt', 'N'),
 ('chó', 'N'),
 ('nổi tiếng', 'A'),
 ('ở', 'E'),
 ('Sài Gòn', 'Np'),
 ('bị', 'V'),
 ('truy quét', 'V')]

## 5. Chunking

In [7]:
from underthesea import chunk
text = 'Bác sĩ bây giờ có thể thản nhiên báo tin bệnh nhân bị ung thư?'
chunk(text)

[('Bác sĩ', 'N', 'B-NP'),
 ('bây giờ', 'P', 'B-NP'),
 ('có thể', 'R', 'O'),
 ('thản nhiên', 'A', 'B-AP'),
 ('báo', 'V', 'B-VP'),
 ('tin', 'N', 'B-NP'),
 ('bệnh nhân', 'N', 'B-NP'),
 ('bị', 'V', 'B-VP'),
 ('ung thư', 'N', 'B-NP'),
 ('?', 'CH', 'O')]

## 6. Dependency Parsing

In [8]:
!pip install underthesea[deep]



In [10]:
from underthesea import dependency_parse
text = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
dependency_parse(text)

                                                              

[('Tối', 5, 'obl:tmod'),
 ('29/11', 1, 'compound'),
 (',', 4, 'punct'),
 ('Việt Nam', 5, 'nsubj'),
 ('thêm', 0, 'root'),
 ('2', 7, 'nummod'),
 ('ca', 5, 'obj'),
 ('mắc', 5, 'obj'),
 ('Covid-19', 5, 'punct')]

## 7. Named Entity Recognition

In [11]:
from underthesea import ner
text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
ner(text)

[('Chưa', 'R', 'O', 'O'),
 ('tiết lộ', 'V', 'B-VP', 'O'),
 ('lịch trình', 'V', 'B-VP', 'O'),
 ('tới', 'E', 'B-PP', 'O'),
 ('Việt Nam', 'Np', 'B-NP', 'B-LOC'),
 ('của', 'E', 'B-PP', 'O'),
 ('Tổng thống', 'N', 'B-NP', 'B-LOC'),
 ('Mỹ Donald Trump', 'Np', 'B-NP', 'I-LOC')]

In [13]:
from underthesea import ner
text = "Bộ Công Thương xóa một tổng cục, giảm nhiều đầu mối"
ner(text, deep=True)

TypeError: ner() got an unexpected keyword argument 'deep'

## 8. Text Classification

In [14]:
from underthesea import classify

In [15]:

print ( classify('HLV đầu tiên ở Premier League bị sa thải sau 4 vòng đấu'))

print ( classify('Hội đồng tư vấn kinh doanh Asean vinh danh giải thưởng quốc tế'))

print ( classify('Lãi suất từ BIDV rất ưu đãi', domain='bank'))

['the_thao']
['kinh_doanh']
['DISCOUNT']


## 9. Sentiment Analysis

In [16]:
from underthesea import sentiment

print(sentiment('hàng kém chất lg,chăn đắp lên dính lông lá khắp người. thất vọng'))
print(sentiment('Sản phẩm hơi nhỏ so với tưởng tượng nhưng chất lượng tốt, đóng gói cẩn thận.'))

print(sentiment('Đky qua đường link ở bài viết này từ thứ 6 mà giờ chưa thấy ai lhe hết', domain='bank'))
print(sentiment('Xem lại vẫn thấy xúc động và tự hào về BIDV của mình', domain='bank'))

negative
negative
None
['TRADEMARK#positive']


# II. Tách tiếng việt không dấu

In [17]:
!pip install vistickedword



In [18]:
from vistickedword import split_words
split_words("thichemnhieu")

('thich', 'em', 'nhieu')

# III. Xóa icon + gộp từ + xóa stopword

In [19]:
import emoji
def give_emoji_free_text(text): # xóa icon 
    allchars = [str for str in text.encode().decode('utf-8')]
    emoji_list = [c for c in allchars if c in emoji.EMOJI_DATA]
    clean_text = ' '.join([str for str in text.encode().decode('utf-8').split() if not any(i in str for i in emoji_list)])
    return clean_text
a = "Hi 🤔 How is your 🙈 and 😌. Have a nice weekend 💕👭👙"
give_emoji_free_text(a)

'Hi How is your and Have a nice weekend'

In [31]:
def combine_synonyms(array_string ,array_words,keys,all_content = False): # gộp từ 
    if(all_content == False):
        for ind in range(0,len(array_string)):
            for words in array_words:
                array_string[ind] = array_string[ind].replace(words,keys)
    else:
        for ind in range(0,len(array_string)):
            for words in array_words:
                if(array_string[ind] == words):
                    array_string[ind] = keys

In [32]:
array_strings = ['ok' ,'Ok' ,'Hay','Sách hay' ,'hay' ,'In đẹp, đóng gói cẩn thận, giao hàng nhanh ' ,
                 'Nội dung rất hay và ý nghĩa ạ🥰 ' ,'Giao hàng nhanh và đóng gói ok á',
                 'Hơi nhỏ so với tưởng tượng đóng gói cũng không chắc chắn lắm',
                 'Sách không bị lỗi form giữ cẩn thận . Sách đoc rất hay !!']
combine_synonyms(array_strings,['Ok'],'ok')

In [33]:
array_strings

['ok',
 'ok',
 'Hay',
 'Sách hay',
 'hay',
 'In đẹp, đóng gói cẩn thận, giao hàng nhanh ',
 'Nội dung rất hay và ý nghĩa ạ🥰 ',
 'Giao hàng nhanh và đóng gói ok á',
 'Hơi nhỏ so với tưởng tượng đóng gói cũng không chắc chắn lắm',
 'Sách không bị lỗi form giữ cẩn thận . Sách đoc rất hay !!']

In [34]:
from sklearn.feature_extraction.text import TfidfVectorizer # hàm tạo ra stopword 
def get_stopwords(documents, threshold=3):
    """
    :param documents: list of documents
    :param threshold:
    :return: list of words has idf <= threshold
    """
    tfidf = TfidfVectorizer(min_df=100)
    tfidf_matrix = tfidf.fit_transform(documents)
    features = tfidf.get_feature_names()
    stopwords = []
    #print(min(tfidf.idf_), max(tfidf.idf_), len(features))
    for index, feature in enumerate(features):
        if tfidf.idf_[index] <= threshold:
            stopwords.append(feature)
    return stopwords

In [35]:
fileObject = open("stopwords/vietnamese.txt", "r",encoding="utf-8")
stopword_vn = fileObject.read().split("\n")
stopword_vn[:10]

['a lô',
 'a ha',
 'ai',
 'ai ai',
 'ai nấy',
 'ai đó',
 'alô',
 'amen',
 'anh',
 'anh ấy']

In [36]:
import underthesea  
def remove_stopwords(array_string,url_stopword = "stopwords/vietnamese.txt"):
    arrays = []
    fileObject = open(url_stopword, "r",encoding="utf-8")
    stopword_vn = fileObject.read().split("\n")
    for i in range(0,len(array_string)):
        word_tokens = underthesea.word_tokenize(array_string[i])
        arrays.append(' '.join([w for w in word_tokens if not w.lower() in stopword_vn]) )
    return arrays

In [37]:
array_strings = ["Ai là người đặt tên cho dòng sông","Tôi yêu em nên tôi thấy rất vui vẻ","anh ấy không phải là một người hạnh phúc"]
remove_stopwords(array_strings)


['dòng sông', 'yêu vui vẻ', 'hạnh phúc']

In [38]:
array_strings

['Ai là người đặt tên cho dòng sông',
 'Tôi yêu em nên tôi thấy rất vui vẻ',
 'anh ấy không phải là một người hạnh phúc']

In [69]:
data = pd.read_csv("./data.csv").dropna()
data.tail()

Unnamed: 0,content,rating
13870,"giao hàng nhanh, đóng gói cẩn thận, sách mới, ...",5
13871,"Nội dung sách khá hay, nhưng sách cũ, nhiều vế...",1
13872,Sách không bị lỗi form giữ cẩn thận . Sách đoc...,5
13873,hài lòng,5
13874,good,5


In [71]:
data.content.values

array(['Mình k ở nhà, nhờ ngừoi nhà nhận hộ thì hộp như thế này đây, mở ra được luôn. Một bên bìa hộp thì rách đôi (có video nhưng ở đây k có mục up vid). Sách thì có vết như kia. Nhìn ảnh thì cũng bình thường nhưng thực tế nhìn ở bên ngoài và bản thân lại là người đi mua sách mới mà bị như vậy rất là khó chấp nhận. Mong Tiki xem xét lại khâu đóng gói hàng và nhân viên giao hàng.',
       'Sách mới tinh, có màng bọc, giấy ok mà, giao hàng nhanh, đóng hộp chắc chắn. Mình mua lúc sale 40% nên lúc ý giá gần bằng giá bìa mềm nên mk đã chọn bìa cứng. Mặc dù giá bìa cứng bản của Mạnh Chương dịch rẻ hơn nhưng mk thấy bản của Nguyễn V Phước dịch hay hơn nên vẫn ch Thật may là k bị lỗi gì. Thật tuyệt vời. Nội dung thì k phải bàn cãi nữa, quá nổi tiếng rồi.',
       'Đặt hàng 1/8/2021 Nhận hàng 25/9/2021 Dịch bệnh giản cách nên giao hàng chậm thì mình thông cảm. Nhưng nhận được thùng hàng đã bị rách đến mức "hả họng" ra hết. Sách là mặt hàng dễ bị ướt hư hỏng mà gói hàng rất cẩu thả, không chống

# IV. Đếm số lần xuất hiện 

In [39]:
from nltk import FreqDist
import underthesea  
import numpy as np
import pandas as pd
array_strings = ["Ai là người đặt tên cho dòng sông",
                 "Tôi yêu em nên tôi thấy rất vui vẻ",
                 "anh ấy không phải là một người hạnh phúc",
                "rất hân hạnh được gặp bạn"]
def word_count(array_string):
    words = np.array([])
    for i in array_string:
        words = np.append(words,underthesea.word_tokenize(i.lower()))
    X = pd.DataFrame(words,columns =['words'])
    return X.words.value_counts()
dict(word_count(array_strings))

{'người': 2,
 'tôi': 2,
 'là': 2,
 'rất': 2,
 'ai': 1,
 'anh': 1,
 'gặp': 1,
 'được': 1,
 'hân hạnh': 1,
 'hạnh phúc': 1,
 'một': 1,
 'phải': 1,
 'không': 1,
 'ấy': 1,
 'thấy': 1,
 'vui vẻ': 1,
 'nên': 1,
 'em': 1,
 'yêu': 1,
 'sông': 1,
 'dòng': 1,
 'cho': 1,
 'tên': 1,
 'đặt': 1,
 'bạn': 1}

In [62]:
data = pd.read_csv("./data.csv")
data.tail()

Unnamed: 0,content,rating
13870,"giao hàng nhanh, đóng gói cẩn thận, sách mới, ...",5
13871,"Nội dung sách khá hay, nhưng sách cũ, nhiều vế...",1
13872,Sách không bị lỗi form giữ cẩn thận . Sách đoc...,5
13873,hài lòng,5
13874,good,5


In [63]:
data.sort_values(by=['rating']).head()

Unnamed: 0,content,rating
11248,"sản phẩm đóng gói ko cẩn thận , ko có gói chốn...",1
6347,tạm được.................,1
6341,"chưa đọc sách ,mới nhận sách ,có quyển sách mà...",1
12321,"Sản phẩm bị rách, cong; bookmark bị rách",1
822,"Đặt sách mới , giao sách cũ , chỉ có ở fahasa ...",1


In [64]:
data['target'] = data.rating.replace([[1,2,3],4,5] ,["không tốt","bình thường","tốt"])
data.drop(columns = "rating",inplace = True)
data.dropna(inplace=True)

In [44]:
list_count = dict(word_count(data.content.loc[data.target == "tốt"]))

In [67]:
list_count.get(",")

8087

# V. Xóa dấu câu

In [45]:
import string

a_string = '!hi. wh?at is the weat[h]er lik?e.'
new_string = a_string.translate(str.maketrans('', '', string.punctuation))

print(new_string)

hi what is the weather like


In [47]:
import string
def dete_punctuation(array_string):
    arrays = []
    for i in array_string:
        arrays.append(i.translate(str.maketrans('', '', string.punctuation)))
    return arrays

In [51]:
dete_punctuation(["Một ngày vui vẻ."])

['Một ngày vui vẻ']

In [53]:
def dete_punctuation2(array_string,key='-'):
    arrays = []
    remove = string.punctuation.replace(key, "") 
    pattern = r"[{}]".format(remove) 
    for i in array_string:
        arrays.append(re.sub(pattern, "", i))
    return arrays

In [61]:
array_strings  = [")*^%{}[]thi's - is - @@#!a !%%!!%- test."]
dete_punctuation2(array_strings,key ='@')

['this  is  @@a  test']