In [1]:
import pandas as pd
import re
import numpy as np
import nltk
import emoji
import collections

In [168]:
PUNCT_CHAR = r'([!”#$%&’()*+,-./:;<=>?@[\]^_`{|}~])'
punct = re.compile(PUNCT_CHAR)

DIGIT_WITH_CHAR = r'([a-zA-Z]*)(\d+)([a-zA-A]*)'
digit = re.compile(DIGIT_WITH_CHAR)

def lowercase(text):
    return text.lower()

def remove_punct_char(text):
    return punct.sub(' ', text) 

def remove_digit_char(text):
    return digit.sub('', text)

def strip_duplicate_char(word):
    if len(word) == 1:
        return word
    # Strip duplicate char at the end
    last_word = word[-1]
    word = word.rstrip(f'{last_word}')
    word = word + last_word
    # Strip duplicate char at the begining
    first_word = word[0]
    word = word.lstrip(f'{first_word}')
    word = first_word + word
    return word

def strip_head_tail(text):
    text = text.strip()
    return ' '.join([strip_duplicate_char(word) for word in text.split()])

def split_emoji(text):
    split_text = emoji.get_emoji_regexp().split(text)
    return [i for i in split_text if not i == '']

def get_vocab(data):
    vocab = collections.defaultdict(int)
    for sent_emoji in data:
        for each in sent_emoji:
            for word in each.split():
                vocab[' '.join(list(word)) + ' </w>'] += 1
    return vocab

def get_stats(vocab):
        pairs = collections.defaultdict(int)
        for word, freq in vocab.items():
            symbols = word.split()
            for i in range(len(symbols)-1):
                pairs[symbols[i],symbols[i+1]] += freq
        return pairs
    
def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

def get_tokens_from_vocab(vocab):
    tokens_frequencies = collections.defaultdict(int)
    vocab_tokenization = {}
    for word, freq in vocab.items():
        word_tokens = word.split()
        for token in word_tokens:
            tokens_frequencies[token] += freq
        vocab_tokenization[''.join(word_tokens)] = word_tokens
    return tokens_frequencies, vocab_tokenization

def get_tokens(vocab):
    tokens = collections.defaultdict(int)
    for word, freq in vocab.items():
        word_tokens = word.split()
        for token in word_tokens:
            tokens[token] += freq
    return tokens

def measure_token_length(token):
    if token[-4:] == '</w>':
        return len(token[:-4]) + 1
    else:
        return len(token)

class BPETokenizer():
    def __init__(self, number_merge=1000, unknown_token='</u>'):
        self.number_merge = number_merge
        self.unknown_token = unknown_token
        
    def fit(self, data):
        vocab = get_vocab(data)
        for _ in range(self.number_merge):
            pairs = get_stats(vocab)
            best_pair = max(pairs, key=pairs.get)
            vocab = merge_vocab(best_pair, vocab)
        self.tokens_frequencies, self.vocab_tokenization = get_tokens_from_vocab(vocab)
        sorted_tokens_tuple = sorted(tokens_frequencies.items(), key=lambda item: (measure_token_length(item[0]), item[1]), reverse=True)
        self.sorted_tokens = [token for (token, freq) in sorted_tokens_tuple]
        
    def tokenize(self, string):
        if string == '':
            return []
        if self.sorted_tokens == []:
            return [self.unknown_token]

        string_tokens = []
        is_tokenized = False
        for i in range(len(self.sorted_tokens)):
            token = self.sorted_tokens[i]
            token_reg = re.compile(token)

            substring_end_positions = [ m.end(0) for m in token_reg.finditer(string)]
            if len(substring_end_positions) == 0:
                continue
            else:
                is_tokenized = True
                
            substring_start_position = 0
            for substring_end_position in substring_end_positions:
                substring = string[substring_start_position:substring_end_position]
                string_tokens += tokenize_word(string=substring, sorted_tokens=sorted_tokens[i+1:], unknown_token=self.unknown_token)
                string_tokens += [token]
                substring_start_position = substring_end_position + len(token)
            remaining_substring = string[substring_start_position:]
            string_tokens += tokenize_word(string=remaining_substring, sorted_tokens=sorted_tokens[i+1:], unknown_token=self.unknown_token)
            break
            
        if is_tokenized:
            return [self.unknown_token]
        return string_tokens
    

In [5]:
raw_data = pd.read_csv('./data.csv')

In [6]:
raw_data.dropna(inplace=True)

In [31]:
data_arr = raw_data.content.to_list()

In [32]:
data_arr = [lowercase(i) for i in data_arr]
data_arr = [remove_punct_char(i) for i in data_arr]
data_arr = [remove_digit_char(i) for i in data_arr]
data_arr = [strip_head_tail(i) for i in data_arr]
data_arr = [split_emoji(i) for i in data_arr]

In [101]:
data_arr

[['áo bao đẹp ạ'],
 ['tuyệt vời'],
 ['ao khong giong trong'],
 ['mùi thơm bôi lên da mềm da'],
 ['vải đẹp dày dặn'],
 ['hàng rất đẹp rất chi là ưng ý'],
 ['chất lượng sản phẩm tốt date dài'],
 ['ăn nói và thái độ phục vụ tốt'],
 ['đóng gói sản phẩm chắc chắn'],
 ['tất sờn hết ca chưa dùng mà vay r'],
 ['shop phục vụ rất tốt'],
 ['mặc thì cũng đc'],
 ['chất vải khỏi chê'],
 ['thời gian giao hàng rất nhanh'],
 ['chất lượng sản phẩm tuyệt vời'],
 ['vải hơi thô cứng thời gian giao hàng nhanh'],
 ['chất lượng sp chưa thật sự đẹp nhe shop'],
 ['rất đáng tiền thời gian giao hàng rất nhanh'],
 ['quần rất đẹp mặc vừa vặn'],
 ['cảm giác mua hàng bị hớ thật tệ'],
 ['khi mua về nên đi sửa lại'],
 ['với giá này thì sản phẩm tạm ổn chưa đc gọi là đẹp lắm'],
 ['rất đáng tiền thời gian giao hàng rất nhanh chất lượng sản phẩm tuyệt vời'],
 ['giá cả chấp nhận được'],
 ['nchung là rất ổn ', '❤', '️'],
 ['áo quá đẹp luôn nếu không muốn nói là đẹp may quá có áo mới đi làm cty mới shop còn mẫu nào trắng nữa

In [170]:
token = BPETokenizer()
token.fit(data_arr)

In [181]:
get_vocab([split_emoji('😊chất vải đã ok mà hình thì siu ciu luôn í.shop rất nhiệt tình...chịu🤗')])

defaultdict(int,
            {'😊 </w>': 1,
             'c h ấ t </w>': 1,
             'v ả i </w>': 1,
             'đ ã </w>': 1,
             'o k </w>': 1,
             'm à </w>': 1,
             'h ì n h </w>': 1,
             't h ì </w>': 1,
             's i u </w>': 1,
             'c i u </w>': 1,
             'l u ô n </w>': 1,
             'í . s h o p </w>': 1,
             'r ấ t </w>': 1,
             'n h i ệ t </w>': 1,
             't ì n h . . . c h ị u </w>': 1,
             '🤗 </w>': 1})

In [184]:
re.escape('😊</w>')

'😊</w>'