In [None]:
from __future__ import division, print_function, unicode_literals
import numpy as np 
import matplotlib.pyplot as plt
from time import time
from scipy.spatial.distance import cdist
from matplotlib.backends.backend_pdf import PdfPages

# Data preprocessing

In [None]:
# -*- coding: utf-8 -*-
import regex as re
from underthesea import word_tokenize

uniChars = "àáảãạâầấẩẫậăằắẳẵặèéẻẽẹêềếểễệđìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶÈÉẺẼẸÊỀẾỂỄỆĐÌÍỈĨỊÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢÙÚỦŨỤƯỪỨỬỮỰỲÝỶỸỴÂĂĐÔƠƯ"
unsignChars = "aaaaaaaaaaaaaaaaaeeeeeeeeeeediiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAAAAAAAAAAAAAAAAEEEEEEEEEEEDIIIOOOOOOOOOOOOOOOOOOOUUUUUUUUUUUYYYYYAADOOU"
 
def loaddicchar():
    dic = {}
    char1252 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split(
        '|')
    charutf8 = "à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ".split(
        '|')
    for i in range(len(char1252)):
        dic[char1252[i]] = charutf8[i]
    return dic
dicchar = loaddicchar()

# Hàm chuyển Unicode dựng sẵn về Unicde tổ hợp (phổ biến hơn)
def convert_unicode(txt):
    return re.sub(
        r'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ',
        lambda x: dicchar[x.group()], txt)

bang_nguyen_am = [['a', 'à', 'á', 'ả', 'ã', 'ạ', 'a'],
                  ['ă', 'ằ', 'ắ', 'ẳ', 'ẵ', 'ặ', 'aw'],
                  ['â', 'ầ', 'ấ', 'ẩ', 'ẫ', 'ậ', 'aa'],
                  ['e', 'è', 'é', 'ẻ', 'ẽ', 'ẹ', 'e'],
                  ['ê', 'ề', 'ế', 'ể', 'ễ', 'ệ', 'ee'],
                  ['i', 'ì', 'í', 'ỉ', 'ĩ', 'ị', 'i'],
                  ['o', 'ò', 'ó', 'ỏ', 'õ', 'ọ', 'o'],
                  ['ô', 'ồ', 'ố', 'ổ', 'ỗ', 'ộ', 'oo'],
                  ['ơ', 'ờ', 'ớ', 'ở', 'ỡ', 'ợ', 'ow'],
                  ['u', 'ù', 'ú', 'ủ', 'ũ', 'ụ', 'u'],
                  ['ư', 'ừ', 'ứ', 'ử', 'ữ', 'ự', 'uw'],
                  ['y', 'ỳ', 'ý', 'ỷ', 'ỹ', 'ỵ', 'y']]
bang_ky_tu_dau = ['', 'f', 's', 'r', 'x', 'j']

nguyen_am_to_ids = {}

for i in range(len(bang_nguyen_am)):
    for j in range(len(bang_nguyen_am[i]) - 1):
        nguyen_am_to_ids[bang_nguyen_am[i][j]] = (i, j)

def chuan_hoa_dau_tu_tieng_viet(word):
    if not is_valid_vietnam_word(word):
        return word

    chars = list(word)
    dau_cau = 0
    nguyen_am_index = []
    qu_or_gi = False
    for index, char in enumerate(chars):
        x, y = nguyen_am_to_ids.get(char, (-1, -1))
        if x == -1:
            continue
        elif x == 9:  # check qu
            if index != 0 and chars[index - 1] == 'q':
                chars[index] = 'u'
                qu_or_gi = True
        elif x == 5:  # check gi
            if index != 0 and chars[index - 1] == 'g':
                chars[index] = 'i'
                qu_or_gi = True
        if y != 0:
            dau_cau = y
            chars[index] = bang_nguyen_am[x][0]
        if not qu_or_gi or index != 1:
            nguyen_am_index.append(index)
    if len(nguyen_am_index) < 2:
        if qu_or_gi:
            if len(chars) == 2:
                x, y = nguyen_am_to_ids.get(chars[1])
                chars[1] = bang_nguyen_am[x][dau_cau]
            else:
                x, y = nguyen_am_to_ids.get(chars[2], (-1, -1))
                if x != -1:
                    chars[2] = bang_nguyen_am[x][dau_cau]
                else:
                    chars[1] = bang_nguyen_am[5][dau_cau] if chars[1] == 'i' else bang_nguyen_am[9][dau_cau]
            return ''.join(chars)
        return word

    for index in nguyen_am_index:
        x, y = nguyen_am_to_ids[chars[index]]
        if x == 4 or x == 8:  # ê, ơ
            chars[index] = bang_nguyen_am[x][dau_cau]
            # for index2 in nguyen_am_index:
            #     if index2 != index:
            #         x, y = nguyen_am_to_ids[chars[index]]
            #         chars[index2] = bang_nguyen_am[x][0]
            return ''.join(chars)

    if len(nguyen_am_index) == 2:
        if nguyen_am_index[-1] == len(chars) - 1:
            x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
            chars[nguyen_am_index[0]] = bang_nguyen_am[x][dau_cau]
            # x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
            # chars[nguyen_am_index[1]] = bang_nguyen_am[x][0]
        else:
            # x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
            # chars[nguyen_am_index[0]] = bang_nguyen_am[x][0]
            x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
            chars[nguyen_am_index[1]] = bang_nguyen_am[x][dau_cau]
    else:
        # x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
        # chars[nguyen_am_index[0]] = bang_nguyen_am[x][0]
        x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
        chars[nguyen_am_index[1]] = bang_nguyen_am[x][dau_cau]
        # x, y = nguyen_am_to_ids[chars[nguyen_am_index[2]]]
        # chars[nguyen_am_index[2]] = bang_nguyen_am[x][0]
    return ''.join(chars)


def is_valid_vietnam_word(word):
    chars = list(word)
    nguyen_am_index = -1
    for index, char in enumerate(chars):
        x, y = nguyen_am_to_ids.get(char, (-1, -1))
        if x != -1:
            if nguyen_am_index == -1:
                nguyen_am_index = index
            else:
                if index - nguyen_am_index != 1:
                    return False
                nguyen_am_index = index
    return True


def chuan_hoa_dau_cau_tieng_viet(sentence):
    """
        Chuyển câu tiếng việt về chuẩn gõ dấu kiểu cũ.
        :param sentence:
        :return:
        """
    sentence = sentence.lower()
    words = sentence.split()
    for index, word in enumerate(words):
        cw = re.sub(r'(^\p{P}*)([p{L}.]*\p{L}+)(\p{P}*$)', r'\1/\2/\3', word).split('/')
        # print(cw)
        if len(cw) == 3:
            cw[1] = chuan_hoa_dau_tu_tieng_viet(cw[1])
        words[index] = ''.join(cw)
    return ' '.join(words)

def remove_html(txt):
    return re.sub(r'<[^>]*>', '', txt)

def remove_singe_char(sentence):
    words = sentence.split()
    for index, word in enumerate(words):
        if len(word) == 1:
            words[index] = ''
    return ' '.join(words)


In [None]:
def text_preprocess(document):
    # xóa html code
    document = remove_html(document)
    # chuẩn hóa unicode
    document = convert_unicode(document)
    # chuẩn hóa cách gõ dấu tiếng Việt
    document = chuan_hoa_dau_cau_tieng_viet(document)
    # tách từ
    document = word_tokenize(document, format="text")
    # đưa về lower
    document = document.lower()
    # xóa các ký tự không cần thiết
    document = re.sub(r'[^\s\wáàảãạăắằẳẵặâấầẩẫậéèẻẽẹêếềểễệóòỏõọôốồổỗộơớờởỡợíìỉĩịúùủũụưứừửữựýỳỷỹỵđ_]',' ',document) 
    # xóa các từ 1 ký tự
    document = remove_singe_char(document)
    # xóa khoảng trắng thừa
    document = re.sub(r'\s+', ' ', document).strip()
    return document


In [None]:
sen = 'Mua có mỗi Bingsu thập_cẩm 45k mà mình f đợi hơn 20 \' . Hỏi lại thì nv tl có r nhg bảo chờ thêm 15 \' nữa " tụi e lm liền " .\nMình k biết có ngon k nhg cũng muốn ăn thử . Thiết_nghĩ nv quán nên xem_lại cách pv và nc vs khách .\n'
text_preprocess(sen)

'mua có mỗi bingsu thập_cẩm 45 mà mình đợi hơn 20 hỏi lại thì nv tl có nhg bảo chờ thêm 15 nữa tụi lm liền mình biết có ngon nhg cũng muốn ăn thử thiết_nghĩ nv quán nên xem_lại cách pv và nc vs khách'

# Training

**GET DATA**

In [None]:
neg = open('data/Train_Test_LR/prep_neg_train_10k.txt').read().split('\n')
pos = open('data/Train_Test_LR/prep_pos_train_10k.txt').read().split('\n')

In [None]:
import random
countPos = 0
countNeg = 0
X_train = []
y_train = []
while countPos < len(pos) or countNeg < len(neg):
  if countNeg == len(neg):
    X_train.append(pos[countPos])
    y_train.append(1)
    countPos += 1
    continue
  if countPos == len(pos):
    X_train.append(neg[countNeg])
    countNeg += 1
    y_train.append(0)
    continue
  if (random.randint(0, 1) == 0):
    X_train.append(pos[countPos])
    y_train.append(1)
    countPos += 1
  else:
    X_train.append(neg[countNeg])
    countNeg += 1
    y_train.append(0)
    continue


In [None]:
for i in range(len(X_train)):
  print(y_train[i], X_train[i])

0 mua có mỗi bingsu thập_cẩm mà mình đợi hơn hỏi lại thì nv tl có nhg bảo chờ thêm nữa tụi lm liền mình biết có ngon nhg cũng muốn ăn thử thiết_nghĩ nv quán nên xem_lại cách pv và nc vs khách
1 xe_đẩy bán cơm_chiên nằm ngay đầu đường vào khu dân_cư metro chạy từ ngoài vô là xe thứ_hai nhé mình hay mua cơm của chị này lắm cơm_chiên mềm nóng_ăn chung với trứng chiên lạp_xưởng thịt heo và chà_bông nên vừa ăn lắm mà có thêm dưa_leo và cà_chua nên ăn_không ngán ăn xong hợp cơm là bao no đến trưa giá chủ có hộp buổi_sáng rất đông người ghé mua vì bán vừa ngon vừa rẻ lại ăn rất no tuy đông nhưng chị làm nhanh lắm mà nói_chuyện với khách cũng vui_vẻ lịch_sự nữa nên lần nào đi ngang buổi_sáng là ghé mua hoài
1 cơm hến bún hến chợ phú lộc nghe lâu rồi mà mới có dịp được ăn trước giờ toàn ăn cơm hến bún hến đường hải_phòng thôi có thời_gian lên ăn_ở chợ_phú_lộc hến béo hơn thơm hơn nhiều công_nhận nước_ngọt nữa giá chỉ tô quá rẻ rồi bunhen comhen ngon
0 thứ nào ta cùng quẩy vuvuzela beer club chu

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




0 hôm đc học về sớm đi lạo dạo kím quán nào ngồi đở thì thấy quán này nên tấp thử theo mình thấy thì quán nhỏ nước uống thì cũng chẳng ngon đồ_ăn bt nhân_viên thì cũng chả niềm_nở tí nào giá_cả thì ly trà sữa nhạt_nhẽo thế_mà cũng mấy thì ko đáng vô_cùng ko có lần sau
1 có rất nhiều loại thịt ướp vừa_miệng hải_sản tươi rau ăn kèm cơm cuộn ngon kem hơi ngọt nhưng béo chè rau_câu nhiều loại nhân_viên nhiệt_tình dễ_thương gọi món thêm nhiều lần vẫn rất vui_vẻ và thay vỉ nướng liên_tục không_gian rộng_rãi thoáng mát
0 quán này không_gian hơi chật_chội kiểu phòng_ngủ trong nhà_riêng nên hơi chật_chội gò_bó và ngột_ngạt đồ_uống và đồ_ăn làm thì siêu dở mình và bạn có kêu dĩa cơm gà dĩa mì xào và ly trà sữa kiwi cơm thì sống đùi gà thì rất nhỏ và chiên lại nên khô và hơi cháy mì xào cũng rất khô và không có gia_vị chỉ có loại nước_chấm duy_nhất cho tất cà các món ăn là nước_tương ly trà sữa thì quá ngọt và không có vị kiwi mình có hỏi nhân_viên phục_vụ để được đổi cơm_chín thì được nhân_viên

In [None]:
# Thống kê các word xuất hiện trong dữ liệu
countWordNeg = {}
countWordPos = {}
totalWordPos = 0
totalWordNeg = 0

for sample in neg:
    totalWordNeg += len(sample)
    words = sample.split()
    for word in words:
        if word not in countWordNeg:
            countWordNeg[word] = 0
        countWordNeg[word] += 1

for sample in pos:
    totalWordPos += len(sample)
    words = sample.split()
    for word in words:
        if word not in countWordPos:
            countWordPos[word] = 0
        countWordPos[word] += 1

for word in countWordPos.keys():
    if word not in countWordNeg:
        countWordNeg[word] = 0

for word in countWordNeg.keys():
    if word not in countWordPos:
        countWordPos[word] = 0

def Union(lst1, lst2):
    final_list = list(set(lst1) | set(lst2))
    return final_list
    
sorted_count_pos = sorted(countWordPos, key=countWordPos.get, reverse=True)
sorted_count_neg = sorted(countWordNeg, key=countWordNeg.get, reverse=True)
sorted_count = sorted(Union(sorted_count_pos, sorted_count_neg))
# sorted_count

# free memory
neg = None
pos = None
countWordNeg = None
countWordPos = None

sorted_count

['100_000',
 '10_viên',
 '10k',
 '10p',
 '12x15',
 '15_viên',
 '16_000',
 '174k',
 '193ad3',
 '1_',
 '1_hộp',
 '1_ly',
 '1_mạch',
 '1_shop',
 '1_thể',
 '1_viên',
 '1_vực',
 '1_đĩa',
 '1x35',
 '1x38',
 '200k',
 '20_000',
 '20k',
 '22_',
 '22_000',
 '239x4',
 '242k',
 '245_000',
 '25_000',
 '265_000',
 '2_giá',
 '2_táp',
 '2_viên',
 '2x35',
 '2x38',
 '30_',
 '3_ly',
 '3_viên',
 '3x4',
 '400_000',
 '40k',
 '450_000',
 '4_ly',
 '4_viên',
 '50_',
 '55_000',
 '5_ly',
 '5_triệu',
 '5_viên',
 '600_kkg',
 '6_ng',
 '6_viên',
 '70_',
 '72_k',
 '75_000',
 '7_chát',
 '7x7',
 '85_000',
 '95_000',
 '9_viên',
 '_000',
 '_200',
 '_300',
 '_5',
 '_ah',
 '_anw',
 '_ban_đầu',
 '_bao_tử',
 '_bap',
 '_binh',
 '_buổi_sáng',
 '_bánh_tráng',
 '_bát',
 '_bước_1',
 '_bạn_bè',
 '_bảo_vệ',
 '_bỏng',
 '_cay',
 '_chocolate',
 '_chocolate_mousse',
 '_chung_quy',
 '_chào',
 '_chúng_tôi',
 '_coca',
 '_com',
 '_cuối_cùng',
 '_cáo',
 '_cáu',
 '_có_thể',
 '_công_nhận',
 '_cắt',
 '_du',
 '_dù',
 '_dạ',
 '_dạ_cay',
 '_dạ_dạ

**TẠO VECTOR**

In [None]:
wordDict = dict()
for index, word in enumerate(sorted_count):
  wordDict[word] = index

for index in range(len(X_train)):
  lineTrain = X_train[index].split(" " or "\n")
  tempLine = [0] * len(wordDict)
  for word in lineTrain:
    tempLine[wordDict[word]] += 1
  X_train[index] = tempLine
  if index % 1000 == 0:
    print(f"Done {index}")

In [None]:
print(X_train[1005])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

**TÍNH TF**

In [None]:
def compute_TF(value):
    total = sum(value)
    for index in range(len(value)):
        if (value[index] == 0):
            continue
        value[index] /= total
    
for index in range(len(X_train)):
    compute_TF(X_train[index])

In [None]:
print(X_train[0])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

**TÍNH IDF**

In [None]:
def compute_IDF(list_word, doc_value):
    import math
    idf_dict = {}
    N = len(doc_value)
    #count number of documents that contain this word
    idf_dict = dict.fromkeys(list_word, 0)
    for value in doc_value:
        for index, word in enumerate(list_word):
            if value[index] > 0:
                idf_dict[word] += 1         
    for word, count in idf_dict.items():
        idf_dict[word] = math.log(N/count) khkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkhkh 
    return idf_dict

idfs = compute_IDF(sorted_count, X_train)

**TÍNH TF-IDF**

In [None]:
def compute_TFIDF(list_word, tf_bow, idfs):
    for index, word in enumerate(list_word):
        if (tf_bow[index] == 0):
            continue
        tf_bow[index] *= idfs[word]

for index in range(len(X_train)):
    compute_TFIDF(sorted_count, X_train[index], idfs)

**TRIỂN KHAI THUẬT TOÁN**

Hàm ước lượng xác suất đầu ra cho mỗi điểm dữ liệu và hàm tính giá trị hàm
mất mát với weight decay (suy giảm trọng số - một trong các kỹ thuật phổ biến giúp tránh overfitting cho các mạng neuron)

In [None]:
def sigmoid(s):
    return 1/(1 + np.exp(-s))
def prob(w, X):
  """
  X: a 2d numpy array of shape (N, d). N datatpoint, each with size d
  w: a 1d numpy array of shape (d)
  """
  return sigmoid(X.dot(w))
def loss(w, X, y, lam):
  """
  X, w as in prob
  y: a 1d numpy array of shape (N). Each elem = 0 or 1
  """
  a = prob(w, X)
  loss_0 = -np.mean(y*np.log(a) + (1-y)*np.log(1-a))
  weight_decay = 0.5*lam/X.shape[0]*np.sum(w*w)
  return loss_0 + weight_decay

**FUNCTION LOGISTIC REGRESSION**

In [None]:
def logistic_regression(w_init, X, y, lam, lr = 0.1, nepoches = 100):
  # lam: regulariza paramether, lr: learning rate, nepoches: # epoches
  N, d = X.shape[0], X.shape[1]
  w = w_old = w_init
  ep = 0
  while ep < nepoches:
    start = time()
    ep += 1
    mix_ids = np.random.permutation(N) # stochastic
    for i in mix_ids:
      xi = X[i]
      yi = y[i]
      ai = sigmoid(xi.dot(w))
      # update
      w = w - lr*((ai - yi)*xi + lam*w)
    if np.linalg.norm(w - w_old)/d < 1e-6:
      break
    w_old = w
    end = time()
    print("Epoches: %d -> Time Epoch: %.2f" %(ep, end - start))
  return w

**CREATE ARRAY DATA TRAIN WITH NUMPY**

In [None]:
X_train = np.array(X_train)
y_train = np.array(y_train)

**DATA TO TRAIN**

In [None]:
# bias trick
X_train = np.concatenate((np.ones((X_train.shape[0], 1)), X_train), axis = 1)
w_init = np.random.randn(X_train.shape[1])
lam = 0.0001
w = logistic_regression(w_init, X_train, y_train, lam, lr = 0.05, nepoches = 50)

Epoches: 42 -> Time Epoch: 4.09
Epoches: 43 -> Time Epoch: 4.10
Epoches: 44 -> Time Epoch: 4.05
Epoches: 45 -> Time Epoch: 4.06
Epoches: 46 -> Time Epoch: 4.07
Epoches: 47 -> Time Epoch: 4.06
Epoches: 48 -> Time Epoch: 4.12
Epoches: 49 -> Time Epoch: 3.99
Epoches: 50 -> Time Epoch: 4.02


In [None]:
print(w)

[-0.05500061 -0.03607223 -0.03574176 ...  0.01663746  0.24145881
  0.04926181]


In [None]:
print("Solution of Logistic Regression:", w)
print("Final loss:", loss(w, X_train, y_train, lam))
w_np = np.array([w])
print("Pro: ", prob(w_np.T, X_train))

# free memory
X_train = None
y_train = None

Solution of Logistic Regression: [-0.05500061 -0.03607223 -0.03574176 ...  0.01663746  0.24145881
  0.04926181]
Final loss: 0.4191532673957022
Pro:  [[0.66153953]
 [0.47919728]
 [0.68278451]
 ...
 [0.59289167]
 [0.44316135]
 [0.6354185 ]]


# Testing

**GET DATA**

In [None]:
neg_test = open('data/Train_Test_LR/prep_neg_test_3k.txt').read().split('\n')
pos_test = open('data/Train_Test_LR/prep_pos_test_3k.txt').read().split('\n')

In [None]:
countPos = 0
countNeg = 0
X_test = []
y_test = []
while countPos < len(pos_test) or countNeg < len(neg_test):
  if countNeg == len(neg_test):
    X_test.append(pos_test[countPos])
    y_test.append(1)
    countPos += 1
    continue
  if countPos == len(pos_test):
    X_test.append(neg_test[countNeg])
    countNeg += 1
    y_test.append(0)
    continue
  if (random.randint(0, 1) == 0):
    X_test.append(pos_test[countPos])
    y_test.append(1)
    countPos += 1
  else:
    X_test.append(neg_test[countNeg])
    countNeg += 1
    y_test.append(0)
    continue

# free memory
neg_test = None
pos_test = None

In [None]:
for i in range(len(X_test)):
  print(y_test[i], X_test[i])

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
0 lẩu mình thấy công_nhận là nhiều thật người ăn là no còn rau bún nấm các kiểu tính riêng kdĩa tuy nhiều nhưng thịt_thà thì rất ít lác_đác vài miếng đa_số đồ lòng lá_sách đồ thì nhiều thôi nên ăn cũng không thích mấy cho một nồi lẩu mà rau bún còn tính riêng thì mình thấy thõa đáng vị nước lẩu như_vậy mình thấy không gọi_là ngon dừng mức bình_thường nhân_viên phục_vụ có_vẻ không quan_tâm khách cho mấy và nhìn không thân_thiện nên không có cãm tình chút nào lúc ra về còn bị mất tiền giữ xe
0 thấy mn review rất tốt về quán nên hwa quyết_định rủ đứa bạn đi ăn _đầu_tiên gọi combo lẩu và nướng vì nhìn hấp_dẫn ko_thể chối_từ nhưng thịt_nướng thì ko ướp khác so với đa_số quán mà độ tươi thì cũng ko có vì khi bê lên dĩa thịt vẫn đang tỏa hơi_lạnh nên ăn ko có hấp_dẫn nước_chấm thì mặn và có_vẻ ko đc liên_quan lắm với món thịt_nướng nồi lẩu thì chờ hoài chờ mãi tiếng đồng_hồ cũng ko có biểu_hiện sôi sau đó chờ thêm ph để đc đổi s

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



**TẠO VECTOR**

In [None]:
for index in range(len(X_test)):
  lineTest = X_test[index].split(" " or "\n")
  tempLine = [0] * len(wordDict)
  for word in lineTest:
    try:
      tempLine[wordDict[word]] += 1
    except:
      continue
  X_test[index] = tempLine

In [None]:
print(X_test[0])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

**CREATE ARRAY DATA TEST WITH NUMPY**

In [None]:
X_test = np.array(X_test)
y_test = np.array(y_test)

In [None]:
X_test = np.concatenate((np.ones((X_test.shape[0], 1)), X_test), axis = 1)
result = prob(w_np.T, X_test)

# free memory
X_test = None

In [None]:
print("Solution of Logistic Regression:", w)
print("Pro: ", result)

Solution of Logistic Regression: [-0.05500061 -0.03607223 -0.03574176 ...  0.01663746  0.24145881
  0.04926181]
Pro:  [[1.00000000e+00]
 [7.57238723e-27]
 [1.25057982e-37]
 ...
 [1.00000000e+00]
 [9.99999999e-01]
 [9.99852039e-01]]


**EFFICIENCY**

In [None]:
count_true = 0
count_false = 0
for index in range(result.size):
  if result[index, 0] >= 0.5:
    result[index, 0] = 1
  else:
    result[index, 0] = 0
for index in range(result.size):
  if result[index, 0] == y_test[index]:
    count_true += 1
  else:
    count_false += 1

# free memory
y_test = None

In [None]:
percent_pre = count_true/(count_true + count_false) 
print("Efficiency Of Logistics Regression: %.2f" %(percent_pre * 100), "%")

Efficiency Of Logistics Regression: 81.47 %


**INPUT FROM KEYBOARD AND GUESS**

In [None]:
text_input = "Giá ổn, phù hợp túi tiền. Đồ ăn ngon. Ở phòng vip, uống bia tầm 1 thùng ken, tầm 7 8 món ăn với giá 1tr500 với mình là ổn"

w_load = np.load('model/LR_w.npy').tolist()
listword_load = np.load('model/LR_listword.npy').tolist()
w_load = np.array([w_load])

bow_text = text_input.split(" ")
# wordDictText = dict.fromkeys(sorted_count, 0)
wordDictText = dict.fromkeys(listword_load, 0)
for word in bow_text:
  try:
    wordDictText[word] += 1
  except:
    continue

X_text = []
for word in wordDictText:
  X_text.append(wordDictText[word])
X_text_np = np.array([X_text])

X_text = None

X_text_np = np.concatenate((np.ones((X_text_np.shape[0], 1)), X_text_np), axis = 1)

# result = prob(w_np.T, X_text_np)
result = prob(w_load.T, X_text_np)
print("Probability: ", result[0, 0])
if result[0, 0] >= 0.5:
  print("This Is Positive Comment!")
else:
  print("This Is Negative Comment!")


Probability:  0.5756295978560315
This Is Positive Comment!


# Save model

In [None]:
np.save('model/LR_w.npy', w)
np.save('model/LR_listword.npy', sorted_count)

In [None]:
w_load = np.load('model/LR_w.npy')
listword_load = np.load('model/LR_listword.npy')
print(w_load)
print(listword_load)

[-0.05500061 -0.03607223 -0.03574176 ...  0.01663746  0.24145881
  0.04926181]
['100_000' '10_viên' '10k' ... 'ửo' 'ực' 'ỷ_lại']
