In [2]:
# -*- coding: utf-8 -*-

# Preprocess data

In [3]:
import re
import sys
import string

# Extract to abstract levels

Remove non-alphanumeric characters

In [4]:
def remove_special_chars(sentence, keep_under_score):
    sentence = sentence.lower()
    sentence = re.sub(r'(v\s\.\sv\s.)', '', sentence, re.UNICODE)
    if keep_under_score:
        sub_string = ''.join(ch for ch in sentence if (unicode.isalnum(ch) or ch == ' ' or ch == '_'))
    else:
        sub_string = ''.join(ch for ch in sentence if (unicode.isalnum(ch) or ch == ' '))
    sub_string_2 = re.sub('\s{2,}', ' ', sub_string, re.UNICODE)
    return sub_string_2

Create list sentence pair

In [5]:
def create_list_pair(sentences1, sentences2, keep_under_score = True):
    number_sentences = len(sentences1)
    list_sentences = []
    for i in range(number_sentences):
        s1 = remove_special_chars(sentences1[i], keep_under_score)
        s2 = remove_special_chars(sentences2[i], keep_under_score)
        s = {'s1': s1, 's2': s2}
        list_sentences.append(s)
    return list_sentences

Function write to file

In [6]:
def write_to_file(file_name_1, file_name_2, pairs):
    fout1 = open(file_name_1, 'w')
    fout2 = open(file_name_2, 'w')
    for pair in pairs:
        s1 = pair['s1'] + '\n'
        s2 = pair['s2'] + '\n'
        fout1.write(s1.encode('utf8'))
        fout2.write(s2.encode('utf8'))
    fout1.close()
    fout2.close()

Remove pos tag

In [7]:
def remove_pos_tag(sentence):
    sub_string = re.sub('/\w*\s|/\w*$', ' ', sentence, re.UNICODE)
    return sub_string

In [8]:
aa = u'Về/Cm nguyên_nhân/Nn thất_bại/Vv của/Cm U23/Nr Việt_Nam/Nr đã/R được/Vv tìm/Vv ra/R :/PU "/PU Cầu_thủ/Nn mất/Ve phong_độ/Nn thi_đấu/Vv "/PU "/PU Chọn/Vv sai/Aa điểm/Nn rơi/Vv phong_độ/Nn "/PU "/PU Nhiều/Aa cầu_thủ/Nn trụ_cột/Nn bị/Vv chấn_thương/Aa'
sss = remove_pos_tag(aa)
print sss

Về nguyên_nhân thất_bại của U23 Việt_Nam đã được tìm ra : " Cầu_thủ mất phong_độ thi_đấu " " Chọn sai điểm rơi phong_độ " " Nhiều cầu_thủ trụ_cột bị chấn_thương 


In [9]:
def remove_pos_tag_in_pairs(pairs):
    new_pairs = []
    for pair in pairs:
        s1 = remove_pos_tag(pair['s1'])
        s2 = remove_pos_tag(pair['s2'])
        s = {'s1': s1, 's2': s2}
        new_pairs.append(s)
    return new_pairs

## Level 1: words

Read from file

In [10]:
list_sentence_1 = []
list_sentence_2 = []

In [11]:
with open("vnPara/Sentences1.txt") as fin:
    for line in fin:
        list_sentence_1.append(line.decode('utf8'))

In [12]:
with open("vnPara/Sentences2.txt") as fin:
    for line in fin:
        list_sentence_2.append(line.decode('utf8'))

In [13]:
print len(list_sentence_1)
print len(list_sentence_2)

3083
3083


In [14]:
number_sentences = len(list_sentence_1)

Create pairs

In [15]:
pairs_level_1 = create_list_pair(list_sentence_1, list_sentence_2, False)

Write to file

In [18]:
write_to_file('extracted_sentences/abstract_sentences/level1/sentences_1_level_1.txt', 'extracted_sentences/abstract_sentences/level1/sentences_2_level_1.txt', pairs_level_1)

## Level 2: Syllables

Read data from file was extract to each syllables

In [19]:
import codecs

In [20]:
fin1 = codecs.open("vnPara_parsed/Sentences1_syllables.txt", 'r', encoding='utf-8')
list_sentences_1_level2 = []
for line in fin1:
    list_sentences_1_level2.append(line.strip())
    
del list_sentences_1_level2[-1] # last sentence only contain '\n' char, so remove it
print len(list_sentences_1_level2)
print list_sentences_1_level2[-1]
print list_sentence_1[-1]

3083
Một lần nữa cần phải khẳng_định , không có một công_thức chung nào trong nghề sales này cả và sự chuyên_nghiệp của người này không_thể bê nguyên cho người khác .
Một lần nữa cần phải khẳng định , không có một công thức chung nào trong nghề sales này cả và sự chuyên nghiệp của người này không thể bê nguyên cho người khác . 



In [21]:
fin1.close()

In [22]:
fin1 = codecs.open("vnPara_parsed/Sentences2_syllables.txt", 'r', encoding='utf-8')
list_sentences_2_level2 = []
for line in fin1:
    list_sentences_2_level2.append(line.strip())

del list_sentences_2_level2[-1] # last sentence only contain '\n' char, so remove it
print len(list_sentences_2_level2)
print list_sentences_2_level2[-1]
print list_sentence_2[-1]

3083
Cũng như trong bóng_chày , cầu_thủ ném bóng phải chạy về các chốt khoảng bốn lần trong suốt trận_đấu - điều này đồng_nghĩa với việc anh ta nhất_thiết phải chạy về chốt thứ nhất từ ba đến bốn hoặc năm lần trong trận_đấu , dù có đánh trúng hay không .
Cũng như trong bóng chày , cầu thủ ném bóng phải chạy về các chốt khoảng bốn lần trong suốt trận đấu – điều này đồng nghĩa với việc anh ta nhất thiết phải chạy về chốt thứ nhất từ ba đến bốn hoặc năm lần trong trận đấu , dù có đánh trúng hay không . 



In [23]:
fin1.close()

Create pairs in level 2

In [24]:
pairs_level_2 = create_list_pair(list_sentences_1_level2, list_sentences_2_level2)

Write to file

In [26]:
write_to_file('extracted_sentences/abstract_sentences/level2/sentences_1_level_2.txt', 'extracted_sentences/abstract_sentences/level2/sentences_2_level_2.txt', pairs_level_2)

## Level 3

Read data from pos file

In [27]:
list_sentences_1_level_3 = []
list_sentences_2_level_3 = []

In [28]:
fin2 = codecs.open("vnPara_parsed/Sentences1_pos.txt", 'r', encoding='utf-8')
for line in fin2:
    list_sentences_1_level_3.append(line.strip())

In [29]:
fin2.close()

In [30]:
print list_sentences_1_level_3[0]
print list_sentences_1_level_3[-1]
print len(list_sentences_1_level_3)

﻿Về/Cm nguyên_nhân/Nn thất_bại/Vv của/Cm U23/Nr Việt_Nam/Nr đã/R được/Vv tìm/Vv ra/R :/PU "/PU Cầu_thủ/Nn mất/Ve phong_độ/Nn thi_đấu/Vv "/PU "/PU Chọn/Vv sai/Aa điểm/Nn rơi/Vv phong_độ/Nn "/PU "/PU Nhiều/Aa cầu_thủ/Nn trụ_cột/Nn bị/Vv chấn_thương/Aa "/PU "/PU Lịch/Nr thi_đấu/Vv thiếu/Aa khoa_học/Nn "/PU "/PU Thiếu/Aa hiểu_biết/Nn về/Cm đối_thủ/Nn "/PU "/PU Có/Ve sai_lầm/Nn về/Cm chiến_thuật/Nn "/PU "/PU Bản_lĩnh/Nn thi_đấu/Vv yếu_kém/Aa "/PU ./PU
Một/Nq lần/Nn nữa/R cần/Vv phải/Vv khẳng_định/Vv ,/PU không/R có/Ve một/Nq công_thức/Nn chung/Aa nào/Pd trong/Cm nghề/Nn sales/FW này/Pd cả/M và/Cp sự/Nc chuyên_nghiệp/Aa của/Cm người/Nn này/Pd không_thể/R bê/Vv nguyên/Aa cho/Cp người/Nn khác/Aa ./PU
3083


In [31]:
fin2 = codecs.open("vnPara_parsed/Sentences2_pos.txt", 'r', encoding='utf-8')
for line in fin2:
    list_sentences_2_level_3.append(line.strip())

In [32]:
fin2.close()

In [33]:
print list_sentences_2_level_3[0]
print list_sentences_2_level_3[-1]
print len(list_sentences_2_level_3)

﻿Bản_thân/Nn Tổng_giám_đốc/Nn SLNA/Nr Nguyễn_Hồng_Thanh/Nr đã/R phải/Vv kêu_gọi/Vv :/PU "/PU VFF/Nr có/Ve trách_nhiệm/Nn báo_cáo/Vv Bộ/Nn Văn_hoá/Nn -/PU Thể_thao/Nn và/Cp Du_lịch/Nn Chính_phủ/Nn để/Cm tìm/Vv ra/R hướng/Nn giải_cứu/Vv bóng_đá/Nn Việt_Nam/Nr ./PU
Cũng/R như/Cp trong/Cm bóng_chày/Nn ,/PU cầu_thủ/Nn ném/Vv bóng/Nn phải/Vv chạy/Vv về/Cm các/Nq chốt/Nn khoảng/Nn bốn/Nq lần/Nn trong/Cm suốt/Aa trận_đấu/Nn -/PU điều/Nc này/Pd đồng_nghĩa/Aa với/Cp việc/Nn anh/Nn ta/Pp nhất_thiết/R phải/Vv chạy/Vv về/Cm chốt/Vv thứ/Nn nhất/An từ/Cm ba/Nq đến/Cm bốn/Nq hoặc/Cp năm/Nq lần/Nn trong/Cm trận_đấu/Nn ,/PU dù/Cp có/R đánh/Vv trúng/Aa hay/Cp không/R ./PU
3083


Remove special characters in pos string

In [34]:
def remove_special_char_pos(sentence):
    # remove etc
    sentence = re.sub('v/Nn\s./PU\sv/Nn\s./PU\s./PU\s./PU', '', sentence, re.UNICODE)
    sentence = sentence.lower()
    # remove special character
    sub_string = re.sub('\W/pu', '', sentence, re.UNICODE)
    # remove multispace
    sub_string_2 = re.sub('\s{2,}', ' ', sub_string, re.UNICODE)
    return sub_string_2

In [35]:
test = remove_special_char_pos(list_sentences_1_level_3[2])
print test

đúng/aa như/cp câu/nn nói/vv của/cm một/nq vị/nc quan_chức/nn vff/nr tại/cm cuộc/nc họp/vv rút/vv kinh_nghiệm/nn sáng/nt ngày/nt 21/12/2007/nt vấn_đề/nn chính/aa lúc/nt này/pd là/vc phải/vv xác_định/vv cho/vv được/vv bóng_đá/nn việt_nam/nr đang/r ở/cm đâu/pp có/ve cái/nc gì/pp trong/cm tay/nn


In [36]:
pairs_level_3 = []

In [37]:
for i in range(number_sentences):
    s1_level3 = remove_special_char_pos(list_sentences_1_level_3[i])
    s2_level3 = remove_special_char_pos(list_sentences_2_level_3[i])
    s = {'s1': s1_level3, 's2': s2_level3}
    pairs_level_3.append(s)

Write to file

In [38]:
pairs_level_3_non_pos_tag = remove_pos_tag_in_pairs(pairs_level_3)

In [39]:
write_to_file('extracted_sentences/abstract_sentences/level3/sentences_1_level_3.txt', 'extracted_sentences/abstract_sentences/level3/sentences_2_level_3.txt', pairs_level_3_non_pos_tag)

## Level 4

Reuse list sentence pair in level 3, remove all except words is Noun, verb, adjective

In [43]:
def is_noun(word):
    type_nouns = ['/nn', '/nu', '/nq', 'nt', 'nr']
    for type_noun in type_nouns:
        if word.find(type_noun) != -1:
            return True
    return False

In [47]:
def is_verb(word):
    type_verbs = ['/vd', '/vv', '/vc', '/ve']
    for type_verb in type_verbs:
        if word.find(type_verb) != -1:
            return True
    return False

In [54]:
def is_adj(word):
    if (word.find('/aa') != -1):
        return True
    return False

In [55]:
def keep_noun_verb_adj(sentence):
    sentence = sentence.strip(' ')
    words = sentence.split(' ')
    new_sentence = ''
    for word in words:
        if (is_noun(word)) or (is_verb(word)) or (is_adj(word)):
            new_sentence = new_sentence + word + ' '
    return new_sentence

In [56]:
s_4 = keep_noun_verb_adj(pairs_level_3[2]['s1'])
print s_4

đúng/aa câu/nn nói/vv một/nq quan_chức/nn vff/nr họp/vv rút/vv kinh_nghiệm/nn sáng/nt ngày/nt 21/12/2007/nt vấn_đề/nn chính/aa lúc/nt là/vc phải/vv xác_định/vv cho/vv được/vv bóng_đá/nn việt_nam/nr có/ve tay/nn 


In [57]:
pairs_level_4 = []

In [58]:
for i in range(number_sentences):
    s1_level4 = keep_noun_verb_adj(pairs_level_3[i]['s1'])
    s2_level4 = keep_noun_verb_adj(pairs_level_3[i]['s2'])
    s_level4 = {'s1': s1_level4, 's2': s2_level4}
    pairs_level_4.append(s_level4)

Write to file

In [59]:
pairs_level_4_non_pos_tag = remove_pos_tag_in_pairs(pairs_level_4)

In [60]:
write_to_file('extracted_sentences/abstract_sentences/level4/sentences_1_level_4.txt', 'extracted_sentences/abstract_sentences/level4/sentences_2_level_4.txt', pairs_level_4_non_pos_tag)

## Level 5

Reuse pairs sentence created in level 4, keep noun

In [63]:
def keep_one_pos(sentence, type_keep):
    sentence = sentence.strip(' ')
    words = sentence.split(' ')
    new_sentence = ''
    if type_keep == 'noun':
        for word in words:
            if is_noun(word):
                new_sentence = new_sentence + word + ' '
    if type_keep == 'verb':
        for word in words:
            if is_verb(word):
                new_sentence = new_sentence + word + ' '
    if type_keep == 'adj':
        for word in words:
            if is_adj(word):
                new_sentence = new_sentence + word + ' '
    return new_sentence

In [64]:
s_5 = keep_one_pos(pairs_level_4[2]['s1'], 'verb')
print s_5
s_5 = keep_one_pos(pairs_level_4[2]['s1'], 'noun')
print s_5
s_5 = keep_one_pos(pairs_level_4[2]['s1'], 'adj')
print s_5

nói/vv họp/vv rút/vv là/vc phải/vv xác_định/vv cho/vv được/vv có/ve 
câu/nn một/nq quan_chức/nn vff/nr kinh_nghiệm/nn sáng/nt ngày/nt 21/12/2007/nt vấn_đề/nn lúc/nt bóng_đá/nn việt_nam/nr tay/nn 
đúng/aa chính/aa 


In [65]:
def make_pairs_one_pos(pairs, type_keep):
    pairs_one_pos = []
    for pair in pairs:
        s1 = keep_one_pos(pair['s1'], type_keep)
        s2 = keep_one_pos(pair['s2'], type_keep)
        s = {'s1': s1, 's2': s2}
        pairs_one_pos.append(s)
    return pairs_one_pos

In [70]:
pairs_level_5 = make_pairs_one_pos(pairs_level_4, 'noun')

In [71]:
print pairs_level_5[2]['s1']
print pairs_level_5[2]['s2']

câu/nn một/nq quan_chức/nn vff/nr kinh_nghiệm/nn sáng/nt ngày/nt 21/12/2007/nt vấn_đề/nn lúc/nt bóng_đá/nn việt_nam/nr tay/nn 
bóng_đá/nn việt_nam/nr khi/nt dấu_hiệu/nn đáy/nn 


Write to file

In [72]:
pairs_level_5_non_pos_tag = remove_pos_tag_in_pairs(pairs_level_5)

In [73]:
write_to_file('extracted_sentences/abstract_sentences/level5/sentences_1_level_5.txt', 'extracted_sentences/abstract_sentences/level5/sentences_2_level_5.txt', pairs_level_5_non_pos_tag)

## Level 6

Keep only verbs

In [74]:
pairs_level_6 = make_pairs_one_pos(pairs_level_4, 'verb')

Write to file

In [75]:
pairs_level_6_non_pos_tag = remove_pos_tag_in_pairs(pairs_level_6)

In [76]:
write_to_file('extracted_sentences/abstract_sentences/level6/sentences_1_level_6.txt', 'extracted_sentences/abstract_sentences/level6/sentences_2_level_6.txt', pairs_level_6_non_pos_tag)

## Level 7

Keep only adjectives

In [77]:
pairs_level_7 = make_pairs_one_pos(pairs_level_4, 'adj')

Write to file

In [78]:
pairs_level_7_non_pos_tag = remove_pos_tag_in_pairs(pairs_level_7)

In [79]:
write_to_file('extracted_sentences/abstract_sentences/level7/sentences_1_level_7.txt', 'extracted_sentences/abstract_sentences/level7/sentences_2_level_7.txt', pairs_level_7_non_pos_tag)