In [5]:
from vncorenlp import VnCoreNLP
import numpy as np

In [6]:
annotator = VnCoreNLP(r"C:\Users\AD\Desktop\kit\VnCoreNLP\VnCoreNLP-1.1.1.jar", annotators="wseg,pos,ner,parse", max_heap_size='-Xmx2g') 


In [7]:
text = "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây."

In [8]:
annotated_text = annotator.annotate(text)

In [9]:
word_segmented_text = annotator.tokenize(text)

In [10]:
print(annotated_text)

{'sentences': [[{'index': 1, 'form': 'Ông', 'posTag': 'Nc', 'nerLabel': 'O', 'head': 4, 'depLabel': 'sub'}, {'index': 2, 'form': 'Nguyễn_Khắc_Chúc', 'posTag': 'Np', 'nerLabel': 'B-PER', 'head': 1, 'depLabel': 'nmod'}, {'index': 3, 'form': 'đang', 'posTag': 'R', 'nerLabel': 'O', 'head': 4, 'depLabel': 'adv'}, {'index': 4, 'form': 'làm_việc', 'posTag': 'V', 'nerLabel': 'O', 'head': 0, 'depLabel': 'root'}, {'index': 5, 'form': 'tại', 'posTag': 'E', 'nerLabel': 'O', 'head': 4, 'depLabel': 'loc'}, {'index': 6, 'form': 'Đại_học', 'posTag': 'N', 'nerLabel': 'B-ORG', 'head': 5, 'depLabel': 'pob'}, {'index': 7, 'form': 'Quốc_gia', 'posTag': 'N', 'nerLabel': 'I-ORG', 'head': 6, 'depLabel': 'nmod'}, {'index': 8, 'form': 'Hà_Nội', 'posTag': 'Np', 'nerLabel': 'I-ORG', 'head': 6, 'depLabel': 'nmod'}, {'index': 9, 'form': '.', 'posTag': 'CH', 'nerLabel': 'O', 'head': 4, 'depLabel': 'punct'}], [{'index': 1, 'form': 'Bà', 'posTag': 'Nc', 'nerLabel': 'O', 'head': 9, 'depLabel': 'sub'}, {'index': 2, 'for

In [11]:
print(word_segmented_text)

[['Ông', 'Nguyễn_Khắc_Chúc', 'đang', 'làm_việc', 'tại', 'Đại_học', 'Quốc_gia', 'Hà_Nội', '.'], ['Bà', 'Lan', ',', 'vợ', 'ông', 'Chúc', ',', 'cũng', 'làm_việc', 'tại', 'đây', '.']]


In [12]:
n = len(word_segmented_text)

In [13]:
sentences = word_segmented_text.copy()

In [14]:
for i in range(0,n):
    sentences[i] = list(set(sentences[i]))
    print(sentences[i])

['đang', 'làm_việc', 'tại', 'Ông', 'Đại_học', 'Hà_Nội', 'Nguyễn_Khắc_Chúc', 'Quốc_gia', '.']
['vợ', 'Bà', 'ông', 'làm_việc', 'tại', 'đây', 'Chúc', ',', '.', 'cũng', 'Lan']


In [15]:
punctuation = []

In [16]:
with open("punctuation.txt", "r", encoding = "utf-8") as data:
    for line in data:
        punctuation.append(line.strip())
data.close()

In [17]:
for i in sentences:
    for j in punctuation:
        if j in i:
            i.remove(j)
    print(i)

['đang', 'làm_việc', 'tại', 'Ông', 'Đại_học', 'Hà_Nội', 'Nguyễn_Khắc_Chúc', 'Quốc_gia']
['vợ', 'Bà', 'ông', 'làm_việc', 'tại', 'đây', 'Chúc', 'cũng', 'Lan']


In [18]:
stopWords = []
with open("vietnamese-stopwords-dash.txt", "r", encoding = "utf-8") as data:
    for line in data:
        stopWords.append(line.strip())
data.close()
    

In [19]:
for i in sentences:
    for j in stopWords:
        if j in i:
            i.remove(j)
    print(i)

['làm_việc', 'Ông', 'Đại_học', 'Hà_Nội', 'Nguyễn_Khắc_Chúc', 'Quốc_gia']
['vợ', 'Bà', 'làm_việc', 'Chúc', 'Lan']


In [20]:
stopWords1 = []
with open("vietnamese-stopwords.txt", "r", encoding = "utf-8") as data:
    for line in data:
        stopWords.append(line.strip())
data.close()
    

In [21]:
for i in sentences:
    for j in stopWords1:
        if j in i:
            i.remove(j)
    print(i)

['làm_việc', 'Ông', 'Đại_học', 'Hà_Nội', 'Nguyễn_Khắc_Chúc', 'Quốc_gia']
['vợ', 'Bà', 'làm_việc', 'Chúc', 'Lan']


In [22]:
length = len(word_segmented_text)
sentences = word_segmented_text.copy()
for i in range(0, length):
    sentences[i] = list(set(sentences[i]) - set(punctuation) - set(stopWords))
    print(sentences[i])

['làm_việc', 'Ông', 'Hà_Nội', 'Đại_học', 'Nguyễn_Khắc_Chúc', 'Quốc_gia']
['vợ', 'Bà', 'làm_việc', 'Chúc', 'Lan']


In [23]:
matrix = np.zeros((length, length))
for i in range(0, length):
    for j in range(0, length):
        if i != j:
            jaccard = len(set(sentences[i]) & set(sentences[j])) / len(set(sentences[i]) | set(sentences[j]))
            if jaccard != 0:
                matrix[i][j] = jaccard
for i in range(0, length):
    for j in range(0, length):
        print(matrix[i][j], end="\t")
    print()

0.0	0.1	
0.1	0.0	
