# Workshop Notebook 3: Text Clustering on NECTEC's Thai QA Dataset



In this notebook, we will cluster type of Thai questions by its semantic similarity.


We will use data from Thai QA Dataset (https://www.nectec.or.th/corpus/index.php?league=tp5).

In [None]:
!pip install --user -q --upgrade --pre pythainlp

### Header

In [None]:
# Header

import os
import json
from collections import Counter
import numpy as np
from pythainlp.tokenize import word_tokenize


### 1. Load Question Answeing Dataset


__Thai Question Answering Dataset from Wikipedia created by NECTEC__

Reference: http://copycatch.in.th/thai-qa-task.html

ชุดข้อมูลนี้ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน 

คำถามที่เป็นข้อเท็จจริง (Factoid question answering) เป็นคำถามที่ง่ายๆ ถามเกี่ยวกับข้อเท็จจริงและเป็นคำถามที่มีคำตอบจริง โดยจะมีคำแสดงคำถามได้แก่ ใคร อะไร ไหน ที่ไหน เมื่อไร ใด กี่ เท่าไร ยกตัวอย่างเช่น

-----

__คำถาม:__ นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร 

__คำตอบ:__ ปรีดี พนมยงค์

-----

__คำถาม:__ กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร 

__คำตอบ:__ ซูโม่

-----

__คำถาม:__ ออสเตรเลียเป็นประเทศร่ำรวยเป็นอันดับที่เท่าไรของโลก

__คำตอบ:__ 12

-----

__คำถาม:__ พระกระโดดกำแพงเป็นอาหารประจำชาติไหนในทวีปเอเชีย 

__คำตอบ:__ จีน

-----

__คำถาม:__ รายงานความสุขโลกเป็นดัชนีวัดความสุขเผยแพร่โดยใคร 

__คำตอบ:__ สหประชาชาติ

In [None]:
# Download dataset

dataset = None

with open("../data/thai_qa/ThaiQACorpus-DevelopmentDataset.json", "r", encoding="utf-8") as f:
    dataset = json.load(f)["data"]

In [None]:
print("Total Number of questions:", len(dataset))

In [None]:
for qa in dataset[:10]:
    print(qa)
    print("")

### Question words 

__Wh-question:__ `What, When, Where, Why, Which, How`

- In Thai questions, it may occur at the end of sentence, or at the begining.


For example:



- "__ใครคือ__ผู้บริหารสำนักงานส่งเสริมเศรษฐกิดิจิทัล" -> Who is the director of Digital Economy Promotion Agency?
- "แม่ของดอนัลด์ ทรัมป์__คือใคร__" -> Who is the mother of Donald Trump?
- "บารัค โอบามา มีเชื่อชาติ__อะไร__" -> What is the race of Barack Obama?
- "ดอนัลด์ ทรัมป์ เกิด__เมื่อใด__" -> When was Donald Trump born?
- "ทะเลเดดซี __ตั้งอยู่ที่ใด__" -> Where is the Dead Sea located?
- "คุณอาศัยอยู่ที่__ประเทศใด__" -> Which country do  you live in?



__Look at the last 3 tokens and fist 3 tokens__

In [None]:
c = Counter()
for qa in dataset[1000:1025]:
    question = qa["question"]
    print("Question:", question)
    toks = word_tokenize(question, keep_whitespace=False)
    print("Tokens:", "|".join(toks))
    print("First 3 Tokens:", "|".join(toks[:3]))
    print("Last 3 Tokens:", "|".join(toks[-3:]))
    print("")

### 2. Sentence Vectorization
Use Sentence Vectorizer to represent a sentence as a 300 dimensional vector

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

from pythainlp.word_vector import similarity, sentence_vectorizer

#### 2.1 Calculate Cosine similarility


![title](images/cosine_sim.png)
image from https://cmry.github.io/notes/euclidean-v-cosine

In [None]:
def caluculate_consine_similarity(sentence_a, sentence_b):
    vec1, vec2 = sentence_vectorizer(sentence_a),sentence_vectorizer(sentence_b)
    return cosine_similarity(vec1, vec2)[0][0]

In [None]:
caluculate_consine_similarity("ทานอาหาร", "กินข้าว")

In [None]:
caluculate_consine_similarity("กระทรวงโฆษณาแถลงข่าวและโฆษณาชวนเชื่อของนาซีเยอรมนี ก่อตั้งขึ้นในปี ค.ศ. ใด",
                              "กระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม ในประเทศไทย ก่อตั้งในปี พ.ศ. ใด")

In [None]:
caluculate_consine_similarity("กระทรวงโฆษณาแถลงข่าวและโฆษณาชวนเชื่อของนาซีเยอรมนี ก่อตั้งขึ้นในปี ค.ศ. ใด",
                              "สุนัขตัวแรกรับบทเป็นเบนจี้ในภาพยนตร์เรื่อง Benji มีชื่อว่าอะไร")

#### __Try out:__ Add you own sentences or words.

In [None]:
caluculate_consine_similarity(" ", " ")

#### 2.2 Vectorize all questions in the dataset

In [None]:
question_feat = np.array([ sentence_vectorizer(qa["question"]) for qa in dataset ])

In [None]:
question_feat = question_feat.reshape(len(dataset), -1)
question_feat.shape

__Save as .tsv file__

In [None]:
import io

out_v = io.open('./qa/vector.tsv', 'w', encoding='utf-8')
out_m = io.open('./qa/meta.tsv', 'w', encoding='utf-8')

for index, qa in enumerate(dataset):
    question = qa["question"]
    vector = question_feat[index]
    out_m.write(question + "\n")
    out_v.write('\t'.join([str(x) for x in vector]) + "\n")
out_v.close()
out_m.close()

## 3. Visualize sentence embeddings



#### __1. Go to: http://projector.tensorflow.org/__





#### __2. Click "Load" button on the left panel__

![title2](images/projector_left_panel.png)




#### __3. Then, Upload `vector.tsv`, and `meta.tsv`__

![title3](images/projector_load_data.png)




#### __4. Select T-SNE, the screen will show the embedding vector for each sentence in 3D space.__

![title1](images/projector_main.png)


## 4. Text Clustering with K-Mean Clustering


In [None]:
from sklearn.cluster import k_means

In [None]:
N_CLUSTERS = 7

In [None]:
question_texts = []
for qa in dataset:
    tokens = word_tokenize(qa["question"], keep_whitespace=False)
    question_text = ''.join(tokens)
    question_texts.append(question_text)

In [None]:
question_texts[0]

In [None]:
question_feats = np.array([ sentence_vectorizer(question_text) for question_text in question_texts])

In [None]:
question_feats = question_feats.reshape(len(dataset), -1)
question_feats.shape

In [None]:
def build_clusters(n_clusters):
    centroids, labels, _ = k_means(question_feats, n_clusters=n_clusters)
    return centroids, labels

def explore_cluster(n_clusters, centroids, labels, n_qas=10):
    clusters = { i: [] for i in range(0, N_CLUSTERS, 1) }
    for index, label in enumerate(labels):
        clusters[label].append( dataset[index]["question"])
    
    for cluster_id, members in clusters.items():

        print("Cluster ID:", cluster_id)
        print("Number of questions in this cluster:", len(members))
        for i, member in enumerate(members[100:100+n_qas]):
            print("")
            print((i+1), "", member)
        print("\n\n")
    

In [None]:
centroids, labels = build_clusters(7)
explore_cluster(7, centroids, labels, 10)

#### __Try out:__ Cluster with the different number of clusters (N_CLUSTERS) and see the result.

In [None]:
# Change the number of clusters
N_CLUSTERS = 4

In [None]:

centroids, labels = build_clusters(N_CLUSTERS)
explore_cluster(N_CLUSTERS, centroids, labels, 10)