<a href="https://colab.research.google.com/github/Ariel-CCH/Corpus-Indexing/blob/main/Corpus_indexing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Overview
  * Step 0: Import Modules
  * Step 1: Download Corpus (preprocessed)
  * Step 2: Read Corpus
  * Step 3: Observe Corpus
  * Step 4: Corpus Indexing
  * Step 5: Concordance


# Step 0: Import Modules

In [None]:
# use json module for reading the corpus (in json format) [Step 2]
import json

# use defaultdict for indexing
# use Counter to count the number of articles of each forum 
# [Step 3, 4]
from collections import defaultdict, Counter 


# regular expression for token  [Step 5]
import re

# data visualization [Step 5]
import tabulate
import pandas as pd
from IPython.display import HTML, display
# %load_ext google.colab.data_table [Step 5 interactive dataframe]

# Step 1: Download Corpus

In [None]:
!pip install gdown



In [None]:
!gdown --id "1mmAdISiVBw_acDRiyoAFFOIJoyDQ6dPa" -O "dcard2.jsonl"

Downloading...
From: https://drive.google.com/uc?id=1mmAdISiVBw_acDRiyoAFFOIJoyDQ6dPa
To: /content/dcard2.jsonl
178MB [00:01, 110MB/s] 


In [None]:
# check the first 5 lines in dcard2.jsonl 
!head -5 dcard2.jsonl
#jsonl: read 1 line at a time for efficiency
# gender 0: female
# text[sentence{token}sentence]

{"title": "#問 Dr. Martens 1460 鞋墊", "commentCount": 14, "likeCount": 3, "forumName": "穿搭", "gender": 0, "text": [[{"word": "雖然", "pos": "Cbb"}, {"word": "知道", "pos": "VK"}, {"word": "可能", "pos": "D"}, {"word": "會", "pos": "D"}, {"word": "被", "pos": "P"}, {"word": "噴", "pos": "VC"}, {"word": "，", "pos": "COMMACATEGORY"}, {"word": "可是", "pos": "Cbb"}, {"word": "最近", "pos": "Nd"}, {"word": "想", "pos": "VE"}, {"word": "直接", "pos": "VH"}, {"word": "從", "pos": "P"}, {"word": "國外", "pos": "Nc"}, {"word": "網站", "pos": "Nc"}, {"word": "買", "pos": "VC"}, {"word": "都", "pos": "D"}, {"word": "沒有", "pos": "VJ"}, {"word": "UK4", "pos": "Nb"}, {"word": "的", "pos": "DE"}, {"word": "貨", "pos": "Na"}, {"word": "缺貨", "pos": "VH"}, {"word": "了", "pos": "Di"}, {"word": "好", "pos": "VH"}, {"word": "一陣子", "pos": "Nd"}, {"word": "甚至", "pos": "D"}, {"word": "連", "pos": "VJ"}, {"word": "選項", "pos": "Na"}, {"word": "都", "pos": "D"}, {"word": "消失", "pos": "VA"}, {"word": "，", "pos": "COMMACATEGORY"}, {"word": "專櫃

Next, we observe the metadata and data that our corpus has.

# Step 2: Read Corpus

In [None]:
RAW_DATA_PATH = "dcard2.jsonl"

# create an empty list to read corpus
corpus = []

# read json file into our corpus list
with open(RAW_DATA_PATH, "r", encoding="utf-8") as file:
    for article in file:
        article_json = json.loads(article)
        corpus.append(article_json)

<a href="https://drive.google.com/file/d/1KR9XvKZS1sgGtS_Eqo91-vAUOdDrkh5W/view?usp=sharing" _target="blank"><img src="https://drive.google.com/uc?id=1KR9XvKZS1sgGtS_Eqo91-vAUOdDrkh5W" width="900"></a>


# Step 3: Observe Corpus

## 3-0: Understand the data structure of our corpus

In [None]:
# check the total number of articles in our corpus
len(corpus)

19224

In [None]:
# check the content of the article at index 0
corpus[0]

{'commentCount': 14,
 'date': '2020-01-13',
 'forumName': '穿搭',
 'gender': 0,
 'likeCount': 3,
 'text': [[{'pos': 'Cbb', 'word': '雖然'},
   {'pos': 'VK', 'word': '知道'},
   {'pos': 'D', 'word': '可能'},
   {'pos': 'D', 'word': '會'},
   {'pos': 'P', 'word': '被'},
   {'pos': 'VC', 'word': '噴'},
   {'pos': 'COMMACATEGORY', 'word': '，'},
   {'pos': 'Cbb', 'word': '可是'},
   {'pos': 'Nd', 'word': '最近'},
   {'pos': 'VE', 'word': '想'},
   {'pos': 'VH', 'word': '直接'},
   {'pos': 'P', 'word': '從'},
   {'pos': 'Nc', 'word': '國外'},
   {'pos': 'Nc', 'word': '網站'},
   {'pos': 'VC', 'word': '買'},
   {'pos': 'D', 'word': '都'},
   {'pos': 'VJ', 'word': '沒有'},
   {'pos': 'Nb', 'word': 'UK4'},
   {'pos': 'DE', 'word': '的'},
   {'pos': 'Na', 'word': '貨'},
   {'pos': 'VH', 'word': '缺貨'},
   {'pos': 'Di', 'word': '了'},
   {'pos': 'VH', 'word': '好'},
   {'pos': 'Nd', 'word': '一陣子'},
   {'pos': 'D', 'word': '甚至'},
   {'pos': 'VJ', 'word': '連'},
   {'pos': 'Na', 'word': '選項'},
   {'pos': 'D', 'word': '都'},
   {'po

In [None]:
# check forumName of the article at index 0
corpus[0]['forumName']

'穿搭'

In [None]:
# check the first (index 0) sentence of the article at index 0
corpus[0]['text'][0]

[{'pos': 'Cbb', 'word': '雖然'},
 {'pos': 'VK', 'word': '知道'},
 {'pos': 'D', 'word': '可能'},
 {'pos': 'D', 'word': '會'},
 {'pos': 'P', 'word': '被'},
 {'pos': 'VC', 'word': '噴'},
 {'pos': 'COMMACATEGORY', 'word': '，'},
 {'pos': 'Cbb', 'word': '可是'},
 {'pos': 'Nd', 'word': '最近'},
 {'pos': 'VE', 'word': '想'},
 {'pos': 'VH', 'word': '直接'},
 {'pos': 'P', 'word': '從'},
 {'pos': 'Nc', 'word': '國外'},
 {'pos': 'Nc', 'word': '網站'},
 {'pos': 'VC', 'word': '買'},
 {'pos': 'D', 'word': '都'},
 {'pos': 'VJ', 'word': '沒有'},
 {'pos': 'Nb', 'word': 'UK4'},
 {'pos': 'DE', 'word': '的'},
 {'pos': 'Na', 'word': '貨'},
 {'pos': 'VH', 'word': '缺貨'},
 {'pos': 'Di', 'word': '了'},
 {'pos': 'VH', 'word': '好'},
 {'pos': 'Nd', 'word': '一陣子'},
 {'pos': 'D', 'word': '甚至'},
 {'pos': 'VJ', 'word': '連'},
 {'pos': 'Na', 'word': '選項'},
 {'pos': 'D', 'word': '都'},
 {'pos': 'VA', 'word': '消失'},
 {'pos': 'COMMACATEGORY', 'word': '，'},
 {'pos': 'Nc', 'word': '專櫃'},
 {'pos': 'VH', 'word': '直接'},
 {'pos': 'VC', 'word': '買'},
 {'pos'

In [None]:
# check first token
corpus[0]['text'][0][0]

{'pos': 'Cbb', 'word': '雖然'}

In [None]:
# check first word
corpus[0]['text'][0][0]['word']

'雖然'

<a href="https://drive.google.com/file/d/1SCPNqwhftuRLHI7jd-l7xEc620kZRjNC/view?usp=sharing" _target="blank"><img src="https://drive.google.com/uc?id=1SCPNqwhftuRLHI7jd-l7xEc620kZRjNC" width="900"></a>

We see our `corpus` as a Foward Index.

## 3-1: Observe metadata

In [None]:

# we use collections.Counter to check the number of articles of each forum
# from collections import Counter
forum = Counter()
for article in corpus:
    forum[article['forumName']] += 1

In [None]:
# take a quick look at out forum
forum

Counter({'3C': 215,
         'App': 210,
         'Apple': 216,
         'BL': 209,
         'BTS': 219,
         'Les': 219,
         'Netflix': 89,
         'YouTuber': 211,
         '信用卡': 215,
         '健身': 208,
         '僑生交流': 107,
         '動漫': 223,
         '台中': 2,
         '咖啡': 181,
         '品酒': 197,
         '塔羅': 223,
         '女孩': 222,
         '實習職缺': 212,
         '寵物': 234,
         '寶可夢': 217,
         '居家生活': 193,
         '工作': 229,
         '廢文': 202,
         '建議回饋': 208,
         '彩虹': 212,
         '心情': 218,
         '感情': 216,
         '成功大學': 205,
         '戲劇綜藝': 173,
         '手作': 235,
         '手搖': 75,
         '打工職缺': 214,
         '攝影': 234,
         '文具': 195,
         '新生季': 211,
         '旅遊': 241,
         '日劇': 77,
         '日本生活': 167,
         '星座': 202,
         '時事': 210,
         '書籍': 217,
         '有趣': 219,
         '歐美影集': 156,
         '汽機車': 213,
         '淡江大學': 212,
         '減肥': 219,
         '港澳 u life': 205,
         '港澳女生': 

In [None]:
# use Counter.most_common() to see the top 10 forums
forum.most_common(10)

[('靈異', 244),
 ('美妝', 242),
 ('旅遊', 241),
 ('精品', 240),
 ('網路購物', 238),
 ('穿搭', 236),
 ('手作', 235),
 ('寵物', 234),
 ('攝影', 234),
 ('工作', 229)]

# Step 4: Corpus Indexing


## 4-0: Word Indexing

In [None]:
word_index = {}    # store index of word

for article_idx, article in enumerate(corpus):
    for sentence_idx, sentence in enumerate(article['text']):
        for token_idx, token in enumerate(sentence):
            locator = [article_idx, sentence_idx, token_idx]
            if token['word'] not in word_index:          
                word_index[token['word']] = [locator]
            else:
                word_index[token['word']].append(locator)

## 4-1: Pos Indexing

We can also use `defaultdict` to do indexing:

```python
from collections import defaultdict
```

In [None]:
from collections import defaultdict

In [None]:
pos_index = defaultdict(list)     # store index of pos

for article_idx, article in enumerate(corpus):
    for sentence_idx, sentence in enumerate(article['text']):
        for token_idx, token in enumerate(sentence):
            
            locator = [article_idx, sentence_idx, token_idx]
            pos_index[token['pos']].append(locator) 

## 4-2: Indexing Output

In [None]:
# check where the word "虐心" appears in our corpus
word_index["虐心"]

[[5777, 7, 4],
 [5915, 8, 6],
 [5939, 39, 1],
 [5965, 1, 90],
 [8369, 8, 45],
 [10506, 43, 23],
 [12021, 15, 6],
 [12223, 1, 4],
 [14607, 0, 29],
 [17410, 8, 29]]

In [None]:
# write a function called 'word_freq(word)' which returns the frequency of a word
def word_freq(word):
    return len(word_index[word])

In [None]:
# let's take a look at the frequency of the word '的'
word_freq("的")

231504

In [None]:
# write a function called 'pos_freq(pos)' which returns the frequency of a pos
def pos_freq(pos):
    return len(pos_index[pos])

In [None]:
# find the amount of word types
len(word_index.keys())

186298

In [None]:
# fine the amount of pos types
len(pos_index.keys())

61

In [None]:
# list out all types of pos
pos_index.keys()

dict_keys(['Cbb', 'VK', 'D', 'P', 'VC', 'COMMACATEGORY', 'Nd', 'VE', 'VH', 'Nc', 'VJ', 'Nb', 'DE', 'Na', 'Di', 'VA', 'Dfa', 'Nh', 'Neqa', 'Ng', 'Neu', 'Nf', 'VB', 'SHI', 'VL', 'T', 'FW', 'VD', 'Ncd', 'Nep', 'V_2', 'I', 'QUESTIONCATEGORY', 'Nes', 'PARENTHESISCATEGORY', 'EXCLAMATIONCATEGORY', 'A', 'PAUSECATEGORY', 'VCL', 'COLONCATEGORY', 'DASHCATEGORY', 'Nv', 'VF', 'PERIODCATEGORY', 'Caa', 'VG', 'DOTCATEGORY', 'Dk', 'VHC', 'Dfb', 'WHITESPACE', 'Cab', 'VI', 'ETCCATEGORY', 'Da', 'Cba', 'Neqb', 'DM', 'SEMICOLONCATEGORY', 'VAC', 'SPCHANGECATEGORY'])

In [None]:
# the total amount of tokens
token_sum = 0
for word in word_index:
    token_sum += word_freq(word)
print(token_sum)

5292615


# Step 5: Concordance



## 5-0: 從 word_index 中搜尋單詞出現的句子

In [None]:
# TODO: 請利用 word_index ，印出所有出現「虐心」一詞的句子
#       每個詞目之間請以一個空格隔開
for a_idx, s_idx, t_idx in word_index['虐心']:
    sentence = corpus[a_idx]["text"][s_idx]
    print(" ".join(token["word"] for token in sentence))

「 太 寫實 太 虐心 了 吧 ？ 」
看到 結局 的 地方   太 虐心 太 深刻
最 虐心 的 地方 就 是 他 與 上官曦 被 綁 在 木頭 上
熬過 將近 一 年 的 「 限古令 」 之後 ， 大 神級 IP劇 的 輪番 登場 儼然 成 了 2020 開年 以來 的 最 燦爛 風光 ， 從 《 慶餘年 》 到 《 劍王朝 》 、 《 將 夜 2 》 、 《 絕代 雙驕 》 ， 莫不是 期望值 破錶 ， 製作 頂級 ， 話題 吸睛 ， 卡斯 自 帶 光環 … ， 一時之間 說得上 鑼鼓喧天 ， 來勢洶洶 。 其中 《 三生 三世 枕 上書 》 啣接 《 三 生 三 世 十里 桃花 》 當年 讓 人 如癡如醉 的 虐心 指數 ， 從 一 年 半 前 在 橫店 開拍 ， 到 殺青 到 定檔 ， 都 是 矚目 焦點 。
最後 一 集 也 像 上 一 季 一樣 ， 有 令 人 非常 震撼 的 劇情 ， 尤其 是 克雷 的 那 段 演講 ， 真的 讓 安迪 差點 噴淚 ， 如果 那 一 段 交給 韓國 來 拍 ， 絕對 會 非常 的 虐心 ， 可能 不亞於 〖 與 神 同行〗 。 「 請 幫 漢娜 做夢 ， 別 讓 他人 奪走 你 的 夢想 」 ， 這 句 話 不但 是 對著 克雷 他們 說 ， 也 是 對著 螢幕 前 的 每 個 你 妳 你 ， 或許 有時候 我們 會 對 人生 絕望 、 對 周遭 的 朋友 失望 ， 但 請 相信 總 有 一 雙 手 在 適當 的 時 機會 伸出來 讓 你 緊握 並且 將 你 扶起 ， 如果 中途 就 放棄 了 ， 那 這 雙 手 永遠 也 不會 出現 。
能 親眼 看到 她 的 回覆 ， 或許 接下來 的 三 年 ( 甚至 更 長 . . . ) 就 不用 這麼 虐心 了
超推 ！ 劇情 緊張 刺激 又 虐心 ， 而且 第二 季 的 女 主角 也 太 正 了 😍
他們 的 愛情 好 虐心  😭
從 去年 底 才 開始 看 八 大 戲劇 TV版 的 德魯納 酒店 ， 我 是 看 重播 的 ， 看到 一半 以後 感覺 每 一 集 都 在 虐心
我 想 把 跟 妳 的 點點滴滴 寫下來 ， 有 一 天 我們 磨合 想 放棄 時 ， 我們 可以 翻 一 翻 我們 當初 選擇 在一起 時 多 虐心 哭 了 多少 回 。


## 5-1: 加進 window_size 的考量

In [None]:
# 先以其中一個「虐心」出現的地方為例: [5777, 7, 4]

# TODO: 宣告一個變數 sentence，並將 sentence 設為語料中的第 5777 篇文章中的第 7 句
sentence = corpus[5777]["text"][7]

# sentence 是一個 list of tokens
print(sentence)    

[{'word': '「', 'pos': 'PARENTHESISCATEGORY'}, {'word': '太', 'pos': 'Dfa'}, {'word': '寫實', 'pos': 'VH'}, {'word': '太', 'pos': 'Dfa'}, {'word': '虐心', 'pos': 'VH'}, {'word': '了', 'pos': 'T'}, {'word': '吧', 'pos': 'T'}, {'word': '？', 'pos': 'QUESTIONCATEGORY'}, {'word': '」', 'pos': 'PARENTHESISCATEGORY'}]


In [None]:
# TODO: 請列出此句中的每個詞目為何
#       每個詞目之間請以一個空格隔開
print(" ".join(token["word"] for token in sentence))

「 太 寫實 太 虐心 了 吧 ？ 」


In [None]:
# TODO: 請印出此句中「虐心」的前 3 個詞到後 3 個詞 (window_size 為 3)
window_size = 3

for i in range(4 - window_size, 4 + window_size + 1):
  print(sentence[i]["word"] + " ", end="")

太 寫實 太 虐心 了 吧 ？ 

<a href="https://drive.google.com/file/d/1RGJzG7SHH_aBZvz0FDK1KBcFwKnSRj4l/view?usp=sharing" _target="blank"><img src="https://drive.google.com/uc?id=1RGJzG7SHH_aBZvz0FDK1KBcFwKnSRj4l" width="400"></a>

In [None]:
# TODO: 將 window_size 設為 5 看看

window_size = 5



In [None]:
# 錯誤來自於兩個地方
#    (1) (該詞出現的位置 - window_size) 可能會小於 0: 也就是會超出句子左邊的邊界
#    (2) (該詞出現的位置 + window_size) 可能會大於 句子長度: 也就是會超出句子右邊的邊界
# 所以我們必須設停損點:
#    (1) 對左邊邊界而言，如果 (該詞出現的位置 - window_size) < 0 ，那麼就停在 0 數值 => 使用 max(0, (該詞出現的位置 - window_size))
#    (2) 對右邊邊界而言，如果 (該詞出現的位置 + window_size) > 句子長度 ，那麼就停在句子長度的數值 => min(句子長度, (該詞出現的位置 + window_size))

# TODO: 讓我們來加進安全邊界的考量吧

window_size = 100

safe_left_bound = pass
safe_right_bound = pass

for i in range(safe_left_bound, safe_right_bound):
  print(sentence[i]["word"] + " ", end="")

SyntaxError: ignored

## 5-2 完成第一個 `query_a_word()` 功能

能查詢單個詞目，並按照需求顯示相關資訊。

執行範例：
```python
query_a_word("虐心", window_size=5, show_pos=False, metadata=["forumName", "likeCount"])
```

會回傳
```python
[ 
     {"article_id": 30, "left": "這部戲真的很", "keyword": "虐心", "right": "！", "forumName": "戲劇", "likeCount": 20 }, # 第0句
     {"article_id": 33, "left": "真的太", "keyword": "虐心", "right": "了吧。", "forumName": "文學", "likeCount": 20 }, # 第1句
     ...
 ]
```

In [None]:
# TODO: 寫一個函式 query_a_word(word, window_size, show_pos), 接收三個參數:
#     word: 要搜尋的關鍵字 <字串>
#     window_size: 指定視窗大小 <整數>
#     show_pos: 是否顯示詞性 <Bool>
# 此函數將回傳所有該關鍵字出現的句子，結構為 list of dicts

def query_a_word(word, window_size=5, show_pos=False, metadata=[]):

    # 最後的結果
    results = []

    # 從索引中叫出該詞出現的地方，並用迴圈一一處理
    for a_idx, s_idx, t_idx in word_index[word]:

        # 該詞出現的某個句子
        sentence = corpus[a_idx]['text'][s_idx]

        # 準備好每個要裝進 results 的元素
        each_concordance_line = {
            "article_id": a_idx,
            "left": "",
            "keyword": "",
            "right": ""
        }

        # 需要哪些metadata，就把那些metadata裝進來
        for key in metadata:
            each_concordance_line[key] = corpus[a_idx][key]

        # 判斷關鍵字是否要顯示詞性
        if show_pos:
            each_concordance_line["keyword"] = sentence[t_idx]["word"] + "/" + sentence[t_idx]["pos"]

        else:
            each_concordance_line["keyword"] = sentence[t_idx]["word"]

        # 安全邊界
        safe_left_bound = max(0, t_idx - window_size)
        safe_right_bound = min(len(sentence), t_idx + window_size + 1)


        # 先處理處理關鍵字的左邊部分
        for token in sentence[safe_left_bound: t_idx]:
            if show_pos:
                each_concordance_line["left"] += token["word"] + "/" + token["pos"]
            else:
                each_concordance_line["left"] += token["word"]
            # 上面的寫法等價於 each_concordance_line["left"] = each_concordance_line["left"] + token["word"]


        # 再處理處理關鍵字的右邊部分
        for token in sentence[t_idx + 1: safe_right_bound]:
            if show_pos:
                each_concordance_line["right"] += token["word"] + "/" + token["pos"]
            else:
                each_concordance_line["right"] += token["word"]

        # 每次處理完後記得把 each_concordance_line 加進 results 中
        results.append(each_concordance_line)

    return results

In [None]:
# TODO: 試著使用 query_a_word() 看看
result_nuexin = query_a_word("虐心", window_size=10, show_pos=True, metadata=["forumName", "likeCount"])
result_nuexin

[{'article_id': 5777,
  'forumName': '色情漫畫',
  'keyword': '虐心/VH',
  'left': '「/PARENTHESISCATEGORY太/Dfa寫實/VH太/Dfa',
  'likeCount': 93,
  'right': '了/T吧/T？/QUESTIONCATEGORY」/PARENTHESISCATEGORY'},
 {'article_id': 5915,
  'forumName': '戲劇綜藝',
  'keyword': '虐心/Na',
  'left': '看到/VE結局/Na的/DE地方/Na /WHITESPACE太/Dfa',
  'likeCount': 148,
  'right': '太/Dfa深刻/VH'},
 {'article_id': 5939,
  'forumName': '戲劇綜藝',
  'keyword': '虐心/VH',
  'left': '最/Dfa',
  'likeCount': 124,
  'right': '的/DE地方/Na就/D是/SHI他/Nh與/P上官曦/Na被/P綁/VC在/P'},
 {'article_id': 5965,
  'forumName': '戲劇綜藝',
  'keyword': '虐心/Na',
  'left': '三/Neu世/Na十里/Nd桃花/Na》/PARENTHESISCATEGORY當年/Nd讓/VL人/Na如癡如醉/VH的/DE',
  'likeCount': 39,
  'right': '指數/Na，/COMMACATEGORY從/P一/Neu年/Nf半/Neqb前/Ng在/P橫店/Nc開拍/VC'},
 {'article_id': 8369,
  'forumName': '歐美影集',
  'keyword': '虐心/VH',
  'left': '段/Nf交給/VD韓國/Nc來/D拍/VC，/COMMACATEGORY絕對/D會/D非常/Dfa的/DE',
  'likeCount': 37,
  'right': '，/COMMACATEGORY可能/D不亞於/VJ〖/VH與/Caa神/Na同行〗/Na。/PERIODCATEGORY「/PARENTHESISCATEG

In [None]:
# TODO: 把結果餵給 pd.DataFrame()
columns_order = ['article_id', 'forumName', 'likeCount', "left", "keyword", "right"]
pd.DataFrame(result_nuexin, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,5777,色情漫畫,93,「/PARENTHESISCATEGORY太/Dfa寫實/VH太/Dfa,虐心/VH,了/T吧/T？/QUESTIONCATEGORY」/PARENTHESISCATEGORY
1,5915,戲劇綜藝,148,看到/VE結局/Na的/DE地方/Na /WHITESPACE太/Dfa,虐心/Na,太/Dfa深刻/VH
2,5939,戲劇綜藝,124,最/Dfa,虐心/VH,的/DE地方/Na就/D是/SHI他/Nh與/P上官曦/Na被/P綁/VC在/P
3,5965,戲劇綜藝,39,三/Neu世/Na十里/Nd桃花/Na》/PARENTHESISCATEGORY當年/Nd讓...,虐心/Na,指數/Na，/COMMACATEGORY從/P一/Neu年/Nf半/Neqb前/Ng在/P橫...
4,8369,歐美影集,37,段/Nf交給/VD韓國/Nc來/D拍/VC，/COMMACATEGORY絕對/D會/D非常/...,虐心/VH,，/COMMACATEGORY可能/D不亞於/VJ〖/VH與/Caa神/Na同行〗/Na。/...
5,10506,彩虹,56,甚至/D更/D長/VH./PERIODCATEGORY./PERIODCATEGORY./P...,虐心/VH,了/T
6,12021,電影,128,超推/VH！/EXCLAMATIONCATEGORY劇情/Na緊張/VH刺激/VC又/Caa,虐心/Na,，/COMMACATEGORY而且/Cbb第二/Neu季/Nd的/DE女/Na主角/Na也/...
7,12223,閒聊,2,他們/Nh的/DE愛情/Na好/VH,虐心/Na,😭/FW
8,14607,戲劇綜藝,16,，/COMMACATEGORY看到/VE一半/Neqa以後/Ng感覺/VK每/Nes一/Ne...,虐心/Na,
9,17410,Les,121,可以/D翻/VC一/Di翻/VC我們/Nh當初/Nd選擇/VC在一起/VH時/Ng多/VH,虐心/Na,哭/VA了/Di多少/Neqa回/Nf。/PERIODCATEGORY


## 5-3: 重新組織一下巨大的 `query_a_word()`

<a href="https://drive.google.com/file/d/1qpiJjz6oQOF1w0tMg0O4Wk5QSVvW3VWg/view?usp=sharing" _target="blank"><img src="https://drive.google.com/uc?id=1qpiJjz6oQOF1w0tMg0O4Wk5QSVvW3VWg" width="400"></a>

`query_a_word()` 裡頭做的事，其實可以分成兩大部分:

1. 篩選index: 從 index 中篩選出符合某一個 query 條件的 locator
 - 詞目為 "虐心"
 - 詞性為 "V"
 - 多詞目並列： "做" "一" "個"
 - 詞性, 詞目並列： "V" "起來"
2. 生成一個個的concordance line: 處理顯示結果
 - 需不需要顯示詞性？
 - 要給出幾個 window_size 的上下文?
 - 需要給出哪些metadata?

區分這兩大部分的好處，有助於我們之後做更複雜的查詢時，可以更專注地處理程式的不同部分。

In [None]:
def query_a_word(word, window_size=5, show_pos=False, metadata=[]):

    results = []

    # 在這裡我們用 locator 取代原本的 a_idx, s_idx, t_idx
    # 所以現在 locator 就會是一個 list: [a_idx, s_idx, t_idx]
    # 我們把開箱 locator 的任務交給 generate_concordance_line()
    for locator in filter_a_word(word):       
        result = generate_concordance_line(locator, window_size, show_pos, metadata)
        results.append(result)

    return results


def filter_a_word(word):
    return word_index[word]


def generate_concordance_line(locator, window_size, show_pos, metadata):
    a_idx = locator[0]
    s_idx = locator[1]
    t_idx = locator[2]

    sentence = corpus[a_idx]['text'][s_idx]

    # 準備好每個元素
    each_concordance_line = {
        "article_id": a_idx,
        "left": "",
        "keyword": "",
        "right": ""
    }

    # 需要哪些metadata，就把那些metadata裝進來
    for key in metadata:
        each_concordance_line[key] = corpus[a_idx][key]

    # 判斷是否要顯示詞性
    if show_pos:
        each_concordance_line["keyword"] = sentence[t_idx]["word"] + "/" + sentence[t_idx]["pos"]
    else:
        each_concordance_line["keyword"] = sentence[t_idx]["word"]

    # 安全邊界
    safe_left_bound = max(0, t_idx - window_size)
    safe_right_bound = min(len(sentence), t_idx + window_size + 1)


    # 先處理處理關鍵字的左邊部分
    for token in sentence[safe_left_bound: t_idx]:
        if show_pos:
            each_concordance_line["left"] += token["word"] + "/" + token["pos"]
        else:
            each_concordance_line["left"] += token["word"]

    # 再處理處理關鍵字的右邊部分
    for token in sentence[t_idx + 1: safe_right_bound]:
        if show_pos:
            each_concordance_line["right"] += token["word"] + "/" + token["pos"]
        else:
            each_concordance_line["right"] += token["word"]

    return each_concordance_line


In [None]:
# 把結果餵給 pd.DataFrame()
result_nuexin = query_a_word("虐心", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])
pd.DataFrame(result_nuexin, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,5777,色情漫畫,93,「太寫實太,虐心,了吧？」
1,5915,戲劇綜藝,148,看到結局的地方 太,虐心,太深刻
2,5939,戲劇綜藝,124,最,虐心,的地方就是他與上官曦被綁在
3,5965,戲劇綜藝,39,三世十里桃花》當年讓人如癡如醉的,虐心,指數，從一年半前在橫店開拍
4,8369,歐美影集,37,段交給韓國來拍，絕對會非常的,虐心,，可能不亞於〖與神同行〗。「請
5,10506,彩虹,56,甚至更長...)就不用這麼,虐心,了
6,12021,電影,128,超推！劇情緊張刺激又,虐心,，而且第二季的女主角也太正
7,12223,閒聊,2,他們的愛情好,虐心,😭
8,14607,戲劇綜藝,16,，看到一半以後感覺每一集都在,虐心,
9,17410,Les,121,可以翻一翻我們當初選擇在一起時多,虐心,哭了多少回。


## 5-4: Data Visualization

We want to communicate more pleasent and readable query outcomes using various data visualization libraries.

### 5-4-0: python-tabulate

In [None]:
from tabulate import tabulate

In [None]:
table = [["Sun",696000,1989100000],["Earth",6371,5973.6],["Moon",1737,73.5],["Mars",3390,641.85]]

print(table)
print(tabulate(table, headers=["Planet","R (km)", "mass (x 10^29 kg)"]))

[['Sun', 696000, 1989100000], ['Earth', 6371, 5973.6], ['Moon', 1737, 73.5], ['Mars', 3390, 641.85]]
Planet      R (km)    mass (x 10^29 kg)
--------  --------  -------------------
Sun         696000           1.9891e+09
Earth         6371        5973.6
Moon          1737          73.5
Mars          3390         641.85


In [None]:
print(tabulate(result_nuexin, headers="keys", showindex="always", tablefmt="simple"))

      article_id  left                              keyword    right                           forumName      likeCount
--  ------------  --------------------------------  ---------  ------------------------------  -----------  -----------
 0          5777  「太寫實太                        虐心       了吧？」                        色情漫畫              93
 1          5915  看到結局的地方 太                 虐心       太深刻                          戲劇綜藝             148
 2          5939  最                                虐心       的地方就是他與上官曦被綁在      戲劇綜藝             124
 3          5965  三世十里桃花》當年讓人如癡如醉的  虐心       指數，從一年半前在橫店開拍      戲劇綜藝              39
 4          8369  段交給韓國來拍，絕對會非常的      虐心       ，可能不亞於〖與神同行〗。「請  歐美影集              37
 5         10506  甚至更長...)就不用這麼            虐心       了                              彩虹                  56
 6         12021  超推！劇情緊張刺激又              虐心       ，而且第二季的女主角也太正      電影                 128
 7         12223  他們的愛情好                      虐心       😭                           

But the output gets a bit hard to read when we try to present more entries at a time.
Let's try pandas/ DataFrame which is useful for two-dimensional data.

### 5-4-1: pandas


In [None]:

import pandas as pd

pd.DataFrame(result_nuexin)

Unnamed: 0,article_id,left,keyword,right,forumName,likeCount
0,5777,「太寫實太,虐心,了吧？」,色情漫畫,93
1,5915,看到結局的地方 太,虐心,太深刻,戲劇綜藝,148
2,5939,最,虐心,的地方就是他與上官曦被綁在,戲劇綜藝,124
3,5965,三世十里桃花》當年讓人如癡如醉的,虐心,指數，從一年半前在橫店開拍,戲劇綜藝,39
4,8369,段交給韓國來拍，絕對會非常的,虐心,，可能不亞於〖與神同行〗。「請,歐美影集,37
5,10506,甚至更長...)就不用這麼,虐心,了,彩虹,56
6,12021,超推！劇情緊張刺激又,虐心,，而且第二季的女主角也太正,電影,128
7,12223,他們的愛情好,虐心,😭,閒聊,2
8,14607,，看到一半以後感覺每一集都在,虐心,,戲劇綜藝,16
9,17410,可以翻一翻我們當初選擇在一起時多,虐心,哭了多少回。,Les,121


In [None]:
result_yen = query_a_word("語言", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])
pd.DataFrame(result_yen, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,225,韓星,49,不過手機,語言,如果是中文 他會說中文的樣子
1,225,韓星,49,所以我手機,語言,改韓文 順便練習韓文😂
2,235,韓星,71,韓、英、西、日，四種,語言,，
3,376,省錢,403,*,語言,中心不適用此優惠 需購買一般票價
4,754,護理,197,這就像是我最近在學,語言,一樣
...,...,...,...,...,...,...
435,18820,心情,10,,語言,組織有點亂，不多說了，不
436,18950,電影,6,都處理得相當完美，藉由他的鏡頭,語言,下，觀眾經思考後，能輕鬆看
437,18959,語言,51,她小時候被診斷有,語言,表達障礙
438,18960,語言,0,我不知道這篇應該放在,語言,還是健身版


In [None]:
pd.DataFrame(query_a_word("是", 10), columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,0,,,大部分都符合正貨的標準，可是鞋墊居然,是,可以拔的讓我很擔心會是假
1,0,,,居然是可以拔的讓我很擔心會,是,假的，無意間找到一篇來源不明在
2,0,,,剛剛打電話到Dr. Martens客服時他說鞋墊,是,可以拔的，鞋底因為沒一梯不
3,0,,,雙的照片希望有人幫我解答到底,是,不是正貨🙇
4,0,,,照片希望有人幫我解答到底是不,是,正貨🙇
...,...,...,...,...,...,...
87605,19219,,,=====此封信件,是,由【衛生保健組】寄出，如您想
87606,19220,,,今天看到這個實在,是,有些感觸
87607,19220,,,,是,看到新聞才知道的
87608,19220,,,對他的影響,是,在一些過去電影裡或戲劇中能看到


pandas/DataFrame makes our data more delightful but we can do more than that by turning our data into interactive and dynamic displays using data table display.

### 5-4-2: Data Table Display


In [None]:
# add Data Table Display extension
%load_ext google.colab.data_table

In [None]:
pd.DataFrame(result_nuexin)
# now data can be filterd and sorted


Unnamed: 0,article_id,left,keyword,right,forumName,likeCount
0,5777,「太寫實太,虐心,了吧？」,色情漫畫,93
1,5915,看到結局的地方 太,虐心,太深刻,戲劇綜藝,148
2,5939,最,虐心,的地方就是他與上官曦被綁在,戲劇綜藝,124
3,5965,三世十里桃花》當年讓人如癡如醉的,虐心,指數，從一年半前在橫店開拍,戲劇綜藝,39
4,8369,段交給韓國來拍，絕對會非常的,虐心,，可能不亞於〖與神同行〗。「請,歐美影集,37
5,10506,甚至更長...)就不用這麼,虐心,了,彩虹,56
6,12021,超推！劇情緊張刺激又,虐心,，而且第二季的女主角也太正,電影,128
7,12223,他們的愛情好,虐心,😭,閒聊,2
8,14607,，看到一半以後感覺每一集都在,虐心,,戲劇綜藝,16
9,17410,可以翻一翻我們當初選擇在一起時多,虐心,哭了多少回。,Les,121


In [None]:
# create data tables 
from google.colab import data_table

# customize display
data_table.DataTable(pd.DataFrame(result_nuexin, columns=columns_order), num_rows_per_page=2)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,5777,色情漫畫,93,「太寫實太,虐心,了吧？」
1,5915,戲劇綜藝,148,看到結局的地方 太,虐心,太深刻
2,5939,戲劇綜藝,124,最,虐心,的地方就是他與上官曦被綁在
3,5965,戲劇綜藝,39,三世十里桃花》當年讓人如癡如醉的,虐心,指數，從一年半前在橫店開拍
4,8369,歐美影集,37,段交給韓國來拍，絕對會非常的,虐心,，可能不亞於〖與神同行〗。「請
5,10506,彩虹,56,甚至更長...)就不用這麼,虐心,了
6,12021,電影,128,超推！劇情緊張刺激又,虐心,，而且第二季的女主角也太正
7,12223,閒聊,2,他們的愛情好,虐心,😭
8,14607,戲劇綜藝,16,，看到一半以後感覺每一集都在,虐心,
9,17410,Les,121,可以翻一翻我們當初選擇在一起時多,虐心,哭了多少回。


### 5-4-3: html/css 

Adding some personality to our data :)

In [None]:

from IPython.display import HTML, display

def set_css_in_cell_output():
  display(HTML("""<style>
    .google-visualization-table-table  td:nth-child(5) {
      text-align: right;
    } 

    .google-visualization-table-table  td:nth-child(6) {
      text-align: center;
      color: blue;
    }

    .google-visualization-table-table  td:nth-child(7) {
      text-align: left;
    }

    
  </style>
  """))

get_ipython().events.register('pre_run_cell', set_css_in_cell_output)

In [None]:
pd.DataFrame(result_nuexin)

Unnamed: 0,article_id,left,keyword,right,forumName,likeCount
0,5777,「太寫實太,虐心,了吧？」,色情漫畫,93
1,5915,看到結局的地方 太,虐心,太深刻,戲劇綜藝,148
2,5939,最,虐心,的地方就是他與上官曦被綁在,戲劇綜藝,124
3,5965,三世十里桃花》當年讓人如癡如醉的,虐心,指數，從一年半前在橫店開拍,戲劇綜藝,39
4,8369,段交給韓國來拍，絕對會非常的,虐心,，可能不亞於〖與神同行〗。「請,歐美影集,37
5,10506,甚至更長...)就不用這麼,虐心,了,彩虹,56
6,12021,超推！劇情緊張刺激又,虐心,，而且第二季的女主角也太正,電影,128
7,12223,他們的愛情好,虐心,😭,閒聊,2
8,14607,，看到一半以後感覺每一集都在,虐心,,戲劇綜藝,16
9,17410,可以翻一翻我們當初選擇在一起時多,虐心,哭了多少回。,Les,121


## 5-5: 要查詢單詞，也要查詢單個詞性

請試著根據 5-3 所寫的 `query_a_word()`，寫一個 `query_a_token()`，讓這個函數既能查詢單一個word，也能查詢單一個pos。

執行範例：
```python
# 找出所有詞目為「虐心」的token
query_a_token(token_value="虐心", token_type="word", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])

# 找出所有詞性為「VA」的token
query_a_token(token_value="VA", token_type="pos", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])
```

In [None]:
# 注意: query_a_token() 跟剛才的 query_a_word() 只有兩個不同的小地方
#      1. query_a_token() 的前兩個參數變成 token_value 和 token_type
#      2. filter_a_word(word) 變成了 filter_a_token(token_value, token_type)
# TODO: 請大家完成 filter_a_token(token_value, token_type) 的內容

def query_a_token(token_value, token_type, window_size=5, show_pos=False, metadata=[]):

    results = []

    for locator in filter_a_token(token_value, token_type):
        result = generate_concordance_line(locator, window_size, show_pos, metadata)
        results.append(result)

    return results


def filter_a_token(token_value, token_type):

    # 提示: 先判斷 token_type 為何，才知道要使用哪個 index
    index_to_use = None

    # 判斷token_type為何者
    if token_type == "word":
        index_to_use = word_index
    elif token_type == "pos":
        index_to_use = pos_index
    else:
        raise ValueError('參數 token_type 只能是 "word" 或者 "pos"')

    return index_to_use[token_value]

In [None]:
# TODO: 自由時間，填入你想查的token吧，也嘗試看看修改不同參數的結果
result_shayan = query_a_word("傻眼", window_size=10, show_pos=True, metadata=["forumName", "likeCount"])
pd.DataFrame(result_shayan, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,13,穿搭,324,當下/Nd表情/Na太/Dfa,傻眼/VH,了/Di直接/VH先碼/Na掉哈/VA哈哈/D哈哈/D
1,623,品酒,64,/WHITESPACE上/Nes次/Nf隔壁桌/Na的/DE還/D吐/VC /WHITES...,傻眼/VH,到/P爆/VH
2,770,旅遊,31,不/D知道/VK該/D說/VE,傻眼/VH,還是/Caa他/Nh真材實料/VH，/COMMACATEGORY不過/Cbb喝起來/D是/S...
3,789,旅遊,52,,傻眼/VH,欸/I！/EXCLAMATIONCATEGORY不/D是/SHI應該/D是/SHI你們/Nh...
4,797,旅遊,20,整/Neqa個/Nf,傻眼/VH,，/COMMACATEGORY而且/Cbb太陽/Na底下/Ncd有夠/Dfa熱/VHC
...,...,...,...,...,...,...
206,18147,西斯文學,118,進去/VA後/Ng我/Nh,傻眼/VH,了/T，/COMMACATEGORY他/Nh不/D是/SHI自己/Nh來/VA韓國/Nc的/...
207,18240,西斯文學,53,，/COMMACATEGORY每/Nes次/Nf看到/VE你/Nh莫名其妙/VH有/V_2反...,傻眼/VH,嚇到/VJ
208,18282,西斯文學,71,看/VC著/DiJack/FW虛脫/VH,傻眼/VH,的/DE表情/Na /WHITESPACE喝/VC了/Di口/Nf綠茶/Na
209,18375,臺灣大學,24,我/Nh,傻眼/VH,/WHITESPACE他/Nh期末/Nd測驗/Na排/VC了/Di三/Neu週/Nf欸/I


## 5-6: 在查詢單個token的基礎上，加一點regular expression

請試著根據 5-5 所寫的 `query_a_token()`，寫一個 `query_a_regex_token()`，讓我們可以用 regular expression 查詢單一個word，也能查詢單一個pos。

用處：
- 找出所有以「者」為後綴的詞。
- 找出所有以「老」為前綴的詞。
- 找出所有動詞性的詞。

執行範例：
```python
# 找出所有以「者」為後綴的詞
query_a_regex_token(token_value=".+者$", token_type="word", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])

# 找出所有以「老」為前綴的詞
query_a_regex_token(token_value="^老.+", token_type="word", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])

# 找出所有被標為動詞的詞
query_a_regex_token(token_value="^V.+", token_type="pos", window_size=10, show_pos=False, metadata=["forumName", "likeCount"])
```

In [None]:
# 注意: query_a_regex_token() 跟剛才的 query_a_token() 只有一個不同點
#      1. filter_a_token(token_value, token_type) 變成了 filter_a_regex_token(token_value, token_type)
# TODO: 請大家完成 filter_a_regex_token(token_value, token_type) 的內容

import re

def query_a_regex_token(token_value, token_type, window_size=5, show_pos=False, metadata=[]):

    results = []

    for locator in filter_a_regex_token(token_value, token_type):
        result = generate_concordance_line(locator, window_size, show_pos, metadata)
        results.append(result)

    return results


def filter_a_regex_token(token_value, token_type):

    results = []

    # 提示: 先判斷 token_type 為何，才知道要使用哪個 index
    index_to_use = None

    # 根據不同的token_type，使用相應的 index
    if token_type == "word":
        index_to_use = word_index
    elif token_type == "pos":
        index_to_use = pos_index
    else:
        raise ValueError('參數 token_type 只能是 "word" 或者 "pos"')

    # 開始找出所以符合 token_value 的那些 token
    matched_tokens = [token for token in index_to_use.keys() if re.match(token_value, token)]
    
    for token in matched_tokens:
        for locator in index_to_use[token]:
            results.append(locator)
    
    return results


In [None]:
# TODO: 試著找看看所有以「者」為後綴的token
result_zhe = query_a_regex_token(token_value=".+者$", token_type="word", window_size=10, show_pos=True, metadata=["forumName", "likeCount"])
pd.DataFrame(result_zhe, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,16,穿搭,92,/WHITESPACE(/PARENTHESISCATEGORYEnglish /FWNa...,舞者/Na,。/PERIODCATEGORY
1,198,韓星,380,她/Nh讓/VL,舞者/Na,選/VC今天/Nd要/D面向/VJ哪/Nep邊/Ncd唱/VC
2,198,韓星,380,那/Nep天/Nf,舞者/Na,選擇/VC了/Di面向/Na前面/Ncd（/PARENTHESISCATEGORY看/VC吧...
3,2460,BTS,1136,他/Nh接着/VC用/P,舞者/Na,的/DE名義/Na邀請/VC了/Di世界/Nc各/Nes地/Na的/DEdancer/FW來...
4,2475,BTS,96,群/Nf陪/VC著/Di防彈/VH揮灑/VC著/Di汗水/Na和/Caa淚水/Na的/DE,舞者/Na,們/Na，/COMMACATEGORY我/Nh也/D相信/VK彈/VC們/Na一次次/Neq...
...,...,...,...,...,...,...
2831,17975,靈異,5,乳流/Na，/COMMACATEGORY飽足/VH餓/VH鬼眾/Na，/COMMACATEG...,聖者/Na,觀世音/Nb菩薩/Na，/COMMACATEGORY透過/P手/Na上/Ncd淨瓶/Na遍/...
2832,18038,靈異,11,令/VL得/DE安穩/VH，/COMMACATEGORY,離眾者/Na,患/VJ。/PERIODCATEGORY
2833,18927,建議回饋,722,的/DE議題/Na請/VF另行/D發表/VC新/VH文章/Na//FW留言/Na，/COMM...,違者/Na,刪文/VA並/Cbb視/P情況/Na停權/VA 30/Neu /WHITESPACE天/Nf...
2834,18951,電影,440,,違者/Na,將/D刪除/VC文章/Na，/COMMACATEGORY累犯/Na將/D停權/VA 30/N...


In [None]:
# TODO: 找出所有以「老」開頭的token
result_lao = query_a_regex_token(token_value="^老.+", token_type="word", window_size=10, show_pos=True, metadata=["forumName", "likeCount"])
pd.DataFrame(result_lao, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,6,穿搭,817,幾乎/Da每/Nes個/Nf月/Na都/D會/D去/VCL韓國/Nc代購/VC，/COMMA...,老闆/Na,也/D都/D是/SHI矮/VH個子/Na，/COMMACATEGORY所以/Cbb衣服/Na...
1,41,穿搭,542,各/Nes位/Nf,老闆/Na,可以/D教/VC我/Nh怎麼/D賣/VD衣服/Na嗎/T sad/FW
2,42,穿搭,161,尾牙/Nd盛裝/VH到/P,老闆/Na,直接/VH認/VK不/D出來/VC😂/VH😂/Na😂/FW
3,172,韓星,336,1⃣/Na️看/VCGOT7/Nb是/SHI怎麼/D和/P,老闆/Na,相處/VA的/DEXD/FW
4,522,動漫,18,J/FW後來/Nd就/D跟著/D在/P俱樂部/Nc認識/VJ的/DE,老闆/Na,亞瑟/Nb去/VCL了/Di紐約/Nc，/COMMACATEGORY當/P他/Nh旗下/Nc...
...,...,...,...,...,...,...
5632,18812,輔仁大學,47,塞拎/VC,老姨/Na,勒/VC，/COMMACATEGORY故意/VL先/D扣/VC著/Di成績/Na不/D上/V...
5633,19138,寵物,12,裡/Ncd，/COMMACATEGORY他/Nh有/V_2個/Nf讓/VL他/Nh敬而遠之/...,老大🦔/Na,
5634,19148,烹飪,41,可以/D參考/VCYouTube /FW,老飯骨/Na,的/DE佛跳牆/Na影片/Na，/COMMACATEGORY我/Nh主要/D是/SHI以/P...
5635,19156,重機,30,值得/VH注意/VK的/DE是/SHI,老偉/Nb,是/SHI使用/VC直流/VA發電/VA


目前前面所實作的 `query_a_word()`, `query_a_token()` 和 `query_a_regex_token()` 都只能搜索單一個token。

在搜尋語料時，我們可能還會需要針對多個並列的 token 進行搜索，例如 `query_phrase(["做", "一", "個"])`。

所以我們現在要開始實作多個token並列的情況。

執行範例：
```python
# 找出所有 「做」「一」「個」的句子

phrase = [
    {"type": "word", "value": "做"},
    {"type": "word", "value": "一"},
    {"type": "word", "value": "個"},
]

query_phrase(tokens=phrase, window_size=10, show_pos=False, metadata=["forumName", "likeCount"])
```

In [None]:
def query_phrase(tokens, window_size=5, show_pos=False, metadata=[]):

    results = []

    for locator in filter_phrase(tokens):
        result = generate_concordance_line_v2(locator, window_size, show_pos, metadata)
        results.append(result)

    return results

In [None]:
def filter_phrase(tokens):

    results = []
    token_freqs = []

    # 先比較傳進來的 list of tokens，哪一個 token 的出現次數最少 => 為了對搜尋做優化
    for token in tokens:
        if token["type"] == "word":
            # 使用我們前面已經寫好的 word_freq 函數
            token_freq = word_freq(token["value"])

        elif token["type"] == "pos":
            token_freq = sum([pos_freq(pos) for pos in pos_index.keys() if re.match(token["value"], pos)])

        else:
            raise ValueError("token type只能是 word 或 pos")

        token_freqs.append(token_freq)

    # 找出 token_freqs 最小的
    min_freq = min(token_freqs)

    # 找出出現次數最少的 token 是的第幾個
    min_freq_idx = token_freqs.index(min_freq)

    # 找出出現次數最少的 token value
    min_freq_token_value = tokens[min_freq_idx]["value"]
    
    # 出現次數最少的 token 的位置離tokens 最左邊的元素多遠?
    normalized_index = [i - min_freq_idx for i in range(len(tokens))]

    # 從出現次數最少次的 token 開始找
    for a_idx, s_idx, t_idx in word_index[min_freq_token_value]:
        
        need_to_pass = False
        sentence = corpus[a_idx]["text"][s_idx]

        for i in range(len(tokens)):
            if i != min_freq_idx:
                # 因為可能會超過句子邊界，所以使用 try...except...處理這種情況
                try:
                    if tokens[i]["type"] == "word":
                        if sentence[t_idx + (i - min_freq_idx)][tokens[i]["type"]] != tokens[i]["value"]:
                            need_to_pass = True
                            break
                    elif tokens[i]["type"] == "pos":
                        if not re.match(tokens[i]["value"], sentence[t_idx + (i - min_freq_idx)][tokens[i]["type"]]):
                            need_to_pass = True
                            break

                except:
                    need_to_pass = True
                    break
        if need_to_pass:
            continue

        results.append([a_idx, s_idx, [i + t_idx for i in normalized_index]])
    
    return results

In [None]:
# 現在 locator 傳進來的東西是 [10, 2, [20, 21, 22]]
# 也就是說 t_idx 不再是單個整數，而是list of int
def generate_concordance_line_v2(locator, window_size, show_pos, metadata):
    a_idx = locator[0]
    s_idx = locator[1]
    t_idxs = locator[2]

    sentence = corpus[a_idx]['text'][s_idx]

    # 準備好每個元素
    each_concordance_line = {
        "article_id": a_idx,
        "left": "",
        "keyword": "",
        "right": ""
    }

    # 需要哪些metadata，就把那些metadata裝進來
    for key in metadata:
        each_concordance_line[key] = corpus[a_idx][key]

    # 判斷是否要顯示詞性
    if show_pos:
        each_concordance_line["keyword"] = " ".join([sentence[t_idx]["word"] + "/" + sentence[t_idx]["pos"] for t_idx in t_idxs])
    else:
        each_concordance_line["keyword"] = " ".join([sentence[t_idx]["word"] for t_idx in t_idxs])

    # 安全邊界
    safe_left_bound = max(0, t_idxs[0] - window_size)
    safe_right_bound = min(len(sentence), t_idxs[-1] + window_size + 1)


    # 先處理處理關鍵字的左邊部分
    for token in sentence[safe_left_bound: t_idxs[0]]:
        if show_pos:
            each_concordance_line["left"] += token["word"] + "/" + token["pos"]
        else:
            each_concordance_line["left"] += token["word"]

    # 再處理處理關鍵字的右邊部分
    for token in sentence[t_idxs[-1] + 1: safe_right_bound]:
        if show_pos:
            each_concordance_line["right"] += token["word"] + "/" + token["pos"]
        else:
            each_concordance_line["right"] += token["word"]

    return each_concordance_line

In [None]:
# TODO: 請找出所有 "的" "動作" 的句子
phrase = [
    {"type": "word", "value": "的"},
    {"type": "word", "value": "動作"},
]
 
result_de_dongzuo = query_phrase(tokens=phrase, window_size=10, show_pos=True, metadata=["forumName", "likeCount"])
pd.DataFrame(result_de_dongzuo, columns=columns_order)

Unnamed: 0,article_id,forumName,likeCount,left,keyword,right
0,28,穿搭,13134,會/D選/VC這/Nep張/Nf是/SHI因為/Cbb我/Nh覺得/VK比/VC,的/DE 動作/Na,很/Dfa可愛/VH☺/FW️/Na
1,468,動漫,20,在/P跑步/VA、/PAUSECATEGORY隊友/Na連接/VJ還/D有/V_2過/Di障...,的/DE 動作/Na,我/Nh覺得/VK都/D挺/Dfa流暢/VH的/DE
2,505,動漫,18,在/P某/Nes個/Nf畫面/Na比較/Dfa久/VH，/COMMACATEGORY或是/C...,的/DE 動作/Na,卻/D好像/D少/VH了/Di中間/Ncd的/DE過程/Na
3,622,品酒,10,次/Nf格蘭路思/Nb選擇/VC全部/Neqa以/P美國/Nc橡木桶/Na來/D進行/VC熟...,的/DE 動作/Na,，/COMMACATEGORY更/Dfa與/P2018年/Nd造成/VK全球/Nc市場/Nc...
4,655,品酒,56,練習/VC 量/Na酒器/Na /WHITESPACE加/VC冰/Na /WHITESPAC...,的/DE 動作/Na,
...,...,...,...,...,...,...
190,18292,西斯文學,59,她/Nh欺負/VC的/DE花紅/VH的/DE肩/Na上/Ncd，/COMMACATEGORY...,的/DE 動作/Na,沒有/D停/VHC反而/Cbb更/D強硬/VH了/Di一些/Dfb。/PERIODCATEGORY
191,18941,戲劇綜藝,37,再/D加上/Cbb總是/D用/P無害/VH的/DE臉/Na做超撩妹/VA,的/DE 動作/Na,
192,18960,語言,0,./PERIODCATEGORY./PERIODCATEGORY./PERIODCATEGO...,的/DE 動作/Na,名稱/Na
193,18977,汽機車,10,說/VE：/COLONCATEGORY「/PARENTHESISCATEGORY我們/Nh這...,的/DE 動作/Na,」/PARENTHESISCATEGORY
