In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pickle
import json
import random
import numpy as np
import pandas as pd
from tqdm import tqdm
from icecream import ic
from import_casa import casa, cano
from casa.annot import AspectEnum

In [3]:
TARGET_DIR = "20210707"
result_dir = casa.get_data_path() / f"annot_data/annotated_data_bkup/{TARGET_DIR}"
json_paths = [x for x in result_dir.iterdir() if x.suffix==".json" and x.name.startswith("result")]

In [4]:
with json_paths[1].open("r", encoding="UTF-8") as fin:
    annots = json.load(fin)

In [5]:
list(annots[0].keys())

['completions', 'data', 'id']

## Main conversion loop

In [7]:
seq_pairs_list = []
noise_pairs_list = []
for json_path in tqdm(json_paths):
    with json_path.open("r", encoding="UTF-8") as fin:
        annots = json.load(fin)
    for annot_i, annot_x in enumerate(annots): 
        try:
            thread_idx = annot_x["data"]["thread_idx"]            
            aspects = cano.process_thread_annotations(annot_x)
            seq_pairs, noise_pairs = cano.make_sequence_from_aspects(
                aspects, annot_x["data"]["html"], noise_ratio=0.5,
                other_with_B=False)
            seq_pairs_list.extend([(thread_idx, *x) for x in seq_pairs])
            noise_pairs_list.extend([(noise_pairs, *x) for x in noise_pairs])
        except Exception:
            print(annot_i)            

  0%|                                                                                                     | 0/10 [00:00<?, ?it/s]

different text spans:  方便又迅速！Good!


 40%|█████████████████████████████████████▏                                                       | 4/10 [00:02<00:03,  1.90it/s]

different text spans:  前18個月319/一個月，後六個月一個月399
different text spans:  中華電信5G有在建設？？出門連到5G的機會還是不到1/10
different text spans:  連玩coin master都會斷線的電信我真的不知道要說什麼
different text spans:  每家都有表現差的狀況，就是看環境適合誰囉，我生活圈台哥就是順
different text spans:  用起來是比其他家都還快
different text spans:  不過遠傳這次拿雙冠真的有讓人刮目相看
different text spans:  中華電信費率公布(連4G基地台都搞不定還在5啥小
different text spans:  千萬不要去遠傳繳費去了只會被推銷說要不要換新手機搭配新的方案再綁約價錢從499拉到799OK FINE 我被洗腦了綁2年送我一隻新手機然後新手機不見了也找不回來了心得:要繳費就去超商繳就好了


 60%|███████████████████████████████████████████████████████▊                                     | 6/10 [00:04<00:03,  1.09it/s]

269


100%|████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:05<00:00,  1.73it/s]


In [9]:
len(seq_pairs_list), len(noise_pairs_list)

(4554, 9937)

In [10]:
cano.print_seq_pair(seq_pairs_list[1300][1:3])

預(B-A) 付(I-A) 卡(I-A) 對(O) 低(O) 用(O) 量(O) 或(O) 短(O) 期(O) 需(O) 求(O) 很(O) 方(O) 便(O) ，(O) 台(B-E) 哥(I-E) 儲(O) 值(O) 優(B-VP) 惠(I-VP) 很(I-VP) 多(I-VP) ，(O) 另(O) 外(O) 像(O) 是(O) 雙(O) 享(O) 1(O) 1(O) 9(O) 那(O) 種(O) 也(O) 很(O) 適(O) 合(O) 短(O) 期(O) 在(O) 台(O) 的(O) 人(O)


In [11]:
seq_pairs_list[0]

(3260,
 '台星的態度就是在等宿主台哥，逸以待勞，準備寄生。',
 ['B-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C',
  'I-C'])

In [12]:
from collections import Counter
Counter([x[0] for x in seq_pairs_list]).most_common()

[(16739, 81),
 (16514, 75),
 (31347, 43),
 (9853, 41),
 (16379, 36),
 (13874, 35),
 (11015, 34),
 (28509, 31),
 (14396, 31),
 (13312, 30),
 (9809, 29),
 (33727, 27),
 (54634, 26),
 (16307, 25),
 (26523, 25),
 (10707, 24),
 (6931, 24),
 (35317, 23),
 (44494, 22),
 (39895, 22),
 (5151, 21),
 (24009, 21),
 (10567, 20),
 (16922, 20),
 (28466, 20),
 (10561, 20),
 (14762, 19),
 (33599, 19),
 (15645, 18),
 (10977, 17),
 (3335, 17),
 (35106, 17),
 (33584, 16),
 (21924, 16),
 (22761, 15),
 (27203, 15),
 (22346, 15),
 (10913, 15),
 (27070, 14),
 (27549, 14),
 (8619, 14),
 (27079, 14),
 (14107, 14),
 (34229, 14),
 (28487, 14),
 (18776, 13),
 (9442, 13),
 (24736, 13),
 (39197, 13),
 (43365, 13),
 (28111, 12),
 (49796, 12),
 (46554, 12),
 (21940, 12),
 (47871, 12),
 (23079, 12),
 (27168, 11),
 (29016, 11),
 (26897, 11),
 (11783, 11),
 (1857, 11),
 (45100, 11),
 (49095, 11),
 (4344, 10),
 (21956, 10),
 (3930, 10),
 (23989, 10),
 (16310, 10),
 (18777, 10),
 (3892, 10),
 (10642, 10),
 (5083, 10),
 (39

## Saving data

In [13]:
with open(result_dir / f"seq_pairs_vpol_{TARGET_DIR}.pkl", "wb") as fout:
    pickle.dump(seq_pairs_list, fout)
with open(result_dir / f"noise_pairs_vpol_{TARGET_DIR}.pkl", "wb") as fout:
    pickle.dump(noise_pairs_list, fout)

In [36]:
sum([all(y=="O" for y in x[1]) for x in seq_pairs_list]), len(seq_pairs_list)

(866, 3439)

In [37]:
846/3439

0.24600174469322478

In [16]:
cano.print_seq_pair(seq_pairs_list[1])

換(O) 電(O) 信(O) 一(O) 定(O) 要(O) 先(O) 試(O) 用(O) 過(O) ，(O) 中(B-E) 華(I-E) 訊(B-A) 號(I-A) 普(O) 遍(O) 都(O) 很(B-VP) 可(I-VP) 以(I-VP) ，(O) 3(B-A) 9(I-A) 8(I-A) 配(O) 家(O) 電(O) 也(O) 不(B-VP) 錯(I-VP) ，(O) 不(O) 過(O) 看(O) 到(O) 氣(O) 炸(O) 鍋(O) 目(O) 前(O) 缺(O) 貨(O) 中(O) ，(O) 可(O) 能(O) 是(O) 太(O) 熱(O) 門(O) 了(O) …(O) …(O)


In [17]:
cano.print_seq_pair(noise_pairs_list[0])

哎(B-O) 呀(B-O) ，(B-O) 你(B-O) 知(B-O) 道(B-O) 的(B-O) 太(B-O) 多(B-O) 了(B-O) ～(B-O) ～(B-O) ～(B-O) 反(B-O) 正(B-O) 暫(B-O) 時(B-O) 無(B-O) 資(B-O) 金(B-O) 可(B-O) 建(B-O) 設(B-O) ，(B-O) 還(B-O) 不(B-O) 如(B-O) 吃(B-O) 吃(B-O) 台(B-O) 哥(B-O) 大(B-O) 的(B-O) 豆(B-O) 腐(B-O) 比(B-O) 較(B-O) 實(B-O) 際(B-O) ！(B-O) 不(B-O) 然(B-O) 一(B-O) 開(B-O) 台(B-O) ，(B-O) 2(B-O) 0(B-O) 0(B-O) 億(B-O) 頻(B-O) 譜(B-O) 費(B-O) 得(B-O) 開(B-O) 始(B-O) 認(B-O) 列(B-O) ，(B-O) 但(B-O) 馬(B-O) 上(B-O) 就(B-O) 有(B-O) 1(B-O) 0(B-O) 萬(B-O) 低(B-O) 資(B-O) 1(B-O) 8(B-O) 8(B-O) 用(B-O) 戶(B-O) 免(B-O) 費(B-O) 體(B-O) 驗(B-O) ，(B-O) 要(B-O) 加(B-O) 速(B-O) 賠(B-O) 到(B-O) 3(B-O) 0(B-O) 0(B-O) 億(B-O) 嗎(B-O) ？(B-O)


In [34]:
ftext = open(result_dir / f"seq_pairs_{TARGET_DIR}.text.txt", "w", encoding="UTF-8")
ftags = open(result_dir / f"seq_pairs_{TARGET_DIR}.tags.txt", "w", encoding="UTF-8")
for text, tags in seq_pairs_list:
    ftext.write(text + "\n")
    ftags.write(" ".join(tags) + "\n")
ftext.close()
ftags.close()

## Sandbox

In [7]:
def find_thread_idx(annots, thread_idx):
    iter_annot = filter(lambda x: x["data"]["thread_idx"]==thread_idx, annots)
    return list(iter_annot)[0]

In [8]:
annots = []
for json_path in tqdm(json_paths):
    with json_path.open("r", encoding="UTF-8") as fin:
        obj = json.load(fin)
    annots.extend(obj)        


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  8.43it/s]


In [9]:
annot_x = find_thread_idx(annots, 220)

In [12]:
from casa.annot.mark_sequence import *

In [14]:
div = make_div_element(annot_x["data"]["html"])

In [15]:
div.xpath("//li")

[<Element li at 0x1b50b9d7c00>,
 <Element li at 0x1b50b9d7d80>,
 <Element li at 0x1b50b9d7f00>,
 <Element li at 0x1b50b9d80c0>,
 <Element li at 0x1b50b9d8240>,
 <Element li at 0x1b50b9d8400>,
 <Element li at 0x1b50b9d8580>,
 <Element li at 0x1b50b9d8700>,
 <Element li at 0x1b50b9d8880>,
 <Element li at 0x1b50b9d89c0>,
 <Element li at 0x1b50b9d8b40>,
 <Element li at 0x1b50b9d8cc0>,
 <Element li at 0x1b50b9d8e40>,
 <Element li at 0x1b50b9d8fc0>,
 <Element li at 0x1b50b9d9180>,
 <Element li at 0x1b50b9d9300>,
 <Element li at 0x1b50b9d9480>,
 <Element li at 0x1b50b9d9600>,
 <Element li at 0x1b50b9d9780>,
 <Element li at 0x1b50b9d9900>,
 <Element li at 0x1b50b9d9a80>,
 <Element li at 0x1b50b9d9c00>,
 <Element li at 0x1b50b9d9d80>,
 <Element li at 0x1b50b9d9f00>,
 <Element li at 0x1b50b9db0c0>]

In [50]:
aspects, dbg = cano.process_thread_annotations(annot_x, True)
seq_pairs, noise_pairs = cano.make_sequence_from_aspects(aspects, annot_x["data"]["html"], noise_ratio=0.5)

In [51]:
len(seq_pairs), len(noise_pairs)

(6, 9)

In [52]:
cano.print_seq_pair(seq_pairs[0])

先(B-O) 辦(B-O) 試(B-O) 用(B-O) ，(B-O) 中(B-E) 華(I-E) 4(B-A) 8(I-A) 8(I-A) 優(B-V) 惠(I-V) 不(I-V) 錯(I-V)


In [40]:
noise_pairs

[[('不管要辦哪一間，先試用就對了',
   ['B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O'])],
 [('你知道什麼是攜碼吧？',
   ['B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O'])],
 [('我家樓下沒名店啊', ['B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O', 'B-O'])],
 [('提醒你，有些方案沒送市話，一分鐘是6元，即使用不到，也要注意',
   ['B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O'])],
 [('台星送艾鳳11轉賣後0月租，不要跟別人講，今天在這跟你結個緣',
   ['B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    'B-O',
    

In [17]:
collect_sentences(chain(*(x.spans for x in aspects))) 

{'ol[1]/li[13]/text()': [<TextSpan [Z6okmKmpxZ]: Entity, 中華>,
  <TextSpan [DDXHqKpP4C]: Attribute, 488>,
  <TextSpan [u9uFQUkcng]: Evaluation, 優惠不錯 >],
 'ol[1]/li[16]/text()': [<TextSpan [3N510DFllY]: Entity, 遠傳>,
  <TextSpan [qKOI3WDVGa]: Attribute, 399/319>,
  <TextSpan [Q1BJ1nYv2c]: Evaluation, 比較便宜>],
 'ol[1]/li[17]/text()': [<TextSpan [X-zotPemPn]: Entity, 台哥>,
  <TextSpan [xuUXa83jFo]: Attribute, 收訊>,
  <TextSpan [xSo_Pep-3L]: Evaluation, 被靠北到死 >],
 'ol[1]/li[22]/text()': [<TextSpan [ipU_I4Up-Q]: Entity, 台哥>,
  <TextSpan [2UkhZzUG81]: Attribute, NP>,
  <TextSpan [dS1luUa09L]: Evaluation, 最好>],
 'ol[1]/li[25]/text()': [<TextSpan [0bHE5Ow7Uz]: Entity, 遠傳>,
  <TextSpan [C8OHMfbLL_]: Attribute, 資費>,
  <TextSpan [FVcq_RMHH4]: Evaluation, 比較划算欸，比另外兩家都更便宜 些>,
  <TextSpan [fFJflhBp-l]: Entity, 遠傳>,
  <TextSpan [b_GNGShOtQ]: Attribute, 588退傭>,
  <TextSpan [iEqwtM8KjW]: Evaluation, 還蠻推>],
 'ol[1]/li[2]/text()': [<TextSpan [KwGuZf7Div]: Context, 你到底在不在意通話分鐘？在意的話別把把遠傳3 19拉進來討論 >]}