In [51]:
import xml.etree.ElementTree as ET
from collections import Counter

# Parse the XML data
def get_text(doc_path):
    tree = ET.parse(doc_path)
    root = tree.getroot()

    # Extract metadata
    metadata = root.find('./teiHeader')
    metadata_dict = {}
    for item in metadata.findall('metadata'):
        name = item.get('name')
        value = item.text
        metadata_dict[name] = value

    # Extract text content
    text = root.find('./text')
    body_author = text.find('./body').get('author')
    title_author = text.find('./title').get('author')
    sentences = text.findall('body/s')
    comments = text.findall('comment')
    comments_pairs = [([(word.get('type'), word.text) for word in c.findall('s/w')], c.get('c_type')) for c in comments]
    sentences_pairs = [[(word.get('type'), word.text) for word in sent.findall('w')] for sent in sentences]
    text = []
    c = Counter()
    for sentense in sentences_pairs:
        sentense_parsed = ''.join([word[1] for word in sentense])
        text.append(sentense_parsed)
    text = '\n'.join(text)
    for comment in comments_pairs:
        c[comment[1]] += 1
    file_name = doc_path.split('/')[-1]
    return {'date': file_name[:6], 'text': text, 'pos': c['pos'], 'neu': c['neu'], 'neg': c['neg']}


In [52]:
import os
from tqdm.auto import tqdm

directory = '/nfs/nas-6.1/wclu/cllt/ptt_data/HatePolitics'
data = []
 
for root, dirs, files in os.walk(directory):
    for filename in tqdm(files):
        if filename != '.DS_Store':
            doc_path = os.path.join(root, filename)
            try:
                data.append(get_text(doc_path))
            except:
                continue

import pandas as pd
data_df = pd.DataFrame(data)
data_df['num_com'] = data_df['pos'] + data_df['neu'] + data_df['neg']


  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/3815 [00:00<?, ?it/s]

  0%|          | 0/3780 [00:00<?, ?it/s]

  0%|          | 0/408 [00:00<?, ?it/s]

  0%|          | 0/1178 [00:00<?, ?it/s]

## BM25

In [50]:
from ckip_transformers.nlp import CkipWordSegmenter
from rank_bm25 import BM25Okapi

ws_driver  = CkipWordSegmenter(model="bert-base", device=0)

In [58]:
import numpy as np
def retrieve_bm25(year, month, query):
    date = year + month
    df = data_df[data_df['date']==date].reset_index(drop=True)
    corpus = df['text'].tolist()
    corpus_tokenized = ws_driver(corpus, batch_size=64, max_length=509)
    bm25 = BM25Okapi(corpus_tokenized)
    tokenized_query = ws_driver([query], batch_size=1, max_length=509)[0]
    scores = bm25.get_scores(tokenized_query)
    top_n = np.argsort(scores)[::-1][:20]
    rel_doc = df.iloc[top_n].sort_values(by=['num_com'], ascending=False).head(5)
    return rel_doc.reset_index(drop=True)


In [66]:
rel_doc = retrieve_bm25('2023', '02', '林智堅')

Tokenization: 100%|██████████| 1020/1020 [00:00<00:00, 1534.72it/s]
Inference: 100%|██████████| 23/23 [00:10<00:00,  2.21it/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 22671.91it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 156.54it/s]


In [67]:
print(rel_doc['text'][2])

1.轉錄網址︰
※ 網址超過一行 請縮網址 ※
https://bit.ly/3RZt0HO
2.轉錄來源︰
※ FB公眾人物、FB粉絲團名稱、其他來源 ※
ㄌ翁達瑞臉書
3.轉錄內容︰
※ 請完整轉載原文 請勿修改內文與編排 ※
尊重  但不捨林智堅的決定
翁達瑞 / 美國大學教授
教育部駁回中華的學倫調查訴願，林智堅決定不提行政訴訟。林智堅也決定撤回在教育部的
台大學倫調查訴願。這表示林智堅選擇吞下他的冤屈。
對林智堅的決定，我尊重，但仍感到萬分不捨。
#林智堅的冤屈
林智堅在中華與台大的碩士論文，撰寫的過程「或有瑕疵」，但問題絕對不在抄襲。兩校以
抄襲的罪名撤銷林智堅的學位，皆是不可承受的冤屈。
中華與台大做出抄襲判定後，林智堅面臨龐大的壓力。黨內有人要他認錯道歉，避免波及選
情。林智堅最後決定退選，以平民身分找回清白。
儘管選舉已結束，林智堅面對的壓力沒有減輕。敗選之後，民進黨內「清理戰場」的聲音擴
大。林智堅反變成敗選的戰犯。
民進黨官網的「闢謠專區」本來有一篇公告，為林智堅的清白澄清。近日，這篇公告已被撤
下。這應該是壓垮林智堅的最後一根稻草。
我跟林智堅非親非故，原本就不相識。我跳出來力挺他，純屬路見不平。中華與台大的學倫
調查泛政治化，將抄襲罪名強加在林智堅身上。
兩校的調查都有嚴重的瑕疵。中華的調查叫「偷天換日」；台大的調查則是「私吞證據」。
為了留下歷史紀錄，我把林智堅遭受的冤屈詳述如下：
#中華偷天換日
從一開始，我就說中華的調查「名不符實」，教育部的複審「虛實不分」。這個案子整個被
「偷天換日」了。
林智堅的碩士論文與竹科的專案報告，是台灣學界常見的「一稿兩用」。既然是一稿兩用，
內容當然大部分雷同，抄襲根本不是爭議之所在。
中華可以質疑林智堅的「一稿兩用」是否過當，但調查重點應放在教授的專案轉包過程，而
非林智堅是否涉及文字抄襲。
中華大學偷天換日的調查，就是縱放教授，冤屈學生。可歎的是，教育部的訴願審查也虛實
不分，全盤接受一個名不符實的調查結論。
中華的調查可用一個「虛構」的例子類比：
多年前，我向中華大學的教授轉租教員宿舍。該教授聲稱轉租未違反規定，中華大學也知情
。談妥轉租條件後我就入住，但並未簽署租約。
租用結束多年後，我投身政治，成為閃亮的政壇明星。為了打擊我，選舉對手向中華大學檢
舉我曾佔用該校的教員宿舍。
中華大學啟動「侵佔

In [None]:
from transformers import BertForSequenceClassification
from transformers import BertTokenizer
import torch

tokenizer=BertTokenizer.from_pretrained('IDEA-CCNL/Erlangshen-Roberta-110M-Sentiment', cache_dir='/nfs/nas-6.1/wclu/cache')
model=BertForSequenceClassification.from_pretrained('IDEA-CCNL/Erlangshen-Roberta-110M-Sentiment', cache_dir='/nfs/nas-6.1/wclu/cache')


In [None]:
id2label = {
    0: 'negative',
    1: 'positive'
}
def sentiment_analysis(year, month, query):
    rel_doc = retrieve_bm25(query)
    doc_text = rel_doc['text'].tolist()
    x = tokenizer(doc_text, padding='longest', truncation=True, max_length=512, return_tensors="pt")
    output = model(x['input_ids'])
    sentiment = []
    for logit in output.logits:
        sentiment.append(id2label[int(logit.argmax())])
    rel_doc['senti'] = sentiment
    return sentiment 

In [49]:
import numpy as np
def retrieve_tool(query):
    tokenized_query = ws_driver([query], batch_size=1, max_length=509)[0]
    scores = bm25.get_scores(tokenized_query)
    top_n = np.argsort(scores)[::-1][:50]
    rel_doc = data_df.iloc[top_n].sort_values(by=['num_com'], ascending=False).head(1)
    return rel_doc['text'].tolist()[0][:1000]

In [None]:
# Import things that are needed generically
from langchain import LLMMathChain, SerpAPIWrapper
from langchain.agents import AgentType, initialize_agent
from langchain.chat_models import ChatOpenAI
from langchain.tools import BaseTool, StructuredTool, Tool, tool

llm = ChatOpenAI(temperature=0, openai_api_key='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')
tools = [
    Tool.from_function(
        func=retrieve_tool,
        name = "Retrieve",
        description="useful for when you need to retrieve documents"
    ),
    StructuredTool.from_function(
        func=sentiment_analysis,
        name = "sentiment analysis",
        description="useful for when you need to know the sentiment"
    ),
]
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

In [None]:
agent.run("I want to know the sentiment about 林智堅")

## Semantic Search

In [None]:
from sentence_transformers import SentenceTransformer, util
import torch

embedder = SentenceTransformer('GanymedeNil/text2vec-large-chinese', device=2 ,cache_folder='/nfs/nas-6.1/wclu/cache')

corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True, normalize_embeddings=True, device=2, show_progress_bar=True)

In [None]:
def retrieve_semantic(query):
    query_embedding = embedder.encode([query], convert_to_tensor=True, normalize_embeddings=True, device=2, show_progress_bar=True)
    hits = util.semantic_search(query_embedding, corpus_embeddings, score_function=util.dot_score, top_k=10)
    rel_doc = [corpus[hit['corpus_id']] for hit in hits[0]]
    return rel_doc