In [1]:
import dataclasses
from dataclasses import dataclass
from pprint import pprint
import os
import weaviate
from langchain.retrievers.weaviate_hybrid_search import WeaviateHybridSearchRetriever


@dataclass
class ContentItem:
    media: str  # media source of the post or comment
    content_type: str  # post or comment
    author: str  # author of the post or comment
    post_id: str  # id of the post
    year: str  # year of the post
    board: str  # board of the post
    title: str  # title of the post
    text: str  # text of the post or comment
    rating: str  # rating of the comment
    order: int  # 0 for post, 1, 2, 3, ... for comments
    chunk: int  # if text too long, split into chunks
    total_chunks: int  # total number of chunks


os.environ['WEAVIATE_ADMIN_PASS'] = "weaviate-ultimate-forever-pass"
os.environ['OPENAI_API_KEY'] = "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"



  Base = declarative_base()  # type: Any


In [2]:
client = weaviate.Client(
    url="http://140.112.147.128:8000",
    auth_client_secret=weaviate.AuthApiKey(api_key=os.environ["WEAVIATE_ADMIN_PASS"]),
    timeout_config=(5, 30), # (connect timeout, read timeout) # type: ignore
    additional_headers={'X-OpenAI-Api-Key': os.environ["OPENAI_API_KEY"]}
)

In [3]:
# https://weaviate.io/blog/hybrid-search-explained
attributes = [field.name for field in dataclasses.fields(ContentItem)]
print(attributes)
retriever = WeaviateHybridSearchRetriever(
    client=client,
    k=10,
    alpha=0.9,  # weighting for each search algorithm (alpha = 0 (sparse, BM25), alpha = 1 (dense), alpha = 0.5 (equal weight for sparse and dense))
    index_name="ContentItem",
    text_key="text",
    attributes=attributes,  # include these attributes in the 'metadata' field of the search results
)


['media', 'content_type', 'author', 'post_id', 'year', 'board', 'title', 'text', 'rating', 'order', 'chunk', 'total_chunks']


In [11]:
r = retriever.get_relevant_documents("誰是台大校長")
pprint(r)

[Document(page_content='〔記者吳柏軒／台北報導〕台灣大學啟動下任校長遴選程序，週六（19日）將舉辦遴選委員投票，候選人名單今（17日）曝光，學生點出，太多前任行政主管，恐被相似背景決定校長人選，難有新風氣；教授則剖析制度，多複製校內既定勢力，不利傑出校友入選。台灣大學校長管中閔日前宣布不續任，任期預計到2023年1月7日屆滿，校方已啟動下一任校長遴選作業程序，本週六將舉行校長遴選委員會候選人投票，台大規定校長遴委會共21席，扣除教育部代表3席（次長劉孟奇、成大校長蘇慧貞、中興校長薛富盛），還需從校內教研代表、校友代表及社會公正人士及學生代表之中，選出18名遴選委員。遴委會候選名單今曝光，包含校友總會推薦4人：前台大副校長湯明哲及包宗和，成大校長蘇慧貞、成大講座教授羅竹芳等；行政會議推薦6人如國衛院院長梁賡義、前衛福部長蔣丙煌等；還有11個學院各推教研人員代表、校友社會人士代表等名單，囊括中研院士牟中原、李琳山，及企業家尹衍樑等，但也不乏前朝官員杜紫軍、陳保基等。面對遴委會候選人名單，台大學生會長張承宇表示，查看發現蠻多都是前幾屆校長任內的行政主管、院長。學生會認為如果希望校內有新氣象，不要被相似背景、勢力的人決定校長人選，遴選委員應該盡量避免這些屬性的人擔任。不具名的教授則分析，台大身為龍頭大學，但校長遴選制度卻多複製校內既定勢力，不如他校能選出海外歸國的英才，如校友總會候選名單就2人是前校長李嗣涔任內的副校長，再加上行政會議3人，行政人員1人，等於將來遴委會有多票會被前任、現任校長與行政團隊所掌控。該名教授在說，扣除上列還有12席，有1席學生，剩下11席則從11個學院中產生，但台大制度卻是將校內教師代表與校外人士代表一起競爭投票，並採學院分類，7個最高票的學院教師代表將先勝出，剩下4個學院則推校友代表，等於高票的傑出校友會被高票的教師代表壓制，反而拿0票的校外代表會被選上，建議將來制度修改，或週六投票時，眾人先投自己的校友代表，但放棄自己學院的教師代表，才能真正讓高票校友實質勝出。台大校方則表示，充分理解各界對台大校長選舉的關注與期許，此次「校長遴選委員會組織及運作要點」不僅參考教育部最新的公立大學校長遴選委員會設置及作業要點，也經過去年12月25日的臨時校務會議通過，過程中皆充分表達意見並討論，最後也投票確定相關條文，今年1月21日完成教

## One filter

In [4]:
where_filter = {
    "path": ["author"],
    "operator": "Equal",
    "valueString": "peterW",
}
r = retriever.get_relevant_documents("怒", where_filter=where_filter)
pprint(r)

[Document(page_content='老闆？', metadata={'author': 'peterw', 'board': 'movie-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 32, 'post_id': 'M.1650945380.A.25A', 'rating': 'neu', 'title': '[新聞] 《媽的》字幕翻譯觀眾怒！譯者嗆「回你', 'total_chunks': 1, 'year': '2022'}),
 Document(page_content='推樓上', metadata={'author': 'peterw', 'board': 'movie-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 27, 'post_id': 'M.1635682754.A.BA6', 'rating': 'pos', 'title': '[討論] 漫威浩克的角色形象有很憤怒嗎', 'total_chunks': 1, 'year': '2021'}),
 Document(page_content='本來要大聲斥責過氣的，但是實在太大了', metadata={'author': 'peterw', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 46, 'post_id': 'M.1589453622.A.A69', 'rating': 'pos', 'title': '[問卦] 何庭歡(歡歡)是不是無法無天?', 'total_chunks': 1, 'year': '2020'}),
 Document(page_content='股東也怒了吧', metadata={'author': 'peterw', 'board': 'movie-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 32, 'post_id': 'M.16

In [6]:
where_filter = {
    "path": ["year"],
    "operator": "NotEqual",
    "valueString": "2021",
}
r = retriever.get_relevant_documents("怒", where_filter=where_filter)
pprint(r)

[Document(page_content='過氣老人', metadata={'author': 'ozjucka', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 629, 'post_id': 'M.1583337188.A.2CC', 'rating': 'neg', 'title': '[爆卦] 游錫堃遭恐嚇!', 'total_chunks': 1, 'year': '2020'}),
 Document(page_content='打臉 打臉 打臉 游：不要打了啦', metadata={'author': 'simonneko', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 488, 'post_id': 'M.1583367342.A.B09', 'rating': 'pos', 'title': 'Re: [爆卦] 游錫堃遭恐嚇!', 'total_chunks': 1, 'year': '2020'}),
 Document(page_content='吸仇恨', metadata={'author': 'liusean', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 142, 'post_id': 'M.1583367342.A.B09', 'rating': 'neu', 'title': 'Re: [爆卦] 游錫堃遭恐嚇!', 'total_chunks': 1, 'year': '2020'}),
 Document(page_content='壓力鍋到要爆了！嘻嘻！可惜恥力無法變戰力！可憐吶！', metadata={'author': 'qsxwdc', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 

## Multiple filter

In [6]:
where_filter = {
    "operator": "And",  # And or Or
    "operands": [  # use operands for multiple filters
        {"path": ["content_type"], "operator": "Equal", "valueString": "comment"},
        {"path": ["rating"], "operator": "Equal", "valueString": "pos"},
        {"path": ["author"], "operator": "NotEqual", "valueString": "peterW"}

    ],
}
r = retriever.get_relevant_documents("資工系", where_filter=where_filter)
pprint(r)

[Document(page_content='資工最讚 連接理想的科學和應用的工程', metadata={'author': 'yw1002', 'board': 'Gossiping-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 15, 'post_id': 'M.1670342329.A.C66', 'rating': 'pos', 'title': '[新聞] 美國大學生最後悔主修科系曝光 「這系」', 'total_chunks': 1, 'year': '2022'}),
 Document(page_content='我以前資工系的時候就一堆外系的來修課了，哈 習慣', metadata={'author': 'scitamehtam', 'board': 'NTU-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 12, 'post_id': 'M.1646312120.A.C07', 'rating': 'pos', 'title': '[問題] 有沒有收集資工系各堂課教材的八卦?', 'total_chunks': 1, 'year': '2022'}),
 Document(page_content='資工的東西都可以自學，外系的也不用修', metadata={'author': 'NCTUmumi', 'board': 'NTU-ptt', 'chunk': 1, 'content_type': 'comment', 'media': 'ptt', 'order': 7, 'post_id': 'M.1600156877.A.3DE', 'rating': 'pos', 'title': '[問題] 資工系怎不換大教室', 'total_chunks': 1, 'year': '2020'}),
 Document(page_content='工海就全修程式相關的阿 研究所洗資工', metadata={'author': 'LincolnBoy', 'board': 'NTU-ptt', 'chunk': 1, 'content_type': 'comme

## extract data

In [11]:
#巧涵
merged_data = {}
for item in r:
    order = item.metadata.get('order')
    title = item.metadata.get('title')
    page_content = item.page_content
    if order != 0:
        if title in merged_data:
            merged_data[title].append(page_content)
        else:
            merged_data[title] = [page_content]
for title, contents in merged_data.items():
    print("Title:", title)
    print("Merged Contents:", " ".join(contents))
    print()

Title: [問題] 文組第一志願是什麼系？
Merged Contents: J系呵呵呵 樓上上以利特輸入法 硬要翻的話應該可以翻成「法理論證」但不如寫原文好 是華爾街還是華爾街美語 哭啊 35k 哲學以外都是旁門左道 抱歉齁 計概課本裡面寫的computer我也不知道是什麼 所以 原來legal reasoning是專有名詞專有到一定切到英文鍵盤打 華爾街實習，你認真？ 人類吧 光系名就贏了 政治系啊 法律吧 學學Saul Goodman 你親戚的朋友姓蔡？ 財金系朋友應該不是台大的吧 星巴克、麥當勞也是外商 幻想吧……台大財金一屆可能都沒一個在華爾街實習吧…

Title: [新聞] 台、成、清、交四校成立半導體學院
Merged Contents: 這個要念文組還是理組的啊 文組翻身機會來了 再教育學校 四校合開還是分別收人？ 大葉呢？ 大葉呢？ 積積大 代工培訓學院 台清交成 被刻意寫成 台成清交....XD 噴噴 十 十 十 無塵服正確穿法 先修熬夜學分 學習輪班上課 不是已經有固態組了嗎 先練習輪班 台科大：先給我等一下 年 山 記者肯定是成大+1 好！ 推 避開教育部經費直接增設的單位 萬 萬 斷斷斷 政大繼續當文組白痴 可憐 先學好excel ppt 全力做多 青 青

Title: [廢文] 自動詞 他動詞
Merged Contents: 五段活用 上一段活用 下一段活用 形容詞 形容動詞 嘻嘻 背句型啦 啊就背不起來啊

Title: [新聞] 大一國文不修也可？ 台大學生會提案掀兩
Merged Contents: 要教思辨為什麼要用語文課包裝 思辯本就不是中文系專業，在國文課學思辯有點奇怪 要學清楚的思辨跟寫作是真的跟古文關係不大... 思辨比較重要，不一定要用中文課包裝，單單學思辯還比較好 強制要上中文課的話，不如拿來上論文寫作或公文寫作 寫作中心的課都不錯 拿來學邏輯和批判思考，不管哪個學科都需要 不論高中國文老師爭古文篇幅或中文系教授爭全校必修 改成選修給有興趣的不就好了 服務學習也順便 來互相傷害啊，把微積分一起定必修如何 思辯是法律系專業吧 看看檯面上法律人，哪個人不會辯？ 我倒覺得應該仿效國外多一點對於(英文跟中文)寫作的訓 我自己蠻喜歡當初選到的那堂國文，跟高中差很多，比 那時候上大一國文還不錯 老師很用心 上的都是近代小

In [15]:
#凱晴#取出post_id
post_ids = []

for doc in r:
    post_ids.append(doc.metadata['post_id'])

print(post_ids)
print(len(post_ids))

['M.1593787410.A.71C', 'M.1613952404.A.EEF', 'M.1610339213.A.172', 'M.1593787410.A.71C', 'M.1593787410.A.71C', 'M.1593787410.A.71C', 'M.1593787410.A.71C', 'M.1623901406.A.718', 'M.1577937820.A.575', 'M.1577937820.A.575', 'M.1577937820.A.575', 'M.1577937820.A.575', 'M.1593787410.A.71C', 'M.1577937820.A.575', 'M.1577937820.A.575', 'M.1599868754.A.16A', 'M.1593787410.A.71C', 'M.1577937820.A.575', 'M.1577937820.A.575', 'M.1593787410.A.71C', 'M.1577937820.A.575', 'M.1610339213.A.172', 'M.1632918664.A.A55', 'M.1593787410.A.71C', 'M.1593787410.A.71C', 'M.1593787410.A.71C', 'M.1585644039.A.D49', 'M.1604635587.A.886', 'M.1624171192.A.0DE', 'M.1616401300.A.1D0', 'M.1633839420.A.1DF', 'M.1606122246.A.047', 'M.1584023674.A.08E', 'M.1624171192.A.0DE', 'M.1647319394.A.EE4', 'M.1585113218.A.382', 'M.1591741582.A.395', 'M.1593787410.A.71C', 'M.1623901406.A.718', 'M.1577937820.A.575', 'M.1610339213.A.172', 'M.1593787410.A.71C', 'M.1623901406.A.718', 'M.1585180921.A.EA0', 'M.1610179773.A.8F4', 'M.161932

In [16]:
#凱晴#把相同post_id刪除
filtered_post_ids = list(set(post_ids))
print(len(filtered_post_ids))
print(filtered_post_ids)

168
['M.1612798478.A.851', 'M.1624598861.A.9A0', 'M.1615825773.A.B44', 'M.1618877326.A.64A', 'M.1584023674.A.08E', 'M.1605327107.A.C38', 'M.1636576595.A.C8A', 'M.1660411403.A.FAD', 'M.1610800374.A.C1A', 'M.1601128225.A.DD8', 'M.1592136699.A.914', 'M.1610888295.A.55A', 'M.1578155908.A.8F5', 'M.1603086787.A.093', 'M.1636707677.A.110', 'M.1585702829.A.BA0', 'M.1621541131.A.1DF', 'M.1632918664.A.A55', 'M.1642598517.A.8F8', 'M.1606112735.A.CA5', 'M.1585422941.A.809', 'M.1637805217.A.88B', 'M.1624444814.A.C8B', 'M.1603821827.A.DD9', 'M.1579012569.A.FE4', 'M.1656188714.A.33F', 'M.1614237658.A.F3B', 'M.1619155469.A.D5B', 'M.1665199202.A.331', 'M.1624506459.A.58A', 'M.1624171192.A.0DE', 'M.1610810641.A.AB0', 'M.1603337610.A.A9D', 'M.1659768649.A.318', 'M.1610339213.A.172', 'M.1618805416.A.78D', 'M.1666345433.A.39E', 'M.1585193040.A.A2F', 'M.1641406909.A.DD3', 'M.1625135441.A.98F', 'M.1578287349.A.292', 'M.1624364580.A.E59', 'M.1636631778.A.E38', 'M.1610301628.A.44B', 'M.1591520650.A.39C', 'M.15

In [18]:
#凱晴
result={}
for doc in r:
    if doc.metadata['post_id'] in filtered_post_ids:
        if doc.metadata['post_id'] in result:
            result[doc.metadata['post_id']] += '' + doc.page_content
        else:
            result[doc.metadata['post_id']] = doc.page_content
for post_id, page_content in result.items():
    print(f"post_id: {post_id}, page_content: {page_content}")


post_id: M.1593787410.A.71C, page_content: J系呵呵呵樓上上以利特輸入法硬要翻的話應該可以翻成「法理論證」但不如寫原文好是華爾街還是華爾街美語哭啊 35k哲學以外都是旁門左道抱歉齁 計概課本裡面寫的computer我也不知道是什麼 所以原來legal reasoning是專有名詞專有到一定切到英文鍵盤打華爾街實習，你認真？人類吧 光系名就贏了政治系啊法律吧 學學Saul Goodman你親戚的朋友姓蔡？財金系朋友應該不是台大的吧星巴克、麥當勞也是外商幻想吧……台大財金一屆可能都沒一個在華爾街實習吧…
post_id: M.1613952404.A.EEF, page_content: 這個要念文組還是理組的啊文組翻身機會來了 再教育學校四校合開還是分別收人？大葉呢？大葉呢？積積大代工培訓學院台清交成 被刻意寫成 台成清交....XD噴噴十十十無塵服正確穿法先修熬夜學分學習輪班上課不是已經有固態組了嗎先練習輪班台科大：先給我等一下年山記者肯定是成大+1好！推避開教育部經費直接增設的單位萬萬斷斷斷政大繼續當文組白痴 可憐先學好excel ppt全力做多青青
post_id: M.1610339213.A.172, page_content: 五段活用 上一段活用 下一段活用 形容詞 形容動詞 嘻嘻背句型啦啊就背不起來啊
post_id: M.1623901406.A.718, page_content: 要教思辨為什麼要用語文課包裝思辯本就不是中文系專業，在國文課學思辯有點奇怪要學清楚的思辨跟寫作是真的跟古文關係不大...思辨比較重要，不一定要用中文課包裝，單單學思辯還比較好強制要上中文課的話，不如拿來上論文寫作或公文寫作寫作中心的課都不錯拿來學邏輯和批判思考，不管哪個學科都需要不論高中國文老師爭古文篇幅或中文系教授爭全校必修改成選修給有興趣的不就好了服務學習也順便來互相傷害啊，把微積分一起定必修如何思辯是法律系專業吧 看看檯面上法律人，哪個人不會辯？我倒覺得應該仿效國外多一點對於(英文跟中文)寫作的訓我自己蠻喜歡當初選到的那堂國文，跟高中差很多，比那時候上大一國文還不錯 老師很用心 上的都是近代小說國文絕對沒資格當必修大學國文就是強制要修的一門A1通識課
post_id: M.1577937820.A.575, page_co

In [None]:
import os
import shutil
import xml.etree.ElementTree as ET
import pandas as pd

xml_directory = 'data/NTU/'
output_directory = 'goal_xml'
os.makedirs(output_directory, exist_ok=True)

# 刪除前一次執行產生的檔案
previous_files = os.listdir(output_directory)
for file_name in previous_files:
    file_path = os.path.join(output_directory, file_name)
    os.remove(file_path)

for filename in os.listdir(xml_directory):
    if filename.endswith('.xml'):
        file_path = os.path.join(xml_directory, filename)
        output_path = os.path.join(output_directory, filename)
        shutil.copyfile(file_path, output_path)

# 輸出所有「留言」dataframe
comment_data = pd.DataFrame(columns=['Comment', 'Author'])
previous_result_file = 'result.csv'
if os.path.isfile(previous_result_file):
    os.remove(previous_result_file)
for filename in os.listdir(output_directory):
    if filename.endswith('.xml'):
        file_path = os.path.join(output_directory, filename)
        tree = ET.parse(file_path)
        root = tree.getroot()
        for comment in root.iter('comment'):
            author = comment.attrib.get('author', '')
            content = ''
            for w in comment.iter('w'):
                if w.text:
                    content += w.text
            comment_data = comment_data.append({'Comment': content, 'Author': author}, ignore_index=True)
comment_data.to_csv('comment.csv', index=False)

# 輸出所有「內容」dataframe
content_data = pd.DataFrame(columns=['Content', 'Author'])
previous_result_file = 'result.csv'
if os.path.isfile(previous_result_file):
    os.remove(previous_result_file)
for filename in os.listdir(output_directory):
    if filename.endswith('.xml'):
        file_path = os.path.join(output_directory, filename)
        tree = ET.parse(file_path)
        root = tree.getroot()
        for body in root.iter('body'):
            author = body.attrib.get('author', '')
            content = ''
            for s in body.iter('s'):
                for w in s.iter('w'):
                    if w.text:
                        content += w.text
            content_data = content_data.append({'Content': content, 'Author': author}, ignore_index=True)
content_data.to_csv('content.csv', index=False)

# 合併兩個CSV檔案
merged_data = pd.concat([content_data, comment_data], axis=1)

# 重新命名欄位
merged_data.rename(columns={'Content': 'content', 'Author': 'content_author',
                            'Comment': 'comment', 'Author': 'comment_author'}, inplace=True)

# 儲存合併後的資料到新的CSV檔案
merged_data.to_csv('merged_data.csv', index=False)