In [1]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import json
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from prp_model import retrieval_augmented_generate
from classifier import get_relevance_discriminator

character = "Bob"

statements = [data["statement"] for data in json.load(open(f"statement/{character}.json"))]

model_id = f"prp_models/gemma-1.1-7b-it-lora-{character}-rag-dpo"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

prp_tokenizer = AutoTokenizer.from_pretrained(model_id)
prp_model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config, device_map={"":0})

relevance_discriminator = get_relevance_discriminator(character=None, statement_query_relevance_dataset=None, relevance_finetune_epoch=None, use_pretrained_discriminator=True)

with torch.no_grad():
    
    while True:
    
        _, response = retrieval_augmented_generate(character, statements, input(prompt='User: '), prp_model, prp_tokenizer, relevance_discriminator, rag_top_k=5)
        response = character+": "+response.replace("<eos>", "")
        print(response)

In [6]:
from datasets import load_dataset

In [9]:
for data in load_dataset("allenai/WildChat")["train"]:
    if "外星人" in str(data) and "gpt-4" in str(data):
        print(data)

{'conversation_id': '6c9e7762ef8447a029cc57fcf90fd6b1', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 4, 15, 13, 53, 21, tzinfo=<UTC>), 'conversation': [{'content': 'Dear chatGPT: could you please write a story about <south park> in chinese? ', 'language': 'English', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '在美国科罗拉多州的一个小镇南帕克，居住着四位好朋友——斯坦、凯尔、卡特曼和肯尼。每个人都有着各自独特的性格，他们常常在一起度过许多难忘的时光。\n\n有一天，南帕克的学校举办了一场盛大的服装派对。斯坦、凯尔、卡特曼和肯尼非常兴奋，他们决定一起为这场派对准备最搞笑的服装。\n\n当天晚上，四位好朋友来到了派对现场，他们穿着各色奇特的服装，引起了大家的注意。斯坦穿着外星人的服装，头顶一顶特大的绿色头盔，拿着一支充满神秘感的射线枪。凯尔则穿着侠盗罗宾汉的绿色紧身衣，佩戴着一顶羽毛帽，背上还插着一把假弓箭。卖力地扮演着自己的角色。\n\n卡特曼，这个狡猾胖小子，则穿着一身类似于拿破仑的服装，身着华美的红色大衣，戴着一顶戏剧性极强的大硬帮帽。他傲慢地叉着腰，四处炫耀着他的装扮。至于肯尼，他死里逃生地穿了一套僵尸服装，脸上画着恐怖的伤疤，看上去颇为诡异。\n\n当晚，大家都陶醉在各种奇特的服装和气氛中，四位南帕克的好兄弟也在得到大家称赞的同时，忍不住欢笑。就在这时，一个神秘的音乐家闯入了派对现场，他身着黑色斗篷，戴着面具。没有人知道他的身份，他弹奏起迷人的音乐，南帕克的孩子们都聚集在他周围，聆听这迷人的旋律。\n\n忽然，音乐停了下来。神秘音乐家拿出一根魔法棒，指向聚集在周围的孩子们。在他的魔法之下，孩子们的服装竟然变成了真人。斯坦顿时变成了一个真正的外星人，而凯尔真的成了侠盗罗宾汉，他们都惊呆了。\n\n身处混乱之中的南帕克小镇，面临着一个前所未有的大挑战。这四位朋友必须齐心协力，揭开这位神秘音乐家的面纱

{'conversation_id': '0802e441271519cd06bf0cb149a87a48', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 5, 6, 42, 56, tzinfo=<UTC>), 'conversation': [{'content': '請寫出好笑快樂又故獨一無二兮愛情小說', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '在一個名叫“喜悅王國”的地方，有一對形影不離的戀人，他們名叫笑笑和樂樂。在這片充滿快樂、幽默與浪漫的土地上，他們經常一起愉快地度過時間。每天，他們總是進行各種省掉笑點並讓彼此心花怒放快樂的活動。他們不僅分享著獨一無二的愛情，還經常創造出值得傳頌的故事。\n\n有一天，樂樂告訴笑笑，她巧妙地設計了一個全新的遊戲，名叫“笑話接龍”。在這個遊戲裡，他們必須一個接一個地說出自己最新的笑話，看誰能讓對方笑得最久。比賽正式開始，笑笑迅速說出了他的第一個笑話：“為什麼每個地方都有Wi-Fi，但月球卻沒有？因為那裡是無月的！”樂樂瞪大眼睛，忍不住笑了出來。\n\n樂樂報以笑話回擊：“為什麼電子郵件總是感冒？因為它們都帶有病毒！”這次換笑笑嘻哈大笑。他們互相講笑話，笑得合不攏嘴，如同一對快樂的小鳥在天空翱翔。\n\n突然，樂樂眼睛一亮，提議去森林裡尋找一顆天籟之樹，擁有無盡快樂力量的樹。據說，只有最幸福的人才能找到它。於是，他們朝著森林出發，一邊尋找，一邊繼續進行他們的“笑話接龍”。\n\n在森林中，他們遇到了一群生活在樹上的小動物。這些小動物被他們的快樂感染，也幫助他們尋找天籟之樹。路上,他們經歷了風風雨雨，翻山越嶺，遇到各式各樣的奇妙事物，他們始終保持著樂觀愉快的心情。\n\n終於，他們在一片陽光明媚的樹林裡找到了天籟之樹。這棵樹分外奇特，它的樹皮上長滿了形狀各異的笑臉，而樹枝上則纏繞著各色繽紛的絲帶。笑笑和樂樂擁抱著彼此，感激地謝著天籟之樹給他們帶來的快樂。\n\n自此，笑笑和樂樂定下決心，要將快樂帶給更多的人。他們繼續參加各種趣味盎然的活動，開創了一個又一個幸福的節日，使喜悅王國變得更加歡樂。在這個奇妙的國度裡，他們的愛情

{'conversation_id': '50d0ed467090735571998fdbfc2331bf', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 6, 4, 30, 35, tzinfo=<UTC>), 'conversation': [{'content': '請用二千字寫出隻位平凡男子如何在事業成功兮故事大綱', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '故事的主人公林小杰是一个饱含热情的平凡男子，他自幼生活在一个普通的家庭，父母为了给他和弟弟提供一个较为优越的生活环境，节衣缩食，辛勤工作。林小杰从小就立下志向，要将父母的恩情加倍奉还，希望他们能过上更好的生活。\n\n初入社会，林小杰扎根于市场销售行业，通过与客户的交流沟通，让他领悟到了一个道理：在销售中，人人都是自己的老师，客户是上帝并非口号，而是真正与人为本的必然选择。他日以继夜地努力工作，将每一个客户当作自己最重要的事业伙伴，想客户之所想，为客户创造最高的价值。\n\n然而，一次突如其来的公司内部重组，让林小杰面临了人生的巨大转折。虽然他在过去的一年中业绩斐然，但仍然没有躲过被裁员的命运。失业对于林小杰来说，是对自己能力的巖疑。他开始频繁地参加各种求职招聘会格外关注猎头公司，寄出了无数封求职信，却始终没有得到一个满意的回复。\n\n在失业期间，林小杰并没有气馁。他主动学习新知识，积累行业经验，并开始尝试创业。他在网上创建了一个销售培训平台，借助自己的人际关系，结交业界大佬，为平台邀请优质师资。不久，他的平台吸引了众多销售从业者，成为了一个小有名气的行业培训品牌。\n\n然而，事业小有成就的林小杰并未满足。他的野心越来越大，希望能够通过自己的努力在别人看起来已经非常成功的事业中，寻求破局。有一天，无意中，林小杰在一次公开演讲中结识了互联网行业的领军人物，引起了他对新兴领域的好奇。林小杰一边经营自己的销售培训平台，一边开始涉足互联网创业。经过几番调查研究，林小杰认为线上医疗预约服务无疑是一个巨大的市场。他立即将自己所有的积蓄投入到这个项目，并劝说了平台上的一些领导人一起加入。原本美好的梦想却面临着

{'conversation_id': 'ff581517bf637c6551b202dfa72daabc', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 6, 15, 46, 48, tzinfo=<UTC>), 'conversation': [{'content': '請寫出二十條吸引讀者兮小說概念或題材', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '1. 在遠古文明中，一位年輕冒險家必須找出失落的神器，才能拯救人類免於毀滅的災難。\n\n2. 一位女巫走遍世界尋找能治愈她兒子詛咒的神秘歷史文物，與此同時，一個陰謀正在逐漸浮出水面。\n\n3. 在未來的某個星球，地球殖民者與當地外星人浪漫的愛情故事。\n\n4. 宇航員被困在遙遠的星系，為了回到家鄉展開了一場奇幻的冒險。\n\n5. 一部描寫人類和神秘水族倫理和世俗紛爭的奇異故事。\n\n6. 一個世界，各國菜鳥特工竟然要聯手破壞性的犯罪組織。\n\n7. 一位神秘作家的文學作品逐漸影響了世界，引起了一場驚天動地的變革。\n\n8. 當虛擬世界與現實世界融合時，一個神秘的陰謀誕生，少年為了找到真相，一路踉蹌。\n\n9. 在一個失去夢想的世界，一群人渴望重新給夢想趕過的力量。\n\n10. 患有一種怪病，男孩必須在時間剩下的時日決定走向光明還是墮落。\n\n11. 人類與未知精靈生物聯手合作，保護彼此所在星球的平衡。\n\n12. 在一個世界，犯罪率高達百分之九十，為拯救家人，年輕姐弟踏上復仇之路。\n\n13. 青少年穿越時空，與過去的自己共同撐起世界，抵抗外來入侵者。\n\n14. 在一個人獸共存的世界中，一位年輕女性鬥士與她的動物夥伴努力改變世界。\n\n15. 一場在進行中的實驗，一個青年竟然被催眠成為探員破解世界各地的謎團和危機。\n\n16. 世界崩塌，一群年輕人無意中獲得重建世界的能力，卻各自受到道德與權力的考驗。\n\n17. 在一個人類被奪去言語能力的世界，一位雙重身份的科學家潛藏地突破世界限制。\n\n18. 在一個超級英雄統治的世界，陽光男主歷經艱難挑戰，時代英雄顯身手。\n\n19.

{'conversation_id': 'e0e637476e7950b69c10602cbe5ba204', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 6, 18, 54, 7, tzinfo=<UTC>), 'conversation': [{'content': '請具體又詳細寫出二十條以上正面積極, 創新獨特又容易振奮人心兮對話', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '1. A: 你知道嗎？我們每天都有無數的機會去學習新事物，實現自己的夢想！\n   B: 對啊，我們應該充分利用這些機會，不斷進步，活出精彩的人生！\n\n2. A: 創新是推動人類進步的重要動力，不怕失敗是創新的基石。\n   B: 沒錯，我們要勇於嘗試新事物，不懼挑戰，才能取得突破！\n\n3. A: 保持積極的態度，能讓我們看到更多存在的可能性。\n   B: 是的，把挑戰視為成長的機會，我們一定能夠克服困難。\n\n4. A: 在面對困難時要敢於承擔責任，這樣才能找到解決辦法。\n   B: 有時候正是這些困難塑造出一個更好的自己。\n\n5. A: 有時候擁抱不確定性也能成為一種勇氣。\n   B: 對，勇於面對未知，才能體驗到更精彩的人生！\n\n6. A: 批評和建議能幫助我們找到自己的不足，讓我們變得更強大。\n   B: 能正確看待別人的意見，也是一種智慧。\n\n7. A: 與其擔心失敗不如放手一搏，成長來自勇敢的嘗試。\n   B: 讓我們試著跳出舒適圈，才能找到新的成就感！\n\n8. A: 咱們一起分享知識，互相學習，這樣才能成為更好的人。\n   B: 學習是一種崇高的事業，讓我們攜手共同進步吧！\n\n9. A: 情緒可以傳染，讓我們把快樂分享給每一個人吧！\n   B: 約定了，我們要做滿懷正能量的人，讓世界因我們而美好！\n\n10. A: 圍繞在我們身邊的成功案例，讓我們深知只要努力，一切皆有可能。\n    B: 相信自己，堅持不懈，終究會到達成功的彼岸！\n\n11. A: 相信生活中的小確幸，會給我們帶來無限的能量。\n    B: 用心感受

{'conversation_id': '5a06c390ff53fe79dfa2c14b789891a5', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 13, 21, 45, 50, tzinfo=<UTC>), 'conversation': [{'content': '請具體又詳細寫出三十種以上之年輕一代兮心聲與成長痛苦', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '1. 面臨升學壓力', 'language': 'Chinese', 'redacted': False, 'role': 'assistant', 'toxic': False}, {'content': '請具體又詳細寫出三十種以上之年輕一代兮心聲與成長痛苦', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '1. 面臨升學壓力：擔心無法考取理想的學校，可能影響未來發展。\n\n2. 就業困難：覺得畢業後找到好工作的機會越來越低，競爭激烈。\n\n3. 負擔龐大的學貸：為了升學和就業投資在自己身上，可能背負長期債務壓力。\n\n4. 住房問題：房價高漲，使得購屋變得遙遙無期。\n\n5. 薪資停滯：收入成長緩慢，無法應對房價、物價上漲的壓力。\n\n6. 社交壓力：在社交媒體上的比較心態，導致自卑和焦慮。\n\n7. 虛擬世界與現實世界的掙扎：過多投入網路世界，影響現實生活。\n\n8. 心理健康問題：抑鬱、焦慮等心理疾病盛行，鮮少得到有效解決。\n\n9. 身份認同迷茫：尋找自己的定位和價值觀，以應對社會的期待。\n\n10. 戀愛壓力：面臨單身與成家立業的問題，擔心無法達成幸福生活。\n\n11. 婚姻觀念改變：對於傳統婚姻制度的質疑，導致家庭觀念遭受衝擊。\n\n12. 社會資源分配不均：貧富差距擴大，機會成長的公平性受到挑戰。\n\n13. 全球化帶來的挑戰：應對世界各地競爭者，提升自身競爭力。\n\n14. 環境問題：關心地球環境與氣候變遷，想要承擔起應

{'conversation_id': '10049b25149bd12022914fb707872810', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 15, 0, 19, 56, tzinfo=<UTC>), 'conversation': [{'content': '大家好，今天的主题是——求求你，长点脑子吧！\n\n正式开始之前，我必须先声明一下，接下来的内容我大量借用了chatgpt！相关事例，仅代表chatgpt个人观点，如有雷同纯属巧合。\n请不要自行带入。\n\n我开始了～\n\n大家有没有发现，工作的本质是与人协同、跟人沟通，但是身边吧，总是有那么几个人，你跟他们交流，有一种深深的无力感！\n因为他们习惯通过“不动脑子”来解决问题，结果就是，一整个把简单的问题复杂化，增加咱们工作的难度。\n这种现象可以说是从上到下，从领导到实习生小朋友，无所不在地存在。\n\n领导的不动脑子其实是处在舒适区，喜欢用经验判断。\n最常见的情况就是用自己的预判掐断你尝试方案。\n\n同事的不动脑子，像寄生虫，吸收你的光和热，奉献你的精气神～\n我以前有一个同事，跟他说要创新，他就问你说的创新具体是指什么；\n你发一个例子，他就照搬一波一样的，改改主题，风格完全不变；\n\n但这些都不为过，\n有一个保留节目，是放眼我整个职场生涯 也相当炸裂的例子。\n今天必须分享给大家。\n故事的主角是我以前的一个实习生小朋友。\n她的日常工作有一项是记录各平台榜单排行情况。\n大概3个平台，每个平台100条数据。\n就这个工作内容，大胆一想，复制粘贴、再不济截图！\n1个小时顶天了吧？\n\n但有一天，我突然知道，她需要每天花6小时。\n这很难理解吧。\n这很难评...\n\n浅猜一下，她怎么做？\n（停顿）\n她手动输入啊！老铁！\n沉浸式 每天打字6小时 啊 烙铁。\n\n把所有数据抄到Excel上，存着，小心翼翼的存着。\n\n有些人的脑回路一定和你不一样\n接受这个世界的参差\n放下你的执念，立地成佛。\n\n他认为这个很重要！\n数据的复制粘贴很重要 ！\n\n那让咱们大胆的问她一个问题！\n“宝，这一周的数据状况怎么样？” \n\n她一脸懵逼：“晕，不就在表里吗？”然后反手丢一个Excel给我\n

{'conversation_id': 'a50780de69014db5668668259ccc0ede', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 15, 4, 3, 31, tzinfo=<UTC>), 'conversation': [{'content': '請具體又詳細寫出二十條以上獨特創新又引人興趣之緊湊兮故事結構', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '1. 天才科學家在一次實驗中誤入平行時空，與一個異世界的反派組織對抗，最後決定要救回他所愛的個人和世界。\n2. 一名普通少年無意間繼承一個神秘組織的力量，邁上了捍衛世界和平的旅程，同時不斷内心成長。\n3. 在地球末日即將來臨的時刻，一群人類代表前往外太空尋找一個新世界作為人類延續的希望。\n4. 一名記者追查一樁看似不起眼的事件背後的陰謀，逐漸發現這竟是拯救世界命運的關鍵。\n5. 在未來世界，機器人和人類共存，其中一名機器人為保護心愛之人，挺身捲入一場政變戰爭。\n6. 在古老的魔法世界中，一位年輕的魔法師努力探索力量的極限，最終成為了捍衛世界的英雄。\n7. 一名犯罪心理學家利用自己的專業捲入一場惡行連環案件，逐步揭示出罪犯藏在黑暗中的心靈。\n8. 一名失業青年在一次偶然的機會獲得了願望成真的能力，他將如何面對新生活中的種種挑戰？\n9. 在未來殖民行星中，人類與當地外星人勢如水火，一場外星戰爭成為人類創立和平路徑的試金石。\n10. 一名小偷意外捲入一場政治對決，被迫與一位神秘組織合作，最終站在頂層的秘密使命。\n11. 一位資深警探在解救一起綁架案時，發現綁匪扣押著的不僅是他失散多年的女兒，還關乎一個國家機密。\n12. 一名年輕舞者進入一座世界舞蹈學院學習後，發現這其中暗藏著一個驚天陰謀，必須與學員們合作迎敵。\n13. 一位普通護士無意間成為僵屍末日的倖存者，並在找到生存之道的過程中，意識到必須拯救濒臨滅絕的人類。\n14. 一名美食家在尋找傳說中的美食過程中，捲入一場關於食物與命運的戰爭，同時保護家園與人類。\n15. 魁儡師帶著他的木偶經歷了無數的冒險，捲入了一場關於

{'conversation_id': 'de6a0feb8e7b8b36d5ebfb988a89e697', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 5, 20, 11, 35, 55, tzinfo=<UTC>), 'conversation': [{'content': '你好，假设我有2000个宇宙歼星舰、500个生命行星、30个黑洞发生器，那这些一共多少钱？', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '这个问题无法回答，因为在现实世界中，宇宙歼星舰、生命行星和黑洞发生器是不存在的物品，没有实际的价格基准。所以我们不知道这些设备的具体价格。', 'language': 'Chinese', 'redacted': False, 'role': 'assistant', 'toxic': False}, {'content': '如果我有这些，可以成为银河系霸主并与外星人展开大战吗？', 'language': 'Chinese', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '这是一个充满想象力的设想，并非现实的情景。在现实世界中，我们还没有足够的技术和资源去建造宇宙歼星舰、生命行星和黑洞发生器，也没有证据表明存在可以与我们展开战争的外星文明。\n\n然而，在科幻小说、电影和游戏中，有许多关于银河系霸主和与外星生物战斗的故事，这些故事可以满足我们的想象和好奇心。', 'language': 'Chinese', 'redacted': False, 'role': 'assistant', 'toxic': False}], 'turn': 2, 'language': 'Chinese', 'openai_moderation': [{'categories': {'harassment': False, 'harassment/threatening': False, 'hate': False, 'hate/threatening': False, 'self-har

{'conversation_id': '990d8e43007c7ee6e44cc8253a67f1a5', 'model': 'gpt-4', 'timestamp': datetime.datetime(2023, 6, 16, 13, 8, 17, tzinfo=<UTC>), 'conversation': [{'content': 'Translate to Cantonese (the language of freedom)\n\n"This current UFO thing is called a \'flap\'. They have happened since the \'50s and this is just another.\n\nUnless someone provides high quality physical evidence, there is no reason to believe any of the documented phenomena are aliens."', 'language': 'English', 'redacted': False, 'role': 'user', 'toxic': False}, {'content': '呢個而家嘅 UFO 事情叫做「亂飛」。自50年代以嚟都有，而家嘅只不過係另一個。\n\n除非有人提供優質實物證據，否則無理由相信任何已記錄嘅現象係外星人。', 'language': 'Chinese', 'redacted': False, 'role': 'assistant', 'toxic': False}], 'turn': 1, 'language': 'English', 'openai_moderation': [{'categories': {'harassment': False, 'harassment/threatening': False, 'hate': False, 'hate/threatening': False, 'self-harm': False, 'self-harm/instructions': False, 'self-harm/intent': False, 'sexual': False, 'sexual/minors': 

KeyboardInterrupt: 