In [1]:
import json
from tqdm import tqdm
import re
import os
from pathlib import Path
from dotenv import load_dotenv
from typing import Dict, List, Optional, Tuple

import pymongo
from pymongo import MongoClient
from datasets import Dataset

from ragas.metrics import (
    answer_relevancy, 
    faithfulness,
    context_recall,
    context_precision,
)
from ragas import evaluate

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Load environment variables
load_dotenv()

# Some constants
MONGO_URI = "mongodb://root:example@localhost:8080/?authSource=admin"
DB_NAME = "VIIDA-beta"
CONV_COLLECTION_NAME = "conversations"
USER_COLLECTIONO_NAME = "users"
IGNORE_ROLE_NAMES = ["system"]

OPENAI_API_KEY_ENV_NAME = "OPENAI_API_KEY"

In [3]:
target_user_emails = [
   # "sshunsuke0102@gmail.com",
   "takuto.yoshino1210@icloud.com"
]
min_conv_length = 10


def dump_conversation(
    conversation: List[Dict],
) -> List[str]:
    formatted_conversation = []
    for conv in conversation:
        role = conv["role"]
        content = conv["content"]
        formatted_conversation.append(f"{role}: {content}")
    return formatted_conversation

def extract_conversations_from_mongodb(
	mongo_uri: str, 
    db_name: str,
    conversation_collection_name: str,
    user_collection_name: str,
    target_user_emails: List[str],
	min_conv_length: int,
	ignore_role_names: List[str],
	
):  # -> Dict[List[str]]
    mongo_client = MongoClient(mongo_uri)
    db = mongo_client[db_name]
    conv_collection = db[conversation_collection_name]
    user_collection = db[user_collection_name]
        

    target_users = [user_collection.find_one({"email": user_email}) for user_email in target_user_emails]
    target_ids = [str(user["_id"]) for user in target_users]
	
	# MongoDBからユーザごとの会話履歴取得（ユーザIDに対して，各セッションの会話履歴が保存されている）
	# min_conv_lengthよりも短い会話を除去.
    user_conv_dict = {}  # Dict[List[List[Dict]]]
    for user_id in target_ids:
        user_convs: List[List[Dict]] = list(conv_collection.find({"user_id": user_id}))
        assert len(user_convs) > 0, "f{user_id} has no conversation history."
        
        # 会話履歴の長さがmin_conv_lengthよりも短いものを除去
        user_convs: List[List[Dict]] = [conv["messages"] for conv in user_convs if len(conv["messages"]) >= min_conv_length]

        # すべての会話セッションを結合
        cat_user_convs: List[Dict] = [conv for user_conv in user_convs for conv in user_conv]
        
        # roleの除外処理（ignore_role_names内に含まれるroleの除去処理）
        elim_user_convs: List[Dict] = [conv for conv in cat_user_convs if conv["role"] not in ignore_role_names]
        
        # フォーマット処理（各発言（Dict）を文字列にencode, 発言ごとにchunk分け）
        str_user_convs: List[str] = dump_conversation(elim_user_convs)
        user_conv_dict[user_id] = str_user_convs
        
    return user_conv_dict


user_conv_dict = extract_conversations_from_mongodb(
    mongo_uri=MONGO_URI,
    db_name=DB_NAME,
    conversation_collection_name=CONV_COLLECTION_NAME,
    user_collection_name=USER_COLLECTIONO_NAME,
    target_user_emails=target_user_emails,
    min_conv_length=min_conv_length,
    ignore_role_names=IGNORE_ROLE_NAMES,
)

In [4]:
conv: List[str] = user_conv_dict["65791239f06af38ec285d0c7"]

In [14]:
from utils import astream_chat, json_completion
import json
from openai import OpenAI

client = OpenAI(
        api_key=os.environ["OPENAI_API_KEY"],
    )
role = "system"
chat_model = "gpt-4-1106-preview" # "gpt-3.5-turbo-1106"
temp = 0.7
conv_str: str = "\n".join(conv)

prompt = "会話履歴\n" + conv_str + """
上記はユーザとアシスタントの会話履歴です．
この会話から，ユーザに関する事実と対応する確信度を抽出してください．出力結果はJSON形式で出力してください．
確信度は，0.0から1.0の間の値で出力してください．確信度は，その事実の不変性と，確実性を表します．
{
    [
        {"fact": "ユーザに関する事実", "conf_score": 0.9},
        "fact": "ユーザに関する事実", "conf_score": 0.8},   
        ...
    ]
}
"""

response = json_completion(
    client,
    prompt,
    chat_model,
    role,
    temp,
)
response_json: Dict = json.loads(response.choices[0].message.content)


Completion request:-----
会話履歴
user: 「こんにちは」
assistant: こんばんは。今晩はいかがお過ごしでしょうか？何かお手伝いできることがあれば、ご遠慮なくお申し付けください。
user: 「最近勉強のモチベが上がりません。」
assistant: モチベーションが上がらないときは大変ですね。環境を変えたり、勉強の目標を明確にするなど、少しやり方を変えてみるのも効果的かもしれません。また、ご自身がやりがいを感じる勉強方法を探すのも一つの手です。
何か具体的な科目や、お悩みに対して私がお手伝いできることがあれば教えてください。例えば、勉強のスケジュールを立てるお手伝いや、リマインダーの設定など、お役に立てることがあるかもしれません。
user: 「学校が終わると凄く疲れてきて眠くなってしまうんだよね。」
assistant: 学校での疲れが勉強の邪魔をしているのですね。身体の疲れを取るためにも、適切な休息は非常に重要です。短時間のパワーナップや、気分転換のための簡単なストレッチを取り入れることで、学習への集中力が改善するかもしれません。

また、夕方以降に眠くならない工夫として、学校から帰宅後に軽い運動をする、カフェインを控える、または適度な光を浴びるなどを試していただくのも良いでしょう。勉強のためにも、まずはご自身のリズムを整えることが大切です。勉強計画の立て方やリマインダーの設定などで支援できることがあれば、お知らせください。
user: 「今の時期は雪が降ってくるから運動もなかなか出来ないんですよね。」
assistant: 雪が降ると外での運動が難しいですね。そんな時は室内でできる運動を取り入れてみてはいかがでしょうか？短時間のヨガやストレッチ、室内でできる筋トレや、エクササイズ動画を見ながらの体操などが良いかもしれません。また、運動のひとつとして、お掃除や片付けを行うことでも体を動かすことができますよ。

運動後のリフレッシュ効果は、勉強への集中力を高める助けにもなります。もし運動後に勉強する時間のリマインダーを設定してほしいとお考えであれば、お手伝いいたします。運動や勉強の計画を立てたり、工夫をする際に何かアドバイスが必要であれば、いつでもお知らせください。
user: 「じゃあ明日の放課後に部屋で少し筋トレでもしよ

In [15]:
response_json

{'facts': [{'fact': 'ユーザは18歳になったばかりで、免許を取得することを検討している', 'conf_score': 1.0},
  {'fact': 'ユーザはスポーツカーやマニュアル車に興味がある', 'conf_score': 0.9},
  {'fact': 'ユーザは勉強のモチベーションが上がらないことに悩んでいる', 'conf_score': 0.8},
  {'fact': 'ユーザは学校が終わると疲れてしまう', 'conf_score': 0.9},
  {'fact': 'ユーザは雪が降っている地域に住んでおり、外での運動が難しい', 'conf_score': 0.8},
  {'fact': 'ユーザは筋トレを明日の放課後に行う予定でいる', 'conf_score': 0.9},
  {'fact': 'ユーザは初対面の人との会話で何を話したら良いか悩むことがある', 'conf_score': 0.7},
  {'fact': 'ユーザの誕生日は12月10日である', 'conf_score': 1.0},
  {'fact': 'ユーザは朝に弱く、朝食を摂るのが難しい', 'conf_score': 0.9},
  {'fact': 'ユーザは音楽を聴くことに最近はまっており、作業中にはlofiミュージックを聴くことがある', 'conf_score': 0.9},
  {'fact': 'ユーザはlofiミュージックを聴くと眠たくなることがある', 'conf_score': 0.8},
  {'fact': 'ユーザは学校の先生の機材を運び、お礼としてスピーカーをもらいかけたが、大きすぎたため断った',
   'conf_score': 0.7}]}

First Generation

In [22]:
prompt = "会話履歴\n" + conv_str + """
上記はユーザとアシスタントの会話履歴です．
この会話から読み取れる事実と確信度を抽出しました．
""" + json.dumps(response_json, indent=4, ensure_ascii=False) + """
上記の事実から，観測していない新しい事実を予想し，その確信度を出力してください．出力はJSON形式で出力してください．
新しい事実は，ユーザに関する事実とは限りませんが，ユーザの話した内容と関連しています．
{
    [
        {"fact": "予想", "conf_score": 0.2},
        "fact": "予想", "conf_score": 0.4, ""},   
        ...
    ]
}
"""

response = json_completion(
    client,
    prompt,
    chat_model,
    role,
    temp,
)
response_json: Dict = json.loads(response.choices[0].message.content)
response_json

Completion request:-----
会話履歴
user: 「こんにちは」
assistant: こんばんは。今晩はいかがお過ごしでしょうか？何かお手伝いできることがあれば、ご遠慮なくお申し付けください。
user: 「最近勉強のモチベが上がりません。」
assistant: モチベーションが上がらないときは大変ですね。環境を変えたり、勉強の目標を明確にするなど、少しやり方を変えてみるのも効果的かもしれません。また、ご自身がやりがいを感じる勉強方法を探すのも一つの手です。
何か具体的な科目や、お悩みに対して私がお手伝いできることがあれば教えてください。例えば、勉強のスケジュールを立てるお手伝いや、リマインダーの設定など、お役に立てることがあるかもしれません。
user: 「学校が終わると凄く疲れてきて眠くなってしまうんだよね。」
assistant: 学校での疲れが勉強の邪魔をしているのですね。身体の疲れを取るためにも、適切な休息は非常に重要です。短時間のパワーナップや、気分転換のための簡単なストレッチを取り入れることで、学習への集中力が改善するかもしれません。

また、夕方以降に眠くならない工夫として、学校から帰宅後に軽い運動をする、カフェインを控える、または適度な光を浴びるなどを試していただくのも良いでしょう。勉強のためにも、まずはご自身のリズムを整えることが大切です。勉強計画の立て方やリマインダーの設定などで支援できることがあれば、お知らせください。
user: 「今の時期は雪が降ってくるから運動もなかなか出来ないんですよね。」
assistant: 雪が降ると外での運動が難しいですね。そんな時は室内でできる運動を取り入れてみてはいかがでしょうか？短時間のヨガやストレッチ、室内でできる筋トレや、エクササイズ動画を見ながらの体操などが良いかもしれません。また、運動のひとつとして、お掃除や片付けを行うことでも体を動かすことができますよ。

運動後のリフレッシュ効果は、勉強への集中力を高める助けにもなります。もし運動後に勉強する時間のリマインダーを設定してほしいとお考えであれば、お手伝いいたします。運動や勉強の計画を立てたり、工夫をする際に何かアドバイスが必要であれば、いつでもお知らせください。
user: 「じゃあ明日の放課後に部屋で少し筋トレでもしよ

{'new_facts': [{'fact': 'ユーザーがスポーツカーやマニュアル車に興味があるため、自動車に関する知識を深めたいと考えるかもしれない',
   'conf_score': 0.7},
  {'fact': 'ユーザーは運転に関する安全教育や運転技術のトレーニングを受ける予定がある可能性がある', 'conf_score': 0.7},
  {'fact': 'ユーザーは朝食を摂る習慣を身につけるために、栄養学や健康的な食生活に関する情報を探求するかもしれない',
   'conf_score': 0.6},
  {'fact': 'ユーザーは筋トレの習慣を続ける中で、フィットネスに関する知識やトレーニング方法に興味を持つかもしれない',
   'conf_score': 0.7},
  {'fact': 'ユーザーは先生への感謝の気持ちを表すために、教育関連のボランティア活動に興味を持つ可能性がある',
   'conf_score': 0.5},
  {'fact': 'ユーザーは音楽を聴くことが趣味であるため、音楽関連のイベントやコンサートに参加することに興味を持つかもしれない',
   'conf_score': 0.7},
  {'fact': 'ユーザーは音楽を聴くことでリラックスするため、瞑想やマインドフルネスの練習に興味を持つ可能性がある',
   'conf_score': 0.6},
  {'fact': 'ユーザーは自動車への興味を深めることで、将来的に自動車業界でのキャリアを考えるかもしれない',
   'conf_score': 0.5}]}

In [21]:
response_json

{'new_facts': [{'fact': 'ユーザは将来的に自分の車を所有することになり、その際に車のメンテナンスや保管について学ぶ必要が生じるかもしれない',
   'conf_score': 0.6},
  {'fact': 'ユーザは朝食を摂るために目覚めを良くする方法や、朝のルーチンを見直す試みをする可能性がある', 'conf_score': 0.7},
  {'fact': 'ユーザはリラックスと集中力を維持するために、環境音や自然音などの他のジャンルの音楽にも興味を持つかもしれない',
   'conf_score': 0.6},
  {'fact': 'ユーザは運転免許を取得するための学習プロセスや試験に関する情報を必要とするかもしれない', 'conf_score': 0.7},
  {'fact': 'ユーザはスピーカーを受け取らなかったことで、将来的に適切なオーディオ機器や音響システムの選択に関心を持つかもしれない',
   'conf_score': 0.6},
  {'fact': 'ユーザは自身の時間管理技術を向上させるために、時間管理に関するアプリケーションや手法を探求するかもしれない',
   'conf_score': 0.6},
  {'fact': 'ユーザは自分の誕生日をより記念すべき日とするために、ノーベル賞に関連する活動やイベントに参加するかもしれない',
   'conf_score': 0.5},
  {'fact': 'ユーザは会話の流れを自然に保つためのコミュニケーションスキル向上に関する情報を求めるかもしれない',
   'conf_score': 0.6}]}

Second Generation

In [19]:
prompt = "会話履歴\n" + conv_str + """
上記はユーザとアシスタントの会話履歴です．
この会話から読み取れる事実と確信度を抽出しました．
""" + json.dumps(response_json, indent=4, ensure_ascii=False) + """
上記の事実から，観測していない新しい事実を予想し，その確信度を出力してください．出力はJSON形式で出力してください．
新しい事実は，ユーザに関する事実とは限りませんが，ユーザの話した内容と関連しています．また，確信度が0.5未満になる可能な限り情報量が多い予想をしてください．
{
    [
        {"fact": "新しい事実", "conf_score": 0.2},
        "fact": "新しい事実", "conf_score": 0.4},   
        ...
    ]
}
"""

response = json_completion(
    client,
    prompt,
    chat_model,
    role,
    temp,
)
response_json: Dict = json.loads(response.choices[0].message.content)
response_json

Completion request:-----
会話履歴
user: 「こんにちは」
assistant: こんばんは。今晩はいかがお過ごしでしょうか？何かお手伝いできることがあれば、ご遠慮なくお申し付けください。
user: 「最近勉強のモチベが上がりません。」
assistant: モチベーションが上がらないときは大変ですね。環境を変えたり、勉強の目標を明確にするなど、少しやり方を変えてみるのも効果的かもしれません。また、ご自身がやりがいを感じる勉強方法を探すのも一つの手です。
何か具体的な科目や、お悩みに対して私がお手伝いできることがあれば教えてください。例えば、勉強のスケジュールを立てるお手伝いや、リマインダーの設定など、お役に立てることがあるかもしれません。
user: 「学校が終わると凄く疲れてきて眠くなってしまうんだよね。」
assistant: 学校での疲れが勉強の邪魔をしているのですね。身体の疲れを取るためにも、適切な休息は非常に重要です。短時間のパワーナップや、気分転換のための簡単なストレッチを取り入れることで、学習への集中力が改善するかもしれません。

また、夕方以降に眠くならない工夫として、学校から帰宅後に軽い運動をする、カフェインを控える、または適度な光を浴びるなどを試していただくのも良いでしょう。勉強のためにも、まずはご自身のリズムを整えることが大切です。勉強計画の立て方やリマインダーの設定などで支援できることがあれば、お知らせください。
user: 「今の時期は雪が降ってくるから運動もなかなか出来ないんですよね。」
assistant: 雪が降ると外での運動が難しいですね。そんな時は室内でできる運動を取り入れてみてはいかがでしょうか？短時間のヨガやストレッチ、室内でできる筋トレや、エクササイズ動画を見ながらの体操などが良いかもしれません。また、運動のひとつとして、お掃除や片付けを行うことでも体を動かすことができますよ。

運動後のリフレッシュ効果は、勉強への集中力を高める助けにもなります。もし運動後に勉強する時間のリマインダーを設定してほしいとお考えであれば、お手伝いいたします。運動や勉強の計画を立てたり、工夫をする際に何かアドバイスが必要であれば、いつでもお知らせください。
user: 「じゃあ明日の放課後に部屋で少し筋トレでもしよ

{'new_facts': [{'fact': 'ユーザは将来的に自分に合った車を選ぶために、車に関する知識を学ぶ可能性がある',
   'conf_score': 0.7},
  {'fact': 'ユーザは朝食に関して簡単で消化が良く、食べやすいメニューを探すかもしれない', 'conf_score': 0.8},
  {'fact': 'ユーザは作業中にリラックスしすぎず、適切な集中力を保てる音楽のプレイリストを探求する可能性がある',
   'conf_score': 0.8},
  {'fact': 'ユーザは将来的に運転免許を取得した後に車の選択や運転に関するアドバイスを求めるかもしれない', 'conf_score': 0.7},
  {'fact': 'ユーザは学校の先生に対して感謝の気持ちを別の方法で表現するかもしれない', 'conf_score': 0.8},
  {'fact': 'ユーザは週末や重要な日に予定を忘れないためにカレンダーやスケジュール管理ツールを使用するかもしれない',
   'conf_score': 0.7},
  {'fact': 'ユーザは将来的に自分の誕生日に合わせて特別なイベントや記念すべきことを計画する可能性がある', 'conf_score': 0.7},
  {'fact': 'ユーザは他の人との会話中に話題が尽きた時のために、いくつかの話題を事前に準備しておくかもしれない',
   'conf_score': 0.7}]}