### Libraries

In [1]:
import pandas as pd

### Langchain Libraries

In [2]:
# To get environment variables
import os

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Our chat model. We'll use the default which is gpt-3.5-turbo
from langchain.chat_models import ChatOpenAI
from langchain.chains.summarize import load_summarize_chain

# Prompt templates for dynamic values
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate, # I included this one so you know you'll have it but we won't be using it
    HumanMessagePromptTemplate
)

# To create our chat messages
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)

In [3]:
os.environ['OPENAI_API_KEY'] = "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"

### Import data

In [58]:
dataset = pd.read_excel('../data/精神訪問看護記録2月16日15時40分.xlsx',
                        sheet_name='dictation',
                        usecols=['transcript'])

# Drop NaN values
dataset = dataset.dropna()
dataset.head()

Unnamed: 0,transcript
1,2/16　15：40～（連続で先ほどの患者さんのお母さんを看る）
3,[iPhone] 15:32:01
4,よし、じゃあハルさん測ろうかな。
6,[iPhone] 15:32:08
7,でもだいぶ春さん片付けが進んだやないですか？


In [59]:
# delete row contain '[在宅看護]'
dataset = dataset[~dataset['transcript'].str.contains('[在宅看護]')]
dataset = dataset[~dataset['transcript'].str.contains('[原田和将]')]
dataset = dataset[~dataset['transcript'].str.contains('[iPhone]')]

In [60]:
dataset

Unnamed: 0,transcript
4,よし、じゃあハルさん測ろうかな。
7,でもだいぶ春さん片付けが進んだやないですか？
10,うーん、片付けても片付けても散らかされる。
13,本当よね。子供って。
16,次から次にね。
...,...
1066,逆に言うとその体操があるからご褒美での春さんとのそういう時間とかがすごく楽しいとかそういうふ...
1069,うーん。
1072,まあだけね。その行動にあまりガブリ回されずに考えんでいいちことよ。そうそうそういうことあるよ...
1078,はーい。半過ぎに行きますね寝坊しない限りお願いします。


In [61]:
dataset['transcript']

4                                        よし、じゃあハルさん測ろうかな。
7                                  でもだいぶ春さん片付けが進んだやないですか？
10                                  うーん、片付けても片付けても散らかされる。
13                                             本当よね。子供って。
16                                                次から次にね。
                              ...                        
1066    逆に言うとその体操があるからご褒美での春さんとのそういう時間とかがすごく楽しいとかそういうふ...
1069                                                 うーん。
1072    まあだけね。その行動にあまりガブリ回されずに考えんでいいちことよ。そうそうそういうことあるよ...
1078                          はーい。半過ぎに行きますね寝坊しない限りお願いします。
1081                                           じゃあお邪魔します。
Name: transcript, Length: 352, dtype: object

### Split our documents so we don't run into token issues.

In [62]:
text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"])
texts = text_splitter.create_documents(dataset['transcript'])

In [63]:
print (f"You have {len(texts)} texts")
texts[0]

You have 352 texts


Document(page_content='よし、じゃあハルさん測ろうかな。')

In [64]:
# Your api key should be an environment variable, or else put it here
# We are using a chat model in case you wanted to use gpt4
llm = ChatOpenAI(model="gpt-4", temperature=1)

### Prompt for extract data

In [65]:
summary_output_options = {
    'number' : """
     - Number format
     """,

     'biner' : """
    - write: 有 for yes, 無 for no, and 不明 for unclear
    """,

    'one_sentence' : """
     - Only one sentence
     - In Japanese
    """,

    'activity': """
        - In Japanese
        - 食事: 朝食はパンとコーヒー
        - 排泄: 朝に一回、夜に一回
        - 睡眠の質: 朝までよく寝ていた
        - 部屋の状況: 部屋はきれいでした
        - 生活リズム: 朝から晩までテレビを見ていました
        - その他: その他の情報があればここに記入してください
    """,
    
    'bullet_points': """
     - In Japanese
     - Bullet point format
     - Separate each bullet point with a new line
    """,
    
    'short' : """
     - A few short sentences
     - Do not go longer than 4-5 sentences
     - In Japanese
    """,
    
    'long' : """
     - A verbose summary
     - You may do a few paragraphs to describe the transcript if needed
     - In Japanese
    """
}

In [None]:
summary_output_options = {
    'number' : """
     - Number format
     """,

     'biner' : """
    - write: 有 for yes, 無 for no, and 不明 for unclear
    """,
    
    'bullet_points': """
     - In Japanese
     - Bullet point format
     - Separate each bullet point with a new line
    """,

    'short' : """
     - A few short sentences
     - Do not go longer than 4-5 sentences
     - In Japanese
    """
}

In [None]:
template="""
You are an assistant who helps nurses record the health status of elderly people in Japanese from "input_documents".
The purpose is to find information on "meals, excretion, sleep quality, room conditions, and life rhythm" from "input_documents".
If there are no words or sentences that clearly state information about meals, excretion, sleep quality, room conditions, daily rhythms, etc., 
the information is determined by analyzing the meaning of "input_documents". 
As an example:
      - Meals/Eating: Appetite status and number of meals per day
      - Excretion: presence or absence of defecation or urination, and complaints about defecation
      - Sleep quality: How are his sleep habits? Is it difficult to sleep or is it normal?
      - Room condition: What is the condition of the room? Is it always cleaned? or in a dirty state.
      - Life rhythm: How do you carry out your daily activities? Are you happy or do you have other problems?


Please do not reply with anything other than "input_documents". If you don't know, please say "-".

Respond in the following format
{output_format}
"""

ai_message_prompt_map = AIMessagePromptTemplate.from_template(template)

human_template="{text}" # Simply just pass the text as a human message
human_message_prompt_combine = HumanMessagePromptTemplate.from_template(human_template)

chat_prompt_combine = ChatPromptTemplate.from_messages(messages=[ai_message_prompt_map, human_message_prompt_combine])

In [72]:
template="""

あなたは、看護師が「input_documents」から高齢者の健康状態を日本語で記録するお手伝いをするアシスタントです。
「input_documents」から「食事、排泄、睡眠の質、部屋の状況、生活リズム」に関する情報を見つけることが目的です。
食事、排泄、睡眠の質、部屋の状況、生活リズムなどの情報を明確に述べた単語や文章がない場合は、「input_documents」の意味を解析することで情報を判断します。例として:
     - 食事/食べる: 食欲の状態と一日の食事の回数
     - 排泄: 排便または排尿の有無、および排便に関する苦情
     - 睡眠の質: 彼の睡眠習慣はどうですか？ 眠りが難しいのか、それとも普通なのか
     - 部屋の状況: 部屋の状態はどうですか？ いつも掃除されていますか？ または汚れた状態。
     - 生活リズム: 日々の活動はどのように行っていますか？ 幸せですか、それとも他に問題がありますか?


「input_documents」 以外の内容で返信しないでください。 分からない場合は「～」と言ってください

Respond in the following format
{output_format}

"""

ai_message_prompt_map = AIMessagePromptTemplate.from_template(template)

human_template="{text}" # Simply just pass the text as a human message
human_message_prompt_combine = HumanMessagePromptTemplate.from_template(human_template)

chat_prompt_combine = ChatPromptTemplate.from_messages(messages=[ai_message_prompt_map, human_message_prompt_combine])

In [73]:
chain = load_summarize_chain(llm,
                             chain_type="map_reduce",
                             combine_prompt = chat_prompt_combine,
                             verbose=True
                            )

In [74]:
user_selection = 'bullet_points'

output = chain.run({
                    "input_documents": texts,
                    "output_format" : summary_output_options[user_selection]
                   })

print(output)



[1m> Entering new MapReduceDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"よし、じゃあハルさん測ろうかな。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"でもだいぶ春さん片付けが進んだやないですか？"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"うーん、片付けても片付けても散らかされる。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"本当よね。子供って。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"次から次にね。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"うーん。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"まとめてステッドですか？"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a conci