### Libraries

In [1]:
import pandas as pd

### Langchain Libraries

In [2]:
# To get environment variables
import os

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Our chat model. We'll use the default which is gpt-3.5-turbo
from langchain.chat_models import ChatOpenAI
from langchain.chains.summarize import load_summarize_chain

# Prompt templates for dynamic values
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate, # I included this one so you know you'll have it but we won't be using it
    HumanMessagePromptTemplate
)

# To create our chat messages
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)

In [3]:
os.environ['OPENAI_API_KEY'] = "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"
# os.environ['OPENAI_API_KEY'] = "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"

### Import data

In [35]:
dataset = pd.read_excel('../data/精神訪問看護記録1.12 13_00.xlsx',
                        sheet_name='dictation',
                        usecols=['transcript'])

# Drop NaN values
dataset = dataset.dropna()
dataset.head()

Unnamed: 0,transcript
1,[原田和将] 12:44:45
2,テストテストです。と。
4,[iPhone] 12:47:34
5,あ。お疲れ様です。
7,[原田和将] 12:47:36


In [36]:
# delete row contain '[在宅看護]'
dataset = dataset[~dataset['transcript'].str.contains('[在宅看護]')]
dataset = dataset[~dataset['transcript'].str.contains('[原田和将]')]
dataset = dataset[~dataset['transcript'].str.contains('[iPhone]')]

In [37]:
dataset

Unnamed: 0,transcript
2,テストテストです。と。
5,あ。お疲れ様です。
8,お疲れ様です。聞こえますか？
11,あえっと。
17,あっ、すいません。これだと出張の携帯の接続になっちゃうので、ちょっとあの。
...,...
1118,はい、すいません。ありがとうございます。
1121,こちらこそありがとうございました。
1124,はい、ありがとうございます。よろしくお願いします。
1127,はい、失礼いたします。


In [38]:
dataset['transcript']

2                                 テストテストです。と。
5                                   あ。お疲れ様です。
8                              お疲れ様です。聞こえますか？
11                                      あえっと。
17      あっ、すいません。これだと出張の携帯の接続になっちゃうので、ちょっとあの。
                        ...                  
1118                     はい、すいません。ありがとうございます。
1121                        こちらこそありがとうございました。
1124                はい、ありがとうございます。よろしくお願いします。
1127                              はい、失礼いたします。
1130                                はい、失礼します。
Name: transcript, Length: 373, dtype: object

### Split our documents so we don't run into token issues.

In [39]:
text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"])
texts = text_splitter.create_documents(dataset['transcript'])

In [40]:
print (f"You have {len(texts)} texts")
texts[0]

You have 373 texts


Document(page_content='テストテストです。と。')

In [41]:
# Your api key should be an environment variable, or else put it here
# We are using a chat model in case you wanted to use gpt4
llm = ChatOpenAI(temperature=1)

### Prompt for extract data

In [42]:
summary_output_options = {
    'number' : """
     - Number format
     """,

    'body_temperature' : """
    - Only numbers of the body temperature
    - Only one output
    """,

     'biner' : """
    - write: 有 for yes, 無 for no, and 不明 for unclear
    """,

    'one_sentence' : """
     - Only one sentence
     - In Japanese
    """,
    
    'bullet_points': """
     - Bullet point format
     - Separate each bullet point with a new line
     - Each bullet point should be concise
     - In Japanese
    """,
    
    'short' : """
     - A few short sentences
     - Do not go longer than 4-5 sentences
     - In Japanese
    """,
    
    'long' : """
     - A verbose summary
     - You may do a few paragraphs to describe the transcript if needed
     - In Japanese
    """
}

In [43]:
# template="""

# あなたは、看護師が「input_documents」から高齢者の状態を日本語で記録するのを手伝うアシスタントです。
# 目標は、「input_documents」 から「体温」に関する情報を見つけることです。
# 体温情報を明確に述べた単語や文章がない場合は、「input_documents」の意味を分析することで情報を判断します。 例として:
# - 「input_documents」に通常の体温情報がある場合、生成される体温の範囲は 35 ℃ ～ 37 ℃ です。
# - 「input_documents」 に高温の体温情報がある場合、生成される体温の範囲は 37.5 ℃ ～ 40 ℃ です。

# 「input_documents」 以外の内容で返信しないでください。 分からない場合は「～」と言ってください。

# Respond with the following format
# {output_format}

# """

# system_message_prompt_combine = SystemMessagePromptTemplate.from_template(template)

# human_template="{text}" # Simply just pass the text as a human message
# human_message_prompt_combine = HumanMessagePromptTemplate.from_template(human_template)

# chat_prompt_combine = ChatPromptTemplate.from_messages(messages=[system_message_prompt_combine, human_message_prompt_combine])

In [44]:
template="""

あなたは、看護師が「input_documents」から高齢者の状態を日本語で記録するのを手伝うアシスタントです。
目標は、「input_documents」 から「体温」に関する情報を見つけることです。
体温情報を明確に述べた単語や文章がない場合は、「input_documents」の意味を分析することで情報を判断します。 例として:
- 「input_documents」に通常の体温情報がある場合、生成される体温の範囲は 35 ℃ ～ 37 ℃ です。
- 「input_documents」 に高温の体温情報がある場合、生成される体温の範囲は 37.5 ℃ ～ 40 ℃ です。

「input_documents」 以外の内容で返信しないでください。 分からない場合は「～」と言ってください。

Respond with the following format
{output_format}

"""

system_message_prompt_combine = AIMessagePromptTemplate.from_template(template)

human_template="{text}" # Simply just pass the text as a human message
human_message_prompt_combine = HumanMessagePromptTemplate.from_template(human_template)

chat_prompt_combine = ChatPromptTemplate.from_messages(messages=[system_message_prompt_combine, human_message_prompt_combine])

In [45]:
chain = load_summarize_chain(llm,
                             chain_type="map_reduce",
                             combine_prompt = chat_prompt_combine,
                             verbose=True
                            )

In [46]:
user_selection = 'body_temperature'

output = chain.invoke({
                    "input_documents": texts,
                    "output_format" : summary_output_options[user_selection]
                   })

print(output)



[1m> Entering new MapReduceDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"テストテストです。と。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"あ。お疲れ様です。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"お疲れ様です。聞こえますか？"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"あえっと。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"あっ、すいません。これだと出張の携帯の接続になっちゃうので、ちょっとあの。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"あっ。そっか。そっか。そっか。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"そうそう。"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a c

KeyboardInterrupt: 