# Module and function

In [34]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pdfplumber
import tiktoken 
import openai
import tqdm
import random
import json
import glob
import datetime
import os
import re
import copy

def extract_text_with_pdfplumber(pdf_path):
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text += page.extract_text()
    return text

def split_text_by_delimiter(text, delimiter):
    return text.split(delimiter)

def split_into_sentences(text_0):
    # 不要な改行を取り除く
    
    text = copy.deepcopy(text_0)
    text = re.sub(r'\s*\n\s*', '', text.strip())
    
    # 「。」で文を分割し、それぞれの文の後に「。」を追加する
    sentences = [sentence.strip() + '。' for sentence in text.split('。') if sentence]
    
    return sentences

def split_list_into_groups(sentences, group_size=6):
    # Split the list into groups of approximately `group_size` elements each
    grouped_sentences = [sentences[i:i + group_size] for i in range(0, len(sentences), group_size)]
    return grouped_sentences



# PDFs

In [35]:
#pdfs = ["log_public/94024601_01.pdf","log_public/94041201_01.pdf","log_public/94059201_01.pdf"]

In [36]:
#%%time
#opinions = []
#delimiter = "●受付番号"
#for pdf in pdfs:
#    #print(pdf)
#    # Extract text using pdfplumber
#    extracted_text = extract_text_with_pdfplumber(pdf)

#    # Split the text by your specific delimiter
#    sections = split_text_by_delimiter(extracted_text, delimiter)

#    # Print the sections
#    for index, section in enumerate(sections):
#        opinions.append(section)

# Clean texts

In [37]:
# Remove the identifier from each string in the list
#clean_opinions_0 = [text.split('\n', 1)[-1] if '\n' in text else text for text in opinions[1:]]

## Remove unnecessary short text
#clean_opinions = []
#for i in range(len(clean_opinions_0)):
#    if len(clean_opinions_0[i]) > 2:
#        clean_opinions.append(clean_opinions_0[i])
        
#print("Opinion in total: " + str(len(clean_opinions)))

# Load dataframe

In [38]:
df = pd.read_csv("log_public/gen_ai_opinions.csv")

# Model

In [39]:
############
use_model = "gpt-4-turbo-2024-04-09"
openai.api_key = "YOUR-KEY"
# openai.api_key = os.environ["OPENAI_API_KEY"]
model = tiktoken.get_encoding("cl100k_base")

START_FROM_SCRATCH = 1
if START_FROM_SCRATCH != 1:

    log_list = glob.glob("log_public/public_separated_*" )
    print(log_list)

    record2hantei = dict()
    file_list = log_list 
    for file in file_list:
        print(file)
        load_record(file,record2hantei)


# Create new log file

In [40]:
now = datetime.datetime.now()
LOG_FILE = os.path.join("log_public", "public_separated_C_api_" +  use_model  + "_"+ now.strftime('%Y-%m-%dT%H_%M_%S') + ".log") 

if os.path.exists("log_public") == False:
    os.makedirs("log_public")

print(LOG_FILE)

def get_completion(messages, model=use_model):
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        response_format={"type":"json_object"},
        temperature=0, # this is the degree of randomness of the model's output
    )
    return response.choices[0].message["content"]

DOLLAR_PER_TOKEN = 0.002/1000
YEN_PER_DOLLAR= 139.69

# トークン数とコストを計算
def check_tokens(prompt, model):
    tokens = model.encode(prompt)
    num_tokens = len(tokens)
    cost_dollar = len(tokens)*DOLLAR_PER_TOKEN
    cost_yen = len(tokens)*DOLLAR_PER_TOKEN*YEN_PER_DOLLAR
#     print("num_tokens = {}: cost = ${}, ¥{}".format(num_tokens, cost_dollar, cost_yen))
    return num_tokens, cost_dollar, cost_yen



log_public/public_separated_C_api_gpt-4-turbo-2024-04-09_2024-10-24T22_33_00.log


# Prompt

In [41]:
prompt_template_1 = """
次の文章には生成AIの規制に関する意見が含まれています。以下の手順に従って解析してください。

「この」、「あの」、「その」など文章内の指示語が用いられている部分が何を指しているのかを明確にして指示語の置き換えリストを出力してください。エッジリストを作成する際にはこの指示語の置き換えを参照し、それらの指示語を具体的な内容に置き換えるように注意してください。

さらに以下のパターンに基づいて情報をエッジリスト形式で抽出してください。ほとんど全ての文がこのパターンのいずれかに分類されます。そのためできるだけ全ての文を分類するようにしてください。また、できるだけ元の表現をそのまま使うようにし、勝手に文章に書いてある表現を変化させないようにしてください。Pattern1とPattern2とPattern4の「誰が」の部分が意見を書いた人と思われる時は「筆者」としてください。

Pattern1: 「誰が, 何に対して, どうあるべきである」という規範的主張
Pattern2: 「誰が, 誰に対して, どうして欲しい」という要望
Pattern3: 「何が・誰が、何に対して、どういう状況を引き起こしているか」という因果関係
Pattern4: 「誰が, 何に対して, どう捉えているか」という認識

エッジリストの形式は以下の通りです：
Pattern1 (誰が, 何に対して, どうあるべきである)
Pattern2 (誰が, 誰に対して, どうして欲しい)
Pattern3 (何が・誰が, 何に対して, どういう状況を引き起こしているか)
Pattern4 (誰が, 何に対して, どう捉えているか)
Pattern4 (誰が,(何が・誰が,何に対して,どういう状況を引き起こしているか))

注意: Pattern4はPattern3を内包する場合があります。例えば：Pattern4 (誰が, (何が・誰が,何に対して,どういう状況を引き起こしているか))なのでPattern3を内包するように書ける時はそっちを優先してください。

全ての文に対してPattern1からPattern4のいずれかに該当するか確認してください。指示語の置き換えリストに含まれている言い換え表現を、エッジリストで必ず使用するようにしてください。また、出力結果のエッジリストには元の文章に存在しないフレーズが含まれていないことを確認し、元の文章にないフレーズの出現回数が0であることを保証してください。

出力例は以下の通りです。必ずこの形式を守ってください。説明は一切出力せず、このJSONフォーマットの回答以外を出力しないでください。
出力例：
{"指示語の置き換え":["「この文言」 = 「憲法999に関する文言」"],
"エッジリスト":["Pattern1 (筆者, 水星人対策, 喫緊の課題である)","Pattern2 (筆者, 政府, 水星人追放を求める)","Pattern3 (水星人, 金星人, やる気を無くさせている)","Pattern4 (筆者, 水星人の核兵器, この世の終わりである)"]}
=====
%s"""

In [42]:
prompt_template_2 = """
次に元の文章とこれまで抽出したPattern1からPattern4までの結果を元に以下の手順に従って解析してください：

まず「この」、「あの」、「その」など文章内の指示語が用いられている部分が何を指しているのかを明確にして指示語の置き換えリストを出力してください。エッジリストを作成する際にはこの指示語の置き換えを参照し、それらの指示語を具体的な内容に置き換えるように注意してください。

さらに以下のパターンに基づいて情報をエッジリスト形式で抽出してください。できるだけ元の表現をそのまま使うようにし、勝手に文章に書いてある表現を変化させないようにしてください。ここで新たにPattern1からPattern4そのものを抽出する必要はなく、今回はPattern5だけに絞ってください。

Pattern5: 因果関係(Pattern3)や認識 (Pattern4) が他の要素 (Pattern1の規範的主張、Pattern2の要望) に影響を与えている場合の関連性

エッジリストの形式は以下の通りです：
Pattern5 (誰が,(何が・誰が,何に対して,どういう状況を引き起こしているか),(何に対して,どうあるべきである))
Pattern5 (誰が,(何に対して,どう捉えているか), (何に対して,どうあるべきである))
Pattern5 (誰が,(何が・誰が,何に対して,どういう状況を引き起こしているか),(誰に対して,どうして欲しい))
Pattern5 (誰が, (何に対して,どう捉えているか), (誰に対して,どうして欲しい))

全てのPattern1とPattern2について、以前に抽出したPattern1からPattern4までとの対応関係を検証し、Pattern5のどの条件に該当するか確認してください。テキスト内で「誰が」の部分が意見を書いた人と思われる時は「筆者」としてください。指示語の置き換えリストに含まれている言い換え表現を、エッジリストで必ず使用するようにしてください。また、出力結果のエッジリストには元の文章に存在しないフレーズが含まれていないことを確認し、元の文章にないフレーズの出現回数が0であることを保証してください。さらに、指定されたエッジリストの形式を厳守し、それよりも多くの要素を持つタプルなどを出力しないでください。

Pattern1の規範的主張やPattern2の要望が存在しない場合は、エッジリストを空で返してください。抽出されたPatternは、原文を正確に保ち、一言一句変更せずに出力してください。最も重要なのは、元の文章を無断で変更しないことです。

出力例は以下の通りです。必ずこの形式を守ってください。説明は一切出力せず、このJSONフォーマットの回答以外を出力しないでください。

出力例：
{"指示語の置き換え":["「この文言」 = 「憲法999に関する文言」"],
"エッジリスト":["Pattern5 (筆者, (水星人の襲来,物価の高騰), (消費税,増税を見送るべきである))","Pattern5 (筆者, (水星人対策,必要である), (政府,水星人追放を求める))"]}
====
====
%s"""
#jsonize_prompt = """Please answer the output in JSON format. 
#example:
#{
#    "YesOrNo":"..."
#}
#"""

# Main

In [44]:
################################################
START_INDEX = 0
print(START_INDEX)
print(LOG_FILE)
################################################

In [None]:
%%time
import time
for kkk in range(5):
    print("TRY: " + str(kkk) + ", Start " + str(START_INDEX))
    try:
        #### FIRST HALF ####
        #for i in tqdm.tqdm(range(START_INDEX,MID_INDEX)):
        #### SECOND HALF OR ALL ####
        for i in tqdm.tqdm(range(START_INDEX,len(df))):
        #### DEBUG #####
        #for i in tqdm.tqdm(range(START_INDEX,START_INDEX+3)):
            #### 
            sentiment = df["sentiment"].iloc[i]
            t =  df["text"].iloc[i]
            
            if t not in record2hantei:
            
                # Clean
                sentences = split_into_sentences(t)
                grouped_sentences = split_list_into_groups(sentences)

                tmp_edges = []
                for jjj in range(len(grouped_sentences)):    
                    text = "".join(grouped_sentences[jjj])
                    prompt = prompt_template_1 % text
                    messages = [
                        {
                            "role" : "user",
                            "content" : prompt
                        }
                    ]
                    tmp_response_1 = get_completion(messages)
                    num_tokens1, cost_dollar1, cost_yen1 = check_tokens(tmp_response_1, model)
                    result = {
                        "index": i,
                        "moto": t,
                        "subindex": kkk,
                        "type": "A",
                        "input": text,
                        "sentiment": sentiment,
                        "cost":{
                                1:{
                                "num_tokens1":num_tokens1,
                                "cost_dollar1":cost_dollar1,
                                "cost_yen1":cost_yen1
                            }
                        },
                        "answer":tmp_response_1
                    }
                    tmp_edges.extend(json.loads(tmp_response_1)['エッジリスト'])

                    #### KOKODE HAKIDASU 
                    with open(LOG_FILE, "a") as f:
                        print(json.dumps(result), file=f)

                        
     
                proceed_hantei = 0
                for ppp in range(len(tmp_edges)):
                    if "Pattern1" in tmp_edges[ppp]:
                        proceed_hantei = 1
                        break
                        
                    if "Pattern2" in tmp_edges[ppp]:
                        proceed_hantei = 1
                        break
          
                if proceed_hantei == 1:           
                        
                    text_2 =  "\n".join(tmp_edges) + "\n"  + "".join(sentences)
                    record = str(sentiment) + ";" + text_2
                    prompt = prompt_template_2 % text_2
                    messages = [
                        {
                            "role" : "user",
                            "content" : prompt
                        }
                    ]
                    tmp_response_2 = get_completion(messages)
                    #num_tokens1, cost_dollar1, cost_yen1 = check_tokens(tmp_response_2, model)
                    result_2 = {
                        "index": i,
                        "moto": t,
                        "type": "B",
                        "input": text_2,
                        "sentiment": sentiment,
                        "cost":{
                            1:{
                                "num_tokens1":num_tokens1,
                                "cost_dollar1":cost_dollar1,
                                "cost_yen1":cost_yen1
                            }
                        },
                        "answer":tmp_response_2
                    }
                    #### KOKODE HAKIDASU 
                    with open(LOG_FILE, "a") as f:
                        print(json.dumps(result_2), file=f)

            START_INDEX = i
                
    except:
        START_INDEX = i
        time.sleep(5.4)
        