# Select model

In [1]:
use_model = "gpt-4-turbo-2024-04-09"

In [8]:
import numpy as np
import tqdm
import random
import pandas as pd
import json
import glob
import matplotlib.pyplot as plt
import jaconv
from sklearn.cluster import DBSCAN
from sklearn.neighbors import NearestNeighbors
from sklearn.cluster import KMeans
import networkx as nx
import unicodedata
import tiktoken 
import openai
import datetime
import os
import re

# Find files

In [9]:
log_list = glob.glob("log_public/public_separated_*" )
print(log_list)
path = log_list[0]

['log_public/public_separated_C_api_gpt-4-turbo-2024-04-09_2024-06-17T16_11_06.log']


# Read lines

In [10]:
text2hantei = dict()
with open(path, "r") as f:
    lines = f.readlines()

out_info,out_edges = [],[]
num_read = 0
index2sentiment = dict()
error_cnt = 0
for kkk in range(len(lines)):
    data = json.loads(lines[kkk])
    answer = data["answer"]
    answer_type = data["type"]
        
    if answer_type == "A":
        subindex = data["subindex"]
        answer_type += "-" + str(subindex)

    input_text = data["input"]    
    if input_text not in text2hantei:
        text2hantei.update({input_text:1})    
        index = data["index"]    
        try:
            if answer.startswith('```json'):
                # Strip the markdown code block indicators
                answer = answer.strip('```json\\n')
                # Load the inner JSON
                answer_dict = json.loads(answer)

            elif "\n}\n}" in answer:
                answer = answer.replace("\n}\n}","]\n}")
                answer_dict = json.loads(answer)

            else:
                answer_dict = json.loads(answer)
            num_read += 1

            try:
                indicator = answer_dict['指示語の置き換え']
            except:
                indicator = answer_dict['指示語の置き寛げ']

            edges = answer_dict['エッジリスト']
            edges = list(edges)
            for j in range(len(edges)):
                out_edges.append(edges[j])
                out_info.append(index)
        except:
            error_cnt += 1
            
print("Number of error: " + str(error_cnt))

Number of error: 4


In [11]:
print(len(out_edges))
print(len(out_info))

28337
28337


# Parser

In [12]:
def parse_pattern(text):
    # テキストからカンマとカッコを用いて大まかなパターンを識別
    # パターン1: "誰が, (何が・誰が, 何に対して, どういう状況を引き起こしているか), (何に対して, どうあるべきである)"
    # パターン2: "誰が, 何に対して, どうあるべきである"
    # パターン3: "誰が, (何が・誰が, 何に対して, どういう状況を引き起こしているか), どうあるべきである"
    # パターン4: "誰が, 何に対し, (誰に対して, どうして欲しい)"

    result = []
    if text.count("(") > 1:

        # カッコを考慮しながら分割
        parts = re.split(r', (?!\s*[^()]*\))', text)
        
        for part in parts:
            # カッコ内の内容をさらに分解
            if '(' in part and ')' not in part:
                result.append(part.split("(")[1])
            elif ')' in part and '(' not in part:
                result.append(part.split("(")[0])

            else:
                result.append(part.strip())
                
    else:
        parts = text.split(",")
        for part in parts:   
            # カッコ内の内容をさらに分解
            if '(' in part and ')' not in part:
                result.append(part.split("(")[1])
            elif ')' in part and '(' not in part:
                result.append(part.split("(")[0])
            else:
                result.append(part.strip())
            
    return result


In [7]:
out_edges

['Pattern1 (筆者, AIによる画像生成のデータセットの公開, 義務付ける必要がある)',
 'Pattern1 (筆者, AIによる画像生成に利用するデータセットの作成, 作品の作成者、著作権者あるいは著作者からの事前の了解と、データセットの利用料の継続的な支払いが必要である)',
 'Pattern1 (筆者, 画像生成AIの許諾不要な状態, 許容しないこと)',
 'Pattern3 (画像生成AIの許諾不要な状態, 作品の作成者、著作権者ならびに著作者の利益と機会, 平等を著しく毀損している)',
 'Pattern3 (作品の無断使用, 後発の漫画家、イラストレーター、アニメーターの労働意欲と創作意欲, 著しく低下させる可能性がある)',
 'Pattern5 (筆者, (画像生成AIの許諾不要な状態, 作品の作成者、著作権者ならびに著作者の利益と機会, 平等を著しく毀損している), (画像生成AIの許諾不要な状態, 許容しないこと))',
 'Pattern5 (筆者, (作品の無断使用, 後発の漫画家、イラストレーター、アニメーターの労働意欲と創作意欲, 著しく低下させる可能性がある), (画像生成AIの許諾不要な状態, 許容しないこと))',
 'Pattern1 (筆者, 生成AI規制法, 作成されるべきである)',
 'Pattern1 (筆者, 生成AIと人間, 分けて考えるべきである)',
 'Pattern1 (筆者, 生成AI, 物量と再現性が人間を凌駕している状況である)',
 'Pattern1 (筆者, 生成AI, 植物のように眠ったままで自我は生まれないため道具である)',
 'Pattern1 (筆者, 生成AIに著作権, 不要である)',
 'Pattern1 (筆者, 生成AI規制法, 学習まではOKでそのままネット等に発表はNG＋免許制であるべきである)',
 'Pattern1 (筆者, 生成AI規制法, 著作権と両立可能である)',
 'Pattern1 (筆者, 生成AI規制法, 粘り強く対策するべきである)',
 'Pattern1 (筆者, 特別に著作権を無視できる場合, 明確であるべきである)',
 'Pattern1 (筆者, 生成AIに関する基本的著作権派, 無視して良いと解釈されている)',
 

# Create docs

In [9]:
doc_info,docs = [],[]
cnt = 0
error_cnt = 0
record2hantei_2 = dict()
for i in range(len(out_edges)):
    if "Pattern5" in out_edges[i]:
        cnt += 1 
        try:
            tmp_list = parse_pattern(out_edges[i])
            source = tmp_list[1].strip("()")
            v1 = source.split(",")
            target = tmp_list[2].strip("()")
            v2 = target.split(",")   
            
            if (len(v1) >= 2) and (len(v1) <= 3) and (len(v2) >= 2) and (len(v2) <= 3):
                if len(v1) == 3:
                    #source = v1[0] + "が" + v1[1] + "に対して" + v1[2]
                    source_sub = v1[0]
                    source_obj = v1[1] + "に対して" + v1[2]
                    source_obj = source_obj.replace(" ","")
                    source =  source_sub  + "が" + source_obj
                    source = source.replace(" ","")
                else:
                    source_sub = v1[0]
                    source_obj = v1[1] 
                    source =  source_sub  + "が" + source_obj
                    source = source.replace(" ","")

                if len(v2) == 3:
                    target_sub = v2[0]
                    target_obj = v2[1] + "に対して" + v2[2]
                    target_obj = target_obj.replace(" ","")
                    target =  target_sub  + "が" + target_obj
                    target = target.replace(" ","")          
                else:
                    target_sub = v2[0]
                    target_obj = v2[1] 
                    target =  target_sub  + "が" + target_obj
                    target = target.replace(" ","")    
            
                record = str(out_info[i]) + "," + source + "。\n" + target + "。"
                if record not in record2hantei_2:
                    doc_info.append([out_info[i]])
                    docs.append(source + "。\n" + target + "。")   
                    record2hantei_2.update({record:1})
            
        except:
            error_cnt += 1
            #print(1)
            
print("Number of error: " + str(error_cnt))

Number of error: 3


In [10]:
print("Number of documents: " + str(len(docs)))
print("Number of documents: " + str(len(doc_info)))
print("Number of unique: " + str(len(list(set(docs)))))

Number of documents: 6003
Number of documents: 6003
Number of unique: 5998


In [11]:
tmp_hantei = dict()
for i in range(len(docs)):
    if docs[i] not in tmp_hantei:
        tmp_hantei.update({docs[i]:1})
    else:
        print(doc_info[i])
        print(docs[i])

[2312]
手描きとAI絵の判別がトラブルにならないか不安である。
生成AIが規制もしくは免許制にして欲しい。
[2545]
生成AIが手描きとAI絵に対して判別がつかずトラブルになる状況を引き起こしている。
生成AIが規制もしくは免許制にして欲しい。
[2618]
手描きとAI絵の判別がトラブルにならないか不安である。
生成AIが規制もしくは免許制にして欲しい。
[2620]
生成AIが手描きとAI絵に対して判別がつかずトラブルになる状況を引き起こしている。
生成AIが規制もしくは免許制にして欲しい。
[2873]
手描きとAI絵の判別がトラブルにならないか不安である。
生成AIが規制もしくは免許制にして欲しい。


# GPT

In [14]:
##############
openai.api_key = "YOUR-KEY"
##############
model = tiktoken.get_encoding("cl100k_base")

In [15]:
now = datetime.datetime.now()
LOG_FILE = os.path.join("log_public", "public_summarize_C_api_" +  use_model  + "_"+ now.strftime('%Y-%m-%dT%H_%M_%S') + ".log") 

if os.path.exists("log_public") == False:
    os.makedirs("log_public")

print(LOG_FILE)

def get_completion(messages, model=use_model):
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        response_format={"type":"json_object"},
        temperature=0, 
    )
    return response.choices[0].message["content"]

DOLLAR_PER_TOKEN = 0.002/1000
YEN_PER_DOLLAR= 139.69

# トークン数とコストを計算
def check_tokens(prompt, model):
    tokens = model.encode(prompt)
    num_tokens = len(tokens)
    cost_dollar = len(tokens)*DOLLAR_PER_TOKEN
    cost_yen = len(tokens)*DOLLAR_PER_TOKEN*YEN_PER_DOLLAR
    return num_tokens, cost_dollar, cost_yen

def load_record(path,record2hantei):

    with open(path, "r") as f:
        lines = f.readlines()
    out_edges = []
    
    for kkk in range(len(lines)):
        #kkk = 0
        data = json.loads(lines[kkk])
        answer = data["answer"]
        text = data['input']
        date = data["date"]
        now_future = data["type"]
        record = date + ";" + now_future + ";" + text
        record2hantei.update({record:1})

log_public/public_summarize_C_api_gpt-4-turbo-2024-04-09_2024-10-24T22_45_44.log


# Prompt

In [16]:
prompt_template_1 = """
次のような文章が与えられます。与えられた文章は、「文1であるから文2をしてほしい」という規範的主張か、「文1であるから文2であるべきである」という要望を表しています。

この文章は、文2の内容に応じて二つの形式で要約されます：

文2が規範的主張をしている場合、要約は「AがBであるから、CはDであるべきである」となります。この要約の作成にあたって、文1からは「AがBである」という部分を抽出し、文2からは「CはDであるべきである」または「CはDすべきである」という表現を抽出します。

文2が要望を表している場合、要約は「AがBだから、Eに対してFをして欲しい」となります。この要約の作成にあたって、文1からは「AがBである」という部分を抽出し、文2からは「Eに対してFをして欲しい」という表現を抽出します。

AからFまでのそれぞれの項目は10文字以内である必要があり、接続詞や助詞は文字数に含めません。最終的な要約も含めて示してください。文2が規範的主張をしている場合は、EとFは「NA」であるとし、逆に文2が要望を表している場合は、CとDは「NA」であるとします。

エッジリストには元の文章に存在しないフレーズが含まれていないことを確認し、元の文章にないフレーズの出現回数が0であることを保証してください。

要約結果を以下のJSON形式で提供してください。説明文は含めずに、フォーマットのみを使用してください。可能な限り元の文の言葉を使用して下さい。最終的な要約文も示してください。

以下のJSON形式で答えてください。説明は入れず、このフォーマットのみで回答してください。
出力例：
{"種類"："規範的主張",
"A":"水星人の襲来",
"B":"世界にとって存亡の危機",
"C":"金星人との協力",
"D":"最優先事項",
"E":"NA",
"F":"NA",
"要約文":"水星人の襲来は世界にとって存亡の危機だから金星人との協力が最優先事項であるべきである。"}
=====
%s"""

# Main

In [None]:
################################################
START_FROM_SCRATCH = 1
START_INDEX = 0
print(START_INDEX)
################################################

record2hantei = dict()
file_list = []

if START_FROM_SCRATCH != 1:
    for file in file_list:
        load_record(file,record2hantei)     
print(LOG_FILE)

In [20]:
%%time
import time
for kkk in range(10):
    print("TRY: " + str(kkk) + ", Start " + str(START_INDEX))
    try:
        for i in tqdm.tqdm(range(START_INDEX,len(docs))):
            t =  docs[i]
            prompt = prompt_template_1 % t
            messages = [
                    {
                        "role" : "user",
                        "content" : prompt
                    }
            ]
            tmp_response_1 = get_completion(messages)
            num_tokens1, cost_dollar1, cost_yen1 = check_tokens(tmp_response_1, model)
            result = {
                    "index": doc_info[i][0],
                    "input": t,
                    "cost":{
                            1:{
                            "num_tokens1":num_tokens1,
                            "cost_dollar1":cost_dollar1,
                            "cost_yen1":cost_yen1
                        }
                    },
                    "answer":tmp_response_1
                }

            #### KOKODE HAKIDASU 
            with open(LOG_FILE, "a") as f:
                print(json.dumps(result), file=f)
            START_INDEX = i
                
    except:
        START_INDEX = i
        time.sleep(5.4)
        

TRY: 0, Start 0


 78%|███████████████████████████▍       | 4698/6003 [8:33:05<2:22:31,  6.55s/it]


TRY: 1, Start 4698


100%|█████████████████████████████████████| 1305/1305 [2:18:27<00:00,  6.37s/it]


TRY: 2, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.45s/it]


TRY: 3, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.78s/it]


TRY: 4, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:05<00:00,  5.62s/it]


TRY: 5, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.77s/it]


TRY: 6, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.50s/it]


TRY: 7, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.53s/it]


TRY: 8, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:03<00:00,  3.35s/it]


TRY: 9, Start 6002


100%|█████████████████████████████████████████████| 1/1 [00:04<00:00,  4.21s/it]

CPU times: user 1min 21s, sys: 6.01 s, total: 1min 27s
Wall time: 10h 52min 14s



