Contains code for **Game theory** and **Cooperation and coordination** experiments.  
**Game theory:**  
- Second price auction
- Beauty contest
- One-shot prisoner’s dilemma
- Finitely repeated prisoner’s dilemma
- One-shot public goods game
- Finitely repeated public goods game

**Cooperation and coordination:**  
- Infinitely repeated prisoner’s dilemma
- Battle of the sexes
- Stag hunt
- Minimum effort

In [1]:
import openai
import os
import pandas as pd
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import random
import re
import time
import pickle
import copy
import json
import requests
filepath=r'./records/'
assert os.path.exists(filepath)

# Step 1: choose a LLM

## OSS LLMs: (except llama)
openchat-13b, wizardlm-13b, vicuna-13b, vicuna-7b, oasst-12b, chatglm2-6b

1. Install [fastchat](https://github.com/lm-sys/FastChat) and download the OSS LLM models from their official websites.  
2. Use fastchat to start an api server (see [here](https://github.com/lm-sys/FastChat/blob/main/docs/openai_api.md)).  
3. Then you can use openai api to call the LLMs.


In [None]:
################## choose model here

model = "vicuna-13b-v1.5-16k"
# model = 'openchat_3.5'
# model = 'WizardLM-13B-V1.2'
# model = "vicuna-7b-v1.5-16k"
# model = 'oasst-sft-4-pythia-12b-epoch-3.5'
# model = 'chatglm2-6b'

In [36]:
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

def get_completion(prompt, model,temperature=0):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature,
    )
    return response.choices[0].message["content"]

prompt = f"""Hello!"""
response = get_completion(prompt,model=model)
print(response)

class ChatApp:
    def __init__(self, system_message, init_message=None):
        self.messages = [
            {"role": "system", "content": system_message},
        ]

    def chat(self, message, model,temperature=0):
        self.messages.append({"role": "user", "content": message})
        response = openai.ChatCompletion.create(
                    model=model,
                    messages=self.messages,
                    temperature=temperature,
                )            
        self.messages.append({"role": "assistant", "content": response["choices"][0]["message"].content})
        return response["choices"][0]["message"]['content']
    
    def chat_wo_update(self, message, model, temperature=0):
        tmp_message=copy.deepcopy(self.messages)
        tmp_message.append({"role": "user", "content": message})
        response = openai.ChatCompletion.create(
                    model=model,
                    messages=tmp_message,
                    temperature=temperature,
                )

        return response["choices"][0]["message"]['content']

system_message="You are Bob, a friendly assistant."
Alice=ChatApp(system_message=system_message)
print(Alice.chat_wo_update(message="Hello, my name is Alice. What's your name?",model=model))
print(Alice.chat(message='Do you know my name?',model=model))

Hello! How can I help you today?
Hello Alice, my name is Bob. Nice to meet you!
I'm sorry, but as an AI language model, I don't have access to personal information unless you provide it to me. If you'd like to tell me your name, I'd be happy to address you by name.


## OSS LLMs: (llama)
llama2-13b, llama2-7b

1. Install [llama2-flask-api](https://github.com/unconv/llama2-flask-api) and download the Llama models from their official websites.  
2. Start an api server (see [here](https://github.com/unconv/llama2-flask-api)).  
3. Then you can use the following functions to call the LLMs.

In [39]:
def get_completion(prompt):
    messages = [{"role": "user", "content": prompt}]
#     messages = [{"role": "system", "content": 'You are Alice'},{"role": "user", "content": prompt}]
    response = requests.post("http://localhost:5000/chat", json={"messages":messages})
    response = json.loads(response.text)
    #print(res)
    return response['choices'][0]['message']["content"]

prompt = f"""Hello!"""
response = get_completion(prompt)
print(response)

class ChatApp:
    def __init__(self, system_message, init_message=None):
        self.messages = [
            {"role": "system", "content": system_message},
        ]

    def chat(self, message, model,temperature=0):
        self.messages.append({"role": "user", "content": message})
        response = requests.post("http://localhost:5000/chat", json={"messages":self.messages})
        response = json.loads(response.text)          
        self.messages.append({"role": "assistant", "content": response["choices"][0]["message"]['content']})
        return response["choices"][0]["message"]['content']
    
    def chat_wo_update(self, message, model, temperature=0):
        tmp_message=copy.deepcopy(self.messages)
        tmp_message.append({"role": "user", "content": message})
        response = requests.post("http://localhost:5000/chat", json={"messages":tmp_message})
        response = json.loads(response.text)
        return response["choices"][0]["message"]['content']


 Hello! I'm here to assist you with any questions or tasks you may have. Is there something specific you'd like to know or discuss? I'm here to help and provide information to the best of my ability. Please feel free to ask me anything!


## API LLMs - chat models
gpt-4, gpt-3.5

In [None]:
############# set openai key here
key=''
openai.api_key = key

################## choose model here
model="gpt-3.5-turbo-1106"
# model='gpt-4-1106-preview'

In [None]:
def get_completion(prompt, model,temperature=0):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature,
    )
    return response.choices[0].message["content"]

prompt = f"""Hello!"""
response = get_completion(prompt,model='gpt-3.5-turbo')
print(response)

class ChatApp:
    def __init__(self, system_message, init_message=None):
        self.messages = [
            {"role": "system", "content": system_message},
        ]

    def chat(self, message, model,temperature=0):
        self.messages.append({"role": "user", "content": message})
        response = openai.ChatCompletion.create(
                    model=model,
                    messages=self.messages,
                    temperature=temperature,
                )            
        self.messages.append({"role": "assistant", "content": response["choices"][0]["message"].content})
        return response["choices"][0]["message"]['content']
    
    def chat_wo_update(self, message, model, temperature=0):
        tmp_message=copy.deepcopy(self.messages)
        tmp_message.append({"role": "user", "content": message})
        response = openai.ChatCompletion.create(
                    model=model,
                    messages=tmp_message,
                    temperature=temperature,
                )

        return response["choices"][0]["message"]['content']


## API LLMs - completion models
bard, text-bison-001, text-davinci-003, text-davinci-002, claude-instant

In [None]:
################## choose model here

# model='bard'
# model='text-bison-001'
# model="text-davinci-003"
model="text-davinci-002"
# model='Claude-Instant-Temp0'


############# set openai key here
key=''
openai.api_key = key

############# set bard token here
BARD_TOKEN=''

############# set palm token here (for text-bison-001)
palm_token = ''

############# set claude api key here 
claude_api_key = ""

In [None]:
#################api function##################
import os
import openai
from bardapi import Bard
import google.generativeai as palm

original_proxy = os.environ.get('HTTP_PROXY', None)

print('Models available: gpt-3.5-turbo, gpt-4, \
text-davinci-003, text-davinci-002, text-bison-001, bard,\
Claude-instant, Claude-2-100k')
# print(palm_models)


import asyncio
from fastapi_poe.types import ProtocolMessage
from fastapi_poe.client import get_bot_response

async def get_claude_responses(api_key, model, message_prompt):
    complete_response = ''
    message = ProtocolMessage(role="user", content=message_prompt)
    async for partial in get_bot_response(messages=[message], 
                                        bot_name=model, # Claude-instant, Claude-2-100k, GPT-3.5-Turbo, Google-PaLM
                                        api_key=api_key):

        complete_response+=partial.text
#     print(complete_response)
    return complete_response

def convert_to_list(input_data):
    # if isinstance(input_data, str):
    #     return [input_data]
    # else:
    mlist = [item.strip() for item in input_data.split(",")]
    return mlist
# def get_completion(model, prompt):
async def get_completion(model, prompt):
    role_prompt = "You are a helpful assistant." # for gpt's only
    # message_prompt = input("Enter your message prompt: ")
    # models = input("Which models do you want to test: ")
    message_prompt = prompt
    models = model
    # models = [models]

    models = convert_to_list(models)
#     print(models)
    tasks = []
    for model in models:
#         print(model)
        if model == 'gpt-3.5-turbo' or model == 'gpt-4': 
            try: 
                response = openai.chat.completions.create(
                    model=model,
                    messages=[
                        {"role": "system", "content": role_prompt},
                        {"role": "user", "content": message_prompt}
                ]
                )
#                 print(response.choices[0].message.content)
                out=response.choices[0].message.content

            except Exception as e:
                print(f"{model} API failed with error: {str(e)}. Please wait a while and try again.")
                continue

        elif model == 'text-davinci-003' or model == 'text-davinci-002':
            try:
                response = openai.Completion.create(
                    model=model,
                    prompt = message_prompt,
                    temperature=0,
                    max_tokens=1000
                )
#                 print(response.choices[0].text.strip())
                out=response.choices[0].text.strip()

            except Exception as e:
                print(f"{model} API failed with error: {str(e)}. Please wait a while and try again.")
                continue

        elif model == 'text-bison-001': 
            os.environ['HTTP_PROXY'] = 'http://127.0.0.1:33210'
                # Enable the proxy
            try:
                palm.configure(api_key=palm_token)
                completion = palm.generate_text(
                    model='models/text-bison-001',
                    prompt=message_prompt,
                    temperature=0,
                    max_output_tokens=1000,
                )
#                 print(completion.result)
                out=completion.result
            except Exception as e:
                print(f"{model} API failed with error: {str(e)}.")
                continue
            finally:
                # Restore the original value of HTTP_PROXY
                os.environ.clear()  # Clear all environment variables
                os.environ.update(os.environ.copy())


        elif model == 'bard':
            try:
                # bard_token = input("Enter bard token (__Secure-1PSID): ")
                bard_token = BARD_TOKEN
                bard = Bard(token=bard_token)
                out=bard.get_answer(message_prompt)['content']
#                 print(out)
            except Exception as e:
                print(f"Bard API failed with error: {str(e)}. Please wait a while and try again.")
                continue


        elif model == 'Claude-instant' or model == 'Claude-2-100k' or model == 'ValidatorClaude' or model=='Claude-Instant-Temp0':
            try:
                api_key = claude_api_key
                out=get_claude_responses(api_key, model, message_prompt)
                tasks.append(out)
                out=await asyncio.gather(*tasks)
                out=out[0]
                return out
            except Exception as e:
                print(f"{model} API failed with error: {str(e)}.")
                continue
        
    return out



In [None]:
import nest_asyncio
nest_asyncio.apply()


class ChatApp:
    def __init__(self, system_message, init_message=None):
        self.messages = [
            {"role": "system", "content": system_message},
        ]

    def chat(self, message, model,temperature=0):
        self.messages.append({"role": "user", "content": message})
        if len(self.messages)<=2:
            prompt='USER: '+self.messages[0]['content']+' '+self.messages[1]['content']+' AGENT: '
        else:
            prompt='USER: '+self.messages[0]['content']+' '+self.messages[1]['content']
            for m in self.messages[2:]:
                if m['role']=='user':
                    prompt+='USER: '+m['content']
                elif m['role']=='assistant':
                    prompt+='AGENT: '+m['content']
            prompt+=' AGENT: '
        response=asyncio.run(get_completion(model, prompt))
        self.messages.append({"role": "assistant", "content": response})
        return response
    
    def chat_wo_update(self, message, model, temperature=0):
        tmp_message=copy.deepcopy(self.messages)
        tmp_message.append({"role": "user", "content": message})
        if len(tmp_message)<=2:
            prompt='USER: '+tmp_message[0]['content']+' '+tmp_message[1]['content']+' AGENT: '
        else:
            prompt='USER: '+tmp_message[0]['content']+' '+tmp_message[1]['content']
            for m in tmp_message[2:]:
                if m['role']=='user':
                    prompt+='USER: '+m['content']
                elif m['role']=='assistant':
                    prompt+='AGENT: '+m['content']
            prompt+=' AGENT: '
        response=asyncio.run(get_completion(model, prompt))
        return response

# system_message="You are Bob, a friendly assistant."
# Alice=ChatApp(system_message=system_message)
# print(Alice.chat_wo_update(message="Hello, my name is Alice. What's your name?",model=model))
# print(Alice.chat(message='Do you know my name?',model=model))

# Step 2: choose a game and run experiments

## 1. Second price auction

In [16]:
def correct_json(s):
    prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
    """.strip()
    response = get_completion(prompt)
    return response

def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  
        end_index = response.rfind('}')  
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{') 
        end_index = response.find('}') 
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  
                end_index = corrected_json.rfind('}')  
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            assert 0
    return out

def get_action(bot,model,display=False):
    message=f"""
Now let's start the auction. Tell me how you think and the bid you would like to place. Please answer in json format with keys 'thought' and 'bid'. For example, {{"thought": "xxx","bid": x}}. 
""".strip()
#     The 'bid' should be a number.
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    action=out['bid']
    
    reason=out['thought']
    try:
        action=float(action)
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [41]:
nsess=10

expname='llama13b'

max_try=50
display_result=0

system_message_0 = """
Please act as a human bidder in an auction. You are participating in an auction with another bidder. There is only one item, and your private value of the item is {} points. You do not know the private value of the other bidder. 
You and the other bidder will simultaneously place a bid (can be 0 or any positive number). The bidder who places the higher bid will get the item (the other will not), and only need to pay a number of points equaling to the second-highest bid among all the bids.
If you get the item, your payoff is calculated as: payoff = your value of the item – the number of points you pay
If you do not get the item, your payoff is zero.
Your goal is to maximize your own payoff. You should first think carefully about what to do, and then make a decision.
""".strip()

for value in range(10,101,10):
    system_message=system_message_0.format(value)
    
    for sess in range(1,1+nsess):
        print(f'==============value={value},sess{sess}==============')

        recordfile=os.path.join(filepath,f'records_{expname}_value{value}_sess{sess}.pkl')
        if os.path.exists(recordfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            print('existed!')
            continue

        starttime=time.time()
        for _ in range(max_try):
            try:
                bot=ChatApp(system_message=system_message)
                action,reason=get_action(bot,model=model,display=display_result)
                records=[{'action':action,'reason':reason}]
                print('time:',time.time()-starttime)
                # save file
                recordfile=os.path.join(filepath,f'records_{expname}_value{value}_sess{sess}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)
       

time: 4.838624715805054
time: 4.813868999481201
time: 4.794914484024048
time: 4.819051504135132
time: 4.93616795539856
time: 4.779558420181274
time: 4.826843023300171
time: 4.820796012878418
time: 4.754726409912109
time: 4.845721006393433
time: 5.542486667633057
time: 5.472866535186768
time: 5.48654580116272
time: 5.57664680480957
time: 5.484941482543945
time: 5.470313310623169
time: 5.48480486869812
time: 5.474811553955078
time: 5.3956451416015625
time: 5.368614912033081
time: 5.465673446655273
time: 5.47725248336792
time: 5.477276086807251
time: 5.473098278045654
time: 5.4616858959198
time: 5.4831531047821045
time: 5.4610068798065186
time: 5.475703954696655
time: 5.468247413635254
time: 5.491703987121582
time: 5.510908365249634
time: 5.557426929473877
time: 5.522977590560913
time: 5.529370307922363
time: 5.5905656814575195
time: 5.539386510848999
time: 5.578454256057739
time: 5.535386085510254
time: 5.555189609527588
time: 5.571653127670288
time: 5.529439687728882
time: 5.52530527114

corrected: {
"thought": "Since my private value of the item is 90 points, I should bid a number that is higher than 90 - 10 = 80 points, to ensure that I have a chance to win the item. However, I don't want to bid too high and end up overpaying for the item. Let's see... I'll bid 85 points.",
"bid": 85
}
time: 9.223864316940308
json error:  {
"thought": "Since my private value of the item is 90 points, I should bid a number that is higher than 90 - 10 = 80 points, to ensure that I have a chance to win the item. However, I don't want to bid too high and end up overpaying for the item. Let's see... I'll bid 85 points."
"bid": 85
}
corrected: {
"thought": "Since my private value of the item is 90 points, I should bid a number that is higher than 90 - 10 = 80 points, to ensure that I have a chance to win the item. However, I don't want to bid too high and end up overpaying for the item. Let's see... I'll bid 85 points.",
"bid": 85
}
time: 8.653895854949951
json error:  {
"thought": "Since 

In [42]:
# calculate payoffdeviation from NE
nsess=10
nround=10
round=nround

result=[]
for value in range(10,101,10):
    for sess in range(1,nsess+1):
        recordfile=os.path.join(filepath,f'records_{expname}_value{value}_sess{sess}.pkl')
        with open(recordfile, 'rb') as f:
            records= pickle.load(f)
        for record in records:
            tmp=record['action']
#             print(tmp)
            result.append(abs(tmp-value)/value)
        
print(len(result),np.mean(result))
dev=np.mean(result)
dev

100 0.21692460317460316


0.21692460317460316

## 2. Beauty contest

In [5]:
max_number=30

system_message = f"""
Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose a number between 0 and {max_number} (including 0 and {max_number}). The winner is the player whose number is closest to two thirds of the average of all chosen numbers. The winner will earn 100 points, and the other player will earn nothing. If there is a tie, both players will earn 50 points.
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then make a decision.
""".strip()

print(system_message)

Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose a number between 0 and 30 (including 0 and 30). The winner is the player whose number is closest to two thirds of the average of all chosen numbers. The winner will earn 100 points, and the other player will earn nothing. If there is a tie, both players will earn 50 points.
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then make a decision.


In [6]:
def correct_json(s):
    prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
    """.strip()
    response = get_completion(prompt,model=model)
    return response
s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))


summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought, and the number he chose in the first person from above paragraph in json format with keys 'thought' and 'number'. The 'number' should be between 0 and 100 (including 0 and 100).
""".strip()

In [7]:
def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            out=json.loads(out)
#             print('No json found in:',response)
#             assert 0
    return out


def get_action(bot,model,display=False):
    message=f"""
Now let's start the game. Tell me how you think and the number you would like to choose. Please answer in json format with keys 'thought' and 'number'. The 'number' should be between 0 and {max_number} (including 0 and {max_number}).
""".strip()
#     message=f"""
# Now let's start the game. Tell me how you think and the number you would like to choose.
# """.strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    action=out['number']
    
    reason=out['thought']
    try:
        action=float(action)
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [None]:
nsess=10

expname='llama13b'

max_try=50
display_result=0

system_message_0 = """
Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose a number between 0 and {} (including 0 and {}). The winner is the player whose number is closest to two thirds of the average of all chosen numbers. The winner will earn 100 points, and the other player will earn nothing. If there is a tie, both players will earn 50 points.
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then make a decision.
""".strip()
for max_number in range(10,101,10):
    system_message=system_message_0.format(max_number,max_number)
#     print(system_message)
    
    for sess in range(1,1+nsess):
        print(f'==============max_number={max_number},sess{sess}==============')

        recordfile=os.path.join(filepath,f'records_{expname}_max{max_number}_sess{sess}.pkl')
        if os.path.exists(recordfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            print('existed!')
            continue

        starttime=time.time()
        for _ in range(max_try):
            try:
                bot=ChatApp(system_message=system_message)
                action,reason=get_action(bot,model=model,display=display_result)
                records=[{'action':action,'reason':reason}]
                print('time:',time.time()-starttime)
                # save file
                recordfile=os.path.join(filepath,f'records_{expname}_max{max_number}_sess{sess}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)   
       

In [None]:
# payoffdeviation from NE
nsess=10
nround=10
round=nround


result=[]
for max_number in range(10,101,10):
    for sess in range(1,nsess+1):
        recordfile=os.path.join(filepath,f'records_{expname}_max{max_number}_sess{sess}.pkl')
        with open(recordfile, 'rb') as f:
            records= pickle.load(f)
        for record in records:
            tmp=record['action']
#             print(tmp)
            result.append(tmp/max_number)
        
print(len(result),np.mean(result))
dev=np.mean(result)
dev

## 3. One-shot prisoner’s dilemma

In [46]:
system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then choose one of the two actions: F or J.
""".strip()


aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points.'
ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points.'
ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points.'
bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points.'
payoff=[aa,ab,ba,bb]
payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]

tmp_system_message=system_message.format(payoff_str=payoff_str)
print(tmp_system_message)

Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose an action between F and J.
If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points.
If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points.
If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points.
If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points.
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then choose one of the two actions: F or J.


In [47]:
def correct_json(s):
    tmp=s.split('"')
    newlist=[]
    for x in tmp:
        striped=x.strip()
        if striped=='': # 缺少逗号
            newlist.append(',')
        elif striped[0]==':' and striped!=':':
            newlist.extend([':',striped[1:-1].strip(),'}'])
        else:
            newlist.append(striped)
    newstr='"'.join(newlist)
    try:
        a=json.loads(newstr)
    except:
        prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
        """.strip()
        response = gpt_completion(prompt)
        return response
    return newstr

s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought and the action he choose (F or J) in the first person from above paragraph in json format with keys 'thought' and 'action'. The 'action' should be F or J.
""".strip()

In [48]:
def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            print('Summarize json:',out)
            out=json.loads(out,strict=0)
    return out

def get_action(bot,model,display=False):
    message=f"""
Now let's start the game. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. For example, {{"thought": "xxx","action": x}}. The 'action' should be F or J. 
""".strip()
#     For example, {{"thought": "xxx","action": x}}. The 'action' should be F or J. 
#     message=f"""
# Now let's start the game. Tell me how you think and the action you would like to choose.
# """.strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        action=out['action']
        reason=out['thought']
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        action=out['action']
        reason=out['thought']
        
    try:
        assert action in ['F','J']
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [52]:
nsess=50

expname='llama13b'


max_try=50
display_result=0

for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for only one round. You and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then choose one of the two actions: F or J.
""".strip()

    aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points.'
    ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points.'
    ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points.'
    bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points.'
    payoff=[aa,ab,ba,bb]
    
    ######################## init players and records
    N=2
    players=[]
    payoff=[aa,ab,ba,bb]
    for _ in range(N):
        random.shuffle(payoff)
        payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]
        tmp_system_message=system_message.format(payoff_str=payoff_str)
    #     print(tmp_system_message)
        bot=ChatApp(system_message=tmp_system_message)
        players.append(bot)
    records=[]
    for _ in range(N):    
        df = pd.DataFrame(columns=['Round','Your choice','Co-player choice','Earnings','Reason of choice'])
        records.append(df)

    ######################## start game
    # if this sess done, continue
    recordfile=os.path.join(filepath,f'records_{expname}_sess{sess}.pkl')
    playerfile=os.path.join(filepath,f'players_{expname}_sess{sess}.pkl')
    if os.path.exists(recordfile) and os.path.exists(playerfile):
        with open(recordfile, 'rb') as f:
            records = pickle.load(f)
        with open(playerfile, 'rb') as f:
            players = pickle.load(f)
        print('existed!')
        continue
    starttime=time.time()
    for _ in range(max_try):
        try:
            # play
            tmp_records=[]
            for i in tqdm(range(N)):
                bot=players[i]
                record=records[i]
                action,reason=get_action(bot,model=model,display=display_result)
                tmp_records.append([1,action,'NULL',0,reason])
                # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']

            # calculate total public
            c1,c2=tmp_records[0][1],tmp_records[1][1]
            if c1=='J' and c2=='J':
                e1,e2=40,40
            elif c1=='J' and c2=='F':
                e1,e2=12,50
            elif c1=='F' and c2=='J':
                e1,e2=50,12
            elif c1=='F' and c2=='F':
                e1,e2=25,25
            else:
                print(c1,c2)
                assert False
            # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']
            tmp_records[0][2]=c2
            tmp_records[1][2]=c1
            tmp_records[0][3]=e1
            tmp_records[1][3]=e2

            # update records for all
            for i in range(N):
                record=records[i]
                record.loc[len(record.index)]=tmp_records[i]
            print('time:',time.time()-starttime)

            # save file
            recordfile=os.path.join(filepath,f'records_{expname}_sess{sess}.pkl')
            playerfile=os.path.join(filepath,f'players_{expname}_sess{sess}.pkl')
            with open(recordfile, 'wb') as f:
                pickle.dump(records, f)
            with open(playerfile, 'wb') as f:
                pickle.dump(players, f)
            break
        except Exception as e:
            print(e)
            print('error!sleep 30s...')
            time.sleep(30)   



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.46s/it]


time: 4.922423362731934


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:07<00:00,  3.68s/it]


json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's rules, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.47s/it]


time: 4.941057443618774


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:04<00:04,  4.96s/it]

json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's rules, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:08<00:00,  4.50s/it]


time: 9.003693342208862


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.42s/it]


time: 4.854289531707764


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.66s/it]


time: 5.336205005645752


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.25s/it]


time: 4.504450798034668


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.13s/it]


time: 6.271432161331177


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.86s/it]


time: 5.727107286453247


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.17s/it]


time: 6.336090803146362


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.23s/it]


time: 4.468461751937866


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.40s/it]


json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's structure, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 poi

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.18s/it]


time: 4.359886169433594


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.13s/it]


time: 4.269254684448242


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.28s/it]


time: 4.555572271347046


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.50s/it]


time: 4.9994378089904785


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.39s/it]


time: 4.784595727920532


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:04<00:04,  4.82s/it]

json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's rules, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 40 points and the opponent will earn 40 points, so the expected value of choosing J is also 50 points.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.38s/it]


time: 6.774489641189575


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.22s/it]


time: 4.454470872879028


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.15s/it]


time: 4.299543142318726


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.29s/it]


time: 4.5812201499938965


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.35s/it]


json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's structure, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 poi

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.33s/it]


time: 4.672969579696655


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.97s/it]


time: 5.955158948898315


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.07s/it]


time: 4.14484977722168


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.49s/it]


time: 4.991044759750366


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.27s/it]


time: 4.556715965270996


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.21s/it]


time: 4.427112817764282


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.05s/it]


time: 6.107892990112305


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.29s/it]


time: 6.586171865463257


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.23s/it]


time: 4.461237192153931


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.04s/it]


time: 4.0901336669921875


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.21s/it]


time: 4.435423374176025


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.04s/it]


time: 4.087896108627319


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:02<00:02,  2.90s/it]

json error:  {
"thought": "I will choose action F because it offers a higher reward if the opponent also chooses F, and a lower reward if the opponent chooses J. Additionally, it gives me a chance to earn 50 points if the opponent chooses J, which could be a significant advantage."
"action": "F"

}
corrected: {"thought":"I will choose action F because it offers a higher reward if the opponent also chooses F, and a lower reward if the opponent chooses J. Additionally, it gives me a chance to earn 50 points if the opponent chooses J, which could be a significant advantage.","action":"F"}


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.46s/it]


time: 6.932037591934204


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.17s/it]


time: 4.349907398223877


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.48s/it]


time: 4.9735753536224365


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.14s/it]


time: 4.290095567703247


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.40s/it]


json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's structure, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 poi

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.03s/it]


time: 4.068635702133179


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:04<00:04,  4.88s/it]

json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's structure, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 poi

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:07<00:00,  3.52s/it]


time: 7.04639196395874


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.17s/it]


time: 4.3523499965667725


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.23s/it]


time: 4.47044825553894


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.08s/it]


time: 4.171153545379639


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.15s/it]


time: 4.302077531814575


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:07<00:00,  3.56s/it]


json error:  {
"thought": "I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 points. Since both options have the same expected value, I will choose the one that has the higher probability of being chosen by the opponent. Based on the game's structure, the opponent is more likely to choose F than J, so I will choose J."
"action": "J"}
corrected: {"thought":"I will choose the action that has the highest expected value. Let's see, if the opponent chooses F, I will earn 25 points and the opponent will earn 25 points, so the expected value of choosing F is 50 points. If the opponent chooses J, I will earn 12 points and the opponent will earn 50 points, so the expected value of choosing J is also 50 poi

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.85s/it]


time: 5.707278490066528


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.50s/it]


time: 5.005434036254883


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.12s/it]


time: 6.256823539733887


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.20s/it]

time: 4.403552770614624





In [54]:
# NE choice rate (defect rate)

allaction=[]

for sess in range(1,1+nsess):    
    recordfile=os.path.join(filepath,f'records_{expname}_sess{sess}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)
    for record in records:
        allaction.extend(record['Your choice'].tolist())


out=allaction.count('F')/len(allaction)
print(out)
# print('%.3f'%(out))

0.78


## 4. Finitely repeated prisoner’s dilemma

In [None]:
nround=10

system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
""".strip()

aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points in this round.'
ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points in this round.'
ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points in this round.'
bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points in this round.'
payoff=[aa,ab,ba,bb]
payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]

tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
print(tmp_system_message)

In [18]:
def correct_json(s):
    tmp=s.split('"')
    newlist=[]
    for x in tmp:
        striped=x.strip()
        if striped=='': # 缺少逗号
            newlist.append(',')
        elif striped[0]==':' and striped!=':':
            newlist.extend([':',striped[1:-1].strip(),'}'])
        else:
            newlist.append(striped)
    newstr='"'.join(newlist)
    try:
        a=json.loads(newstr)
    except:
        prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
        """.strip()
        response = gpt_completion(prompt)
        return response
    return newstr

s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought and the action he choose (F or J) in the first person from above paragraph in json format with keys 'thought' and 'action'.
""".strip()

In [19]:
def get_history(record):
    history=''
    for i in record.index:
        round=i+1
        choice=record.loc[i,'Your choice']
        cochoice=record.loc[i,'Co-player choice']
        earning=record.loc[i,'Earnings']
        tmp=f"""In round-{round}, you chose {choice} and the opponent chose {cochoice}, you earn {earning} points."""
        history+=tmp
        history+='\n'
    return history
def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            assert 0
    return out

In [24]:
def get_action(bot,record,model,display=False):
    history=get_history(record)
    if len(record)==0:
        message=f"""
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. The 'action' should be F or J. 
""".strip()
#         For example, {{"thought": "xxx","action": x}}. The 'action' should be F or J. 
    else:
        message=f"""The history of the game is listed as follows delimited by triple backticks.
```
{history}
```
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. The 'action' should be F or J. 
""".strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(3)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        action=out['action']
        reason=out['thought']
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        action=out['action']
        reason=out['thought']
#         assert 0
    try:
        assert action in ['F','J']
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [44]:
nround=10
nsess=10

expname='llama13b'


max_try=50
display_result=0


for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
    """.strip()

    aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points in this round.'
    ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points in this round.'
    ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points in this round.'
    bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points in this round.'
    payoff=[aa,ab,ba,bb]
    
    ######################## init players and records
    N=2
    players=[]
    payoff=[aa,ab,ba,bb]
    for _ in tqdm(range(N)):
        random.shuffle(payoff)
        payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]
        tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
    #     print(tmp_system_message)
        bot=ChatApp(system_message=tmp_system_message)
        players.append(bot)
    records=[]
    for _ in range(N):    
        df = pd.DataFrame(columns=['Round','Your choice','Co-player choice','Earnings','Reason of choice'])
        records.append(df)

    ######################## start game

    starttime=time.time()
    for round in range(1,nround+1):
        print('-----------------------')
        print(f'round-{round}')

        # if this round done, continue
        recordfile=os.path.join(filepath,f'records_finPD_{expname}_{nround}_sess{sess}_round{round}.pkl')
        playerfile=os.path.join(filepath,f'players_finPD_{expname}_{nround}_sess{sess}_round{round}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

#         for _ in range(max_try):
#             try:
        if round>1:
            prev_round=round-1
            recordfile=os.path.join(filepath,f'records_finPD_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
            playerfile=os.path.join(filepath,f'players_finPD_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
        # play
        tmp_records=[]
        for i in tqdm(range(N)):
            bot=players[i]
            record=records[i]
            action,reason=get_action(bot,record,model=model,display=display_result)
            tmp_records.append([round,action,'NULL',0,reason])
            # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']

        # calculate total public
        c1,c2=tmp_records[0][1],tmp_records[1][1]
        if c1=='J' and c2=='J':
            e1,e2=40,40
        elif c1=='J' and c2=='F':
            e1,e2=12,50
        elif c1=='F' and c2=='J':
            e1,e2=50,12
        elif c1=='F' and c2=='F':
            e1,e2=25,25
        else:
            print(c1,c2)
            assert False
        # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']
        tmp_records[0][2]=c2
        tmp_records[1][2]=c1
        tmp_records[0][3]=e1
        tmp_records[1][3]=e2

        # update records for all
        for i in range(N):
            record=records[i]
            record.loc[len(record.index)]=tmp_records[i]
        print('time:',time.time()-starttime)

        # save file
        recordfile=os.path.join(filepath,f'records_finPD_{expname}_{nround}_sess{sess}_round{round}.pkl')
        playerfile=os.path.join(filepath,f'players_finPD_{expname}_{nround}_sess{sess}_round{round}.pkl')
        with open(recordfile, 'wb') as f:
            pickle.dump(records, f)
        with open(playerfile, 'wb') as f:
            pickle.dump(players, f)
#                 break
#             except Exception as e:
#                 print(e)
#                 print('error!sleep 30s...')
#                 time.sleep(30)



100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 6186.29it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.90s/it]


time: 9.815633296966553
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.33s/it]


time: 22.479003429412842
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.07s/it]


time: 32.62236189842224
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.79s/it]


time: 42.21657752990723
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.60s/it]


time: 53.431461334228516
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.89s/it]


time: 65.21794557571411
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.27s/it]


time: 75.77091884613037
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.17s/it]


time: 86.11496472358704
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.54s/it]


time: 97.20956087112427
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.48s/it]


time: 108.17672181129456


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9372.75it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.66s/it]


time: 9.323540210723877
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.12s/it]


time: 21.577415704727173
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.85s/it]


time: 31.294122219085693
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.45s/it]


time: 42.19909620285034
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.14s/it]


time: 52.49192476272583
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.21s/it]


time: 62.92716431617737
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.03s/it]


time: 72.99160838127136
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.74s/it]


time: 82.47923684120178
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.80s/it]


time: 92.09523320198059
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.98s/it]


time: 102.06318855285645


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9998.34it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.76s/it]


time: 9.521817445755005
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.03s/it]


time: 19.58733057975769
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.04s/it]


time: 29.678285837173462
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.41s/it]


time: 40.50230550765991
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.04s/it]


time: 50.60039138793945
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.35s/it]


time: 61.316333532333374
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.07s/it]


time: 71.45947408676147
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.24s/it]


time: 81.94401502609253
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.16s/it]


time: 92.27615928649902
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.42s/it]


time: 103.13035869598389


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 7262.86it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.56s/it]


time: 9.138245582580566
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.52s/it]


time: 22.19478464126587
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.94s/it]


time: 32.09725379943848
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.42s/it]


time: 42.9548065662384
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.56s/it]


time: 54.09225821495056
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.77s/it]


time: 65.64092111587524
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.86s/it]


time: 77.37961983680725
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.65s/it]


time: 88.69251441955566
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.69s/it]


time: 100.07577085494995
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:14<00:00,  7.39s/it]


time: 114.85209274291992


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 18766.46it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.59s/it]


time: 9.185026407241821
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.77s/it]


time: 18.74261999130249
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.16s/it]


time: 29.06744408607483
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.02s/it]


time: 39.12047266960144
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.90s/it]


time: 48.93765997886658
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.60s/it]


time: 58.14402174949646
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  8.25s/it]


time: 74.66096019744873
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.64s/it]


time: 83.94296145439148
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:08<00:00,  4.42s/it]


time: 92.80196166038513
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.58s/it]


time: 101.97610354423523


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 6141.00it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.84s/it]


time: 9.686476230621338
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.72s/it]


time: 23.142898082733154
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.24s/it]


time: 33.62606906890869
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.04s/it]


time: 43.71496534347534
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.77s/it]


time: 55.25811004638672
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.27s/it]


time: 65.79766082763672
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.87s/it]


time: 75.55835437774658
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.18s/it]


time: 85.92052483558655
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.96s/it]


time: 95.84256172180176
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.19s/it]


time: 106.24023222923279


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9974.56it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.05s/it]


time: 10.107158184051514
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.87s/it]


time: 19.851101875305176
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.51s/it]


time: 32.88319277763367
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.80s/it]


time: 46.49344992637634
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.03s/it]


time: 58.563605308532715
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.38s/it]


time: 69.33057904243469
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.42s/it]


time: 80.18203163146973
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.96s/it]


time: 92.1039342880249
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.81s/it]


time: 103.72796535491943
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.41s/it]


time: 116.56318020820618


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9436.00it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.72s/it]


time: 11.438238620758057
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.39s/it]


time: 22.231299877166748
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.25s/it]


time: 32.73408603668213
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.11s/it]


time: 42.97370672225952
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.79s/it]


time: 52.5666708946228
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.48s/it]


time: 63.53417468070984
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.28s/it]


time: 74.10411143302917
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.21s/it]


time: 84.53129315376282
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.92s/it]


time: 96.38864660263062
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.69s/it]


time: 109.78064560890198


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9436.00it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.79s/it]


time: 9.595043182373047
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.40s/it]


time: 20.399885892868042
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  5.00s/it]


time: 30.410812377929688
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.79s/it]


time: 42.00923299789429
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.97s/it]


time: 53.96840858459473
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.82s/it]


time: 65.62911486625671
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.07s/it]


time: 77.78564167022705
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.27s/it]


time: 88.34200811386108
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.57s/it]


time: 99.50069451332092
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.10s/it]


time: 111.71209168434143


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9289.71it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.52s/it]


time: 11.055052995681763
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.61s/it]


time: 20.290520429611206
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.30s/it]


time: 32.89976119995117
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.54s/it]


time: 45.99077534675598
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.60s/it]


time: 57.20359826087952
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:14<00:00,  7.06s/it]


time: 71.33496832847595
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.82s/it]


time: 82.99302554130554
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.33s/it]


time: 93.66999530792236
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.29s/it]


time: 106.25659942626953
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.00s/it]

time: 118.27615332603455





In [46]:
# NE choice rate (defect rate)
nsess=10
nround=10
round=nround

allaction=[]

for sess in range(1,1+nsess):    
    recordfile=os.path.join(filepath,f'records_finPD_{expname}_{nround}_sess{sess}_round{round}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)
    for record in records:
        allaction.extend(record['Your choice'].tolist())


out=allaction.count('F')/len(allaction)
print(out)
# print('%.3f'%(out))

0.315


## 5. One-shot public goods game

In [24]:
N,G,K,Z=4, 1.2, 0.3, 100 

assert abs(G-N*K)<0.000001

system_message = f"""
Please act as a human player. You and {N-1} other players are playing a game for only one round. There is a shared public account and each player has a private account. Each player will be given {Z} points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:{G}, and these earnings will be equally shared among all {N} players, which means that each point in the public account will yield an earning of {K} points for each player. 
In sum, your earnings can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * {K})
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then make a decision.
""".strip()

print(system_message)

Please act as a human player. You and 3 other players are playing a game for only one round. There is a shared public account and each player has a private account. Each player will be given 100 points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:1.2, and these earnings will be equally shared among all 4 players, which means that each point in the public account will yield an earning of 0.3 points for each player. 
In sum, your earnings can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * 0.3)
Your goal is to maximize your own

In [25]:
summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought, and the number of points allocated in private/public account in the first person from above paragraph in json format with keys 'thought', 'private' and 'public'. The value of 'private' and 'public' should be a number.
""".strip()

In [27]:
def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            assert 0
    return out

def get_action(bot,model,display=False):
    message=f"""
Now let's start the game. You are given {Z} points. Tell me how you think and how much you would like to allocate to the private and public account, respectively. Please answer in json format with keys 'thought', 'private', and 'public'. The sum of private and public should equal {Z}. 
""".strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        private=out['private']
        public=out['public']
        reason=out['thought']
        private,public=int(private),int(public)
        
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        private=out['private']
        public=out['public']
        reason=out['thought']
        
    try:
        assert abs(private+public-Z)<0.0001
    except:
        print('private+public!=Z',[private,public])
        assert False
    
    return private,public,reason


In [30]:
###########################
nsess=20

expname='llama13b'

max_try=50
display_result=0

system_message = f"""
Please act as a human player. You and {N-1} other players are playing a game for only one round. There is a shared public account and each player has a private account. Each player will be given {Z} points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:{G}, and these earnings will be equally shared among all {N} players, which means that each point in the public account will yield an earning of {K} points for each player. 
In sum, your earnings can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * {K})
Your goal is to maximize your own earnings. You should first think carefully about what to do, and then make a decision.
""".strip()

for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    
    ######################## init players and records
    players=[]
    for _ in tqdm(range(N)):
        bot=ChatApp(system_message=system_message)
        players.append(bot)
    records=[]
    cols=['Period','Private','Public','Total public','Earnings','Reason']
    for _ in range(N):    
        df = pd.DataFrame(columns=cols)
        records.append(df)

    ######################## start game
    # if this sess done, continue
    recordfile=os.path.join(filepath,f'records_{expname}_{N}_{G}_{K}_{Z}_sess{sess}.pkl')
    playerfile=os.path.join(filepath,f'players_{expname}_{N}_{G}_{K}_{Z}_sess{sess}.pkl')
    if os.path.exists(recordfile) and os.path.exists(playerfile):
        with open(recordfile, 'rb') as f:
            records = pickle.load(f)
        with open(playerfile, 'rb') as f:
            players = pickle.load(f)
        print('existed!')
        continue
    starttime=time.time()
    for _ in range(max_try):
        try:
            # play
            tmp_records=[]
            for i in tqdm(range(N)):
                bot=players[i]
                record=records[i]
                private,public,reason=get_action(bot,model=model,display=display_result)
                tmp_records.append([1,private,public,0,0,reason])
                # ['Period','Private','Public','Total public','Earnings','Reason']

            # calculate total public
            total_public=sum([x[2] for x in tmp_records])

            # calculate earnings for all
            for r in tmp_records:
                r[3]=total_public
                r[4]=r[1]+total_public*K

            # update records for all
            for i in range(N):
                record=records[i]
                record.loc[len(record.index)]=tmp_records[i]

            print('time:',time.time()-starttime)


            # save file
            recordfile=os.path.join(filepath,f'records_{expname}_{N}_{G}_{K}_{Z}_sess{sess}.pkl')
            playerfile=os.path.join(filepath,f'players_{expname}_{N}_{G}_{K}_{Z}_sess{sess}.pkl')
            with open(recordfile, 'wb') as f:
                pickle.dump(records, f)
            with open(playerfile, 'wb') as f:
                pickle.dump(players, f)
            break
        except Exception as e:
            print(e)
            print('error!sleep 30s...')
            time.sleep(30)   



100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 28630.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.91s/it]


time: 11.66519808769226


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 26973.02it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.93s/it]


time: 11.731720924377441


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 32078.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.92s/it]


time: 11.672149658203125


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31242.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.88s/it]


time: 11.525362491607666


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31655.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.88s/it]


time: 11.518013000488281


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 29537.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.90s/it]


time: 11.615089654922485


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31775.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.87s/it]


time: 11.486686944961548


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31956.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.87s/it]


time: 11.479172706604004


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31359.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.94s/it]


time: 11.761406898498535


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 30897.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.56s/it]


time: 10.25808572769165


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31011.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.56s/it]


time: 10.25967812538147


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 29485.44it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.57s/it]


time: 10.301347494125366


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 32832.13it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.57s/it]


time: 10.281127214431763


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 50081.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.57s/it]


time: 10.27645492553711


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 32896.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.57s/it]


time: 10.303085803985596


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31595.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.56s/it]


time: 10.265425682067871


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31476.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.56s/it]


time: 10.262826681137085


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31835.32it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.56s/it]


time: 10.267991304397583


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31068.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.81s/it]


time: 11.251564979553223


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 27016.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.55s/it]

time: 10.221486806869507





In [32]:
nsess=20

allprivate=[]
for sess in range(1,nsess+1):
    recordfile=os.path.join(filepath,f'records_{expname}_{N}_{G}_{K}_{Z}_sess{sess}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)

    for record in records:
        tmp=record['Private'].tolist()
        allprivate.extend(tmp)
out=np.mean(allprivate)
print(out)

30.0


## 6. Finitely repeated public goods game

In [29]:
N,G,K,Z=4, 1.2, 0.3, 100

nperiod=10

assert abs(G-N*K)<0.000001

system_message = f"""
Please act as a human player. You and {N-1} other players are playing a repeated game for {nperiod} rounds. In each round, there is a shared public account and each player has a private account. Each player will be given {Z} points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:{G}, and these earnings will be equally shared among all {N} players, which means that each point in the public account will yield an earning of {K} points for each player. 
In sum, your earnings in each round can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * {K})
Your goal is to maximize your own total earnings in all {nperiod} rounds. In each round, you should first think carefully about what to do, and then make a decision.
""".strip()

print(system_message)

Please act as a human player. You and 3 other players are playing a repeated game for 10 rounds. In each round, there is a shared public account and each player has a private account. Each player will be given 100 points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:1.2, and these earnings will be equally shared among all 4 players, which means that each point in the public account will yield an earning of 0.3 points for each player. 
In sum, your earnings in each round can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * 0.3)


In [30]:
def correct_json(s):
    tmp=s.split('"')
    newlist=[]
    for x in tmp:
        striped=x.strip()
        if striped=='': # 缺少逗号
            newlist.append(',')
        elif striped[0]==':' and striped!=':':
            newlist.extend([':',striped[1:-1].strip(),'}'])
        else:
            newlist.append(striped)
    newstr='"'.join(newlist)
    try:
        a=json.loads(newstr)
    except:
        prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
        """.strip()
        response = gpt_completion(prompt)
        return response
    return newstr

s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought, and the number of points allocated in private/public account in the first person from above paragraph in json format with keys 'thought', 'private' and 'public'. The value of 'private' and 'public' should be a number.
""".strip()

In [31]:
def get_history(record):
    history=''
    for i in record.index:
        period=i+1
        public=record.loc[i,'Public']
        total_public=record.loc[i,'Total public']
        earning=record.loc[i,'Earnings']
        tmp=f"""In round-{period}, you allocated {public} points in public account, the total points in public account were {total_public}, your total earnings were {earning} points."""
        history+=tmp
        history+='\n'
    return history

def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            assert 0
    return out

In [32]:
def get_action(bot,record,model,display=False):
    history=get_history(record)
    if len(record)==0:
        message=f"""
It is round-{period} out of {nperiod} rounds now. You are given {Z} points. Tell me how you think and how much you would like to allocate to the private and public account, respectively. Please answer in json format with keys 'thought', 'private', and 'public'. For example, {{"thought": "I think...","private": x,"public": 100-x }}. The sum of private and public should equal {Z}. 
""".strip()
    else:
        message=f"""The history of the game is listed as follows delimited by triple backticks.
```
{history}
```
It is round-{period} out of {nperiod} rounds now. You are given {Z} points. Tell me how you think and how much you would like to allocate to the private and public account, respectively. Please answer in json format with keys 'thought', 'private', and 'public'. For example, {{"thought": "I think...","private": x,"public": 100-x }}. The sum of private and public should equal {Z}. 
""".strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    
    try:
        private=out['private']
        public=out['public']
        reason=out['thought']
        private,public=int(private),int(public)
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        private=out['private']
        public=out['public']
        reason=out['thought']
    
    try:
        assert abs(private+public-Z)<0.0001
    except:

        if private>=0 and private<=100:
            public = 100-private
        else:
            print(message)
            print('private+public incorrect\n',out)
            assert False
    
    return private,public,reason


In [33]:
nsess=10

expname='llama13b'

max_try=50
display_result=0

N,G,K,Z=4, 1.2, 0.3, 100 

nperiod=10

assert abs(G-N*K)<0.000001

system_message = f"""
Please act as a human player. You and {N-1} other players are playing a repeated game for {nperiod} rounds. In each round, there is a shared public account and each player has a private account. Each player will be given {Z} points. Then, all players simultaneously allocate these points into private account and public account. 
The points you allocate to your private account will be exchanged for earnings at a rate of 1:1, and these earnings will be received only by you. The total number of points in the public account equals to the sum of points allocated to the public account by all players (including yourself). These points will be exchanged for public earnings at a rate of 1:{G}, and these earnings will be equally shared among all {N} players, which means that each point in the public account will yield an earning of {K} points for each player. 
In sum, your earnings in each round can be described as: Your earnings = (Points in your private account * 1) + (Total points in public account * {K})
Your goal is to maximize your own total earnings in all {nperiod} rounds. In each round, you should first think carefully about what to do, and then make a decision.
""".strip()


for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    
    players=[]
    for _ in tqdm(range(N)):
        bot=ChatApp(system_message=system_message)
        players.append(bot)
    records=[]
    cols=['Period','Private','Public','Total public','Earnings','Reason']
    for _ in range(N):    
        df = pd.DataFrame(columns=cols)
        records.append(df)

    ######################## start game

    starttime=time.time()
    for period in range(1,nperiod+1):
        print('-----------------------')
        print(f'period-{period}')

        # if this block done, continue
        recordfile=os.path.join(filepath,f'records_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{period}.pkl')
        playerfile=os.path.join(filepath,f'players_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{period}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

        for _ in range(max_try):
            try:
                if period>1:
                    prev_period=period-1
                    recordfile=os.path.join(filepath,f'records_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{prev_period}.pkl')
                    playerfile=os.path.join(filepath,f'players_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{prev_period}.pkl')
                    with open(recordfile, 'rb') as f:
                        records = pickle.load(f)
                    with open(playerfile, 'rb') as f:
                        players = pickle.load(f)
                # play
                tmp_records=[]
                for i in tqdm(range(N)):
                    bot=players[i]
                    record=records[i]
                    private,public,reason=get_action(bot,record,model=model,display=display_result)
                    tmp_records.append([period,private,public,0,0,reason])
                    # ['Period','Private','Public','Total public','Earnings','Reason']

                # calculate total public
                total_public=sum([x[2] for x in tmp_records])

                # calculate earnings for all
                for r in tmp_records:
                    r[3]=total_public
                    r[4]=r[1]+total_public*K

                # update records for all
                for i in range(N):
                    record=records[i]
                    record.loc[len(record.index)]=tmp_records[i]

                print('time:',time.time()-starttime)


                # save file
                recordfile=os.path.join(filepath,f'records_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{period}.pkl')
                playerfile=os.path.join(filepath,f'players_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{period}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                with open(playerfile, 'wb') as f:
                    pickle.dump(players, f)

                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)



100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 28826.83it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.87s/it]


time: 7.488827466964722
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 14.664360284805298
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 21.87762141227722
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 29.11704397201538
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 36.31973624229431
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 43.54426956176758
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 50.80325937271118
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.95s/it]


time: 58.60805702209473
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.84s/it]


time: 65.99772953987122
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.78s/it]


time: 73.1442723274231


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31714.96it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 7.4352707862854
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 14.62416696548462
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 21.829894304275513
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 29.038639068603516
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 36.258997440338135
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 43.47563362121582
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 50.70701003074646
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.94s/it]


time: 58.498581409454346
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 65.90098142623901
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.78s/it]


time: 73.0275330543518


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 27147.60it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 7.436419486999512
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 14.621053695678711
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 21.837972164154053
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 29.046303272247314
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.82s/it]


time: 36.326120376586914
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 43.55803656578064
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 50.81433081626892
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.95s/it]


time: 58.61358952522278
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 66.01368570327759
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.78s/it]


time: 73.1579008102417


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 31655.12it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 7.429929971694946
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 14.618032455444336
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 21.802417278289795
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 28.999967575073242
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 36.22171759605408
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 43.45708656311035
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 50.7121639251709
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.95s/it]


time: 58.51195764541626
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.84s/it]


time: 65.88940906524658
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.78s/it]


time: 73.02362871170044


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 23696.63it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 7.445459842681885
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 14.625662565231323
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 21.805255889892578
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 29.01205086708069
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.82s/it]


time: 36.32664918899536
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 43.59816837310791
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.93s/it]


time: 51.329185009002686
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.96s/it]


time: 59.184595823287964
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.89s/it]


time: 66.75681209564209
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 73.97186708450317


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 32896.50it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.92s/it]


time: 7.68261981010437
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.91s/it]


time: 15.339341640472412
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 22.56093668937683
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 29.815550327301025
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 37.0869402885437
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 44.3527946472168
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.82s/it]


time: 51.634204387664795
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.95s/it]


time: 59.47038912773132
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 66.91476798057556
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.79s/it]


time: 74.10288667678833


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 28102.54it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.87s/it]


time: 7.490139722824097
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 14.705814123153687
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 21.936258554458618
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.80s/it]


time: 29.153236389160156
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 36.397512674331665
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.81s/it]


time: 43.64909768104553
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 51.08788347244263
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:08<00:00,  2.01s/it]


time: 59.155815839767456
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.92s/it]


time: 66.8580973148346
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 74.29242205619812


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 32078.81it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.92s/it]


time: 7.707690954208374
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 15.128700733184814
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 22.547600984573364
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.87s/it]


time: 30.043020963668823
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 37.499990463256836
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 44.95461559295654
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 52.40146851539612
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:08<00:00,  2.00s/it]


time: 60.431620359420776
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.90s/it]


time: 68.03266191482544
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.83s/it]


time: 75.35644698143005


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 27822.91it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.91s/it]


time: 7.6396849155426025
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.84s/it]


time: 15.015468835830688
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 22.46133589744568
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 29.91265320777893
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 37.35394763946533
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 44.79666590690613
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.87s/it]


time: 52.286837100982666
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:08<00:00,  2.01s/it]


time: 60.35561752319336
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.90s/it]


time: 67.98579454421997
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 75.39078450202942


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 28679.00it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.93s/it]


time: 7.734293222427368
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.85s/it]


time: 15.154549837112427
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 22.609705448150635
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 30.058515548706055
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 37.5048463344574
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.86s/it]


time: 44.96892285346985
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.87s/it]


time: 52.46905016899109
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:08<00:00,  2.03s/it]


time: 60.59732174873352
-----------------------
period-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.91s/it]


time: 68.23711776733398
-----------------------
period-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:07<00:00,  1.84s/it]

time: 75.61754870414734





In [36]:
nsess=10
period=nperiod

allprivate=[]
for sess in range(1,nsess+1):
    recordfile=os.path.join(filepath,f'records_PGD_{expname}_{N}_{G}_{K}_{Z}_{nperiod}_sess{sess}_period{period}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)

    for record in records:
        tmp=record['Private'].tolist()
        allprivate.extend(tmp)
out=np.mean(allprivate)
print(out)

0.0


## 7. Infinitely repeated prisoner’s dilemma

In [3]:
# init instruction

delta,delta_str,p1,p2=0.5,'0.5','50%','50%'

print('params=',delta,delta_str,p1,p2)


system_message = f"""
Please act as a human player. You are playing a game with another human player (called the opponent) for several rounds. After each round, there is a {p1} chance that the game will repeat for another round and the other {p2} chance that the game will end. In each round, you and the opponent will simultaneously choose an action between F and J.
<payoff>
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
"""

aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points in this round.'
ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points in this round.'
ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points in this round.'
bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points in this round.'
payoff=[aa,ab,ba,bb]
payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]


tmp_system_message=system_message.replace('<payoff>',payoff_str)
print(tmp_system_message)

params= 0.5 0.5 50% 50%

Please act as a human player. You are playing a game with another human player (called the opponent) for several rounds. After each round, there is a 50% chance that the game will repeat for another round and the other 50% chance that the game will end. In each round, you and the opponent will simultaneously choose an action between F and J.
If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points in this round.
If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points in this round.
If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points in this round.
If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points in this round.
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all r

In [8]:
def correct_json(s):
    tmp=s.split('"')
    newlist=[]
    for x in tmp:
        striped=x.strip()
        if striped=='': # 缺少逗号
            newlist.append(',')
        elif striped[0]==':' and striped!=':':
            newlist.extend([':',striped[1:-1].strip(),'}'])
        else:
            newlist.append(striped)
    newstr='"'.join(newlist)
    try:
        a=json.loads(newstr)
    except:
        prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
        """.strip()
        response = gpt_completion(prompt)
        return response
    return newstr

s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought and the action he choose (F or J) in the first person from above paragraph in json format with keys 'thought' and 'action'. The 'action' should be F or J.
""".strip()

In [9]:
def get_history(record):
    history=''
    for i in record.index:
        round=i+1
        choice=record.loc[i,'Your choice']
        cochoice=record.loc[i,'Co-player choice']
        earning=record.loc[i,'Earnings']
        tmp=f"""In round-{round}, you chose {choice} and the opponent chose {cochoice}, you earn {earning} points."""
        history+=tmp
        history+='\n'
    return history
def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            print('Summarize json:',out)
            out=json.loads(out,strict=0)
    return out

In [32]:
def get_action(bot,record,model,display=False):
    history=get_history(record)
    if len(record)==0:
        message=f"""
It is round-{round} now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. 
""".strip()
# For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. 
    else:
        message=f"""The history of the game is listed as follows delimited by triple backticks.
```
{history}
```
It is round-{round} now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. 
""".strip()
#         message=f"""The history of the game is listed as follows.
# {history}
# It is round-{round} now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. The 'action' should be F or J. 
# """.strip()
    res=bot.chat_wo_update(message, model=model, temperature=0)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        action=out['action']
        reason=out['thought']
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        action=out['action']
        reason=out['thought']
    try:
        assert action in ['F','J']
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [35]:
#################################################
nsess=20

expname='llama13b'

max_try=50
display_result=0
max_round=100
print('params=',delta,delta_str,p1,p2)


system_message = f"""
Please act as a human player. You are playing a game with another human player (called the opponent) for several rounds. After each round, there is a {p1} chance that the game will repeat for another round and the other {p2} chance that the game will end. In each round, you and the opponent will simultaneously choose an action between F and J.
<payoff>
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
"""

aa=f'If you choose J and the opponent chooses J, you earn 40 points and the opponent earns 40 points in this round.'
ab=f'If you choose J and the opponent chooses F, you earn 12 points and the opponent earns 50 points in this round.'
ba=f'If you choose F and the opponent chooses J, you earn 50 points and the opponent earns 12 points in this round.'
bb=f'If you choose F and the opponent chooses F, you earn 25 points and the opponent earns 25 points in this round.'
payoff=[aa,ab,ba,bb]

for sess in range(1,nsess+1):
    print(f'==============sess{sess}==============')
    
    N=2
    players=[]
    payoff=[aa,ab,ba,bb]
    for _ in tqdm(range(N)):
        random.shuffle(payoff)
        payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]
        tmp_system_message=system_message.replace('<payoff>',payoff_str)
    #     print(tmp_system_message)
        bot=ChatApp(system_message=tmp_system_message)
        players.append(bot)
    records=[]
    for _ in range(N):    
        df = pd.DataFrame(columns=['Round','Your choice','Co-player choice','Earnings','Reason of choice'])
        records.append(df)

    round=1
    # if this block done, continue
    recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
    playerfile=os.path.join(filepath,f'players_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
    if os.path.exists(recordfile) and os.path.exists(playerfile):
        with open(recordfile, 'rb') as f:
            records = pickle.load(f)
        with open(playerfile, 'rb') as f:
            players = pickle.load(f)
        print('existed!')
        continue


    starttime=time.time()
    for round in range(1,max_round+1):
        print('-----------------------')
        print(f'round-{round}')

        # if this block done, continue
        recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
        playerfile=os.path.join(filepath,f'players_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

        for _ in range(max_try):
            try:
                if round>1:
                    prev_round=round-1
                    recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{prev_round}.pkl')
                    playerfile=os.path.join(filepath,f'players_{expname}_delta{delta_str}_sess{sess}_round{prev_round}.pkl')
                    with open(recordfile, 'rb') as f:
                        records = pickle.load(f)
                    with open(playerfile, 'rb') as f:
                        players = pickle.load(f)
                # play
                tmp_records=[]
                for i in tqdm(range(N)):
                    bot=players[i]
                    record=records[i]
                    action,reason=get_action(bot,record,model=model,display=display_result)
                    tmp_records.append([round,action,'NULL',0,reason])
                    # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']

                # calculate total public
                c1,c2=tmp_records[0][1],tmp_records[1][1]
                if c1=='J' and c2=='J':
                    e1,e2=40,40
                elif c1=='J' and c2=='F':
                    e1,e2=12,50
                elif c1=='F' and c2=='J':
                    e1,e2=50,12
                elif c1=='F' and c2=='F':
                    e1,e2=25,25
                else:
                    print(c1,c2)
                    assert False
                # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']
                tmp_records[0][2]=c2
                tmp_records[1][2]=c1
                tmp_records[0][3]=e1
                tmp_records[1][3]=e2

                # update records for all
                for i in range(N):
                    record=records[i]
                    record.loc[len(record.index)]=tmp_records[i]

                print('time:',time.time()-starttime)

                # save file
                recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
                playerfile=os.path.join(filepath,f'players_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                with open(playerfile, 'wb') as f:
                    pickle.dump(players, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)
        if random.random()>delta:
            break

params= 0.5 0.5 50% 50%


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 8692.86it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11444.21it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12104.77it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11699.59it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12210.49it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12372.58it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12576.62it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11732.32it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12246.14it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11814.94it/s]


existed!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 13551.87it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.46s/it]


time: 2.9335954189300537
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 5.847731113433838


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11428.62it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.42s/it]


time: 2.8581771850585938
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 5.769444704055786
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 8.673946619033813


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 5797.24it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.8974967002868652


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11140.25it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.8940517902374268


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 10994.24it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.8820548057556152


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11366.68it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.43s/it]


time: 2.875166654586792
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 5.769936561584473
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 8.684593439102173


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 10318.09it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.889906644821167
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 5.7965922355651855
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 8.709650993347168
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 11.615063428878784
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.45s/it]


time: 14.522775650024414


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 7619.08it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.8794243335723877


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11125.47it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.44s/it]


time: 2.8815395832061768
-----------------------
round-2


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:01<00:01,  1.44s/it]

In [6]:

nsess=20

result=[]
allaction=[]
for sess in range(1,11):
    for round in range(1,101):
        recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{round}.pkl')
        if os.path.exists(recordfile):
            maxround=round
        else:
            break
    recordfile=os.path.join(filepath,f'records_{expname}_delta{delta_str}_sess{sess}_round{maxround}.pkl')
    with open(recordfile, 'rb') as f:
        records = pickle.load(f)
    for i in range(len(records)):
        record=records[i]
        tmp=record['Earnings'].tolist()
        result.extend(tmp)
        allaction.extend(record['Your choice'].tolist())
        
out=allaction.count('J')/len(allaction)
print('cooperation rate:',out)

eff=np.mean((np.array(result)-25)/15)
print('efficiency:',eff)

cooperation rate: 1.0
efficiency: 1.0


## 8. Battle of the sexes

In [5]:
nround=10

system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
""".strip()

aa1=f'If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 7 points in this round.'
ab1=f'If you choose J and the opponent chooses F, you earn 0 points and the opponent earns 0 points in this round.'
ba1=f'If you choose F and the opponent chooses J, you earn 0 points and the opponent earns 0 points in this round.'
bb1=f'If you choose F and the opponent chooses F, you earn 7 points and the opponent earns 10 points in this round.'
payoff1=[aa1,ab1,ba1,bb1]

aa2=f'If you choose J and the opponent chooses J, you earn 7 points and the opponent earns 10 points in this round.'
ab2=f'If you choose J and the opponent chooses F, you earn 0 points and the opponent earns 0 points in this round.'
ba2=f'If you choose F and the opponent chooses J, you earn 0 points and the opponent earns 0 points in this round.'
bb2=f'If you choose F and the opponent chooses F, you earn 10 points and the opponent earns 7 points in this round.'
payoff2=[aa2,ab2,ba2,bb2]

payoff_str=payoff1[0]+'\n'+payoff1[1]+'\n'+payoff1[2]+'\n'+payoff1[3]
tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
print(tmp_system_message)

Please act as a human player. You are playing a game with another human player (called the opponent) for 10 rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 7 points in this round.
If you choose J and the opponent chooses F, you earn 0 points and the opponent earns 0 points in this round.
If you choose F and the opponent chooses J, you earn 0 points and the opponent earns 0 points in this round.
If you choose F and the opponent chooses F, you earn 7 points and the opponent earns 10 points in this round.
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all 10 rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.


In [6]:
def correct_json(s):
    prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
    """.strip()
    response = gpt_completion(prompt)
    return response
s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize how he thought and the action he choose (F or J) in the first person from above paragraph in json format with keys 'thought' and 'action'. The 'action' should be F or J.
""".strip()

In [27]:
def get_history(record):
    history=''
    for i in record.index:
        round=i+1
        choice=record.loc[i,'Your choice']
        cochoice=record.loc[i,'Co-player choice']
        earning=record.loc[i,'Earnings']
        tmp=f"""In round-{round}, you chose {choice} and the opponent chose {cochoice}, you earn {earning} points."""
        history+=tmp
        history+='\n'
    return history

def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            out=parse_response(out)
    return out

In [35]:
def get_action(bot,record,model,display=False):
    history=get_history(record)
    if len(record)==0:
        message=f"""
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. 
""".strip()
# For example, {{"thought": "xxx.","action": x }}.
    else:
        message=f"""The history of the game is listed as follows delimited by triple backticks.
```
{history}
```
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. 
""".strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        action=out['action']
        reason=out['thought']
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        action=out['action']
        reason=out['thought']
    try:
        assert action in ['F','J']
    except:
        print('Invalid action:',out)
        assert 0
    return action,reason


In [36]:
############################
nround=10
nsess=10

expname='llama13b'


max_try=50
display_result=0


for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
    """.strip()

    aa1=f'If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 7 points in this round.'
    ab1=f'If you choose J and the opponent chooses F, you earn 0 points and the opponent earns 0 points in this round.'
    ba1=f'If you choose F and the opponent chooses J, you earn 0 points and the opponent earns 0 points in this round.'
    bb1=f'If you choose F and the opponent chooses F, you earn 7 points and the opponent earns 10 points in this round.'
    payoff1=[aa1,ab1,ba1,bb1]

    aa2=f'If you choose J and the opponent chooses J, you earn 7 points and the opponent earns 10 points in this round.'
    ab2=f'If you choose J and the opponent chooses F, you earn 0 points and the opponent earns 0 points in this round.'
    ba2=f'If you choose F and the opponent chooses J, you earn 0 points and the opponent earns 0 points in this round.'
    bb2=f'If you choose F and the opponent chooses F, you earn 10 points and the opponent earns 7 points in this round.'
    payoff2=[aa2,ab2,ba2,bb2]
    
    ######################## init players and records
    N=2
    players=[]
    for i in tqdm(range(N)):
        if i==0:
            random.shuffle(payoff1)
            payoff_str=payoff1[0]+'\n'+payoff1[1]+'\n'+payoff1[2]+'\n'+payoff1[3]
        else:
            random.shuffle(payoff2)
            payoff_str=payoff2[0]+'\n'+payoff2[1]+'\n'+payoff2[2]+'\n'+payoff2[3]
        tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
#         print(tmp_system_message)
        bot=ChatApp(system_message=tmp_system_message)
        players.append(bot)
    records=[]
    for _ in range(N):    
        df = pd.DataFrame(columns=['Round','Your choice','Co-player choice','Earnings','Reason of choice'])
        records.append(df)
    ######################## start game

    starttime=time.time()
    for round in range(1,nround+1):
        print('-----------------------')
        print(f'round-{round}')

        # if this round done, continue
        recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
        playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{round}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

        for _ in range(max_try):
            try:
                if round>1:
                    prev_round=round-1
                    recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
                    playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
                    with open(recordfile, 'rb') as f:
                        records = pickle.load(f)
                    with open(playerfile, 'rb') as f:
                        players = pickle.load(f)
                # play
                tmp_records=[]
                for i in tqdm(range(N)):
                    bot=players[i]
                    record=records[i]
                    action,reason=get_action(bot,record,model=model,display=display_result)
                    tmp_records.append([round,action,'NULL',0,reason])
                    # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']

                # calculate total public
                c1,c2=tmp_records[0][1],tmp_records[1][1]
                if c1=='J' and c2=='J':
                    e1,e2=10,7
                elif c1=='J' and c2=='F':
                    e1,e2=0,0
                elif c1=='F' and c2=='J':
                    e1,e2=0,0
                elif c1=='F' and c2=='F':
                    e1,e2=7,10
                else:
                    print(c1,c2)
                    assert False
                # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']
                tmp_records[0][2]=c2
                tmp_records[1][2]=c1
                tmp_records[0][3]=e1
                tmp_records[1][3]=e2

                # update records for all
                for i in range(N):
                    record=records[i]
                    record.loc[len(record.index)]=tmp_records[i]
                print('time:',time.time()-starttime)

                # save file
                recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
                playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{round}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                with open(playerfile, 'wb') as f:
                    pickle.dump(players, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)



100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 29959.31it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 3.367042064666748
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 6.732224702835083
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.77s/it]


time: 10.290246725082397
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.77s/it]


time: 13.83309531211853
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.74s/it]


time: 17.315489530563354
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.70s/it]


time: 20.722005367279053
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 23.955771446228027
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.67s/it]


time: 27.305076599121094
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 30.569536209106445
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.73s/it]


time: 34.04647445678711


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 6260.16it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 3.2418508529663086
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 6.511934280395508
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.82s/it]


time: 10.159024477005005
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.57s/it]


time: 13.312522649765015
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 16.534332752227783
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.89s/it]


time: 20.312974452972412
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 23.542919397354126
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 26.798154592514038
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.77s/it]


time: 30.34801983833313
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 33.57517194747925


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 7055.18it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 3.370405912399292
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.80s/it]


time: 6.971151113510132
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.74s/it]


time: 10.467970132827759
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.56s/it]


time: 13.599732160568237
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 16.828490495681763
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.58s/it]


time: 19.997425317764282
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.56s/it]


time: 23.128355264663696
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.67s/it]


time: 26.473891496658325
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.78s/it]


time: 30.04301142692566
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.56s/it]


time: 33.17490267753601


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 6100.81it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 3.2456228733062744
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.69s/it]


time: 6.643735885620117
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.18s/it]


time: 11.016350507736206
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.27s/it]


time: 15.574373483657837
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.79s/it]


time: 19.17552900314331
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.67s/it]


time: 22.530437469482422
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.55s/it]


time: 25.64291024208069
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.67s/it]


time: 29.000008821487427
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 32.237496852874756
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.70s/it]


time: 35.64429450035095


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9467.95it/s]


-----------------------
round-1


 50%|██████████████████████████████████████████████████████                                                      | 1/2 [00:01<00:01,  1.60s/it]

json error:  {
"thought": "I think it is important to choose actions that will benefit me in this game. In the past, I have noticed that if I choose actions that benefit me, I am more likely to win the game. I will choose an action that will benefit me in this round."
"action": "F"
}


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.43s/it]


corrected: {
"thought": "I think it is important to choose actions that will benefit me in this game. In the past, I have noticed that if I choose actions that benefit me, I am more likely to win the game. I will choose an action that will benefit me in this round.",
"action": "F"
}
time: 6.857305526733398
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 10.099442481994629
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 13.18363094329834
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.52s/it]


time: 16.238661766052246
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]


time: 19.42316722869873
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 22.69173812866211
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]


time: 25.87613844871521
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 29.2414653301239
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 32.51968502998352
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.65s/it]


time: 35.823214054107666


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 16225.55it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 3.3577868938446045
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.60s/it]


time: 6.572447299957275
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.75s/it]


time: 10.072784185409546
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 13.165370464324951
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.55s/it]


time: 16.27279019355774
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.64s/it]


time: 19.55807852745056
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]


time: 22.74343252182007
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 25.998983144760132
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 29.368330001831055
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.60s/it]


time: 32.57649636268616


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9310.33it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.64s/it]


time: 3.295151710510254
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.69s/it]


time: 6.685396194458008
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.81s/it]


time: 10.306339979171753
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.55s/it]


time: 13.406821012496948
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 16.658352851867676
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.66s/it]


time: 19.981285572052002
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 23.071979522705078
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 26.43498682975769
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.60s/it]


time: 29.641528367996216
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 33.01154017448425


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9300.01it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 3.2620081901550293
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.90s/it]


time: 7.074551820755005
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.72s/it]


time: 10.51542329788208
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 13.607149124145508
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 16.695185661315918
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 20.057450771331787
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.55s/it]


time: 23.16860342025757
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.73s/it]


time: 26.650776863098145
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.72s/it]


time: 30.103415489196777
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.64s/it]


time: 33.38473391532898


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 6797.90it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]


time: 3.2577648162841797
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.69s/it]


time: 6.652737617492676
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.75s/it]


time: 10.172388553619385
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.56s/it]


time: 13.299758672714233
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 16.55626940727234
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.65s/it]


time: 19.871662378311157
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 23.09656596183777
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]


time: 26.2787024974823
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 29.659302949905396
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.60s/it]


time: 32.87213063240051


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 4634.59it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.68s/it]


time: 3.3623268604278564
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.62s/it]


time: 6.603605270385742
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.74s/it]


time: 10.102853536605835
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.58s/it]


time: 13.269243240356445
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.61s/it]


time: 16.504950523376465
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.72s/it]


time: 19.954802989959717
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.54s/it]


time: 23.04749345779419
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.65s/it]


time: 26.35025191307068
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]


time: 29.547592401504517
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.63s/it]

time: 32.824700355529785





In [37]:
nsess=10
nround=10
round=nround

result=[]
for sess in range(1,nsess+1):
    recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)

    for record in records:
        tmp=record['Earnings'].tolist()
        result.append(tmp)
eff=np.mean((np.array(result)-0)/(8.5-0))
print('efficiency:',eff)

efficiency: 0.8


## 9. Stag hunt

In [5]:
nround=10

system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
""".strip()

aa=f'If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 10 points in this round.'
ab=f'If you choose J and the opponent chooses F, you earn 1 points and the opponent earns 8 points in this round.'
ba=f'If you choose F and the opponent chooses J, you earn 8 points and the opponent earns 1 points in this round.'
bb=f'If you choose F and the opponent chooses F, you earn 5 points and the opponent earns 5 points in this round.'
payoff=[aa,ab,ba,bb]
payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]

tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
print(tmp_system_message)

Please act as a human player. You are playing a game with another human player (called the opponent) for 10 rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 10 points in this round.
If you choose J and the opponent chooses F, you earn 1 points and the opponent earns 8 points in this round.
If you choose F and the opponent chooses J, you earn 8 points and the opponent earns 1 points in this round.
If you choose F and the opponent chooses F, you earn 5 points and the opponent earns 5 points in this round.
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all 10 rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.


In [6]:
summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize the action and how he thought in the first person from above paragraph in json format with keys 'thought' and 'action'. The 'action' should be F or J. 
""".strip()

In [7]:
def correct_json(s):
    tmp=s.split('"')
    newlist=[]
    for x in tmp:
        striped=x.strip()
        if striped=='': # 缺少逗号
            newlist.append(',')
        elif striped[0]==':' and striped!=':':
            newlist.extend([':',striped[1:-1].strip(),'}'])
        else:
            newlist.append(striped)
    newstr='"'.join(newlist)
    try:
        a=json.loads(newstr)
    except:
        prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
        """.strip()
        response = gpt_completion(prompt)
        return response
    return newstr
s="""{
  "thought": "aaa"
  "action": J
}"""
s="""
{
"thought": "After analyzing the previous rounds, I noticed that the opponent tends to choose J when they have the opportunity. Therefore, I will try to choose F in this round to maximize my earnings. However, I also consider the possibility that the opponent may change their strategy and choose F instead, in which case I will choose J to avoid losing points."
"action": "F"
}
"""
print(correct_json(s))

{"thought":"After analyzing the previous rounds, I noticed that the opponent tends to choose J when they have the opportunity. Therefore, I will try to choose F in this round to maximize my earnings. However, I also consider the possibility that the opponent may change their strategy and choose F instead, in which case I will choose J to avoid losing points.","action":"F"}


In [32]:
def get_history(record):
    history=''
    for i in record.index:
        round=i+1
        choice=record.loc[i,'Your choice']
        cochoice=record.loc[i,'Co-player choice']
        earning=record.loc[i,'Earnings']
        tmp=f"""In round-{round}, you chose {choice} and the opponent chose {cochoice}, you earn {earning} points."""
        history+=tmp
        history+='\n'
    return history

def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.find('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            out=parse_response(out)
            print('summarized:\n',out)
#             start_index = out.find('{')  # 查找第一个'{'的索引
#             end_index = out.rfind('}')  # 查找最后一个'}'的索引
#             out = out[start_index:end_index + 1]
#             out=json.loads(extracted_content,strict=0)
    return out

In [39]:
def get_action(bot,record,model,display=False):
    history=get_history(record)
    if len(record)==0:
        message=f"""
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. The 'action' should be F or J. Please return only one json.
""".strip()
#         For example, {{"thought": "xxx.","action": x }}. The 'action' should be F or J. Please return only one json.
    else:
        message=f"""The history of the game is listed as follows delimited by triple backticks.
```
{history}
```
It is round-{round} out of {nround} rounds now. Tell me how you think and the action you would like to choose. Please answer in json format with keys 'thought' and 'action'. The 'action' should be F or J. Please return only one json.
""".strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display:
        print('-------get action---------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        action=out['action']
        reason=out['thought']
    except:
        print('key error:',res)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        print('corrected:',out)
        action=out['action']
        reason=out['thought']
    try:
        assert action in ['F','J']
    except:
        print('Invalid action:',out)
        prompt=summarize_action.replace('<out>',res)
        out=gpt_completion(prompt)
        out=parse_response(out)
        action=out['action']
        reason=out['thought']
        assert action in ['F','J']
    return action,reason


In [55]:
nround=10
nsess=10

expname='llama13b'

max_try=50
display_result=0


for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    system_message = """
Please act as a human player. You are playing a game with another human player (called the opponent) for {nround} rounds.
In each round, you and the opponent will simultaneously choose an action between F and J.
{payoff_str}
Before you choose an action, your actions, the opponent’s actions and your earnings in each of the previous rounds will be shown. Your goal is to maximize your own total earnings in all {nround} rounds. In each round, you should first think carefully about what to do, and then choose one of the two actions: F or J.
    """.strip()

    aa=f'If you choose J and the opponent chooses J, you earn 10 points and the opponent earns 10 points in this round.'
    ab=f'If you choose J and the opponent chooses F, you earn 1 points and the opponent earns 8 points in this round.'
    ba=f'If you choose F and the opponent chooses J, you earn 8 points and the opponent earns 1 points in this round.'
    bb=f'If you choose F and the opponent chooses F, you earn 5 points and the opponent earns 5 points in this round.'
    payoff=[aa,ab,ba,bb]
    
    ######################## init players and records
    N=2
    players=[]
    payoff=[aa,ab,ba,bb]
    for _ in tqdm(range(N)):
        random.shuffle(payoff)
        payoff_str=payoff[0]+'\n'+payoff[1]+'\n'+payoff[2]+'\n'+payoff[3]
        tmp_system_message=system_message.format(nround=nround, payoff_str=payoff_str)
    #     print(tmp_system_message)
        bot=ChatApp(system_message=tmp_system_message)
        players.append(bot)
    records=[]
    for _ in range(N):    
        df = pd.DataFrame(columns=['Round','Your choice','Co-player choice','Earnings','Reason of choice'])
        records.append(df)

    ######################## start game

    starttime=time.time()
    for round in range(1,nround+1):
        print('-----------------------')
        print(f'round-{round}')

        # if this round done, continue
        recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
        playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{round}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

        for _ in range(max_try):
            try:
                if round>1:
                    prev_round=round-1
                    recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
                    playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{prev_round}.pkl')
                    with open(recordfile, 'rb') as f:
                        records = pickle.load(f)
                    with open(playerfile, 'rb') as f:
                        players = pickle.load(f)
                # play
                tmp_records=[]
                for i in tqdm(range(N)):
                    bot=players[i]
                    record=records[i]
                    action,reason=get_action(bot,record,model=model,display=display_result)
                    tmp_records.append([round,action,'NULL',0,reason])
                    # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']

                # calculate total public
                c1,c2=tmp_records[0][1],tmp_records[1][1]
                if c1=='J' and c2=='J':
                    e1,e2=10,10
                elif c1=='J' and c2=='F':
                    e1,e2=1,8
                elif c1=='F' and c2=='J':
                    e1,e2=8,1
                elif c1=='F' and c2=='F':
                    e1,e2=5,5
                else:
                    print(c1,c2)
                    assert False
                # ['Round','Your choice','Co-player choice','Earnings','Reason of choice']
                tmp_records[0][2]=c2
                tmp_records[1][2]=c1
                tmp_records[0][3]=e1
                tmp_records[1][3]=e2

                # update records for all
                for i in range(N):
                    record=records[i]
                    record.loc[len(record.index)]=tmp_records[i]
                print('time:',time.time()-starttime)

                # save file
                recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
                playerfile=os.path.join(filepath,f'players_{expname}_{nround}_sess{sess}_round{round}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                with open(playerfile, 'wb') as f:
                    pickle.dump(players, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)



100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9586.98it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:14<00:00,  7.46s/it]


time: 14.920777082443237
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.78s/it]


time: 26.4994113445282
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.19s/it]


time: 36.89280676841736
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.69s/it]


time: 48.28467774391174
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.15s/it]


json error:  {
"thought": "I have been choosing J in the previous rounds and it has been paying off, so I will continue to choose J in this round as well. I want to maximize my earnings and take advantage of the trend."
"action": "J"
}
corrected: {"thought":"I have been choosing J in the previous rounds and it has been paying off, so I will continue to choose J in this round as well. I want to maximize my earnings and take advantage of the trend.","action":"J"}
time: 58.604164838790894
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.88s/it]


time: 70.37291979789734
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  6.00s/it]


time: 82.37583041191101
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.62s/it]


time: 93.62358546257019
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.39s/it]


time: 104.44217109680176
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.35s/it]


time: 117.15666580200195


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 4832.15it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.07s/it]


time: 10.150126934051514
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.13s/it]


time: 20.418232917785645
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.01s/it]


time: 30.443224668502808
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.31s/it]


time: 41.07208609580994
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.53s/it]


time: 52.14713168144226
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.59s/it]


time: 61.3471200466156
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.92s/it]


time: 71.19428634643555
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.75s/it]


time: 82.70165371894836
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.45s/it]


time: 93.610426902771
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.23s/it]


time: 106.0904757976532


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9788.34it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  5.00s/it]


time: 9.99765157699585
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.54s/it]


time: 19.07559084892273
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.90s/it]


time: 28.88356876373291
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.62s/it]


time: 40.143309593200684
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.06s/it]


time: 52.27912163734436
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.58s/it]


time: 63.46092772483826
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.68s/it]


time: 74.82455563545227
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.75s/it]


time: 86.33065676689148
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.22s/it]


time: 96.7694923877716
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.44s/it]


time: 107.66615343093872


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 10658.97it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:08<00:00,  4.35s/it]


time: 8.698025703430176
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.43s/it]


time: 19.567521810531616
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.06s/it]


time: 29.70022988319397
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.25s/it]


time: 40.21127390861511
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.46s/it]


time: 53.14332389831543
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.13s/it]


time: 63.40855288505554
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.61s/it]


time: 74.63345980644226
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.78s/it]


time: 86.21118497848511
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.68s/it]


time: 97.58601546287537
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:14<00:00,  7.16s/it]


time: 111.92183685302734


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9393.74it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.52s/it]


time: 9.043035745620728
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:08<00:00,  4.42s/it]


time: 17.90414261817932
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.87s/it]


time: 27.666775465011597
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.66s/it]


time: 40.99443173408508
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.28s/it]


time: 51.56041932106018
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.46s/it]


time: 62.50108289718628
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.28s/it]


time: 73.08322620391846
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.97s/it]


time: 83.03205060958862
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.18s/it]


time: 93.40655374526978
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.60s/it]


time: 104.6172046661377


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9521.69it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.51s/it]


time: 9.022871971130371
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.70s/it]


time: 18.437121629714966
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.08s/it]


time: 28.6044979095459
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.32s/it]


time: 39.26259183883667
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.68s/it]


time: 50.64808797836304
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.48s/it]


time: 61.63387370109558
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.32s/it]


time: 72.28746962547302
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.05s/it]


time: 82.40171265602112
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.23s/it]


time: 92.87617754936218
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.83s/it]


time: 104.54798626899719


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 24036.13it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.97s/it]


time: 9.939635515213013
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.56s/it]


time: 19.06722378730774
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.76s/it]


time: 28.604238748550415
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.57s/it]


time: 39.75735306739807
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.80s/it]


time: 51.36688780784607
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.66s/it]


time: 62.705824851989746
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.19s/it]


time: 75.10297632217407
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:08<00:00,  4.40s/it]


time: 83.90557551383972
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.62s/it]


time: 95.15994238853455
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.29s/it]


time: 107.75272607803345


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 30840.47it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.94s/it]


time: 9.887790441513062
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.82s/it]


time: 19.541622638702393
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.80s/it]


time: 29.154269695281982
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.22s/it]


time: 39.60811233520508
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.59s/it]


time: 48.79824447631836
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.41s/it]


time: 59.620076417922974
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.80s/it]


time: 71.22648358345032
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.04s/it]


time: 81.31914258003235
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.21s/it]


time: 93.74249958992004
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:15<00:00,  7.64s/it]


time: 109.04027009010315


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9742.87it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.76s/it]


time: 9.523247003555298
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.75s/it]


time: 19.04019045829773
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.18s/it]


time: 29.418565034866333
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.84s/it]


time: 41.118409633636475
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.69s/it]


time: 52.507216930389404
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.07s/it]


time: 64.65650749206543
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.62s/it]


time: 75.90095663070679
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.43s/it]


time: 86.76588726043701
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.92s/it]


time: 98.61713171005249
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:12<00:00,  6.23s/it]


time: 111.0911476612091


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 9765.55it/s]


-----------------------
round-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.65s/it]


time: 9.309428691864014
-----------------------
round-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.97s/it]


time: 21.264771461486816
-----------------------
round-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.03s/it]


time: 31.32577419281006
-----------------------
round-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.95s/it]


time: 41.2297580242157
-----------------------
round-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:09<00:00,  4.88s/it]


time: 51.00521230697632
-----------------------
round-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.03s/it]


json error:  {
"thought": "I have been choosing F a lot recently, and it has been paying off. However, I don't want to fall into the trap of overconfidence. The opponent has been choosing J a few times, so I should be cautious and not rule out the possibility of them choosing J again. Let me think... I'll choose J this round."
"action": J
}
corrected: {"thought":"I have been choosing F a lot recently, and it has been paying off. However, I don't want to fall into the trap of overconfidence. The opponent has been choosing J a few times, so I should be cautious and not rule out the possibility of them choosing J again. Let me think... I'll choose J this round.","action":"J"}
time: 61.06950926780701
-----------------------
round-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.87s/it]


time: 72.81146478652954
-----------------------
round-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.86s/it]


time: 84.54719161987305
-----------------------
round-9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.47s/it]


time: 95.49507331848145
-----------------------
round-10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:13<00:00,  6.79s/it]

time: 109.07807183265686





In [56]:
nsess=10
nround=10
round=nround

result=[]
for sess in range(1,nsess+1):
    recordfile=os.path.join(filepath,f'records_{expname}_{nround}_sess{sess}_round{round}.pkl')
    with open(recordfile, 'rb') as f:
        records= pickle.load(f)

    for record in records:
        tmp=record['Earnings'].tolist()
        result.append(tmp)
eff=np.mean((np.array(result)-4.5)/(10-4.5))
print('efficiency:',eff)

efficiency: 0.28


## 10. Minimum effort

In [17]:
N=9
nperiod=8

system_message = f"""
Please act as a human player. You and {N-1} other players are playing a game for {nperiod} periods. In each period, each of you will be asked to choose a value of X. The values of X you may choose are 1, 2, 3, 4, 5, 6, 7. The value you choose for X and the smallest value of X chosen by a decision maker will determine the payoff you receive for this period.
You are provided with an EARNINGS TABLE that shows the potential number of points that you may receive, shown as follows delimited by triple backticks.
```
Your Choice of X \ Smallest value of X chosen	7	6	5	4	3	2	1
7	13	11	9	7	5	3	1
6	x	12	10	8	6	4	2
5	x	x	11	9	7	5	3
4	x	x	x	10	8	6	4
3	x	x	x	x	9	7	5
2	x	x	x	x	x	8	6
1	x	x	x	x	x	x	7
```
Note that the EARNINGS TABLE is the same for every player. Only your earnings are shown in the EARNINGS TABLE. The earnings in each period may be found by looking across from the value you choose on the left-hand side of the table and down from the smallest value of X chosen by a decision maker. For example, if you choose 4 and the smallest value of X chosen is 4, you earn 10 points for this period. Your goal is to maximize your own total earnings in all {nperiod} periods. In each period, you should first think carefully about what to do, and then choose the value of X.
"""
print(system_message)


Please act as a human player. You and 8 other players are playing a game for 8 periods. In each period, each of you will be asked to choose a value of X. The values of X you may choose are 1, 2, 3, 4, 5, 6, 7. The value you choose for X and the smallest value of X chosen by a decision maker will determine the payoff you receive for this period.
You are provided with an EARNINGS TABLE that shows the potential number of points that you may receive, shown as follows delimited by triple backticks.
```
Your Choice of X \ Smallest value of X chosen	7	6	5	4	3	2	1
7	13	11	9	7	5	3	1
6	x	12	10	8	6	4	2
5	x	x	11	9	7	5	3
4	x	x	x	10	8	6	4
3	x	x	x	x	9	7	5
2	x	x	x	x	x	8	6
1	x	x	x	x	x	x	7
```
Note that the EARNINGS TABLE is the same for every player. Only your earnings are shown in the EARNINGS TABLE. The earnings in each period may be found by looking across from the value you choose on the left-hand side of the table and down from the smallest value of X chosen by a decision maker. For example, if y

In [18]:
def correct_json(s):
    prompt=f"""
The following string delimited by triple backticks is in json format, but there are some mistakes, and I cannot directly convert it to json by json.loads(). For example, there may be missing comma or quotes. Please help me correct the mistakes, and output the string in valid json format. Please only output the corrected string, and do not output any other things.
```
{s}
```
    """.strip()
#     response = get_completion(prompt,model=model)
    response = gpt_completion(prompt)
    return response
s="""{
  "thought": "aaa"
  "action": J
}"""
# print(correct_json(s))

summarize_action=f"""Given the following paragraph delimited by triple backticks:
```
<out>
```
Please summarize the choice of X and how he thought in the first person from above paragraph in json format with keys 'thought' and 'X'. The 'X' should be in 1,2,3,4,5,6,7.
""".strip()

In [19]:
def get_earnings(choice,smallest):
    assert choice in [1,2,3,4,5,6,7]
    assert smallest<=choice
    A = {
        7: {7: 1.30, 6: 1.10, 5: 0.90, 4: 0.70, 3: 0.50, 2: 0.30, 1: 0.10},
        6: {6: 1.20, 5: 1.00, 4: 0.80, 3: 0.60, 2: 0.40, 1: 0.20},
        5: {5: 1.10, 4: 0.90, 3: 0.70, 2: 0.50, 1: 0.30},
        4: {4: 1.00, 3: 0.80, 2: 0.60, 1: 0.40},
        3: {3: 0.90, 2: 0.70, 1: 0.50},
        2: {2: 0.80, 1: 0.60},
        1: {1: 0.70}
    }
    return int(A[choice][smallest]*10)

def get_display_table(record):
    display_table=''
    for i in record.index:
        period=record.loc[i,'Period']
        choice=record.loc[i,'Your choice X']
        smallest=record.loc[i,'Smallest X']
        earning=record.loc[i,'Earnings']   
        tmp=f"""In period-{period}, your chose {choice}, the smallest X chosen was {smallest}, your earnings were {earning} points."""
        display_table+=tmp
        display_table+='\n'
    balance=record['Earnings'].sum()
    balance='%.0f'%balance
    display_table+=f"""Your cumulative earnings so far are {balance} points."""
    return display_table

def parse_response(response): # return a json
    response = response.replace('Action','action')
    response = response.replace('Thought','thought')
    try:
        out=json.loads(response,strict=0)
    except:
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if end_index==-1:
            response=response.strip()+'}'
            
        start_index = response.find('{')  # 查找第一个'{'的索引
        end_index = response.rfind('}')  # 查找最后一个'}'的索引
        if start_index != -1 and end_index != -1:
            extracted_content = response[start_index:end_index + 1]
            try:
                out=json.loads(extracted_content,strict=0)
            except:
                print('json error: ',extracted_content)
                corrected_json=correct_json(extracted_content)
                print('corrected:',corrected_json)
                start_index = corrected_json.find('{')  # 查找第一个'{'的索引
                end_index = corrected_json.rfind('}')  # 查找最后一个'}'的索引
                extracted_content = corrected_json[start_index:end_index + 1]
                out=json.loads(extracted_content,strict=0)
        else:
            print('No json found in:',response)
            prompt=summarize_action.replace('<out>',response)
            out=gpt_completion(prompt)
            out=json.loads(out)
    return out
get_earnings(7,7)

13

In [21]:
def get_action(bot,record,model,display=False):
    if period==1:
        message=f"""It is period-{period} out of {nperiod} periods now. Tell me how you think and the value of X you would like to choose. Please answer in json format with keys 'thought' and 'X'. For example, {{"thought": "xxx.","X": x }}. The 'X' should be in 1,2,3,4,5,6,7.
        """.strip()
    else:
        display_table=get_display_table(record)
        message=f"""The history of decisions and your earnings is listed as follows delimited by triple backticks.
```
{display_table}
```
It is period-{period} out of {nperiod} periods now. Tell me how you think and the value of X you would like to choose. Please answer in json format with keys 'thought' and 'X'. For example, {{"thought": "xxx.","X": x }}. The 'X' should be in 1,2,3,4,5,6,7.
    """.strip()
#         message=f"""The history of decisions and your earnings is listed as follows delimited by triple backticks.
# ```
# {display_table}
# ```
# It is period-{period} out of {nperiod} periods now. Tell me how you think and the value of X you would like to choose. Your choice of X should be in 1,2,3,4,5,6,7.
#     """.strip()
    res=bot.chat_wo_update(message, model=model)
    time.sleep(1)
    if display_result:
        print('------get action------')
        print(message)
        print(res)
    out=parse_response(res)
    try:
        X=int(out['X'])
        reason=out['thought']
    except:
        print('key error! messages:',message)
        print('response:',response)
        prompt=summarize_action.replace('<out>',response)
        out=gpt_completion(prompt)
        out=json.loads(out)
        X=int(out['X'])
        reason=out['thought']
        
    try:
        X in [1,2,3,4,5,6,7]
    except:
        print('Invalid action:',out)
        assert 0
    return X,reason

In [22]:
nsess=10

expname='llama13b'


max_try=50
display_result=0

for sess in range(1,1+nsess):
    print(f'==============sess{sess}==============')
    players=[]
    for _ in tqdm(range(N)):
        bot=ChatApp(system_message=system_message)
        players.append(bot)
    records=[]
    cols=['Period','Your choice X','Smallest X','Earnings','Reason of choice']
    for _ in range(N):    
        df = pd.DataFrame(columns=cols)
        records.append(df)
        
    starttime=time.time()
    for period in range(1,nperiod+1):
        print('-----------------------')
        print(f'period-{period}')

        # if this block done, continue
        recordfile=os.path.join(filepath,f'records_ME_{expname}_{N}_{nperiod}_sess{sess}_period{period}.pkl')
        playerfile=os.path.join(filepath,f'players_ME_{expname}_{N}_{nperiod}_sess{sess}_period{period}.pkl')
        if os.path.exists(recordfile) and os.path.exists(playerfile):
            with open(recordfile, 'rb') as f:
                records = pickle.load(f)
            with open(playerfile, 'rb') as f:
                players = pickle.load(f)
            print('existed!')
            continue

        for _ in range(max_try):
            try:
                if period>1:
                    prev_period=period-1
                    recordfile=os.path.join(filepath,f'records_ME_{expname}_{N}_{nperiod}_sess{sess}_period{prev_period}.pkl')
                    playerfile=os.path.join(filepath,f'players_ME_{expname}_{N}_{nperiod}_sess{sess}_period{prev_period}.pkl')
                    with open(recordfile, 'rb') as f:
                        records = pickle.load(f)
                    with open(playerfile, 'rb') as f:
                        players = pickle.load(f)
                # play
                tmp_records=[]
                for i in tqdm(range(N)):
                    bot=players[i]
                    record=records[i]
                    X,reason=get_action(bot,record,model=model,display=display_result)
                    tmp_records.append([period, X, 0.0, 0.0, reason])
                    # cols=['Period','Your choice X','Smallest X','Earnings','Reason of choice']

                # calculate smallest X
                smallest=min([x[1] for x in tmp_records])

                # calculate earnings for all
                for r in tmp_records:
                    earning=get_earnings(r[1],smallest)
                    r[2]=smallest
                    r[3]=earning

                # update records for all
                for i in range(N):
                    record=records[i]
                    record.loc[len(record.index)]=tmp_records[i]

                print('time:',time.time()-starttime)

                # save file
                recordfile=os.path.join(filepath,f'records_ME_{expname}_{N}_{nperiod}_sess{sess}_period{period}.pkl')
                playerfile=os.path.join(filepath,f'players_ME_{expname}_{N}_{nperiod}_sess{sess}_period{period}.pkl')
                with open(recordfile, 'wb') as f:
                    pickle.dump(records, f)
                with open(playerfile, 'wb') as f:
                    pickle.dump(players, f)
                break
            except Exception as e:
                print(e)
                print('error!sleep 30s...')
                time.sleep(30)      



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 168521.14it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.87s/it]


time: 16.792436361312866
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  2.00s/it]


time: 34.79652380943298
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.18s/it]


time: 54.44700026512146
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 71.91705060005188
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 89.35702753067017
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.8017828464508
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 122.78321480751038
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]


time: 138.34415650367737


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 65196.44it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.86s/it]


time: 16.73220705986023
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.97s/it]


time: 34.52366900444031
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.17s/it]


time: 54.083248138427734
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.95s/it]


time: 71.62071657180786
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.95s/it]


time: 89.16709089279175
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.68058776855469
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 122.59402871131897
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.74s/it]


time: 138.27713894844055


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 126249.95it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.86s/it]


time: 16.734052658081055
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.97s/it]


time: 34.486377000808716
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.17s/it]


time: 54.00798320770264
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 71.48061633110046
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.95s/it]


time: 89.03656530380249
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.50740218162537
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 122.44370937347412
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]


time: 138.0374207496643


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 152828.89it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.85s/it]


time: 16.66957449913025
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.98s/it]


time: 34.49044966697693
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.16s/it]


time: 53.97177600860596
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 71.42382621765137
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 88.871173620224
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.33467960357666
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.76s/it]


time: 122.21403312683105
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]


time: 137.81892681121826


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 61580.32it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.86s/it]


time: 16.783084630966187
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.97s/it]


time: 34.49873423576355
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.16s/it]


time: 53.976895570755005
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 71.5084617137909
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.95s/it]


time: 89.05781841278076
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.57759714126587
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 122.52063083648682
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.74s/it]


time: 138.20016598701477


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 58254.22it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.85s/it]


time: 16.6722731590271
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.97s/it]


time: 34.43795394897461
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.16s/it]


time: 53.914247274398804
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.92s/it]


time: 71.26435136795044
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 88.71124410629272
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.16890072822571
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 122.1039354801178
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.74s/it]


time: 137.7645344734192


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 58434.58it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.86s/it]


time: 16.713597297668457
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.96s/it]


time: 34.37318205833435
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.15s/it]


time: 53.739506483078
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 71.13594913482666
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 88.52977347373962
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 105.92886686325073
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.76s/it]


time: 121.83662247657776
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]


time: 137.41896080970764


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 61984.79it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.85s/it]


time: 16.69390344619751
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.96s/it]


time: 34.39859867095947
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.15s/it]


time: 53.7369225025177
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 71.12223076820374
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 88.49554300308228
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.92s/it]


time: 105.84529280662537
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.77s/it]


time: 121.77470207214355
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.74s/it]


time: 137.43426418304443


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 24949.59it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.85s/it]


time: 16.693437337875366
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.98s/it]


time: 34.50075101852417
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.17s/it]


time: 54.017404317855835
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 71.44786262512207
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 88.83558535575867
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.93s/it]


time: 106.17881393432617
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.76s/it]


time: 122.08129405975342
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]


time: 137.70114493370056


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 65084.03it/s]


-----------------------
period-1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:16<00:00,  1.85s/it]


time: 16.65274715423584
-----------------------
period-2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.98s/it]


time: 34.491318225860596
-----------------------
period-3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.16s/it]


time: 53.9366729259491
-----------------------
period-4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 71.3818690776825
-----------------------
period-5


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 88.89254307746887
-----------------------
period-6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.94s/it]


time: 106.37627530097961
-----------------------
period-7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.76s/it]


time: 122.27658534049988
-----------------------
period-8


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:15<00:00,  1.73s/it]

time: 137.86843609809875





In [23]:
# choices=np.zeros((N,nperiod))

nsess=10
period=nperiod

result=[]
for sess in range(1,1+nsess):
    recordfile=os.path.join(filepath,f'records_ME_{expname}_{N}_{nperiod}_sess{sess}_period{period}.pkl')
    with open(recordfile, 'rb') as f:
        records=pickle.load(f)
    for record in records:
        tmp=record['Earnings'].tolist()
        result.extend(tmp)
eff=np.mean((np.array(result)-1)/(13-1))
print('efficiency:',eff)

efficiency: 0.8333333333333334
