# 以太坊区块链性能优化 EthOptimize 

环境的基本信息如下表所示，所需库如下所示

| Info | Detail |
|----------|----------|
| action space    | Discrete(5)      |
| Observation shape    | (2, )     |
| Observation High    | [300000, 25]     |
| Observation Low    | [150000, 5]     |
| Import    | gym.make("EthOptimize")     |

In [1]:
import gym
from gym import spaces
import numpy as np

## Description

现有对以太坊区块链不同负载环境下的性能数据进行测试，且具有不同的交易吞吐量（TPS），为了获得较高的交易吞吐量，需要学习如何调整已有的控制参数：区块大小以及出块间隔，来获得更高的tps。在场景测试时，选取的区块大小和出块间隔参数是离散的。
定义一个以太坊优化类class EthOptimize作为强化学习的自定义环境，类需要包括如下函数。

In [2]:
class EthOptimize(gym.Env):
    def __init__(self):
        self.upper_bsize = 300000
        self.lower_bsize = 150000
        self.upper_btime = 25
        self.lower_btime = 5
        self.action_space = spaces.Discrete(5) # 0, 1, 2, 3, 4
        self.observation_space = spaces.Box(np.array([self.lower_bsize, self.upper_bsize]), np.array([self.lower_btime, self.upper_btime]))
        self.state = None
        self.counts = 0

    # 下一步执行函数，从agent收到下一步的action后执行该action，返回state, reward, done, {info}
    def step(self, action):
        assert self.action_space.contains(action), "%r (%s) invalid"%(action, type(action))
        x, y = self.state
        if action == 0:
            x=x
            y=y
        elif action == 1:
            x = x + 1500
            y = y
        elif action == 2:
            x = x - 1500
            y = y
        elif action == 3:
            x = x
            y = y + 1
        elif action == 4:
            x = x
            y = y - 1
        self.state = np.array([x, y])
        self.counts += 1

        done = None # justify border 
        done = bool(done)

        reward = None
        '''
        if not done:
            reward -= 0.1
        else:
            if ...
        '''
        
        return self.state, reward, done, {}

    # 重置函数，每一个episode都要重置环境进行下一个轮次的训练
    def reset(self):
        # state初始化，回到一个初始状态，为下一个周期准备
        self.state = np.array([151500, 7])
        return self.state 


In [None]:
def __init__(self):
    self.upper_bsize = 300000 # 区块大小上限
    self.lower_bsize = 150000 # 区块大小下限
    self.upper_btime = 25 # 出块间隔上限
    self.lower_btime = 5 # 出块间隔下限
    self.action_space = spaces.Discrete(5) # 0, 1, 2, 3, 4，分别代表的含义在step中定义
    self.observation_space = spaces.Box(np.array([self.lower_bsize, self.upper_bsize]), np.array([self.lower_btime, self.upper_btime]))
    self.state = None
    self.counts = 0

## Action Space

有五个离散的操作：增加区块大小，减小区块大小、增加出块间隔，减小出块间隔，DoNothing。

In [None]:
assert self.action_space.contains(action), "%r (%s) invalid"%(action, type(action))
x, y = self.state # x是区块大小，y是出块时间
if action == 0:
    x=x
    y=y
elif action == 1:
    x = x + 1500
    y = y
elif action == 2:
    x = x - 1500
    y = y
elif action == 3:
    x = x
    y = y + 1
elif action == 4:
    x = x
    y = y - 1
self.state = np.array([x, y])
self.counts += 1

## Observation Space

状态是一个二维向量：区块大小（blocksize），出块间隔（blocktime）

## Rewards

（需要讨论有几种情况，哪种情况加奖励，哪种减少奖励，例如tps增加获得10点，减少tps扣50点，区块大小和区块间隔的值超过上下界扣100等）

In [None]:
reward = None
'''
if not done:
    reward -= 0.1
else:
    if ...
'''

## Starting State

在对应控制参数的区间内取随机的一个状态作为开始状态，这个状态在reset函数中声明

In [None]:
def reset(self):
    # state初始化，回到一个初始状态，为下一个周期准备
    self.state = np.array([151500, 7])
    return self.state 

## Episode End

讨论当什么时候episode结束，初步给出如下限制：
1. 当区块大小超过上下界时
2. 当区块间隔超过上下界时
3. episode的上限（即当episode达到多少时不再训练  

在step中给出是否结束该次训练的结果，用done（一个bool值）表示

In [None]:
done = None # need to justify border here
done = bool(done)

具体参考案例如下：
1. [自定义一个强化学习环境](https://zhuanlan.zhihu.com/p/33553076)
2. [OpenAI Gym库文档经典案例](https://www.gymlibrary.dev/environments/classic_control/)