# SAA_top测试
## 1. 加载Overlay

In [1]:
import time
import random
from pynq import Overlay
import numpy as np
from pynq import allocate
        
# 加载Overlay
overlay = Overlay("saa_top.bit")
print("saa_top Overlay downloaded successfully!")

saa_top Overlay downloaded successfully!


## 2. 定义IP寄存器映射驱动

In [2]:

# 定义写入IP寄存器的函数，可以对IP的对应位置进行写入
def write_ip_register(ip, offset, value):
    """
    向指定IP核的寄存器写入值。
    
    参数:
    ip -- IP核实例
    offset -- 寄存器的偏移地址
    value -- 要写入的值
    """
    # 假设IP核实例有一个名为'write'的方法来写入寄存器
    ip.write(offset, value)

def read_ip_register(ip, offset):
    """
    从指定IP核的寄存器读取值。
    
    参数:
    ip -- IP核实例
    offset -- 寄存器的偏移地址
    
    返回值:
    寄存器中的值
    """
    # 通过寄存器偏移地址直接访问字典属性
    return ip.read(offset)

# 从overlay获取IP实例,也就是handle
saa_top_ip = overlay.saa_top_0

# 使用写入寄存器函数，对四个IP进行配置
# 配置和VTA不同，我们的三个缓冲区的物理起始地址是有值的，
# 这是因为我使用memcpy时，指令中的dram_base代表的是dram的索引而不是首地址
# 因此传入指令时要传入索引，索引按照dram存储数据大小寻址
# 因此真正的数组首地址就是这里定义的物理地址
def RunSaa(insn_count,
           insn_phy_addr,
           input_phy_addr,
           weight_phy_addr,
           output_phy_addr,
           wait_cycles):
    """
    向saa提交指令等待一次大批量指令执行完成,注意要有done信号表示计算完成以退出RunSaa(暂时没有)
    
    参数:
    insn_count -- 这一次批量执行的指令数量
    insn_phy_addr -- 这一次执行的指令的缓冲区首地址
    input_phy_addr -- 这一次执行的指令的输入缓冲区首地址
    weight_phy_addr -- 这一次执行的指令的权重缓冲区首地址
    output_phy_addr -- 这一次执行的指令的输出缓冲区首地址
    wait_cycles -- 最大等待的时间周期,可以设置很大很大,查询done信号等待这一批指令执行完成
    """
    # 配置insn_count
    write_ip_register(saa_top_ip,0x10,insn_count) # 配置指令数量寄存器
    
    # 配置phy_addr
    write_ip_register(saa_top_ip,0x18,insn_phy_addr) # 配置指令物理地址寄存器，也就是指令缓冲区物理首地址
    write_ip_register(saa_top_ip,0x24,input_phy_addr) # 配置输入缓冲区物理地址
    write_ip_register(saa_top_ip,0x30,weight_phy_addr) # 配置权重缓冲区物理地址
    write_ip_register(saa_top_ip,0x3c,output_phy_addr) # 配置输出缓冲区物理地址

    #写入IP控制寄存器，启动IP进行计算
    write_ip_register(saa_top_ip,0x0,0x81) # 指令寄存器写入0x1启动本次模块

    #延时1微秒使得设备响应
    time.sleep(0.0000001) # 让出CPU，等待0.000001秒（1u秒）
    
    # 读取compute的done信号是否完成
    for t in range(0, wait_cycles):
        done_flag = read_ip_register(saa_top_ip,0x48) # 从computeIP的done寄存器读取本次指令是否执行完毕
        if done_flag == 0x1: # 如果done_flag被置为1，代表这次执行的是FINISH指令，本批次指令执行完毕
            print("done：",t)
            break
#         time.sleep(0.000001) # 让出CPU，等待0.000001秒（1u秒）

    # 根据是否超时返回，如果没超时返回0，超时返回1
    return 0 if t < wait_cycles else 1

 

## 3.连续缓存申请

In [3]:
# 定义一次最多等待周期为1000万周期
wait_cycles = 100000

# 定义指令的数据类型
Instruct_DataType = np.dtype([('low', np.uint64), ('high', np.uint64)]) # 定义一个由两个64位整数组成的128位数据类型

# 定义指令缓冲区大小
insn_count = 4000 # 最多能容纳2000条指令

# 定义buffer大小,这是执行一个批量的大小
row = 4
col = 4
col1 = 4

# 定义PS端缓冲区,不使用cache，数据类型注意
instruct_buffer = allocate(shape = (insn_count), cacheable = 0, dtype = Instruct_DataType)
input_buffer = allocate(shape = (row, col), cacheable = 0, dtype = np.int8)
weight_buffer = allocate(shape = (col, col1), cacheable = 0, dtype = np.int8)
output_buffer  = allocate(shape = (row,col1), cacheable = 0, dtype = np.int32)



## 4.测试数据生成

In [4]:
# 随机生成矩阵并存储到相应的数据缓冲区中
np.random.seed(2)  # 设置随机种子以确保生成的随机数相同
input_buffer[:] = np.random.randint(0, 100, size=(row, col), dtype=np.int8)
weight_buffer[:] = np.random.randint(0, 100, size=(col, col1), dtype=np.int8)

# 将输入矩阵转换为np.int32类型，以避免溢出
input_buffer_int32 = input_buffer.astype(np.int32)
weight_buffer_int32 = weight_buffer.astype(np.int32)

# 打印生成的随机矩阵
print("Randomly generated input buffer:")
print(input_buffer)

print("\nRandomly generated weight buffer:")
print(weight_buffer)

# 定义input_buffer和weight_buffer的矩阵乘法结果的结果矩阵
pt0 = time.perf_counter()
result_matrix = np.dot(input_buffer_int32, weight_buffer_int32)
pt1 = time.perf_counter()
time_sw = pt1 - pt0
print("pure software: %fs" % time_sw)


# 打印矩阵乘法结果
print("Matrix multiplication result:")
print(result_matrix)


Randomly generated input buffer:
[[40 92 29 15]
 [10 97 47 25]
 [35  6 72 22]
 [46 54 12 43]]

Randomly generated weight buffer:
[[82 73 75  4]
 [24 57 29  7]
 [45 14 82 34]
 [82 16 84 49]]
pure software: 0.000503s
Matrix multiplication result:
[[ 8023  8810  9306  2525]
 [ 7313  7317  9517  3542]
 [ 8058  4257 10551  3708]
 [ 9134  7292  9612  3077]]


## 5.指令生成

In [5]:
import struct
import numpy as np

# 操作码和位宽定义
OP_CODE_WIDTH = 3  # 假设操作码位宽为8位
BUFFER_ID_WIDTH = 3  # 假设缓冲区ID位宽为8位
DRAM_ADDR_WIDTH = 32  # 假设DRAM地址位宽为32位
BUFFER_ADDR_WIDTH = 16 # 假设BUFFER行寻址位宽为16位
TRANSFER_SIZE_WIDTH = 16  # 假设矩阵大小位宽为16位
TRANSFER_STRIDE_WIDTH = 16  # 假设步进位宽为16位
COMPUTE_TYPE_WIDTH = 3  # 假设计算类型位宽为3位
WEIGHT_SWITCH_WIDTH = 1  # 假设权重切换位宽为1位
COMPUTE_SWITCH_WIDTH = 1  # 假设计算切换位宽为1位
COMPUTE_ACCUMULATE_WIDTH = 1  # 假设累加位宽为1位

# 操作码定义
OPCODE_LOAD = 0 # 定义加载指令的操作码
OPCODE_COMPUTE = 1 # 定义计算指令的操作码
OPCODE_STORE = 2 # 定义存储指令的操作码
OPCODE_DONE = 3 # 定义计算完成指令的操作码

# compute_type 计算类型定义
WEIGHT_PRELOAD = 0 # 权重预加载
COMPUTE = 1 # 使用当前脉动阵列权重计算
COMPUTE_WEIGHT_PRELOAD = 2 # 加载权重同时进行计算，用于双缓冲操作

# buffer id 定义
WEIGHT_BUFFER_ID = 0
INPUT_BUFFER_ID = 1
ACCUMULATOR_BUFFER_ID = 2
OUTPUT_BUFFER_ID = 3

#脉动阵列大小
MATRIX_WIDTH = 4

# 使用struct模块生成128位指令
def create_load_instruction(opcode, buffer_id, dram_addr, buffer_addr, y_size, x_size, x_stride):
    # 我们需要将所有的字段合并成一个128位的整数
    # 第一个64位
    instruction = (opcode & ((1 << OP_CODE_WIDTH) - 1))
    instruction |= (buffer_id & ((1 << BUFFER_ID_WIDTH) - 1)) << OP_CODE_WIDTH
    instruction |= (dram_addr & ((1 << DRAM_ADDR_WIDTH) - 1)) << (OP_CODE_WIDTH + BUFFER_ID_WIDTH)
    instruction |= (buffer_addr & ((1 << BUFFER_ADDR_WIDTH) - 1)) << (OP_CODE_WIDTH + BUFFER_ID_WIDTH + DRAM_ADDR_WIDTH)
    # 第二个64位
    instruction |= (y_size & ((1 << TRANSFER_SIZE_WIDTH) - 1)) << (64)
    instruction |= (x_size & ((1 << TRANSFER_SIZE_WIDTH) - 1)) << (64 + TRANSFER_SIZE_WIDTH)
    instruction |= (x_stride & ((1 << TRANSFER_STRIDE_WIDTH) - 1)) << (64 + 2 * TRANSFER_SIZE_WIDTH)

    # 将128位整数转换成16字节的二进制数据
    # 使用'Q'格式符代表无符号的长长整型（64位），注意这里需要两个'Q'来表示128位
    # '<'代表小端字节序
    packed_instruction = struct.pack('<QQ',instruction & ((1 << 64) - 1) , (instruction >> 64) & ((1 << 64) - 1))
    return packed_instruction

# 创建计算指令的函数
def create_compute_instruction(opcode, compute_type, weight_addr, input_addr, output_addr, weight_switch, compute_switch, accumulate):
    # 第一个64位
    instruction = (opcode & ((1 << OP_CODE_WIDTH) - 1))
    instruction |= (compute_type & ((1 << COMPUTE_TYPE_WIDTH) - 1)) << OP_CODE_WIDTH
    instruction |= (weight_addr & ((1 << BUFFER_ADDR_WIDTH) - 1)) << (OP_CODE_WIDTH + COMPUTE_TYPE_WIDTH)
    instruction |= (input_addr & ((1 << BUFFER_ADDR_WIDTH) - 1)) << (OP_CODE_WIDTH + COMPUTE_TYPE_WIDTH + BUFFER_ADDR_WIDTH)
    instruction |= (output_addr & ((1 << BUFFER_ADDR_WIDTH) - 1)) << (OP_CODE_WIDTH + COMPUTE_TYPE_WIDTH + 2 * BUFFER_ADDR_WIDTH)
    # 第二个64位
    instruction |= (weight_switch & ((1 << WEIGHT_SWITCH_WIDTH) - 1)) << (64)
    instruction |= (compute_switch & ((1 << COMPUTE_SWITCH_WIDTH) - 1)) << (64 + WEIGHT_SWITCH_WIDTH)
    instruction |= (accumulate & ((1 << COMPUTE_ACCUMULATE_WIDTH) - 1)) << (64 + WEIGHT_SWITCH_WIDTH + COMPUTE_SWITCH_WIDTH)

    # 将128位整数转换成16字节的二进制数据
    # 使用'Q'格式符代表无符号的长长整型（64位），注意这里需要两个'Q'来表示128位
    # '<'代表小端字节序
    packed_instruction = struct.pack('<QQ', instruction & ((1 << 64) - 1), (instruction >> 64) & ((1 << 64) - 1))
    return packed_instruction

def print_binary(instruction_bytes):
    # 将字节字符串转换回两个64位整数
    high, low = struct.unpack('<QQ', instruction_bytes)
    # 将两个64位整数转换为二进制字符串，并去掉前缀'0b'
    binary_low = bin(low)[2:].zfill(64)    # 填充低位以确保长度为64位
    binary_high = bin(high)[2:].zfill(64)  # 填充高位以确保长度为64位
    # 合并二进制字符串并打印，注意这里先打印低地址的low，再打印高地址的high
    binary_instruction = binary_low + binary_high
    print(binary_instruction)


## 6.运行saa进行测试

In [7]:
# # 定义本次执行的指令数量
# now_insn_count = 3
# instructions = [] #临时存储指令
# # 加载矩阵A到INPUT_BUFFER
# load_A_insn = create_load_instruction(
#     opcode=OPCODE_LOAD,
#     buffer_id=INPUT_BUFFER_ID,  # 假设的buffer ID
#     dram_addr=0,  # 假设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=4,  # 假设的传输尺寸y
#     x_size=MATRIX_WIDTH,  # 假设的传输尺寸x
#     x_stride=MATRIX_WIDTH  # 假设的传输步进
# )
# instructions.append(load_A_insn)

# # 从INPUT_BUFFER缓存矩阵到ps
# store_A_insn = create_load_instruction(
#     opcode=OPCODE_STORE,
#     buffer_id=INPUT_BUFFER_ID,  # 假设的buffer ID
#     dram_addr=0,#设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=4,#的传输尺寸y
#     x_size=4,#设的传输尺寸x,
#     x_stride=4  # 假设的传输步进
# )
# instructions.append(store_A_insn)

# # 计算完成指令，使得软件运算结束
# done_insn = create_load_instruction(
#     opcode=OPCODE_DONE,
#     buffer_id=0,  # 假设的buffer ID
#     dram_addr=0,  # 假设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=0,# 假设的传输尺寸y
#     x_size=0,  # 假设的传输尺寸x
#     x_stride=0  # 假设的传输步进
# )
# instructions.append(done_insn)

# # 定义本次执行的指令数量
# now_insn_count = 6
# instructions = [] #临时存储指令
# # 加载矩阵A
# load_A_insn = create_load_instruction(
#     opcode=OPCODE_LOAD,
#     buffer_id=INPUT_BUFFER_ID,  # 假设的buffer ID
#     dram_addr=0,  # 假设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=4,  # 假设的传输尺寸y
#     x_size=4*MATRIX_WIDTH,  # 假设的传输尺寸x
#     x_stride=MATRIX_WIDTH  # 假设的传输步进
# )
# instructions.append(load_A_insn)
# # 加载矩阵B
# load_B_insn = create_load_instruction(
#     opcode=OPCODE_LOAD,
#     buffer_id=WEIGHT_BUFFER_ID,  # 假设的buffer ID
#     dram_addr=0,  # 假设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=4,  # 假设的传输尺寸y
#     x_size=4*MATRIX_WIDTH,  # 假设的传输尺寸x
#     x_stride=MATRIX_WIDTH  # 假设的传输步进
# )
# instructions.append(load_B_insn)
# # 计算A*B = C
# # 预加载权重
# compute_preload_insn = create_compute_instruction(
#     OPCODE_COMPUTE,  # 操作码
#     WEIGHT_PRELOAD,  # 计算类型
#     0,  # 权重地址
#     0,  # 输入地址
#     0,  # 输出地址
#     0,  # 权重切换
#     0,  # 计算切换
#     0  # 不累加
# )
# instructions.append(compute_preload_insn)
# # 计算
# compute_insn = create_compute_instruction(
#     OPCODE_COMPUTE,  # 操作码
#     COMPUTE,  # 计算类型
#     0,  # 权重地址
#     0,  # 输入地址
#     0,  # 输出地址
#     0,  # 权重切换
#     0,  # 计算切换
#     0  # 不累加
# )
# instructions.append(compute_insn)
# # 缓存矩阵C
# store_C_insn = create_load_instruction(
#     opcode=OPCODE_STORE,
#     buffer_id=OUTPUT_BUFFER_ID,  # 假设的buffer ID
#     dram_addr=0,#设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=MATRIX_WIDTH,#的传输尺寸y
#     x_size=MATRIX_WIDTH,#设的传输尺寸x,
#     x_stride=MATRIX_WIDTH  # 假设的传输步进
# )
# instructions.append(store_C_insn)
# # 计算完成指令，使得软件运算结束
# done_insn = create_load_instruction(
#     opcode=OPCODE_DONE,
#     buffer_id=0,  # 假设的buffer ID
#     dram_addr=0,  # 假设的DRAM地址
#     buffer_addr=0,  # 假设的buffer地址
#     y_size=0,# 假设的传输尺寸y
#     x_size=0,  # 假设的传输尺寸x
#     x_stride=0  # 假设的传输步进
# )
# instructions.append(done_insn)
# print(done_insn)


# 将生成的指令批量存入缓冲区，然后启动saa让其读取指令
for i, instruction in enumerate(instructions):
    instruct_buffer[i] = np.frombuffer(instruction, dtype=Instruct_DataType)
    print(instruct_buffer[i])
    print_binary(instruct_buffer[i]) # 输出指令的二进制表示

# 测试写入done信号并且读取done信号
done_flag = read_ip_register(saa_top_ip,0x48) # 从computeIP的done寄存器读取本次指令是否执行完毕
print(done_flag)

# 测试运行saa硬件
pt0 = time.perf_counter()
RunSaa(now_insn_count,
       instruct_buffer.physical_address,
       input_buffer.physical_address,
       weight_buffer.physical_address,
       output_buffer.physical_address,
       wait_cycles)
pt1 = time.perf_counter()
time_sw = pt1 - pt0
print("pure software: %fs" % time_sw)

# 打印
done_flag = read_ip_register(saa_top_ip,0x48) # 从computeIP的done寄存器读取本次指令是否执行完毕
print(done_flag)

print(instruct_buffer.physical_address)
print(input_buffer.physical_address)
print(weight_buffer.physical_address)
print(output_buffer.physical_address)
print(instruct_buffer)
print(input_buffer)
print(weight_buffer)
print(output_buffer)

# 查看完成后清空缓冲区
instruct_buffer[:]=0
output_buffer[:]=0
# #清空指令生成区
# for i, instruction in enumerate(instructions):
#     instruct_buffer[i] = 0

(8, 17180131332)
00000000000000000000000000000100000000000000010000000000000001000000000000000000000000000000000000000000000000000000000000001000
(10, 17180131332)
00000000000000000000000000000100000000000000010000000000000001000000000000000000000000000000000000000000000000000000000000001010
(3, 0)
00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000011
0
done： 0
pure software: 0.001279s
1
907739136
1999650816
1999134720
1999052800
[( 8, 17180131332) (10, 17180131332) ( 3,           0) ...
 ( 0,           0) ( 0,           0) ( 0,           0)]
[[40 92 29 15]
 [10 97 47 25]
 [35  6 72 22]
 [46 54 12 43]]
[[82 73 75  4]
 [24 57 29  7]
 [45 14 82 34]
 [82 16 84 49]]
[[253582376 422535434 373818915 722220590]
 [        0         0         0         0]
 [        0         0         0         0]
 [        0         0         0         0]]
