# 同济大学计算机科学与技术系 信号处理导论 大作业



## FFT 硬件加速的原理与实践 实验报告

| 学  | 号:  | 1951505   |
|----|-----|-----------|
| 姓  | 名:  | 姜星宇       |
| 指导 | 教师: | 张冬冬       |
| 日  | 期:  | 2022/6/20 |

## 目录

| 目: | 录   |           | 2  |
|----|-----|-----------|----|
| 1  | 介绍  |           | 3  |
|    | 1.1 | 实验背景      | 3  |
|    | 1.2 | 傅里叶变换     | 3  |
|    | 1.3 | FFT 硬件实现  | 6  |
|    | 1.4 | 实验目标及环境   | 7  |
| 2  | 模块  | 设计        | 8  |
|    | 2.1 | 模块整体设计    | 8  |
|    | 2.2 | FFT 模块    | 8  |
|    | 2.3 | 内存与信号采集模块 | 11 |
| 3  | 测试  | 与应用       | 13 |
|    | 3.1 | 源代码       | 13 |
|    | 3.2 | 仿真测试      | 13 |
| 参  | 考文献 | <u>,</u>  | 19 |
|    |     |           |    |

## 1 介绍

## 1.1 实验背景

傅里叶变换(Fourier transform,FT)是一种将关于空间或时间的函数向关于空间频率或瞬时频率的函数转换的一种数学变换[1]。1822 年,法国科学家傅里叶在研究热力学时,发现无论是连续还是非连续的函数,都可以被分解为一系列正弦的级数。经过一段时间的研究,傅里叶变换逐渐被数理科学等领域广泛应用。

起初,傅里叶变换被应用在简化一些例如微分方程等问题上,在频域上有些函数将变得更加容易分析。例如在傅里叶热传导定律结合高斯定理

$$\iint_{S} \kappa \nabla T \cdot dS = \iint_{S} \mathbf{p} \cdot d\mathbf{S} = \iiint_{V} \frac{\partial e}{\partial t} dV \Leftrightarrow \frac{\kappa}{\rho c_{m}} \nabla \cdot (\nabla e) = \frac{\partial e}{\partial t}$$
(1-1)

在单方向上可以简化为关于能量密度的偏微分方程

$$C\frac{\partial^2 e}{\partial x^2} = \frac{\partial e}{\partial t}.$$
 (1-2)

在偏微分方程理论中,这个方程通常需要根据边界条件确定特解。对于上述二阶波动方程,需要两个边界条件共同确定,这将会变得比较复杂。如果采用傅里叶变换,可以将这种特定形式的方程根据边界条件的频率确定解的形式与参数 ξ。具体的领域除了这里的较早的热力学,近代物理中例如量子力学等需要用到波动形式偏微分方程的领域同样具有广泛的应用。

同时,卷积运算在频域上等同于简单的乘法,因此为理论的分析上提供了一个强大的工具。因此在工业界,信号处理中,傅里叶变换具有不可替代的作用。例如信号处理中的自相关函数

$$R(\tau) = \lim_{T \to \infty} \frac{1}{2T} \int_{-T}^{T} f(t)f(t+\tau)dt$$
 (1-3)

在傅里叶变换后得到的功率谱密度函数,可以表示出不同频率对于功率的贡献程度,从而反应信号强弱分布的规律与性质。

#### 1.2 傅里叶变换

傅里叶变换 (FT) 关于频率ξ的定义如下

$$\hat{f}(\xi) = \int_{-\infty}^{\infty} f(x) e^{-i2\pi\xi x} dx, \qquad (1-4)$$

逆变换为

$$f(x) = \int_{-\infty}^{\infty} \hat{f}(\xi) e^{i2\pi\xi x} d\xi.$$
 (1-5)

离散时间傅里叶变换(discrete-time Fourier transform, DTFT)应用于离散的时间序列上,有如下形式

$$\hat{f}(\xi) = \sum_{x = -\infty}^{\infty} f[x] e^{-i2\pi\xi x} \Delta x, \qquad (1-6)$$

当 $\Delta x = 1/T$ 时逆变换为

$$f[x] = T \int_{\frac{1}{T}} \hat{f}(\xi) e^{i2\pi\xi xT} d\xi.$$
 (1-7)

离散傅里叶变换(discrete Fourier transform, DFT)在离散时间傅里叶变换的基础上进行有限等长采样,即

$$\hat{f}[\xi] = \sum_{x=0}^{N-1} f[x] e^{-i2\pi\xi x} \frac{1}{N}$$
 (1-8)

或者令 $\xi = \Xi k/N$ , x = X n/N,  $\Xi X = N$ , (采取这种假设求得的离散傅里叶变换频谱的分辨率 $\frac{\Xi}{N} = 1/(\frac{X}{N}N) = \frac{f_s}{N}$ ,  $\Xi$ 为采样间隔的倒数即采样率 $f_s$ )

$$\hat{f}\left[\Xi\frac{k}{N}\right] = \sum_{r=0}^{N-1} f\left[X\frac{n}{N}\right] e^{-i2\pi\Xi\frac{k}{N}X\frac{n}{N}} \frac{1}{N} = \sum_{r=0}^{N-1} f\left[X\frac{n}{N}\right] e^{-i2\pi\frac{kn}{N}} \frac{1}{N},\tag{1-9}$$

归一化后写为

$$X_k = \sum_{n=0}^{N-1} x_n e^{-\frac{i2\pi}{N}kn},$$
(1-10)

逆变换则为

$$x_n = \frac{1}{N} \sum_{k=0}^{N-1} X_k \cdot e^{\frac{i2\pi}{N}kn}.$$
 (1-11)

可以认为,从连续函数的傅里叶变换(或者离散时间傅里叶变换)中进行 一段时间的采样,再离散化,可以得到离散傅里叶变换,即

$$\int_{-\infty}^{\infty} f(x) e^{-i\omega x} dx \Rightarrow \int_{0}^{X} f(x) e^{-i\omega x} dx \Rightarrow \sum_{n=0}^{N} f\left(X \frac{n}{N}\right) e^{-i\omega X \frac{n}{N}} \frac{X}{N}$$
(1-12)

归一化系数X/N并和频域、时域的单位刻度后所得结果。

经过离散傅里叶变换的离散化后,就可以使用计算机存储与计算。直接使

用定义公式计算的时间复杂度是 $O(N^2)$ ,而在计算中,每一个指数因子是一样的,因此其中包含一些重复运算,而实际的复杂度可以通过快速傅里叶变换算法(fast Fourier transform,FFT)降至 $O(N\log N)^{[2]}$ 。最常用的 FFT 算法为Cooley-Turkey FFT 算法,采用分治策略,将 $1\times N$ 的 DFT 转换为 $N_1\times N_2$ 计算。令 $N_1< N_2$ , $N_1$ 则称为基数,通常采用基数为 2 的蝶形二分算法如下。

```
Function fft
input: x, N, s
output: X[0 .. N - 1]
if N = 1 then
    X[0] <- x[0]
else
    X[0 .. N / 2 - 1] <- fft(x, N / 2, 2 * s)
    X[N / 2 .. N - 1] <- fft(x + s, N / 2, 2 * s)
    for k = 0 to N / 2 - 1 do
        p <- X[k]
        q <- exp(-2\pi i * k / N) * X[k + N / 2]
        X[k] = p + q
        X[k + N / 2] = p - q
end for
end if
```

图 1-1 Cooley-Turkey FFT 算法

上述 FFT 算法的每一步的运算通常可以使用下图描述。



图 1-2 运算器单元

但是左侧输入的运算操作数在上一级来源于不同的下标,因此如果从N=1开始运算,初始下标的计算将十分复杂,不能按照实际输入的顺序。这种情形如果使用从N到1的递归,一般就需要使用额外的 $O(N \log N)$ 的空间存储后选取计算。因此有如下非递归算法解决这一问题,称为迭代 FFT。这个算法首先对

于下标进行调整,从而可以方便地通过循环找到每一次计算对应的一系列数。

```
Function iterative-fft
input: x[0, .. N]
output: X[0 .. N - 1]
for k = 0 to N - 1 do // bit reverse
    X[rev(k)] = x[k]
end for
for s = 1 to log(N) do
    m < -2 ^s
    wm <- exp(-2\pi i / m)
    for k = 0 to N - 1 by m do
         w <- 1
         for j = 0 to m / 2 - 1 do
             p \leftarrow X[k + j]
             q \leftarrow X[k + j + m / 2] * w
             X[k + j] <- u + t
             X[j + j + m / 2] \leftarrow u - t
             w < - w * wm
         end for
    end for
end for
return X
```

图 1-3 FFT 算法的非递归形式

#### 1.3 FFT 硬件实现

根据上述常用 FFT 算法的描述,可以发现,运算重复使用蝶形运算器,使用通常的 CPU 运算需要对于每一个运算器进行一次三角函数运算、一次乘法运算,以及两次加减法运算,这一系列运算需要重复约 $\frac{N}{2}\log_2 N$ 次。

如果使用 FPGA 等定制芯片,则可以采用组合逻辑将运算器描述出来,并采用多个运算器进行并行计算,可以最大化 FFT 的效率。运算器的硬件描述需要浮点数加减法以及乘法的支持,同时对于余弦函数的运算,由于角度为1/N的整数倍,因此可以使用查表得出结果。

具体而言,使用定制芯片计算,首先需要确定浮点数的表示,根据 IEEE-754 标准,64 位双精度浮点型如下图,具有 1 位符号位、11 位指数位以及 52 位尾数位。



图 1-4 IEEE 64 位浮点数结构

其表示的数值为

$$(-1)^{\text{sign}} \left( 1 + \sum_{i=1}^{52} \text{fraction}_{52-i} 2^{-i} \right) \times 2^{\text{exponent} - 1023}$$
 (1-13)

浮点数加法器与乘法器同样需要实现。还有就是复数的旋转,根据公式,

$$\operatorname{Re}\left\{Ae^{-i2\pi\frac{k}{s}}\right\} = \operatorname{Re}\{A\}\cos 2\pi\frac{k}{s} + \operatorname{Im}\{A\}\sin 2\pi\frac{k}{s}$$
 (1-14)

$$\operatorname{Im}\left\{Ae^{-i2\pi\frac{k}{s}}\right\} = \operatorname{Im}\{A\}\cos 2\pi\frac{k}{s} - \operatorname{Re}\{A\}\sin 2\pi\frac{k}{s}$$
 (1-15)

将s = [M, N](M为并行数量,为 2 的整数幂)各项保存在内存中则可以结合乘法器求出数值。根据并行计算所需要的表中数值,应当将这些数值存储在不同的内存模块中,以达到并行查询。

## 1.4 实验目标及环境

完成采样点总数N=4096,并行数M=16的 FFT 模块,从内存中读取数据,并输出至内存。

实验环境为 Linux, Vivado 2018 以及 Digilent Nexys4 DDR 开发板。

## 2 模块设计

## 2.1 模块整体设计

为方面应用于展示效果,模块整体分为顶层模块、FFT 模块、内存模块和信号采集模块。其中 FFT 模块中包含运算器模块与控制器模块。



图 2-1 整体模块

## 2.2 FFT 模块

FFT 模块由于与内存的交互使用到了时序逻辑,与 CPU、GPU 架构类似,包含运算器与控制器。其中运算器为组合逻辑,输入三个双精度复数(6 个 64 位浮点型)a、b、 $w=e^{-i\omega}$ ,输出为两个双精度复数(4 个 64 位浮点型)c、d,示意图如下。a、b、c、d分别代表蝶形运算器的四个输入输出。



图 2-2 运算器单元示意图

控制器为时序逻辑,在输入信号 sig 的上升沿,将寄存器 busy 置 1,同时开

始将时钟信号输入给内存,从内存中按照 FFT 并行运行的时序依次读写。

首先使用 stage 寄存器对于算法整体的时序进行控制,0 代表将原数据根据按位反转的下标进行重排的操作,1 代表使用蝶形运算器计算每一层的过程。在1 的计算中,round 寄存器存储当前进行到的轮次,共 $\log N$ 次,iter 表示在当前轮次中循环下标。根据 round 与 iter,可以共同确定各个运算器操作数的地址,从而实现循环计算。

图 1-3 中算法示意图如下。算法的意思是s从 1 开始,以 $2^s$ 项为一组分为  $N/2^s$ 组。随后在每一组内,分为上下两部分,每次从两部分中选取依次进行单元计算,计算输出的值重新写入原位,完成一次计算。可见地址 $i_{1,2}$ 与轮次s (round) 存在等间隔的关系



(2-1)

图 2-3

如果将内存分为 $2^m$ 组,那么当 $s \le n - m$ 时,计算的一组内存集中在内存的一组中。如果s > n - m,则一次计算将涉及到内存中的两组,但是由于同一组计算组中任意两组是平行等间隔的,因此每一组内存组中同样最多需要同时读写两个数。

通过上面对所需内存地址分布情况简单的考虑,将内存平均分为 $M=2^m$ 组,可以得出地址 $A_{1,2}$ 、轮次 $r\in(0,\log_2N]=(0,n]$ 、循环下标 $i\in[0,2^{n-m-1})$ 与运算

器下标 $k \in [0.2^m)$ 有如下关系。其中内存组G与组内下标I满足关系

$$G = A \operatorname{div} 2^{n-m}, I = A \operatorname{mod} 2^{n-m}$$
 (2-2)

当r ≤ n - m时,k可以和内存组连续对应,

$$G_1 = k, I_1 = (i \operatorname{div} 2^{r-1}) 2^r + i \operatorname{mod} 2^{r-1}$$

$$G_2 = G_1, I_2 = I_1 + 2^{r-1}$$
(2-3)

当r > n - m时, i可以和内存组内下标连续对应,

$$G_{1} = (k \operatorname{div} 2^{r-(n-m)}) 2^{r-(n-m)} + k \operatorname{mod} 2^{r-1-(n-m)}$$

$$I_{1} = i + (k \operatorname{mod} 2^{r-(n-m)} \operatorname{div} 2^{r-1-(n-m)}) 2^{n-m-1}$$

$$G_{2} = G_{1} + 2^{r-1-(n-m)}$$

$$I_{2} = I_{1}$$

$$(2-4)$$

具体硬件操作可以使用位运算,这样也会更加直观一些。



图  $2-4r \le n-m$ 情形地址的位运算



图 2-5 r > n - m情形地址的位运算

上面两张图表示的地址将组号k放在高m位,循环下标i放在低n-m-1位上。如果 $r \le n-m$ ,则从第r-1位开始到n-m-2共n-m-r位左移 1 位,如果r > n-m,则将第r-1位直接移至n-m-1位上。随后将空出的r-1位填上 0 或 1 代表两个操作数的地址。

经过上面的位操作后,对于某一个i的所有地址,即仅k变化, $r \le n - m$ 时

显然对于不同的高m位,有且仅有两个不同的地址,因为高m位就是k,对应两个不同的补充位。而r > n - m时,先排除位操作的两位,高m位是全排列分布的,即每一个数出现且仅出现一次。变化的两位也是全排列的 4 个数,同时有一位在低位不参与高位的变化,因此不考虑顺序,则这 4 个中,两个对应补充 0 的高位地址,两个对应补充 1 的高位地址,因此每个高位地址也是有且仅有两个地址对应。

根据这个特点,直接根据顺序对内存进行分块就是可行的了,每一部分在每一个循环的计算中需要进行两个复数的输入输出,可以根据实际资源的情况进一步划分时序。

## 2.3 内存与信号采集模块

内存使用芯片中共 4860Kbit 的 BRAM,可以使用 Vivado 中提供的 IP 核完成此模块的构造。输入为地址和输入数据,输出为输出数据。

模块中使用到内存的部分主要为数据 RAM、旋转因子表 ROM。数据 RAM 需要在过程中存储复数的实部与虚部。按照 2.2 中关于控制器地址的讨论,需要将 RAM 进行分组以扩充 IO 并行数量,同时每个 RAM 需要两个端口同时进行两个数据的输入输出。因此对于N=4096, M=16的情形,需要 32 个宽度为 64,深度为 256 的双端口 RAM。

而以N/2 = 2048精度存储 $[0,\pi)$ 正余弦的 ROM,每一个运算器都需要两个以存储所有的正余弦,因此需要 32 个宽度为 64,深度为 2048 的单端口 ROM。

综上所述,共需要 $(2+M)N\cdot 64$  bit = 4608 Kbit 的内存,Nexy 4 DDR 的BRAM 满足需要求,不需要使用更大且较慢的 SDRAM。实际上,大部分无效的存储在 ROM 上。由于可以只用一个 ROM 存储数据,在初始化时向M个总大小与 ROM 相同的 RAM 中按照每一个模块中写入当前轮次需要使用到的角度。但是这样大部分时间将会花在写入这些 RAM上,并没有实际的意义。如果 $M > \log_2 N$ 的话,可以为每一个轮次分配M组 ROM,分别填充不同的数值以分组计算。 还有一种方法就是使用更加一般的 CORDIC 等模块计算正余弦而不是通过查表,那样的话对于硬件资源消耗主要在门电路上,成本也可能会高一些。

而信号的采集,可以使用 Nexys 4 DDR 上的 mic 获取 PDM 信号 (Pulse Density Modulation, 脉冲密度调制),统计高电平的密度即高电平时钟周期个数,

转换为浮点数存储到 RAM 中,当存储满一次 RAM 后,就可以进行傅里叶变换了,经过计算的最终数据可以通过进一步的处理获得需要的结果。在开发板上直接的光学输出有一个七段数码管,对于最终的结果可以将信号中包含的最大的频率输出。

## 3 测试与应用

## 3.1 源代码

将上述各模块使用 Verilog 语言实现,通过 Vivado 仿真与实现,可以完成 FFT 的硬件实现。

完整源代码详见 https://github.com/jalaxy/Nexys-4-DDR-app/tree/main/FFT。

• 顶层模块:

图 3-1 顶层模块接口

• FFT 模块:

```
module fft(clk, rst, sig, we, rev, addr, din, dout);
input clk, rst, sig;
input we, rev;
input [`logN-1:0] addr;
input [`CW-1:0] din;
output [`CW-1:0] dout;
```

图 3-2 FFT 时序控制模块接口

• 按位反转模块:

```
module bit_reverse(din, dout);
input [`logN-1:0] din;
output [`logN-1:0] dout;
genvar i;
for (i = 0; i < `logN; i = i + 1) begin
    assign dout[i] = din[`logN - 1 - i];
end
endmodule</pre>
```

图 3-3 地址按位反转计算模块

• 运算器模块:

```
module fft_op_unit(ar, ai, br, bi, cr, ci, dr, di, wr, wi);
input [`FW-1:0] ar, ai, br, bi;
output [`FW-1:0] cr, ci, dr, di;
input [`FW-1:0] wr, wi;
```

图 3-4 单个运算器模块接口

#### 3.2 仿真测试

对于各模块编写 testbench, 首先进行前仿真测试。

• 按位下标反转模块:

```
module bit_reverse_tb();
reg [`logN-1:0] din;
wire [`logN-1:0] dout;
bit_reverse inst(din, dout);
initial begin
    din = `logN'd0; #10;
    for (din = 1; din != 0; din = din + 1) #10;
end
endmodule
```

图 3-5 下标反转模块仿真测试

| Name                 | Value | 0 ns      | 20 ns   | 40 ns   | 60 ns   | 80 ns   |
|----------------------|-------|-----------|---------|---------|---------|---------|
| > <b>W</b> din[9:0]  | 063   | 000 \ 001 | 002 003 | 004 005 | 006 007 | 008 009 |
| > <b>W</b> dout[9:0] | 318   | 000 200   | 100 300 | 080 280 | 180 380 | 040 240 |

图 3-6 下标反转模块仿真测试波形图

测试使用N=10,上述截取部分波形图正常。

## • 内存模块:

```
module bram dual tb();
reg clk, wea, web;
reg [7:0] addra, addrb, dina, dinb;
wire [7:0] douta, doutb;
bram data inst data(
        .wea(wea), .addra(addra), .dina(dina), .douta(douta), .clka(clk),
        .web(web), .addrb(addrb), .dinb(dinb), .doutb(doutb), .clkb(clk));
initial begin
    clk = 0; wea = 1; web = 1; #10;
    for (addra = 0; addra != 8'd127; addra = addra + 1) begin
        addrb = 256 - addra; dina = addra; dinb = addrb; #20;
    wea = 0; web = 0; #100;
    for (addra = 0; addra != 8'd127; addra = addra + 1) begin
        addrb = 256 - addra; #20;
    end
    $stop();
end
initial begin
    while (1) begin
        clk = \sim clk; #5;
    end
end
endmodule
```

图 3-7 内存模块仿真测试

| Name                  | Value | 0 ņs     | 50 ns     | 100 ns       | 150 ns  |
|-----------------------|-------|----------|-----------|--------------|---------|
| ¼ clk                 | 0     |          |           |              |         |
| ¼ wea                 | 0     |          |           |              |         |
| ¼ web                 | 0     |          |           |              |         |
| > 😻 addra[7:0]        | 7f    | . 00 01  | 02 ( 03 ) | 04 / 05 / 06 | 07 08   |
| > 😻 addrb[7:0]        | 82    | . 00 (ff | fe / fd / | fc / fb / fa | f9 (f8  |
| > <b>W</b> dina[7:0]  | 7e    | . 00 01  | 02 ( 03 ) | 04 / 05 / 06 | 07 08   |
| > <b>W</b> dinb[7:0]  | 82    | . 00 (ff | fe / fd / | fc / fb / fa | f9 \ f8 |
| > <b>W</b> douta[7:0] | 7e    | . 00 01  | 02 03     | 04 / 05 / 06 | 07 08   |
| > <b>W</b> doutb[7:0] | 82    | . 00 (ff | fe fd X   | fc X fb X fa | f9 / f8 |

图 3-8 内存写入仿真波形图

| Name                  | Value | 2,500 ns     | 2,550 ns   2,600 ns | 2,650 ns    2,700 ns    2,750 ns    2,800 ns |
|-----------------------|-------|--------------|---------------------|----------------------------------------------|
| ¼ clk                 | 0     |              |                     |                                              |
| ¼ wea                 | 0     |              |                     |                                              |
| ¼ web                 | 0     |              |                     |                                              |
| > <b>W</b> addra[7:0] | 7e    | 7c / 7d / 7e | 7f                  | 00 01 02 03 04 05 06 07 08                   |
| > <b>W</b> addrb[7:0] | 82    | 84 \ 83 \    | 82                  | 00 ff fe fd fc fb fa f9 f8                   |
| > 🐶 dina[7:0]         | 7e    | 7c / 7d /    |                     |                                              |
| > <b>W</b> dinb[7:0]  | 82    | 84 \ 83 \    |                     |                                              |
| > <b>W</b> douta[7:0] | 7e    | 7c / 7d /    | 7e                  | 00 01 02 03 04 05 06 07 08                   |
| > <b>W</b> doutb[7:0] | 82    | 84 83        | 82                  | 00 / ff / fe / fd / fc / fb / fa / f9 / f8   |

图 3-9 内存读取仿真波形图

BRAM 的大小为 256, 可以看见两个端口都可以正常写入。

#### • 运算器模块:

图 3-10 运算器模块仿真测试

```
100
3FDE74D7B1078A9C BFD83A55410AC450 3FC9B44E52480348 3FE2070AD2DCF4C6 BFE8DCA42B43ADBA 3FC44EEC9F8A4F30
3FE7B4297DA794A6 3FD84A9690D19360 BFE0732CE7990114 BFD421AD604DD008 3FB743E246955030 BFEBACE395B2FD98
BFC6ECDA8A996628 BFE0CC9CFF1E3D46 BF96950834603A00 3FE3969850C9E2E4 BFCF455B4CB631E0 3FA268DCDACED7C0
BFE9F21BB1BF8A22 3FEA2E9D9A8F6A34 BFE2B62E2B48789E BFCE3104F66E7080 3FD4841059917E14 3FE089302CDC44BA
BFE4ECGE64575A1F6 3FA1CC0000208760 3FEFB93E6033919C 3FD092F1ED031470 BFE0AJ7F63F59F70A BFED3A76AD9AAECC
BF921D083DDF8140 BFBB57B61DED2FA0 BF98095A7FA2E500 BFE5620A33FC96F4 BFD1D601F55E7764 3FE85DBF902FAA3E
3FD746EEA6E51E24 BFC54E7E0E61A3F8 3FEA1219E711406C BFE9F6E04D573FF0 BFE4652689C159DA 3FEC94E29D426EC0
BFE98B8065BCF124 BFCCA9897B0B9A50 BFDAFAAEC234CF28 BFEB528B7CG0B9A4 BFE38B8ADD46E874 BFC51F801993988
BFDA8B161EC2C6970 3FD9DFACBCB3E844 BFE0A88A0F163E74 3FED6829CB415C40 BFD869D5376A104 BFE615DD79551DDE
3FB66B997B4C5B70 3FE298448EB2F568 BFBCBCC54EE12060 3FEFB87E72A41A5A BFC03BDAA985F078 BFD9081257432984
BFE0392CB0E8BEF2 3FED7E293241BF8E BFE1BC518126B4F0 BFCAB95B4F9AEF40 BFE1A163C491758E BFD06FD4E6BB8C70
BFC4E104EC64DDC8 3FEFDAEB02CACFFA 3FEA4E5277A2D704 3FB9D1809BBFB2F0 3FC8A976CA316AA0 BFEA6F48CE63D5B8
3FG3F678034C9BF390 3FD67BA78885D130 BFB2C8F51375B600 BFCA02B117BC9DD8 BFE958082540F2E68 3FD37C7B63516F30
3FEF78034C9BF390 3FD67BA78885D130 BFB2C8F51375B600 BFCA02B117BC9DD8 BFE958082540F2E68 3FD37C7B63516F30
3FEF78034C9BF390 3FD67BA788SD130 BFB2C8F51375B600 BFCA02B117BC9DD8 BFE958082540F2E68 3FD55F5949E8604
3FED7808408568270 3FC5F8D75146F400 3FC48PD1875F18 3FCA8F27C61BCF4168 3FC168ADDR8E754 3FD65BA76694
```

图 3-11 输入随机文件

| Name                | Value            | 0 n/s            | 10 ns    15 ns            | 20 ns    25 ns            |
|---------------------|------------------|------------------|---------------------------|---------------------------|
| > <b>W</b> ar[63:0] | bf921d083ddf8140 | 3fde74d7b1078a9c | 3fe7b4297da794a6          | bfc6ecda8a996628          |
| > 💆 ai[63:0]        | bfbb57b61ded2fa0 | bfd83a55410ac450 | 3fd84a9690d19360          | bfeOcc9cffle3d46          |
| > <b>W</b> br[63:0] | bf9b095a7fa2e500 | 3fc9b44e52480348 | bfe0732ce799 <b>0</b> 114 | bf96950834603a00          |
| > 💆 bi[63:0]        | bfe5620a33fc96f4 | 3fe2070ad2dcf4c6 | bfd421ad604dd008          | 3fe396985 <b>0</b> c9e2e4 |
| > <b>W</b> wr[63:0] | bfd1d601f55e7764 | bfe8dca42b43adba | 3fb743e246955030          | bfcf455b4cb63le0          |
| > 😻 wi[63:0]        | 3fe85dbf902faa3e | 3fc44eec9f8a4f30 | bfebace395b2fd98          | 3fa268dcdaced7c0          |
| > <b>W</b> cr[63:0] | bfe09ccdb6f6f7de | 3fda310b3387138e | 3feeea0b02fec91f          | bfc36b1669567 <b>0</b> 7a |
| > ₩ ci[63:0]        | 3fb97a3197ab5ce6 | bfeb23c10dcfbb90 | bfb7f78a0ffcb694          | bfe58f341f2eb3af          |
| > <b>W</b> dr[63:0] | 3fdef5fa6631ff94 | 3fe15c52174400d5 | 3fe07e47f850602d          | bfca6e9eabdc5bd6          |
| > <b>V</b> di[63:0] | bfd40a6774e16f0c | 3fb74b5e6627ba04 | 3feb4987d2d12a32          | bfd8140bbe1b8dba          |

图 3-12 运算器模块仿真测试波形图



图 3-13 输出文件与标准文件比对

随机生成(-1,1)间的一系列输入的浮点数,并计算正确的输出值。经过比对,模块可以正常工作。

• 控制器模块:

```
module fft tb();
reg clk, rst, sig, we, rev;
reg [31:0] addr;
reg [127:0] din;
wire [127:0] dout;
fft inst(clk, rst, sig, we, rev, addr, din, dout);
wire clk run, busy;
wire [16:0] rnd, iter, cycle;
assign clk_run = inst.clk_run;
assign busy = inst.busy;
assign rnd = inst.rnd;
assign iter = inst.iter;
assign cycle = inst.cycle;
initial begin
    clk = 0; sig = 0; addr = 64'd0; rst = 0; #10; rst = 1; #5; rst = 0;
    din = 0; we = 0; rev = 0;
    for (addr = 0; addr < 1024; addr = addr + 1) #20;
    #2000;
    #100;
    sig = 1; #10; sig = 0;
    #100000:
    for (addr = 0; addr < 1024; addr = addr + 1) #20;
    #20:
    $stop();
end
initial begin
    while (1) begin clk = \sim clk; \#5; end
end
endmodule
```

图 3-14 控制器模块仿真测试

```
memory_initialization_radix=16;
memory_initialization_vector=
000000000000000000
3FE3FED9534556D4
3FEF38F3AC64E589
3FECC1F0F3FCFC5D
```

图 3-15 初始化 COE 文件前 4 行



图 3-16 地址计算仿真波形图

为方便测试,测试中取较小的N=8,M=2。内存中使用 COE 文件预先存储一些(-1,1)上的数值。两块内存中为上图中 COE 文件中的前 4 个数,转换为浮点数分别为 0、0.6249、0.9757、0.8987。图 3-16 中最后两行为组合逻辑计算出的两个计算单元对应的地址,可以看见在仿真中是正确的。

| Γ | l₀ busy       | 0     |          |                                         |               |        |         |        |              |
|---|---------------|-------|----------|-----------------------------------------|---------------|--------|---------|--------|--------------|
| > | ₩ rnd[16:0]   | 00004 | 0000x X  | 00001                                   | 00002         | $\Box$ | 0000    | 3      | 0000         |
| > | ₩ iter[16:0]  | 00000 | 0000x X  | 0000 00001                              | 00000 00000   |        | 00000   | 00001  | 0000         |
| > | ₩ cycle[16:0] | 00000 | 0000x XX | 000000000000000000000000000000000000000 | (XXXXXXXXXXX  | XX     | XXXXXXX | (XXXXX | 0000         |
| > | ₩ addra][4:0] | 01,01 | OX, OX   | 00,00 02,02                             | 00,00 01,     | 01     | 00,00   | 01     | , 01         |
| > | ■ addrb][4:0] | 03,03 | 0X,0X    | 01,01 / 03,03                           | X 02,02 X 03, | 03     | 02,02   | 03     | , <b>0</b> 3 |

图 3-17 块内地址计算仿真波形图

上图是对于每一个块内两个端口的计算,当 $r \leq n - m$ 时,上一步一次运算的两个地址都在一个块内,可以分别赋给端口 A 和端口 B。当r > n - m时,则需要根据地址的第r - 1位分别讨论。实际上只要端口统一并且能够一一对应,就是不会出现地址冲突问题的,上面的两类情况也可以通过地址的前k位是否与k相等判断。如果运算单元的两个地址中第一个地址与k相等,则将其赋给内存对应的第一个地址,如果与k不等,则交叉赋给内存单元上的另一个端口即第二个。对于运算单元的第二个地址同样如此,不等则赋给内存单元的另一个地址。

#### 综合测试:



图 3-18 综合随机数据测试N = 8, M = 2

将控制器的时序与运算器结合,可以使用 COE 文件对 RAM 初始化后进行综合测试。N=8, M=2的测试如图 3-18,经过单步计算验证是正确的。

## 图 3-19 N = 1024, M = 8的仿真结果

对于N较大的情形,可以使用文件读入进行仿真,以采样率 $f_s=4096$ Hz,生成时长t=0.25s,频率f=440Hz与f=880Hz的正弦信号混合。这样傅里叶变换的结果横坐标频率范围为 $(0,f_s)=(0,4096$ Hz),分辨率为 $f_s/N=4$ Hz。

## 参考文献

- [1] Fourier transform, <a href="https://en.wikipedia.org/wiki/Fourier\_transform">https://en.wikipedia.org/wiki/Fourier\_transform</a>.
- [2] Fast Fourier transform, <a href="https://en.wikipedia.org/wiki/Fast">https://en.wikipedia.org/wiki/Fast</a> Fourier transform.