# 

计 86 任一 2018011423 2020 年 3 月 21 日

|           | 实验环境                                               |
|-----------|----------------------------------------------------|
| 操作系统:     | Windows10 家庭版 18362.72 Windows Subsystem for Linux |
| mpicc 版本: | gcc version 7.5.0                                  |

## $1 \quad \text{Ex} 3.1.13$

#### 1.1 题面

MPI\_Scatter and MPI\_Gather have the limitation that each process must send or receive the same number of data items. When this is not the case, we must use the MPI functions MPI\_Gatherv and MPI\_Scatterv. Look at the man pages for these functions, and modify your vector sum program so that it can correctly handle the case when n isn't evenly divisible by comm sz.

修改课本附带的 ch3/mpi\_vector\_add.c 程序,利用 MPI\_Gatherv and MPI\_Scatterv 函数使得它可以正确处理 n 不被进程数整除的情况。然后对程序编译、运行,简单测试是否达到了效果。

#### 1.2 解题思路

本题主要任务是解决 MPI\_Scatter 和 MPI\_Gather 在数组长度无法被进程数整除时不能使用的问题,因此在本题中,我使用了 MPI\_Scatterv 和 MPI Gatherv 进行数组的分发和收集。

在 MPI\_Scatterv 和 MPI\_Gatherv 这两个函数中,与 MPI\_Scatter 和 MPI\_Gather 较为不同的两个参数是 displacement 和 datacount,这两个参数都是整型数组类型的。displacement 指各进程接收到的数据在数组中的 开始位置,datacount 则是每个进程所接收的数据量,通过这两个参数的指定,MPI\_Scatterv 和 MPI\_Gatherv 即可实现每个进程分配指定数量的数据,因而更为灵活一些。

由于第一次书面作业的 Exercise1.1 中涉及到了此题的理论基础,即在数组长度不能被进程数整除时,各进程的元素分配计算,因此只需参考第一次作业 Exercise1.1 题的结果,即可完成此题中 displacement 和 datacount 参数的计算。不过还有一种特殊情况是,数组长度小于进程数。我对于这种情况的处理是,优先进程编号小的进程获得数据,即进程编号小于数组长度的进程分配一个元素,其他进程不分配元素也不参与运算。但是涉及到其他无元素进程的内存分配问题还值得商榷,例如出现 malloc(0) 这样的情况,这种

情况的可靠性还有待商榷,不过在本实验的测试中,这种方法并没有问题。

## 1.3 测试

本并行程序的测试通过与串行程序的对拍进行。在本机运行 make check 命令即可进行对拍 (用到了 mpiexec 命令). 经过本地测试,对拍 1000 组数据没有产生错误。下面是部分对拍测试截图。

```
nmren@DESKTOP-NV1R0OE:/mmt/d/Tsinghua/2020Spring/HPC/materials/ipp-source-use/HW/PA1/Ex3.13$ make check python check.py ./serial "mpiexec -n 4 parallel" "python datamaker.py"
Running Case #1 ... OK
Running Case #2 ... OK
Running Case #3 ... OK
Running Case #3 ... OK
Running Case #5 ... OK
Running Case #6 ... OK
Running Case #6 ... OK
Running Case #8 ... OK
Running Case #8 ... OK
Running Case #9 ... OK
Running Case #1 ... OK
```

图 1: 并行程序与对拍程序部分结果图

```
Running Case #1298 ... OK
Running Case #1299 ... OK
Running Case #1309 ... OK
Running Case #1300 ... OK
Running Case #1310 ... OK
Running Case #1311 ... OK
Running Case #1311 ... OK
Running Case #1311 ... OK
```

图 2: 并行程序与对拍程序部分结果图

# 2 实验结果

#### 2.1 仿真截图

在上图中,可以看到随着 clock 信号每次上升沿的出现,各个数列 (十六进制自然数列,十进制自然数列、奇数列、偶数列) 都发生一次变化。在 reset 信号从 0 变为 1 时,各信号回到了初始状态,reset 信号从 1 变为 0 时,各信号继续随时钟变化而变化。其中后三个信号为编码后的数列,对应没有译码的数码管使用,在本次仿真中其数值没有具体含义。1

#### 2.1.1 DigitalLife\_Online 仿真结果



图 3: testbench 对 DigitalLife\_Online 文件夹下的文件进行的仿真结果波形图 (放大后清晰可见)

在上图中,可以看到随着 clock 信号每 2 次上升沿的出现 (每 2 个时钟周期进行一次数列值的更新),各个数列 (奇数列、偶数列)都发生一次变化。在 reset 信号从 0 变为 1 时,各信号回到了初始状态,reset 信号从 1 变为 0 时,各信号继续随时钟变化而变化。其中最后一个信号为编码后的自然数数列,对应没有译码的数码管使用,在本次仿真中其数值没有具体含义。<sup>2</sup>

#### 2.2 JieLabs 测试结果

见录屏文件 JieLabsTest.mp4。在视频中展示了十六进制自然数数列、偶数列和奇数列。可看到大约每秒各数列都会发生变化。按下 reset 后可以看到各数列回到初始状态,不按 reset 时各信号随时钟变化而变化。

<sup>1</sup>为什么图中第一次遇到上升沿时,波形没有变化?详见 3.1 中的说明。

<sup>2</sup>为什么图中第一次遇到 2 个上升沿时,波形没有变化?详见 3.1 中的说明。

# 3 思考与总结

## 3.1 遇到的问题与解决方法

在我第一次仿真时,我遇到了奇怪的问题,即我在代码中设置为在 clock 信号上升沿时,更新数列和输出的值,但是得到的波形图却是在每次 clk 信号下降沿时发生变化,这令我十分不解。在参考了 StackOverflow 的解答并且与吕志远助教交流后,我学习到一个 process 中 signal 赋值的过程,只会在 process 结束时一起执行,被赋予的值是所有 signal 在 process 进行前的值,即所有信号在本轮 process 中,值仍为上一轮的值。

因此,在刚才发现的下降沿信号发生变化的问题中,出现上升沿时,该程序会进行数列临时变量的更新和输出信号的更新,但在上升沿结束时输出信号仍然保持为上一轮的结果。在下降沿时,不会有数列临时变量的更新,有输出信号的更新,这时输出信号更新为了上升沿本意要更新的数值,因此出现了在下降沿时信号变化而上升沿中信号不便的问题。出现该问题的代码和波形图如下,注意第 27 行的代码和上面的注释。

```
entity DigitalLife is
1
2
   port (
       reset: in std logic := '0';
3
       clock: in std logic := '0';
4
       natural out hex:
5
           out std logic vector (3 downto 0) := "0000"
6
7
   );
   end entity DigitalLife;
8
   architecture bhy of DigitalLife is
10
       signal natural seq hex:
           std logic vector (3 downto 0) := "0000";
11
   begin
12
       process (clock, reset) begin
13
            if (reset = '1') then
14
                natural seq hex <= "0000";
15
                natural out hex <= "0000";
16
            elsif (rising_edge(clock)) then
17
                if (natural seq hex = 15) then
18
```

```
natural seq hex <= (others => '0');
19
                else
20
                     natural seq hex \leq natural seq hex +1;
21
                end if;
22
23
            end if;
       -- When falling edge, this also be activated and
24
       -- the value of the last rising edge
25
       -- is updated at falling edge.
26
       natural_out_hex <= natural_seq_hex;</pre>
27
28
       end process;
   end architecture bhv;
29
```



图 4: 下降沿时数据变化而上升沿时数据不变

这个问题我通过将对输出信号的赋值加到了对于上升沿的判断分支中解决了,这样做不会在下降沿时触发赋值,只会在下一次上升沿时对输出变量为上一次上升沿时的值。不过这样做也有一定的小问题,即在第一次遇到上升沿时,输出信号并不会变化,只会在第二次上升沿及其之后发生规律的变化。这也解释了 2.1.1 和 2.1.2 中脚注提出的两个小疑问。

## 3.2 一些感想与建议

非常感谢老师和助教在本次实验中给予我的帮助,无论是在群聊的答疑 还是助教细心地与我私聊解决问题,都让我感受到了老师和助教的用心!

不过在 VHDL 入门、testbench 入门时,我感觉还是遇到了很大的困难。可能一方面我在面对生疏知识时接受没有那么迅速,另一方面可能也是关于 VHDL 的网络资源不是特别丰富。有可能的话,建议老师和助教为新入门的同学准备更多的参考资料或者学习路线,以帮助同学们更好地掌握这门课的知识,享受数字逻辑实验的乐趣。

# 4 参考资料

1. RISING EDGE AND FALLING EDGE PROBLEM

https://stackoverflow.com/questions/50461404

2. MODELSIM SIMULATION

https://blog.csdn.net/u013273161/article/details/82454134

3. TESTBENCH TUTORIAL

https://vhdlguide.readthedocs.io/en/latest/vhdl/testbench.html#

4. TESTBENCH CREATION

https://www.doulos.com/knowhow/perl/testbench\_creation/

5. HOW SIGNAL ASSIGNMENT WORK IN PROCESS

https://stackoverflow.com/questions/5060635/how-does-signal-assignment-work-in-a-proce