# コンピュータアーキテクチャ最終レポート

杉山月渚(03-230426)

July 27, 2025

## 1 課題1

「プロセッサを HDL で書いてみよう – シングルサイクル・プロセッサで OK」について以下にまとめる。単一サイクル構成の RISC-V プロセッサの実装における各 Verilog ファイルの役割と、その動作を示す波形画像について解説する。

### 1.1 回路構成と各モジュールの役割

本プロセッサは以下のコンポーネントから構成されている[2]:

#### 1.1.1 riscv\_single\_cycle.v

CPU 全体のトップモジュールであり、各コンポーネントを接続する役割を果たす。クロックとリセットを入力とし、プログラムカウンタ、命令メモリ、レジスタファイル、ALU、制御ユニットなどを結合する。

```
// riscv_single_cycle.v
  // シングルサイクル RISC-V プロセッサのトップモジュール
2
3
  module riscv_single_cycle (
4
                      // クロック
      input wire clk,
5
                       // リセット
      input wire reset
6
  );
      // 内部信号の宣言
9
                                 // プログラムカウンタ
      wire [31:0] pc;
10
      wire [31:0] instruction;
                                 // 命令
11
                                 // レジスタファイルからの読み出しデータ1
      wire [31:0] read_data1;
12
                                 // レジスタファイルからの読み出しデータ2
      wire [31:0] read_data2;
13
      wire [31:0] extended_immediate; // 符号拡張された即値
14
                                 // ALUの出力
      wire [31:0] alu_result;
15
                                 // レジスタファイルへの書き込みデータ <---
      reg [31:0] write_data;
16
         CHANGED FROM 'wire' TO 'reg'
                                 // データメモリからの読み出しデータwire [4:0]
      wire [31:0] mem_read_data;
                                 // ソースレジスタ1アドレス
      wire [4:0] rs1_addr;
18
                                 // ソースレジスタ2アドレス
      wire [4:0] rs2_addr;
19
      wire [4:0] rd_addr;
                                 // デスティネーションレジスタアドレス
20
                                 // レジスタ書き込みイネーブル
      wire
                reg_write_en;
21
      wire [2:0] alu_op;
                                 // ALU操作コード
22
                                 // ALUのB入力選択 (0: Reg, 1: Immediate)
      wire
                alu_src_b;
23
                                 // メモリからレジスタへのデータ選択
24
      wire [1:0] mem_to_reg;
                                 // データメモリ読み出しイネーブル // NEW: Added
25
      wire
                mem_read_en;
        for data memory control
                                 // データメモリ書き込みイネーブル // NEW: Added
               mem_write_en;
        for data memory control
27
               branch_taken;
      wire [31:0] imm_branch;
28
      wire [31:0] next_pc;
29
```

```
wire [31:0] imm_u_type;
30
       wire [31:0] imm_j_type;
31
32
       // プログラムカウンタ (PC)
33
       // リセット時はO、それ以外はPC + 4
34
       pc_unit pc_unit_inst (
35
36
           .clk(clk),
37
           .reset(reset),
           .next_pc_in(next_pc), // calculated next PC
38
                                  // current PC output
39
           .pc_out(pc)
       );
40
41
       // 命令メモリ (Instruction Memory)
42
       instruction_memory im_inst (
43
           .addr(pc),
44
45
           .instruction_out(instruction)
46
       );
^{47}
48
       always @(posedge clk) begin
49
           display("DEBUG: _\Time=%0t_|_\DC=%h_|_imm_branch=%h_|_\uberline{h}_taken=%b",
50
                   $time, pc, imm_branch, branch_taken);
       end
51
52
53
       // 命令デコード
54
       // 命令から各フィールドを抽出
55
       assign rs1_addr = instruction[19:15];
56
       assign rs2_addr = instruction[24:20];
57
58
       assign rd_addr = instruction[11:7];
59
       // GTKWAVEチェックのため
60
       wire [31:0] x0_debug, x1_debug, x2_debug, x3_debug, x4_debug, x5_debug, x6_debug
61
           ;
62
       // レジスタファイル
63
       // rs1_addrとrs2_addrからデータを読み出し、rd_addrにwrite_dataを書き込む
64
65
       register_file rf_inst (
           .clk(clk),
66
67
           .reg_write_en(reg_write_en),
           .rs1_addr(rs1_addr),
68
           .rs2_addr(rs2_addr),
69
           .rd_addr(rd_addr),
70
           .write_data(write_data),
71
           .read_data1(read_data1),
72
           .read_data2(read_data2),
73
74
           .x0_debug(x0_debug),
           .x1_debug(x1_debug),
75
           .x2_debug(x2_debug),
76
77
           .x3_debug(x3_debug),
           .x4_debug(x4_debug),
78
           .x5_debug(x5_debug),
79
           .x6_debug(x6_debug)
80
       );
81
82
       // 即値生成ユニット (Sign Extender)
83
       // Iタイプ命令の即値を32ビットに符号拡張
84
       // 拡張性のため、他のタイプの即値生成もここに追加
85
86
       sign_extender se_inst (
87
           .instruction(instruction),
           .extended_immediate(extended_immediate),
88
           .imm_branch(imm_branch),
89
           .imm_u_type(imm_u_type),
90
           .imm_j_type(imm_j_type)
91
```

```
);
92
93
       always @(posedge clk) begin
94
           $display("DEBUG: Time=%0tu|uPC=%hu|uimm_branch=%hu|ubranch_taken=%b",
95
                   $time, pc, imm_branch, branch_taken);
96
        end
97
98
99
       // ALU (Arithmetic Logic Unit)
100
       // alu_src_bによってread_data2かextended_immediateを選択し演算
101
       alu alu_inst (
102
           .src_a(read_data1),
103
           .src_b(alu_b_input), // MUX for ALU B input
104
105
           .alu_op(alu_op),
           .result(alu_result)
106
107
       );
108
       // B-type
109
110
       wire [6:0] opcode = instruction[6:0];
111
       wire [2:0] funct3 = instruction[14:12];
       localparam OP_BRANCH = 7'b1100011;
112
113
       assign branch_taken = (opcode == OP_BRANCH) && (
114
            (funct3 == 3'b000 && alu_result == 0) || // beq
115
            (funct3 == 3'b001 && alu_result != 0)
116
117
       );
118
       // J-type
119
120
       wire jump_en = (opcode == 7'b1101111); // jal
121
        assign next_pc =
           jump_en
                          ? pc + imm_j_type :
122
           branch_taken
                          ? pc + imm_branch :
123
                           pc + 4;
124
125
126
       always @(posedge clk) begin
127
           display("DEBUG:_Time=\%0t_{|}_DC=\%h_{|}_Dimm_branch=\%h_{|}_Dranch_taken=\%b,_next_pc
               =%h",
128
                   $time, pc, imm_branch, branch_taken, next_pc);
129
        end
130
       // U-type
131
       localparam OP_LUI = 7'b0110111;
132
       wire [31:0] alu_b_input = (opcode == OP_LUI) ? imm_u_type :
133
                               (alu_src_b ? extended_immediate : read_data2);
134
135
136
137
       // データメモリ (Data Memory) - Rタイプでは使用しないが、I/Sタイプで必要
138
        // 最初はダミーで置いておく
139
       data_memory dm_inst (
140
           .clk(clk),
141
           .addr(alu_result), // ロード/ストアアドレス
142
            .write_data(read_data2), // ストアデータ
143
           // .mem_read_en(1'b0), // 後で制御ユニットから接続
144
           // .mem_write_en(1'b0), // 後で制御ユニットから接続
145
           // .read_data_out()
                                   // ロードデータ (未使用だがポートは保持)
146
147
           .mem_read_en(mem_read_en), // 制御ユニットから接続 // NEW: Connected
148
            .mem_write_en(mem_write_en),// 制御ユニットから接続 // NEW: Connected
            .read_data_out(mem_read_data) // ロードデータ // NEW: Connected to new wire
149
       );
150
151
       // ライトバックステージのMux // MODIFIED: Now a MUX
152
       // mem_to_reg 信号に基づいて、ALUの結果またはメモリからの読み出しデータを
153
```

```
write_data として選択
       // mem to req:
154
       // 00: ALU結果をレジスタに書き込む (R-type, I-type (addi))
155
       // 01: メモリからのデータをレジスタに書き込む (lw)
156
       // (他の値は将来の拡張用、例: PC+4 for JAL/JALR)
157
       always @* begin
158
           case (mem_to_reg)
159
               2'b00: write_data = (jump_en ? pc + 4 : alu_result);
160
               2'b01: write_data = mem_read_data;
161
               default: write_data = 32'b0;
162
           endcase
163
       end
164
       // // alu_resultをwrite_dataとして選択。後でメモリロードデータも選択肢に追加
165
       // assign write_data = alu_result;
166
167
       // 制御ユニット (Control Unit)
168
       // 命令から制御信号を生成
169
       control_unit cu_inst (
170
           .opcode(instruction[6:0]),
171
           .funct3(instruction[14:12]),
172
           .funct7(instruction[31:25]),
173
           .reg_write_en(reg_write_en),
174
           .alu_op(alu_op),
175
           .alu_src_b(alu_src_b),
176
           \verb|.mem_read_en(mem_read_en)|, // Connected|
177
           .mem_write_en(mem_write_en),// Connected
178
                                     // Connected// 他の制御信号 (Branch, Jump,
           .mem_to_reg(mem_to_reg)
179
               PC_Sourceなど) は必要に応じて追加
180
       );
181
   endmodule
182
```

Listing 1: CPU トップモジュール

#### 1.1.2 pc\_unit.v

プログラムカウンタ (PC) を保持し、分岐やジャンプ命令に応じて次の命令アドレスを供給する。

```
// // pc_unit.v
   // // プログラムカウンタ
2
3
   // module pc_unit (
4
          input wire clk,
   //
5
   //
          input wire reset,
6
7
          input wire [31:0] imm_branch, // 分岐・ジャンプのオフセット(符号付き)
   //
8
          input wire branch_taken,
                                         // beq, bne が成功した場合 1
   //
                                         // jal, jalr などジャンプ命令が有効な場合 1
          input wire jump_en,
10
   //
11
                                         // 現在のPC
          output reg [31:0] pc_out
12
   //);
13
14
          wire [31:0] pc_plus4 = pc_out + 4;
   //
15
          wire [31:0] pc_branch_target = pc_out + imm_branch;
   //
16
17
          wire [31:0] next_pc =
18
              (branch_taken // jump_en) ? pc_branch_target : pc_plus4;
19
   //
20
          always @(posedge clk or posedge reset) begin
21
22
   //
              if (reset) begin
                  pc_out <= 32'h00000000;
   //
^{23}
   //
              end else begin
24
  11
                  pc_out <= next_pc;</pre>
25
```

```
end
26
    //
27
            end
28
    // endmodule
29
    // pc_unit.v
30
31
32
   module pc_unit (
33
        input wire clk,
        input wire reset,
34
        input wire [31:0] next_pc_in,
35
        output reg [31:0] pc_out
36
   );
37
38
        always @(posedge clk or posedge reset) begin
39
40
             if (reset)
                 pc_out <= 32'h00000000;
41
42
43
                 pc_out <= next_pc_in;</pre>
44
        end
45
    endmodule
46
```

Listing 2: PC 管理ユニット

### 1.1.3 instruction\_memory.v

命令 ROM として動作し、プログラムカウンタから指定された命令を返す。mem 配列にテスト用命令が事前に格納されている。

```
// instruction_memory.v
   // 命令メモリ (ROMとして実装)
   module instruction_memory (
4
       input wire [31:0] addr,
5
       output wire [31:0] instruction_out
6
   );
7
8
       // 1024ワード (4KB) のメモリを想定
9
       reg [31:0] mem [0:1023];
10
11
12
       initial begin
           // テスト用の命令
13
           // I命令:add
14
           // 例: addi x1, x0, 1
                                 (0x00100093)
15
                                 (0x00200113)
                 addi x2, x0, 2
16
           //
           11
                 add x3, x1, x2 (0x002081B3)
17
           //
                 sub x4, x3, x1 (0x40118233)
18
           // アドレスはワードアドレス (バイトアドレス/4) で指定
19
           // mem[0] = 32'h00100093; // addi x1, x0, 1
20
           // mem[1] = 32'h00200113; // addi x2, x0, 2
21
           // mem[2] = 32'h002081B3; // add x3, x1, x2 (x3 = x1 + x2 = 1 + 2 = 3)
22
           // mem[3] = 32'h40118233; // sub x4, x3, x1 (x4 = x3 - x1 = 3 - 1 = 2)
23
24
25
           // テスト用の命令 [funct7][rs2][rs1][funct3][rd][opcode]
          // I-type
26
           mem[0] = 32'b000000000001_00000_000_0001_0010011; // addi x1, x0, 1
27
               x1 = 1
           mem[1] = 32'b000000000010_00000_000_00010_0010011; // addi x2, x0, 2
28
29
           // R-type
30
           mem[2] = 32'b0000000_00010_00001_000_00011_0110011; // add x3, x1, x2
31
               x3 = x1 + x2 = 3
```

```
mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
32
                 x4 = x3 - x1 = 2
                   = 32'b0000000_00010_00011_100_00101_0110011; // xor x5, x3, x2
            mem [4]
33
                 x5 = x3 ^ x2 = 1
                    = 32'b0000000_00010_00011_110_00110_0110011; // or x6, x3, x2
34
            mem [5]
                 x6 = x3 \mid x2 = 3
            mem[6] = 32'b0000000_00010_00011_111_001111_0110011; // and x7, x3, x2
                 x7 = x3 & x2 = 2
            mem[7] = 32'b0000000_00010_00011_001_01000_0110011; // sll x8, x3, x2
36
                 x8 = x3 << x2 = 12
            mem[8] = 32'b0000000_00010_00011_101_01001_0110011; // srl x9, x3, x2
37
                 x9 = x3 >> x2 = 0
38
            // I-type (load, shift)
39
            // mem[8] = 32'b000000000000000000010_111_0001011; // lw x5, 0(x8)
40
                     \rightarrow x5 = MEM[x8+0]
            // mem[4] = 32'b000000000010_00001_001_01000_0010011; // slli x8, x1, 2
41
                \rightarrow x8 = x1 << 2 = 4
            // mem[5] = 32'b010000000010_00001_101_01001_0010011; // srai x9, x1, 2
42
                \rightarrow x9 = x1 >>> 2 = 0
43
            // // S-type
44
            // mem[5] = 32'b0000000_00101_00010_010_00100_0100011; // sw
                                                                               x5, 4(x2)
45
                      \rightarrow MEM[x2+0] = x5
            // mem[6] = 32'b000000000100_00010_010_00110_0000011; // lw
                                                                               x6, 4(x2)
46
                     \rightarrow x6 = MEM[x2+4]
47
            // B-type
48
            // mem[5] = 32'b0000000_00011_00010_000_01000_1100011; // beq x2, x3, +8
49
                \rightarrow branch not taken
            // mem[6] = 32'b0000000_00011_00010_001_01000_1100011; // bne x2, x3, +8
50
                \rightarrow branch taken
51
            // // U-type
52
            // mem[7] = 32'b000000000000000001_00101_0110111; // lui x5, 0x0
53
                \rightarrow x5 = 0x00000000
            // mem[8] = 32'b00010010001101000101_00001_0110111; // lui\ x1, 0x12345 
ightarrow
54
                 x13 = 0x12345000
55
            // // J-type
56
            // mem[5] = 32'h002000ef; // jal x1, 4
57
       end
58
59
       assign instruction_out = mem[addr[31:2]]; // バイトアドレスからワードアドレスに
60
            変換
61
   endmodule
62
```

Listing 3: 命令メモリ

#### 1.1.4 register\_file.v

32 本のレジスタを持ち、読み出し・書き込み操作を制御信号に基づいて実行する。デバッグ用に $x0\sim x6$  の出力も提供している。

```
// register_file.v
  // RISC-V レジスタファイル
2
3
  module register_file (
4
     input wire clk,
5
                               // レジスタ書き込みイネーブル
6
     input wire reg_write_en,
                               // 読み出しアドレス1
     input wire [4:0] rs1_addr,
7
                              // 読み出しアドレス2
     input wire [4:0] rs2_addr,
```

```
input wire [4:0] rd_addr, // 書き込みアドレス
9
       input wire [31:0] write_data, // 書き込みデータ
10
       output wire [31:0] read_data1,
11
       output wire [31:0] read_data2,
12
       output wire [31:0] x0_debug, x1_debug, x2_debug, x3_debug, x4_debug, x5_debug,
13
          x6_debug
   );
15
       reg [31:0] registers [0:31]; // 32個の32ビットレジスタ
16
17
       // 初期化 (オプション:シミュレーション用に0クリア)
18
       integer i;
19
       initial begin
20
           for (i = 0; i < 32; i = i + 1) begin
21
               registers[i] = 32'h00000000;
22
23
24
       end
25
26
       // 読み出しポート (組み合わせ回路)
       // x0 レジスタは常に0
27
       assign read_data1 = (rs1_addr == 5'h00) ? 32'h00000000 : registers[rs1_addr];
28
       assign read_data2 = (rs2_addr == 5'h00) ? 32'h00000000 : registers[rs2_addr];
29
30
       // 書き込みポート (同期回路)
31
       always @(posedge clk) begin
32
33
           if (reg_write_en) begin
               if (rd_addr != 5'h00) begin // x0 レジスタには書き込まない
34
35
                   registers[rd_addr] <= write_data;
               end
36
37
           end
       end
38
39
       assign x0_debug = registers[0];
40
       assign x1_debug = registers[1];
41
42
       assign x2_debug = registers[2];
43
       assign x3_debug = registers[3];
44
       assign x4_debug = registers[4];
       assign x5_debug = registers[5];
45
46
       assign x6_debug = registers[6];
47
   endmodule
48
```

Listing 4: レジスタファイル

#### 1.1.5 alu.v

加算・減算・論理演算などを行う演算器。alu\_op 信号により動作内容が決定される。

```
// alu.v
   // 算術論理ユニット (ALU)
2
3
4
  module alu (
      input wire [31:0] src_a,
5
      input wire [31:0] src_b,
6
                      alu_op, // 制御ユニットからのALU操作コード
      input wire [2:0]
7
      output reg [31:0] result
8
      // output wire zero_flag // 将来的にゼロフラグなども追加
9
  );
10
11
      // ALU操作コードの定義 (例)
12
      localparam ALU_ADD = 3'b000; // 加算
13
      localparam ALU_SUB = 3'b001; // 減算
14
      localparam ALU_AND = 3'b010; // 論理積
15
```

```
= 3'b011; // 論理和
       localparam ALU_OR
16
       localparam ALU_XOR = 3'b100; // 排他的論理和
17
                           = 3'b101;
       localparam ALU_SLL
18
       localparam ALU_SRL
                           = 3'b110;
19
       localparam ALU_SRA
                           = 3'b111;
20
       // 他の命令 (SLL, SRL, SRA, SLT, SLTUなど) は必要に応じて追加
21
22
23
       always @(*) begin
           case (alu_op)
24
               ALU_ADD: result = src_a + src_b;
25
               ALU_SUB: result = src_a - src_b;
26
               ALU_AND: result = src_a & src_b;
27
               ALU_OR: result = src_a | src_b;
28
               ALU_XOR: result = src_a ^ src_b;
29
               ALU_SLL: result = src_a << src_b[4:0];
30
31
               ALU_SRL: result = src_a >> src_b[4:0];
32
               ALU_SRA: result = $signed(src_a) >>> src_b[4:0];
               default: result = 32'hxxxxxxxxx; // 未定義の場合
33
           endcase
34
35
       end
36
       // assign zero_flag = (result == 32'h00000000) ? 1'b1 : 1'b0;
37
38
   endmodule
39
```

Listing 5: ALU

#### 1.1.6 control\_unit.v

命令の opcode, funct3, funct7 から各種制御信号(レジスタ書き込み許可、ALU 操作、分岐、メモリ読み書きなど)を生成する。

```
// control_unit.v
   // 制御ユニット
2
3
  module control_unit (
4
      input wire [6:0] opcode,
5
      input wire [2:0] funct3,
6
      input wire [6:0] funct7,
7
                                // レジスタファイル書き込みイネーブル
      output reg reg_write_en,
8
                                // ALU操作コード
9
      output reg [2:0] alu_op,
10
      output reg alu_src_b,
                                // ALUのB入力選択 (O: Reg, 1: Immediate)
                                // データメモリ読み出しイネーブル
11
      output reg mem_read_en,
                                // データメモリ書き込みイネーブル
12
      output reg mem_write_en,
      output reg [1:0] mem_to_reg // メモリからレジスタへのデータ選択
13
      // 他の制御信号 (Branch, Jump, PC_Sourceなど) は必要に応じて追加
14
  );
15
16
      // RISC-V Opcode の定義 (一部)
17
      localparam OP_R_TYPE = 7'b0110011; // Rタイプ命令 (add, sub, and, or, xorなど)
18
                         = 7'b0010011; // Iタイプ即値命令 (addi, andiなど)
19
      localparam OP_IMM
      localparam OP_LOAD
                         = 7'b0000011; // ロード命令 (lwなど)
20
      localparam OP_STORE = 7'b0100011; // ストア命令 (swなど)
21
22
      localparam OP_BRANCH = 7'b1100011; // Bタイプ (beq, bne など)
23
      localparam OP_LUI
                         = 7'b0110111; // U夕 1 \% (lui)
                         = 7'b1101111; // Jタイプ (jal)
24
      localparam OP_JAL
25
      // ALU操作コード (ALU.vと同期)
26
      localparam ALU_ADD
                        = 3'b000;
27
      localparam ALU_SUB
                        = 3'b001;
28
29
      localparam ALU_AND
                        = 3'b010;
      localparam ALU_OR
                         = 3'b011;
30
31
      localparam ALU_XOR = 3'b100;
```

```
localparam ALU_SLL = 3'b101;
32
       localparam ALU_SRL = 3'b110;
33
       localparam ALU_SRA = 3'b111;
34
35
       // mem_to_reg の定義
36
37
       localparam MEM2REG_ALU_RESULT = 2'b00;
38
       localparam MEM2REG_MEM_DATA
                                     = 2'b01:
39
40
       always @(*) begin
41
           // デフォルト値 (安全のため)
42
           reg_write_en = 1'b0;
43
           alu_op
                        = ALU_ADD; // デフォルトは加算としておく
44
                        = 1'b0;
                                   // デフォルトはレジスタ2
45
           alu_src_b
           mem_read_en = 1'b0;
46
47
           mem_write_en = 1'b0;
                       = MEM2REG_ALU_RESULT;
48
           mem_to_reg
49
50
           case (opcode)
               OP_R_TYPE: begin // Rタイプ命令 (add, sub, and, or, xorなど)
51
                   reg_write_en = 1'b1;
52
                              = 1'b0; // ALUのB入力はレジスタ2
                   alu_src_b
53
                   mem_read_en = 1'b0;
54
                   mem_write_en = 1'b0;
55
                               = MEM2REG_ALU_RESULT;
56
                   mem_to_reg
                   case ({funct7, funct3}) // funct7 と funct3 でALU操作を決定
57
                       // add (funct7=0x00, funct3=0x0)
58
                       {7'h00, 3'b000}: alu_op = ALU_ADD;
59
                       // sub (funct7=0x20, funct3=0x0)
60
                       {7'h20, 3'b000}: alu_op = ALU_SUB;
61
                       // and (funct7=0x00, funct3=0x7)
62
                       {7'h00, 3'b111}: alu_op = ALU_AND;
63
                       // or (funct7=0x00, funct3=0x6)
64
                       {7'h00, 3'b110}: alu_op = ALU_OR;
65
                       // xor (funct7=0x00, funct3=0x4)
66
67
                       {7'h00, 3'b100}: alu_op = ALU_XOR;
68
                       // sll (funct7=0x00, funct3=0x1)
                       {7'h00, 3'b001}: alu_op = ALU_SLL;
69
                       // srl (funct7=0x00, funct3=0x5)
70
                       {7'h00, 3'b101}: alu_op = ALU_SRL;
71
                       // sra (funct7=0x20, funct3=0x5)
72
                       {7'h20, 3'b101}: alu_op = ALU_SRA;
73
                       default: begin
74
75
                           // 未サポートのRタイプ命令
                           alu_op = ALU_ADD; // デフォルト
76
77
                       end
                   endcase
78
               end
79
               OP_IMM: begin // addi, andi など
80
                   reg_write_en = 1'b1;
81
                              = 1'b1; // ALUのB入力は即値
                   alu_src_b
82
                   mem_read_en = 1'b0;
83
                   mem_write_en = 1'b0;
84
                   mem_to_reg
                               = MEM2REG_ALU_RESULT;
85
                   case (funct3)
86
                       3'b000: alu_op = ALU_ADD; // addi
87
                       3'b111: alu_op = ALU_AND; // andi
88
89
                       3'b001: alu_op = ALU_SLL; // slli
                       3'b101: begin // srli or srai
90
                       // Check funct7[5] (which corresponds to instruction bit 30)
91
                       if (funct7[5] == 1'b1) begin
92
                           alu_op = ALU_SRA; // srai
93
                       end else begin
94
```

```
alu_op = ALU_SRL; // srli
95
                       end
96
                   end// 他のIタイプ命令
97
                       default: alu_op = ALU_ADD;
98
                   endcase
99
               end
100
               OP_LOAD: begin // lw など
101
                   reg_write_en = 1'b1;
102
                   alu_src_b = 1'b1; // アドレス計算に即値を使用
103
                   mem_read_en = 1'b1;
104
                   mem_write_en = 1'b0;
105
                   mem_to_reg = MEM2REG_MEM_DATA;
106
                   alu_op
                               = ALU_ADD; // ベースアドレス + オフセット
107
108
               OP_STORE: begin // sw など
109
110
                   reg_write_en = 1'b0;
                             = 1'b1; // アドレス計算に即値を使用
111
                   alu_src_b
                   mem_read_en = 1'b0;
112
113
                   mem_write_en = 1'b1;
                   mem_to_reg = MEM2REG_ALU_RESULT; // 関係ないがデフォルト
114
                               = ALU_ADD; // ベースアドレス + オフセット
115
                   alu_op
116
117
               OP_BRANCH: begin
                   reg_write_en = 1'b0;
118
                              = 1'b0; // 比較は2つのレジスタ間
119
                   alu_src_b
                   mem_read_en = 1'b0;
120
                   mem_write_en = 1'b0;
121
122
                   mem_to_reg
                               = MEM2REG_ALU_RESULT;
123
                   case (funct3)
                       3'b000: alu_op = ALU_SUB; // beq: x == y \rightarrow x - y == 0
124
                       3'b001: alu_op = ALU_SUB; // bne: x != y \rightarrow x - y != 0
125
                       default: alu_op = ALU_SUB; // 他の比較命令 (未実装なら一旦SUB)
126
                   endcase
127
                   // 分岐制御信号 (別途 branch_taken などの生成が必要)
128
129
130
               OP_LUI: begin
131
                   reg_write_en = 1'b1;
                   alu_src_b
                              = 1'b1;
                                        // 無視されるが一応設定
132
                   mem_read_en = 1'b0;
133
                   mem_write_en = 1'b0;
134
                   mem_to_reg = MEM2REG_ALU_RESULT;
135
                                = ALU_ADD; // ALUは不要だが、0 + immの形にしてもよい
                   alu_op
136
               end
137
               OP_JAL: begin
138
                   reg_write_en = 1'b1;
139
140
                   alu_src_b
                              = 1'b0; // PC + 4 \rightarrow rd
                   mem_read_en = 1'b0;
141
                   mem_write_en = 1'b0;
142
                   mem_to_reg = MEM2REG_ALU_RESULT;
143
                                = ALU_ADD; // PC + 4 (ただし別ロジックで)
144
                   alu_op
145
               end
           default: begin
146
                   // 未サポートの命令
147
               end
148
           endcase
149
        end
150
151
152
   endmodule
```

Listing 6: 制御ユニット

#### 1.1.7 sign\_extender.v

I/B/U/J型命令の即値を符号拡張して 32 ビットに変換するユニット。

```
// sign_extender.v
   // 即値生成・符号拡張ユニット
   // 将来的には他の命令フォーマットにも対応させる
5
  module sign_extender (
      input wire [31:0] instruction,
6
      output wire [31:0] extended_immediate,
7
      output wire [31:0] imm_branch,
8
      output wire [31:0] imm_u_type,
9
      output wire [31:0] imm_j_type
10
   );
11
      // B-type
12
      assign imm_branch = {{19{instruction[31]}}, instruction[31], instruction[7],
13
                       instruction[30:25], instruction[11:8], 1'b0};
14
15
      // Iタイプ命令の即値 (instruction[31:20]) を符号拡張
16
      // RISC-Vは下位12ビットの即値の場合、上位20ビットを最上位ビットで埋める
17
      assign extended_immediate = {{20{instruction[31]}}}, instruction[31:20]};
18
19
      // U type
20
      assign imm_u_type = {instruction[31:12], 12'b0};
21
22
23
      // J type
      assign imm_j_type = {{12{instruction[31]}}, instruction[19:12], instruction[20],
           instruction[30:21], 1'b0};
25
26
   endmodule
```

Listing 7: 即値生成ユニット

#### 1.1.8 data\_memory.v

ロード(1w)・ストア(sw)命令に使用されるデータメモリ。読み書きは $mem\_read\_en$ と $mem\_write\_en$ により制御される。

```
// data_memory.v
1
   module data_memory (
2
                            clk,
3
       input wire
               wire [31:0] addr,
        input
4
               wire [31:0] write_data,
       input
5
        input
                            mem_read_en,
               wire
6
        input
               wire
                            mem_write_en,
7
       output reg [31:0] read_data_out
8
   );
9
10
       reg [31:0] mem [0:1023];
11
        integer i;
12
13
        initial begin
14
            for (i = 0; i < 1024; i = i + 1)
15
                mem[i] = 32'hDEAD_BEEF;
16
            mem[2] = 32'hDEAD_BEEF;
17
       end
18
19
       // 読み出し
20
21
       always @(*) begin
            if (mem_read_en) begin
22
                read_data_out = mem[addr[31:2]];
23
   `ifdef DEBUG_MEM
```

```
display("[\%0t]_DMEM_READ_:_addr=\%h_idx=\%0d_data=\%h",
25
                           $time, addr, addr[31:2], read_data_out);
26
    `endif
27
            end else begin
28
                 read_data_out = 32'h0000_0000;
29
30
            end
31
        end
32
        // 書き込み (同期)
33
        always @(posedge clk) begin
34
            if (mem_write_en) begin
35
                mem[addr[31:2]] <= write_data;</pre>
36
    `ifdef DEBUG_MEM
37
                 display("[\%0t]_DMEM_WRITE:_addr=\%h_idx=\%0d_data=\%h",
38
                           $time, addr, addr[31:2], write_data);
39
40
    `endif
41
            end
42
        end
43
44
   endmodule
```

Listing 8: データメモリ

#### 1.2 動作波形と確認

以下に、ALU演算やジャンプ命令の動作確認を行ったときの波形を示す。

#### 1.2.1 add, sub, xor 命令

```
// I-type
1
       mem[0] = 32'b00000000001_00000_000_0001_0010011; // addi x1, x0, 1
2
       mem[1] = 32'b000000000010_00000_000_00010_0010011; // addi x2, x0, 2
                                                                                           \rightarrow x2
           = 2
4
       // R-type
5
       mem[2] = 32'b0000000_00010_00001_000_00011_0110011; // add x3, x1, x2
                                                                                           \varepsilon_{x} \leftarrow
6
           = x1 + x2 = 3
       mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
                                                                                           \rightarrow x4
7
           = x3 - x1 = 2
```



Figure 1: I, R-type 命令の動作波形

#### 1.2.2 or, and, sll, srl 命令

```
mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
                                                                                          \rightarrow x4
7
           = x3 - x1 = 2
       mem[4] = 32'b0000000_00010_00011_100_00101_0110011; // xor x5, x3, x2
                                                                                          \rightarrow x5
8
            = x3 ^ x2 = 1
       mem[5] = 32'b0000000_00010_00011_110_00110_0110011; // or x6, x3, x2
                                                                                          \rightarrow x6
           = x3 | x2 = 3
        mem[6] = 32'b0000000_00010_00011_111_001111_0110011; // and x7, x3, x2
10
                                                                                          \rightarrow x7
           = x3 & x2 = 2
       mem[7] = 32'b0000000_00010_00011_001_01000_0110011; // sll x8, x3, x2
                                                                                          \rightarrow x8
11
           = x3 << x2 = 12
       mem[8] = 32'b0000000_00010_00011_101_01001_0110011; // srl x9, x3, x2
                                                                                          \rightarrow x9
12
           = x3 >> x2 = 0
```



Figure 2: or, and, sll, srl 命令の動作波形

#### 1.2.3 lw, sw 命令

```
// I-type
       mem[0] = 32'b000000000001_00000_00001_0010011; // addi x1, x0, 1
                                                                                          \rightarrow x1
2
           = 1
       mem[1] = 32'b000000000010_00000_000_0010_0010011; // addi x2, x0, 2
                                                                                          \rightarrow x2
3
           = 2
4
        // R-type
5
       mem[2] = 32'b0000000_00010_00001_000_00011_0110011; // add x3, x1, x2
                                                                                          \epsilon_{x} \leftarrow
6
           = x1 + x2 = 3
       mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
                                                                                          \rightarrow x4
7
            = x3 - x1 = 2
       mem[4] = 32'b0000000_00010_00011_100_00101_0110011; // xor x5, x3, x2
                                                                                          \rightarrow x5
           = x3 ^ x2 = 1
       mem[5] = 32'b0000000_00010_00011_110_00110_0110011; // or x6, x3, x2
9
                                                                                          \rightarrow x6
           = x3 | x2 = 3
       mem[6] = 32'b0000000_00010_00011_111_00111_0110011; // and x7, x3, x2
                                                                                          \rightarrow x7
10
           = x3 & x2 = 2
       mem[7] = 32'b0000000_00010_00011_001_01000_0110011; // sll x8, x3, x2
                                                                                          → x8
11
           = x3 << x2 = 12
       mem[8] = 32'b00000000000000000010_111_00101_0000011; // lw x5, 0(x8)
                                                                                            \rightarrow
12
            x5 = MEM[x8+0]
```



Figure 3: or, and, sll, srl 命令の動作波形

#### 1.2.4 beg, bne 命令

```
mem[1] = 32'b000000000010_00000_000_00010_0010011; // addi x2, x0, 2 \rightarrow x2
3
4
       // R-type
5
       mem[2] = 32'b0000000_00010_00001_000_00011_0110011; // add x3, x1, x2
                                                                                        \rightarrow x3
6
           = x1 + x2 = 3
       mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
                                                                                        \rightarrow x4
           = x3 - x1 = 2
       mem[4] = 32'b0000000_00010_00011_100_00101_0110011; // xor x5, x3, x2
                                                                                        \rightarrow x5
8
           = x3 ^ x2 = 1
9
       // B-type
10
       mem[5] = 32'b0000000_00011_00010_000_01000_1100011; // beq x2, x3, +8
11
           branch not taken
       mem[6] = 32'b0000000_00011_00010_001_01000_1100011; // bne x2, x3, +8
12
           branch taken
13
       // U-type
14
15
       mem[7] = 32'b0000000000000000001_00101_0110111; // lui x5, 0x0
                                                                                      \rightarrow x5 =
           0x0000000
       mem[8] = 32'b00010010010101000101_00001_0110111; // lui x1, 0x12345 \rightarrow x13 =
16
           0x12345000
```



Figure 4: B-type, U-type 命令の動作波形

#### 1.2.5 jal 命令

```
// I-type
1
       mem[0] = 32'b000000000001_00000_000_0001_0010011; // addi x1, x0, 1
2
       mem[1] = 32'b000000000010_00000_000_0010_0010011; // addi x2, x0, 2
                                                                                        \rightarrow x2
3
          = 2
4
       // R-type
5
       mem[2] = 32'b0000000_00010_00001_000_00011_0110011; // add x3, x1, x2
                                                                                        \rightarrow x3
6
          = x1 + x2 = 3
       mem[3] = 32'b0100000_00001_00011_000_00100_0110011; // sub x4, x3, x1
7
                                                                                        \rightarrow x4
          = x3 - x1 = 2
       mem[4] = 32'b0000000_00010_00011_100_00101_0110011; // xor x5, x3, x2
                                                                                        \rightarrow x5
8
           = x3 ^ x2 = 1
9
       mem[5] = 32'h002000ef; // jal x1, 4
```



Figure 5: jal 命令の動作波形(x1 に PC+4 が保存される)

### 2 課題2

2023 年以降に主要なコンピュータアーキテクチャ会議で発表された論文の中から、「FlashLLM: A Chiplet-Based In-Flash Computing Architecture to Enable On-Device Inference of 70B LLM」 (MICRO 2024) [1] を選定し、その概要と将来のアーキテクチャ課題への貢献について詳述する。この論文は、大規模言語モデル(LLM)をスマートフォンや車両などのエッジデバイスに展開する際の、メモリ帯域幅の制約と電力効率の課題に正面から取り組んでいる。FlashLLM は、チップレット技術を介して NPU(ニューラルプロセッシングユニット)に直接接続された専用のフラッシュチップを特徴とする、革新的なハイブリッドアーキテクチャを提案している。この設計は、モデルの重みを行動中にフラッシュメモリ内で処理する「インフラッシュコンピューティング」の概念を導入することで、データ転送量を劇的に削減し、結果として推論速度とエネルギー効率を大幅に向上させている。

#### 2.1 モチベーション: エッジデバイスにおける LLM 展開の課題

大規模言語モデル(LLM)は、そのテキスト生成能力により、現代の自然言語処理の中核を担っている。ChatGPTの急速な普及が示すように、LLM はすでにテクノロジー業界の製品に深く組み込まれている。しかし、LLM は数十億から数兆に及ぶ膨大な数のパラメータを必要とし、スマートフォンや車両などのリソースが限られたエッジデバイスへの展開において、重大な課題を提起している。既存のフラッシュオフロード技術では、モデルの重みをフラッシュベースのストレージにオフロードする研究が盛んに行われているが、フラッシュメモリの限られた帯域幅が推論速度を著しく阻害するという問題がある。特に、エッジ推論シナリオではバッチサイズが1であり、演算強度が最小限であるため、この帯域幅の制約がボトルネックとなる。これは、プロセッサとメモリ間のデータ転送速度の不均衡を示す「メモリウォール」問題が、LLMの文脈でさらに悪化していることを意味する。

#### 2.2 アイデア:FlashLLM のチップレットベースハイブリッドアーキテクチャ

課題に対処するため、FlashLLM は 70B LLM のオンデバイス推論のために特別に設計された、チップレットベースのハイブリッドアーキテクチャを導入している。このアーキテクチャは、以下の主要コンポーネントで構成される:

- 専用フラッシュチップ: チップレット技術を介してニューラルプロセッシングユニット (NPU) に直接接続されている。主な目的は、モデルの重み行列を保存することと、オンダイ処理能力を活用してデータ転送を削減することである
- ニューラルプロセッシングユニット(NPU): フラッシュチップと連携して行列演算を実行する。さらに、NPU は DRAM 内のキーバリュー(KV)キャッシュを管理し、フラッシュのオンダイ処理能力を超える特殊な機能計算を担当する。

#### 2.3 効果

Table 1: LLM モデルにおける推論速度と高速化率 [1]

| LLM モデルサイズ | 推論速度(トークン/秒) | 既存のフラッシュオフロード技術に対する速度向上 |
|------------|--------------|-------------------------|
| 70B        | 3.44         | 22 倍以上                  |
| 7B         | 36.34        | 45 倍以上                  |

Table 1 が示すように、FlashLLM は、70B LLM で 3.44 トークン/秒、7B LLM で 36.34 トークン/秒の推論速度を達成し、既存のフラッシュオフロード技術と比較して 22 倍から 45 倍の速度向上を実現している。この性能向上は、メモリ帯域幅、容量、電力という複数のボトルネックに同時に取り組む、多層的な解決策の有効性を示している。

#### 2.4 将来のアーキテクチャ課題への貢献

FlashLLM が示す方向性は、将来的な「オンデバイス LLM」における以下の課題に答えている:

- 帯域制約と電力消費の克服:データを「動かす」より「現地で計算する」アプローチ
- チップレット技術の実用化:SoC 外部の非 DRAM 記憶装置との協調演算という新しいデザイン空間
- 誤り訂正との統合アーキテクチャ:誤りに脆弱なフラッシュでも AI 推論が実行可能になる 設計の第一歩

### References

- [1] Zhongkai Yu, Shengwen Liang, Tianyun Ma, Yunke Cai, Ziyuan Nan, Di Huang, Xinkai Song, Yifan Hao, Jie Zhang, Tian Zhi, Yongwei Zhao, Zidong Du, Xing Hu, Qi Guo, and Tianshi Chen. Cambricon-llm: A chiplet-based hybrid architecture for on-device inference of 70b llm, 2024.
- [2] 修一 坂井. **コンピュータアーキテクチャ**. 電子情報通信レクチャーシリーズ C-9. コロナ社, 2004.