## **Laboratory Exercise 12**

## **Cache Memory**

Họ và tên: Nguyễn Thị Thùy Dung

MSSV: 20215009

## Running the Data Cache Simulator tool

1. Close any MIPS programs you are currently using.

2. Open the program **row-major.asm** from the Examples folder. This program will traverse a 16 by 16 element integer matrix in row-major order, assigning elements the values 0 through 255 in order. It performs the following algorithm:

```
for (row = 0; row < 16; row++)
  for (col = 0; col < 16; col++)
    data[row][col] = value++;</pre>
```

- 3. Assemble the program.
- 4. From the **Tools** menu, select **Data Cache Simulator**. A new frame will appear in the middle of the screen.



This is a MARS Tool that will simulate the use and performance of cache memory when the underlying MIPS program executes. Notice its three major sections:

- Cache Organization: You can use the combo boxes to specify how the cache will be configured for this run. Feel free to explore the different settings, but the default is fine for now.
- Cache Performance: With each memory access during program execution, the simulator will determine whether or not that access can be satisfied from cache and update the performance display accordingly.
- *Tool Control:* These buttons perform generic control functions as described by their labels.
- 5. Click the tool's **Connect to MIPS** button. This causes the tool to register as an observer of MIPS memory and thus respond during program execution.
- 6. Back in MARS, adjust the **Run Speed slider** to 30 instructions per second. It is located at the right side of the toolbar. This slows execution so you can watch the Cache Performance animation.



- 7. In MARS, run the program using the **Run** toolbar button , the menu item or keyboard shortcut. Watch the Cache Performance animate as it is updated with every access to MIPS memory.
- 8. What was the final cache hit rate? \_\_\_\_\_75%\_\_\_\_\_. With each miss, a block of 4 words are written into the cache. In a row-major traversal, matrix elements are accessed in the same order they are stored in memory. Thus each cache miss is followed by 3 hits as the next 3 elements are found in the same cache block. This is followed by another miss when Direct Mapping maps to the next cache block, and the patterns repeats itself. So 3 of every 4 memory accesses will be resolved in cache.

Khi duyệt theo từng hàng, bởi vì 1 block chứa 4 word (chứa 4 phần tử của mảng), khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo hàng) thì kiểm tra xem trong Cache có chứa không. Bởi vì vừa đã lưu cả block vào Cache nên phần tử đó có trong Cache được hit. Như vậy 1 block có 4 phần tử thì sẽ mất phần tử đầu bị miss, còn 3 phần tử được hit. Cứ duyệt như vậy nên tỷ lệ sẽ là  $\frac{3}{4} = 75\%$ 



9. Given that explanation, what do you predict the hit rate will be if the block size is increased from 4 words to 8 words? \_\_\_\_\_\_. 88%\_\_\_\_\_\_. With each miss, a block of 8 words are written into the cache. In a row-major traversal, matrix elements are accessed in the same order they are stored in memory. Thus each cache miss is followed by 7 hits as the next 7 elements are found in the same cache block. This is followed by another miss when Direct Mapping maps to the next cache block, and the patterns repeats itself. So 7 of every 8 memory accesses will be resolved in cache.

Khi duyệt theo từng hàng, bởi vì 1 block chứa 8 word (chứa 8 phần tử của mảng), khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo hàng) thì kiểm tra xem trong Cache có chứa không. Bởi vì vừa đã lưu cả block vào Cache nên phần tử có trong Cache đó được hit. Như vậy 1 block có 8 phần tử thì sẽ mất phần tử đầu bị miss, còn 7 phần tử được hit. Cứ duyệt như vậy nên tỷ lệ sẽ là 7/8=87.5% và được làm tròn lên 88%

| Data Cache Simulation Tool, Version 1.2        |             |                          |       |  |  |  |  |
|------------------------------------------------|-------------|--------------------------|-------|--|--|--|--|
| Simulate and illustrate data cache performance |             |                          |       |  |  |  |  |
| Cache Organization                             |             |                          |       |  |  |  |  |
| Placement Policy Direct                        | t Mapping - | Number of blocks         | 8 🔻   |  |  |  |  |
| Block Replacement Policy                       | LRU ▼       | Cache block size (words) | 8 🔻   |  |  |  |  |
| Set size (blocks)                              | 1 ▼         | Cache size (bytes)       | 256   |  |  |  |  |
| Cache Performance                              |             |                          |       |  |  |  |  |
| Memory Access Count                            | 256         | Cache Block Table        |       |  |  |  |  |
| Cache Hit Count                                | 224         |                          |       |  |  |  |  |
| Cache Miss Count                               | 32          | = empty                  |       |  |  |  |  |
|                                                |             | = hit                    |       |  |  |  |  |
| Cache Hit Rate                                 | 88%         | = miss                   |       |  |  |  |  |
|                                                | Runtime Log |                          |       |  |  |  |  |
| ☐ Enabled                                      |             |                          |       |  |  |  |  |
| Tool Control                                   |             |                          |       |  |  |  |  |
| Disconnect from MIPS                           |             | Reset                    | Close |  |  |  |  |

Decreased from 4 words to 2 words? \_\_\_\_\_50%\_\_\_\_\_. With each miss, a block of 2 words are written into the cache. In a row-major traversal, matrix elements are accessed in the same order they are stored in memory. Thus each cache miss is followed by 1 hits as the next 1 elements are found in the same cache block. This is followed by another miss when Direct Mapping maps to the next cache block, and the patterns repeats itself. So 1 of every 2 memory accesses will be resolved in cache.

Khi duyệt theo từng hàng, bởi vì 1 block chứa 2 word (chứa 2 phần tử của mảng), khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo hàng) thì kiểm tra xem trong Cache có chứa không. Bởi vì vừa đã lưu cả block vào Cache nên phần tử có trong Cache đó được hit. Như vậy 1 block có 2 phần tử thì sẽ mất phần tử đầu bị miss, còn 1 phần tử được hit. Cứ duyệt như vậy nên tỷ lệ sẽ là 1/2= 50%

| Data Cache Simulation Tool                     | Data Cache Simulation Tool, Version 1.2 |        |                          |       |  |  |  |
|------------------------------------------------|-----------------------------------------|--------|--------------------------|-------|--|--|--|
| Simulate and illustrate data cache performance |                                         |        |                          |       |  |  |  |
| Cache Organization                             |                                         |        |                          |       |  |  |  |
| Placement Policy Direct                        | t Mapping                               | -      | Number of blocks         | 8 🔻   |  |  |  |
| Block Replacement Policy                       | LRU                                     | -      | Cache block size (words) | 2 🔻   |  |  |  |
| Set size (blocks)                              | 1                                       | -      | Cache size (bytes)       | 64    |  |  |  |
| Cache Performance                              |                                         |        |                          |       |  |  |  |
| Memory Access Count                            |                                         | 256    | Cache Block Table        |       |  |  |  |
| Cache Hit Count                                |                                         | 128    | (block 0 at top)         |       |  |  |  |
| Cache Miss Count                               |                                         | 128    | = empty                  |       |  |  |  |
| Cache Hit Rate                                 | <b>5</b> 0%                             |        | = miss                   |       |  |  |  |
|                                                | R                                       | Runtir | ne Log                   |       |  |  |  |
| ☐ Enabled                                      |                                         |        |                          |       |  |  |  |
| Tool Control                                   |                                         |        |                          |       |  |  |  |
| Disconnect from MIPS                           |                                         |        | Reset                    | Close |  |  |  |

10. Verify your predictions by modifying the block size and re-running the program from step 7.

*NOTE:* when you modify the Cache Organization, the performance values are automatically reset (you can always use the tool's **Reset** button).

NOTE: You have to **reset** the MIPS program before you can re-run it.

NOTE: Feel free to adjust the **Run Speed slider** to maximum speed anytime you want.

11. Repeat steps 2 through 10 for program **column-major.asm** from the Examples folder. This program will traverse a 16 by 16 element integer matrix in column-major order, assigning elements the values 0 through 255 in order. It performs the following algorithm:

```
for (col = 0; col < 16; col++)
  for (row = 0; row < 16; row++)
    data[row][col] = value++;</pre>
```

*NOTE:* You can leave the Cache Simulator in place, move it out of the way, or close it. It will not interfere with the actions needed to open, assemble, or run this new program and will remain connected to MIPS memory. If you do not close the tool, then skip steps 4 and 5.

12. What was the cache performance for this program? \_\_\_\_\_0%\_\_\_\_. The problem is the memory locations are now accessed not sequentially as before, but each access

is 16 words beyond the previous one (circularly). With the settings we've used, no two consecutive memory accesses occur in the same block so every access is a miss.

Khi duyệt theo từng cột, bởi vì 1 block chứa 4 word (chứa 4 phần tử của mảng), khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo cột) thì kiểm tra xem trong Cache có chứa không. Bởi vì được duyệt theo cột nên phần tử tiếp theo cũng chưa có trong Cache cứ như vậy duyệt lần lượt thì không phần tử nào được hit nên tỷ lệ cần tìm là 0/256 = 0%

| Data Cache Simulation Tool, Version 1.2        |         |                        |        |  |  |  |  |
|------------------------------------------------|---------|------------------------|--------|--|--|--|--|
| Simulate and illustrate data cache performance |         |                        |        |  |  |  |  |
| Cache Organization                             |         |                        |        |  |  |  |  |
| Placement Policy Direct                        | Mapping | Number of blocks       | 8      |  |  |  |  |
| Block Replacement Policy                       | LRU ▼   | Cache block size (word | s) 4 🔻 |  |  |  |  |
| Set size (blocks)                              | 1 -     | Cache size (bytes)     | 128    |  |  |  |  |
| Cache Performance                              |         |                        |        |  |  |  |  |
| Memory Access Count                            | 256     | Cache Block Table      |        |  |  |  |  |
| Cache Hit Count                                | (       | (block 0 at top)       |        |  |  |  |  |
| Cache nit Count                                |         | = empty                |        |  |  |  |  |
| Cache Miss Count                               | 256     | = hit                  |        |  |  |  |  |
| Cache Hit Rate                                 | 0%      | = miss                 |        |  |  |  |  |
| Runtime Log                                    |         |                        |        |  |  |  |  |
| ☐ Enabled                                      |         |                        |        |  |  |  |  |
| Tool Control                                   |         |                        |        |  |  |  |  |
| Disconnect from MIPS                           |         | Reset                  | Close  |  |  |  |  |

- 13. Change the block size to 16. Note this will reset the tool.
- 14. Create a second instance of the Cache Simulator by once again selecting **Data Cache Simulator** from the **Tools** menu. Adjust the two frames so you can view both at the same time. Connect the new tool instance to MIPS, change its block size to 16 and change its number of blocks to 16.
- 15. Re-run the program. What is the cache performance of the original tool instance?

  \_\_\_\_\_0%\_\_\_\_\_. Block size 16 didn't help because there was still only one access to each block, the initial miss, before that block was replaced with a new one.

Khi duyệt theo từng cột, bởi vì 1 block chứa 16 word (chứa 16 phần tử của mảng chứa hết 1 hàng), khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo cột) thì kiểm tra xem trong Cache có chứa không. Bởi vì được duyệt theo cột nên phần tử tiếp theo cũng chưa có trong Cache. Đến hết 8 Block thì đến phần từ data[8][0] sẽ lại được lưu đè lên block đầu tiên trong Cache nên cứ như vậy duyệt thì không phần tử nào được hit nên tỷ lệ cần tìm là 0/256 = 0%

What is the cache performance of the second tool instance? \_\_\_\_94%\_\_\_\_. At this point, the entire matrix will fit into cache and so once a block is read in it is never replaced. Only the first access to a block results in a miss.

Khi duyệt theo từng cột, bởi vì 1 block chứa 16 word (chứa 16 phần tử của mảng), lại có 16 block (như vậy cache có thể chứa trọn vẹn mảng dữ liệu) khi gọi đến phần tử đầu tiên thì sẽ bị miss do nó chưa được chứa trong Cache. Vì chưa có trong Cache nên sẽ đưa block đó vào Cache, đến khi gọi đên phần tử tiếp theo (duyệt theo cột) thì kiểm tra xem trong Cache có chứa không. Vì Cache có thể chứa toàn bộ mảng nên sau khi duyệt hết cột đầu tiên, duyệt sang cột thứ hai thì nó có sẵn trong Cache nên toàn bộ 240 phần tử tiếp đều được hit nên tỷ lệ cần tìm là 240/256 = 93.75% làm tròn lên 94% như hình vẽ



## The Memory Reference Visualization tool

- 1. Open the program row-major.asm from the Examples folder if it is not already open.
- 2. Assemble the program.
- 3. From the **Tools** menu, select **Memory Reference Visualization**. A new frame will appear in the middle of the screen.



This tool will paint a grid unit each time the corresponding MIPS memory word is referenced. The base address, the first static data segment (.data directive) word, corresponds to the upper-left grid unit. Address correspondence continues in row-major order (left to right, then next row down).

The color depends on the number of times the word has been referenced. Black is 0, blue is 1, green is 2, yellow is 3 and 4, orange is 5 through 9, red is 10 or higher. View the scale using the tool's slider control. You can change the color (but not the reference count) by clicking on the color patch.

- 4. Click the tool's **Connect to MIPS** button. This causes the tool to register as an observer of MIPS memory and thus respond during program execution.
- 5. Back in MARS, adjust the **Run Speed slider** to 30 instructions per second.
- 6. Run the program. Watch the tool animate as it is updated with every access to MIPS memory. Feel free to stop the program at any time.

7. Hopefully you observed that the animation sequence corresponded to the expected memory access sequence of the row-major.asm program. *If you have trouble seeing the blue,* reset the tool, move the slider to position 1, change the color to something brighter, and re-run.



8. Repeat steps 2 through 7, for **column-major.asm**. You should observe that the animation sequence corresponded to the expected memory access sequence of this program.



9. Repeat again for **fibonacci.asm** to observe the animated pattern of memory references. Adjust the run speed and re-run if necessary.



10. (*Optional*) Create a new instance of the Data Cache Simulator. Move the two frames around so you can see both. Connect the cache simulator to MIPS and reset the Memory Reference Visualization. Re-run the program. This exercise illustrates that two different tools can be used simultaneously.



The Memory Reference Visualization tool could be useful in an operating systems course to illustrate spatial and temporal locality and memory reference patterns in general.