

# MSc in Computer Science

at University of Milan

CHIP-8 STM32

Proposta per il Progetto di PROS, corso tenuto da **Danilo Bruschi** 

Email: federico.bruzzone@studenti.unimi.it lorenzo.ferrante1@studenti.unimi.it andrea.longoni3@studenti.unimi.it Creato da:
Federico Bruzzone
Lorenzo Ferrante
Andrea Longoni

# Contents

| 1                         | Inti  | roduzio                | one                                         | 2  |
|---------------------------|-------|------------------------|---------------------------------------------|----|
| 2                         | Sta   | to dell                | 'arte                                       | 2  |
| 3                         | Har   | $\operatorname{dware}$ |                                             | 2  |
|                           | 3.1   | Schem                  | a di collegamento                           | 4  |
|                           |       | 3.1.1                  | Legenda dei colori in Figura 4              | 4  |
|                           |       | 3.1.2                  | Descrizione del collegamento dei componenti | 4  |
|                           | 3.2   | Comp                   | onenti utilizzati e relativi costi          | 5  |
| 4                         | Soft  | tware                  |                                             | 5  |
|                           | 4.1   | Interp                 | rete/Emulatore CHIP-8                       | 5  |
|                           |       | 4.1.1                  | Gestione del timing                         | 7  |
|                           |       | 4.1.2                  | Ottimizzazioni                              | 7  |
|                           |       | 4.1.3                  | SD                                          | 8  |
|                           |       | 4.1.4                  | Comportamenti ambigui                       | 8  |
|                           | 4.2   | Portin                 | g su STM32                                  | 9  |
|                           |       | 4.2.1                  | Interfaccia con la scheda microSD           | 9  |
|                           |       | 4.2.2                  | Interfaccia con lo schermo                  | 9  |
|                           |       | 4.2.3                  | Menù di selezione                           | 10 |
|                           | 4.3   | Archit                 | zettura del software                        | 10 |
| 5                         | Ana   | alisi de               | el consumo energetico                       | 10 |
| 6                         | Cor   | ısidera                | zioni finali                                | 10 |
| 7                         | Svil  | luppi f                | uturi                                       | 10 |
| $\mathbf{R}^{\mathbf{i}}$ | ferir | nenti l                | pibliografici                               | 10 |
| $\mathbf{L}$              | ist   | of Fi                  | gures                                       |    |
|                           | 4     | Schem                  | natic del progetto                          | 4  |
|                           | 5     | Esem                   | pio della mappatura di un pixel.            | 8  |

# List of Tables

## 1 Introduzione

CHIP-8 è un linguaggio di programmazione creato a metà degli anni '70 da Joseph Weisbecker per semplificare lo sviluppo di videogiochi per microcomputer a 8 bit. I programmi CHIP-8 vengono interpretati da una macchina virtuale che è stata estesa parecchie volte nel corso degli anni, tra le versioni più adottate citiamo S-CHIP e la più recente XO-CHIP.

La semplicità dell'interprete in aggiunta alla sua lunga storia e popolarità hanno fatto sì che emulatori e programmi CHIP-8 vengano realizzati ancora oggi. Nel corso degli anni molti videogiochi storici sono stati riscritti in CHIP-8 tra cui Pong, Space Invaders e Tetris.

Lo scopo del progetto è quello di costruire un emulatore CHIP-8 e S-CHIP in grado di funzionare su un microcontrollore STM32.

In questo documento ci riferiremo alla macchina virtuale che interpreta programmi CHIP-8 con "interprete". Mentre utilizzeremo "emulatore" per indicare l'interprete assieme ad una sua implementazione (o "port"), ovvero un programma che gestisce l'audio, il video, l'input da tastiera e interagisce con l'API della macchina virtuale.

## 2 Stato dell'arte

Al giorno d'oggi risulta difficile ottenere un numero esatto di utenti che utilizzano CHIP-8, un buon indicatore puo' essere il topic "chip8" di GitHub che raggruppa quasi un migliaio di repository.

Tra queste la più popolare è Octo, un'implementazione scritta in JavaScript capace di eseguire la versione base di CHIP-8, S-CHIP e XO-CHIP nel browser. La repository è mantenuta da John Earnest, l'inventore di XO-CHIP che nel 2014 ha riportato in vita CHIP-8 modernizzandolo e aggiungendo nuove funzionalità.

Inoltre ogni anno viene organizzata la Octojam, una game jam dove ogni partecipante prova a sviluppare un videogioco per CHIP-8 (o per le sue estensioni) partendo da zero.

Grazie al suo instruction set ridotto e alla sua limitata richiesta di risorse hardware è stato portato su un elevato numero di piattaforme, tra cui il Game Boy Color, calcolatrici grafiche serie HP 48 e Emacs (il famoso editor di testo).

Sebbene CHIP-8 e S-CHIP siano stati tradizionalmente implementati tramite software esistono anche implementazioni hardware. Ne citiamo una in particolare scritta nel linguaggio Verilog per schede FPGA.

### 3 Hardware

Le componenti principali utilizzate per la relizzazione del progetto sono 5: una scheda ST STM32F334R8T6 (Fig. 1a), uno schermo TFT LCD ILI9341 (Fig. 2a), e un lettore di schede microSD integrato nello schermo, un tastierino matriciale  $4\times4$  e un beeper.

Il componente principale é il microcontrollore STM32F334R8T6 basato su architettura ARM con processore Cortex-M4 da 72 MHz, 64 Kb di memoria flash e 16 Kb di SRAM. Abbiamo deciso di utilizzare questa scheda perché le ROM dei giochi CHIP-8 e S-CHIP hanno dimensione massima di 4 Kb. Considerando questo e il fatto che la macchina virtuale necessita 4 Kb per poter funzionare non è stato potuto utilizzare la scheda STM32L053R8T6 fornitaci durante il corso a causa della sua quantità limita di SRAM, precisamente 8 Kb.

Il secondo componente che abbiamo utilizzato é un display TFT LCD (thin-film-transistor liquid-crystal



| (a) II | microcontro | llore | STM32F33 | 4R8T6 |
|--------|-------------|-------|----------|-------|

| =   |     |     | =   |
|-----|-----|-----|-----|
| C10 | C11 | C9  | C8  |
| C12 | D2  | B8  | C6  |
| VDD | E5V | B9  | C5  |
| BT0 | GND | AVD | U5V |
| NC  | NC  | GND | D8  |
| NC  | IOR | A5  | A12 |
| A13 | RST | A6  | A11 |
| A14 | +3V | A7  | B11 |
| A15 | +5V | B6  | B11 |
| GND | GND | C7  | GND |
| B7  | GND | A9  | B2  |
| C13 | VIN | A8  | B1  |
| C14 | NC  | B10 | B15 |
| C15 | A0  | B4  | B14 |
| H0  | A1  | B5  | B13 |
| H1  | A4  | B3  | AGN |
| LCD | B0  | A10 | C4  |
| C2  | C1  | A2  | NC  |
| C3  | C0  | A3  | NC  |

(b) Pinout del microcontrollore STM32F334R8T6.

display) a colori retroilluminato (Fig. 2a), per poterci interfacciare con l'emulatore. Questo display, da 2.4 pollici, é basato sul controller ILI9341 e ha una risoluzione di 320×240 px.



(a) Lo schermo ILI9341.



(b) Pinout dello schermo ILI9341.

Il terzo componente é un lettore di schede microSD integrato nello schermo (Fig. 2a). Questo componente é basato sul controller ILI9341 che permette di interfacciarsi con una microSD formattata in FAT32, sulla quale é possibile salvare file di dimensione massima 4 Gb e per un totale di 2 Tb di dati.

Per interagire con l'emulatore abbamo utilizzato una tastiera matriciale  $4\times4$  corrispondente alla tastiera esadecimale originale del CHIP-8 (Fig. 3a).



(a) Il tastierino matriciale  $4\times4$ .



(b) Struttura del tastierino matriciale  $4\times4$ .

Come ultimo componenete, per riprodurre gli effetti sonori generati dal gioco un beeper passivo monotono é stato collegato al microcontrollore tramite un GPIO output e GND. In CHIP-8 e S-CHIP vi é un solo

frequenza che può essere riprodotta durante tutta l'esecuzione del gioco.

In oltre, abbiamo deciso di aggiungere uno slot per l'alimentazione tramite due batterie AA.

## 3.1 Schema di collegamento

#### 3.1.1 Legenda dei colori in Figura 4

• Verde: Schermo

• Blu: Scheda microSD

• Magenta: Tastierino

• Arancione: Beeper

• Ciano: Reset

 $\bullet~{\rm Nero:~GND}$ 

• Rosso: Alimentazione



Figure 4: Schematic del progetto.

## 3.1.2 Descrizione del collegamento dei componenti

In Figura 4 é possibile vedere lo schema di collegamento delle componenti utilizzate per la realizzazione del progetto. Per realizzare lo schema é stato utilizzato il software KiCad. E' importante notare, che

lo schermo ILI9341 e l'integrato lettore di schede microSD, utilizza lo pinout standard degli Shields di Arduino, ovvero un'interfaccia hardware che permette di collegare una scheda Arduino ad un modulo esterno. Quindi, é stato collegato al nostro microcontrollore STM32 utilizzando lo stesso pinout.

Il tastierino matriciale 4×4 é stato collegato al microcontrollore tramite 8 pin GPIO. In particolare i 4 pin relativi alle righe (R1, R2, R3, R4) sono stati impostati in modalitá GPIO\_MODE\_IT\_RISING (interrupt rising edge). Quando si configura un pin GPIO come sorgente di interrupt su un fronte di salita, significa che l'interrupt verrà generato quando il livello logico del pin passa da basso (0) a alto (1). Questo è utile, ad esempio, quando si desidera intercettare un cambiamento di stato su un pulsante quando viene premuto. Invece, i 4 pin relativi alle colonne (C1, C2, C3, C4) sono stati impostati in modalitá GPIO\_MODE\_OUTPUT\_PP (push-pull output) per permettere l'invio dell'interrupt alla pressione di un tasto, dato che chiudendo il circuito permettiamo alla corrente proveniente dal pin GPIO di fluire verso i pin di interrupt. Successivamente, viene identificato il tasto premuto TODO.

L'ultimo componente é il beeper, che é stato collegato al microcontrollore tramite un pin GPIO e GND. Il pin GPIO é stato impostato in modalitá GPIO\_MODE\_OUTPUT\_PP (push-pull output) per permettere l'invio di un segnale al beeper.

#### 3.2 Componenti utilizzati e relativi costi

| Descrizione        | Modello           | Costo unitario | Unità  | Costo  |
|--------------------|-------------------|----------------|--------|--------|
| Microcontrollore   | STM32 F334R8T6    | 14.99          | 1      | 14.99  |
| Schermo            | ILI9341 2.4"      | 6.50           | 1      | 6.50   |
| Tastierino         | Matrix keypad 4×4 | 3.99           | 1      | 3.99   |
| Beeper             |                   | 0.99           | 1      | 0.99   |
| Scocca e cablaggio |                   | 4.99           | 1      | 4.99   |
|                    |                   |                | Totale | 31.50€ |

Table 1: Materiali utilizzati per la costruzione del progetto.

In Tabella 1 é possibile vedere i componenti utilizzati per la realizzazione del progetto. I costi indicati provengono da negozi online come Amazon e eBay.

### 4 Software

Il nostro software si divide in due componenti principali: l'interprete CHIP-8 e l'infrastruttura necessaria per "portarlo" sul microcontrollore STM32, ovvero l'interfaccia con lo schermo e i gestori per la scheda microSD, per il keypad e per il beeper come gia' anticipato nella sezione 3.

### 4.1 Interprete/Emulatore CHIP-8

Un emulatore è un software progettato per replicare il funzionamento di un processore e di altre componenti di un sistema informatico, consentendo così l'esecuzione di programmi scritti per un'architettura specifica su un'altra architettura. Lo sviluppo di un emulatore richiede una dettagliata comprensione dell'architettura da emulare, il che è al di là dello scopo di questo corso.

Nonostante questo, abbiamo deciso di scrivere l'interprete da zero e per farlo è stato necessario consultare le specifiche (de facto standard) che definiscono il comportamento di un interprete CHIP-8 [?] e S-CHIP [?].

L'interprete ha un'architettura basata su registri e possiede 4 KB di memoria, 16 registri general purpose, un registro per gli indirizzi di memoria, un registro per il delay timer, un registro per il sound timer,

uno stack per gestire le chiamate a subroutine, uno stack pointer e un program counter, come si puo' vedere nel listato 1.

```
#define RAM STZF 4096
    #define SCREEN_SIZE 1024
                                      // 128x64 pixels = 8192 bits = 1024 bytes
    #define KEYPAD SIZE 16
    typedef struct {
        uint8_t RAM[RAM_SIZE];
        uint16_t I;
8
        uint16_t PC:
                                      // Program counter
        uint16_t stack[16];
9
10
        uint8_t SP;
                                      // Stack pointer
11
        uint8_t V[16];
                                     // Variable registers
                                      // HP-48's "RPL user flag" registers (S-CHIP)
        uint8_t hp48_flags[8];
12
13
        uint8_t screen[SCREEN_SIZE];
        uint8_t keypad[KEYPAD_SIZE];
14
15
        uint8_t wait_for_key;
                                      // Delay timer
        uint8_t DT:
        uint8_t ST;
17
                                      // Current opcode
18
        uint16_t opcode;
19
        uint64_t rng;
                                     // PRNG state
        int IPF;
                                     // No. instructions executed each frame
20
21
        bool hi_res;
                                      // Enable 128x64 hi-res mode (S-CHIP)
22
        bool screen_updated;
                                      // Was the screen updated?
                                      // CHIP-8, CHIP-48/S-CHIP 1.0 or S-CHIP 1.1 behavior?
23
        Platform platform;
```

Listing 1: Struttura dell'emulatore Chip8

Il delay timer viene utilizzato come cronometro mentre il sound timer è utilizzato per gestire gli effetti sonori, quando il suo valore è diverso da zero, l'emulatore attiva il beeper.

Ad ogni ciclo di esecuzione l'interprete effettua il fetch dell'istruzione puntata dal program counter in memoria, la decodifica e la esegue.

Sono supportate 45 istruzioni diverse, ciascuna delle quali è rappresentata da uno specifico opcode in cui al suo interno sono passati anche eventuali parametri.

Il programma è scritto in C99, non ha I/O ed è freestanding [?], ovvero non dipende dalla libreria standard del C (libc). Tutto questo è mirato a rendere l'interprete altamente portabile.

Per rimuovere la dipendenza da lib<br/>c è stato necessario includere alcune funzioni direttamente da lib<br/>gcc, in particolare abbiamo re-implementato le funzioni memset e memc<br/>py . Inoltre, abbiamo trovato un modo alternativo per implementare le asserzioni e includere una funzione ad hoc<br/> per la generazione di numeri pseudo-casuali come si puo' vedere nel listato 2.

#### TODO SPIEGARE IL CODICE

Listing 2: Implementazioni di ASSERT e rand\_byte.

Infine per testare più comodamente l'interprete abbiamo sviluppato un semplice emulatore su desktop utilizzando SDL2 [?], una libreria scritta in C che consente di gestire audio, video e input da tastiera. In seguito l'interprete è stato sottoposto ad un'apposita test suite [?] che mira a verificare il comportamento corretto di ciascun opcode.

#### 4.1.1 Gestione del timing

Uno dei problemi principali durante lo sviluppo di un emulatore è la gestione del timing, in particolare è necessario limitare la "velocità" dell'emulatore bloccando temporaneamente la sua esecuzione.

Inoltre abbiamo dovuto disaccoppiare la frequenza dell'interprete (regolabile dal giocatore) dalla frequenza del delay timer e del sound timer (costante a 60 Hz). Dove con frequenza dell'interprete ci riferiamo al numero di istruzioni che esegue ogni frame.

Inizialmente abbiamo optato per la gestione di una singola istruzione per ciclo di esecuzione, di conseguenza il ritardo del game loop risultava variabile e dipendeva dalla frequenza selezionata dal giocatore. Per assicurare una frequenza  $\mathcal{F}$  di 60 Hz i timer venivano decrementati ogni n-esima iterazione del game loop, dove  $n = \frac{\mathcal{F}}{60}$ . Ad esempio se  $\mathcal{F} = 540$ , i timer venivano decrementati ogni 9° ciclo.

Purtroppo però questo approccio presenta un problema non trascurabile, ovvero effettua una chiamata ad una funzione simil-sleep per un periodo molto breve dopo ogni istruzione. Ad esempio se  $\mathcal{F}=540$ , il ritardo di una sleep sarebbe solo di 1.85 ms, e questo genere di funzione non offre una precisione simile. Per questo motivo abbiamo optato per una soluzione differente.

Abbiamo fissato il ritardo del game loop a 16.666 ms, un valore sufficientemente alto da non avere problemi di granularità. Inoltre in questo modo otteniamo un frame rate di 60 fps esatti. Avendo reso il ritardo costante abbiamo dovuto rendere variabile il numero di istruzioni gestite durante un ciclo di esecuzione. In particolare vengono gestite n istruzioni per ciclo, dove  $n = \frac{\mathcal{F}}{60}$ . Ad esempio se  $\mathcal{F} = 540$ , vengono gestite 9 istruzioni per ciclo. A questo punto dato che il game loop viene ripetuto con una frequenza di 60 Hz risulta banale gestire la frequenza dei timer.

Sono state considerate anche eventuali problematiche che sarebbero potute sorgere con questo approccio. In particolare non tutte le istruzioni impiegano lo stesso tempo per essere eseguite, ma fortunatamente anche l'istruzione più lenta richiede una quantità trascurabile di tempo. Ciò significa che possiamo comportarci come se tutte le istruzioni richiedessero il medesimo tempo.

#### 4.1.2 Ottimizzazioni

È stato necessario introdurre delle ottimizzazioni all'interno dell'interprete per poterlo far girare su un microcontrollore.

L'ottimizzazione principale è legata alla rappresentazione dello schermo in memoria. Ad alto livello lo schermo può essere visto come una matrice di 128x64 pixel monocromi. Una rappresentazione simile occuperebbe 8192 byte, dato che ciascun pixel verrebbe rappresentato da un byte.

Purtroppo il nostro microcontrollore ha a disposizione solamente 16 KB di SRAM, di conseguenza una soluzione simile non è praticabile.

Per questo motivo abbiamo deciso di rappresentare lo schermo come un array unidimensionale di 1024 byte, dove ciascun pixel viene rappresentato da un singolo bit. In questo modo otteniamo un risparmio di spazio pari a ben l'87.5%.

Questa decisione ha aggiunto però un livello di indirezione dato che una coordinata ad alto livello sulla matrice 128x64 é mappata ad una coordinata "in memoria", dove la prima componente é l'indice del byte nell'array unidimensionale e la seconda componente é il bit all'interno del byte. La figura [5] mostra un esempio di mappatura di un pixel. Piú precisamente la funzione F é definita come segue:

$$F: \mathbb{N} \times \mathbb{N} \to \mathbb{N} \times \mathbb{N}$$

$$F(x,y) = \left( \left\lfloor \frac{128y + x}{8} \right\rfloor, 7 - (x \bmod 8) \right)$$

$$where \quad x \in [0, 127] \quad y \in [0, 63]$$

Rappresentazione ad alto livello



Rappresentazione in memoria



Figure 5: Esempio della mappatura di un pixel.

Un'ulteriore ottimizzazione viene resa disponibile attraverso l'API dell'interprete sotto forma di una funzione che consente al chiamante di controllare se l'array che rappresenta lo schermo è stato modificato nell'ultimo ciclo di esecuzione. Avendo notato che il numero di opcode che modificano lo schermo è molto limitato, precisamente sono solo 7 su 45, questa funzione consente di ridurre di 6.42 volte il numero di volte in cui lo schermo viene aggiornato.

#### 4.1.3 SD

Un'ulteriore ottimizzazione é stata di non abilitare il Long File Names (LFN) sul filesystem FAT32 della scheda microSD, quindi tutti i file devono avere un nome di al massimo 13 byte (caratteri ASCII). In questo modo abbiamo risparmiato in termini complessitá di computazione, memoria flash e SRAM.

### 4.1.4 Comportamenti ambigui

Gli interpreti CHIP-8 e S-CHIP hanno sviluppato molteplici comportamenti ambigui nel corso degli anni. Questi cosiddetti "quirk" variano in base alle piattaforme per cui è stato sviluppato l'interprete. Ad esempio gli interpreti per calcolatrici HP48 presentano un comportamento leggermente diverso durante l'esecuzione delle istruzioni di SHIFT.

Questi comportamenti ambigui si propagano fino ai programmatori CHIP-8 che si appoggiano a quest'ultimi e scrivono videogiochi che non sono del tutto compatibili con interpreti più vecchi. Per evitare questa frammentazione è necessario supportare le piattaforme principali e i loro quirk.

Il nostro interprete supporta CHIP-8, CHIP-48, S-CHIP 1.0 e S-CHIP 1.1, in questo modo è in grado di eseguire la stragrande maggioranza dei videogiochi reperibili in rete.

## 4.2 Porting su STM32

Dopo aver sviluppato l'emulatore, abbiamo sviluppato un'infrastruttura per poterlo eseguire sul micro-controllore STM32. Come già anticipato nella sezione 3, l'infrastruttura si compone di un'interfaccia con lo schermo, un gestore per la scheda microSD, un gestore per il tastierino e un gestore per il beeper.

E' utile ricordare che l'emulatore che abbiamo sviluppato é stato progettato per essere eseguito su qualunque architettura hardware in per cui é compilabile un file C, quindi non é stato necessario apportare modifiche all'interprete per poterlo eseguire sul microcontrollore STM32.

Quindi, il processo di adattamento di questo emulatore per il microcontrollore è stato relativamente semplice e non ha richiesto modifiche significative. Tuttavia, in quanto l'emulazione avvieve su una architettura con potenza di calcolo limitata rispetto a quella di un comune calcolatore, le prestazioni e la fluiditá dell'emulatore sono inferiori rispetto a quelle che avevamo usando SDL2.

#### 4.2.1 Interfaccia con la scheda microSD

Inizialmente, la scheda é stata formattata in FAT32 e sono stati caricati i file dei giochi. Successivamente, la scheda é stata inserita nello slot della scheda microSD integrato nello schermo.

La scheda microSD é stata gestita tramite la libreria FatFs [?], una libreria open source che consente di interfacciarsi con filesystem FAT12, FAT16 e FAT32. Questa libreria é stata sviluppata da ChaN, un mediocre¹ embedded system engineer giapponese che ha sviluppato anche la libreria Petit FatFs per microcontrollore con risorse limitate.

A livello software abbiamo letto tutti i file presenti sulla scheda microSD e li abbiamo memorizzati in un vettore. Questo perché avere la possibilità di selezione e successivamente l'aperura del file selezionato.

Listing 3: Caricamento di un gioco dalla scheda microSD.

Nel listato 3 é possibile vedere il codice che consente di caricare un gioco dalla scheda microSD. E' importante che a riga 12 il file viene spostato nella virtual machine, precisamente viene settato il campo RAM della struct Chip8 parendo da PC\_OFFSET che di default é settato a 0x200 come mostrato nel listato 1. Successivamente, deallocando lo spazio utilizzato temporaneamente per memorizzare il file riusciamo a manterenere il livello di memoria utilizzata pari a quella della struttura dell'emulatore, vale a dire costante.

#### 4.2.2 Interfaccia con lo schermo

Ottimizzazioni, pass to BareMetal implementation

<sup>1</sup>http://elm-chan.org/profile\_e.html

- 4.2.3 Menù di selezione
- 4.3 Architettura del software
- 5 Analisi del consumo energetico
- 6 Considerazioni finali
- 7 Sviluppi futuri

Aggiornare solo la sprite che è stata modificata.

## References

- [1] CHIP-8 test suite. https://github.com/Timendus/chip8-test-suite.
- [2] Cowgod's Chip-8 Technical Reference v1.0. http://devernay.free.fr/hacks/chip8/C8TECH10.HTM.
- [3] elm-chan.org FatFs Generic FAT Filesystem Module. http://elm-chan.org/fsw/ff/00index\_e. html.
- [4] ISO/IEC 9899:1999 4. Conformance. https://port70.net/~nsz/c/c99/n1256.html#4p6.
- [5] Simple DirectMedia Layer. https://www.libsdl.org.
- [6] SUPER-CHIP v1.1. http://devernay.free.fr/hacks/chip8/schip.txt.