# Assembleur et langage machine
## La mémoire dans le modèle de Von Neumann

On l'a vu, dans l'architecture de Von Neumann, __la mémoire vive (RAM) contient à la fois les données et les programmes__ (suite d'instructions).

Dans la mémoire d'un ordinateur on peut donc __stocker des données__ (Entiers, flottants, booléens, caractères,...) sous forme binaire. Par exemple `00100110` correspond au nombre entier 38. Mais on peut également y __stocker des instructions à destination de l'unité de traitement (UAL)__. 

Ce même code binaire `00100110` pourrait très bien correspondre au code d'une instruction machine, par exemple "Stopper le programme".

C'est le __rôle du système d'exploitation__ (windows,linux,...) et du programmeur de faire en sorte de __distinguer en mémoire ce qui correspond à des instructions ou des donnéees__.

## Les instructions machine

Une __instruction machine__ se présente de la façon suivante :

    Champ de code de l'opération | Champ de l'opérande

> __Remarque :__ chaque processeur possède ses propres codes d'opération (opcode). C'est son __jeu d'instructions__.

Par exemple :

    Ajouter la valeur suivante dans le registre R2 | Nombre 5

Chaque instruction peut occuper 1 ou plusieurs mots dans la mémoire d'un ordinateur. 

> __Remarque :__ un mot correspond à l'unité de base pouvant être traitée par le processeur. Avec un proceseur 8 bits la taille du mot correspond à 8 bits soit 1 octet. Avec un processeur 64 bits la taille du mots correspond à 64 bits soit 8 octets.

Au début de l'informatique les programmeurs devaient coder leur programme directement en binaire : le __langage machine__. 

Par exemple, le langage machine suivant est une instruction : 

    11100011 10100000 00100000 00000101

- les trois premiers octets `11100011 10100000 00100000` correspondent au __code de l'opération__ à effectuer (opcode) : "ajouter la valeur suivante au registre R2".
- le quatrième octet `00000101` (5 en décimal) est l'__opérande__ : c'est la valeur numérique à ajouter dans le registre R2.

## Le langage assembleur

La programmation en binaire étant loin d'être évidente pour un humain, on a inventé le __langage assembleur__ qui permet d'écrire les instructions de manière plus compréhensible. Dans notre exemple le code `11100011101000000010000000000101` est remplacé par :

    MOV R2, #5  

Ce qui est tout de même déjà beaucoup plus lisible !

Voici un exemple de __programme assembleur__ :

    INP R0
    INP R1
    ADD R2, R1, R0
    OUT R2
    HALT

Le langage assembleur est donc une simple traduction brute du langage machine. Pour résumer :

- Le __langage machine est une succession de bits qui est directement interprétable par le processeur__ d'un ordinateur.
- Un __langage assembleur__ est le langage machine où les combinaisons de bits sont __représentées par des "symboles"__ qu'un être humain peut mémoriser.
- Un programme assembleur convertit ces "symboles" en la combinaison de bits correspondante pour que le processeur puisse traiter l'information. Le __programme assembleur traduit donc le langage assembleur en langage machine__.

> __Remarques :__ 
> - Un langage assembleur est souvent __spécifique à un type de processeur__.
> - Un langage assembleur est appelé "__langage de bas niveau__" car il est très proche du langage machine.

## Les compilateurs / interpréteurs

Le langage assembleur n'est toutefois pas facile à manipuler. C'est pourquoi il a été conçu des langages de programmation plus agréable à utiliser : les __langages de haut niveau (Ex : C, Python, Javascript,...)__.

On parle également de __niveau d'abstraction d'un langage__. Plus celui-ci est proche de notre langage naturel et plus son niveau d'abstraction est élevé. Plus le langage est proche de la machine (binaire) plus celui-ci est de bas niveau.

![Abstraction du langage](img/abstraction.png)

Mais tout langage de programmation, pour être exécuté par une machine, doit être à un moment où à un autre traduit en langage binaire.

![Compilation interprétation](img/compilation.png)

Il existe plusieurs manières de procéder :

- La première consiste à __traduire le programme dans son ensemble une fois pour toute et générer un fichier avec le code binaire prêt à être exécuté__. Il s'agit de la méthode dîte de __compilation__, réalisée par un compilateur. Le langage C est un exemple de langage compilé.
- La deuxième méthode consiste à __traduire les instructions en langage binaire au fur et à mesure de la lecture du programme__. Il s'agit de la méthode dîte d'__interprétation__, réalisée par un interpréteur. Le langage Basic est un exemple de langage interpété.
- Enfin il existe des __méthodes mixtes__ qui consistent à __traduire le programme en pseudo-code__ (bytecode). Ce pseudo-code est __interprété par une machine virtuelle__ au moment de l'execution. L'intérêt de cette approche est que l'execution et la traduction du pseudo-code en langage binaire est plus rapide. Mais également, le fait que ce pseudo-code permet une certaine __indépendance vis à vis du processeur__ sur lequel il est exécuté. En effet, il suffit juste de disposer d'une machine virtuelle spécifique au processeur en question. Python et Java sont des exemples de langages utilisant cette technique.

## L'assembleur, en pratique
### Présentation du simulateur de processeur AQA

Nous allons utiliser un __simulateur d’architecture de Von Neumann, réalisé par Peter Higginson__, pour préparer des étudiants anglais à leur examen de Computer Science. Il se nomme __[AQA et on peut l’exécuter en ligne](http://www.peterhigginson.co.uk/AQA/)__.

Quelques principes de base :

- On ne peut pas définir de variables. __Les données manipulées sont soient stockées à un endroit précis en mémoire soit dans un des registres R0 à R12__.
- Pour calculer avec une donnée en mémoire, il faut d’abord la __transférer dans un registre__.
- L’interface se divise verticalement en trois zones :
  - À gauche, l’__éditeur de programme__ en assembleur. 
    - On remplit le formulaire et on le soumet avec __submit__.
    - Puis on assemble le programme en mémoire avec assemble (parfois fait automatiquement).
    - On l’exécute avec __run__ (Plusieurs vitesses d’exécution sont disponibles).
  - Au centre, le __processeur__, avec :
    - les __treize registres__ de données de R0 à R12.
    - le __Compteur de Programme PC__.
    - l’ __Unité de Contrôle__ avec son __Registre d’Instruction CIR__.
    - l’__ALU__ avec ses __quatre drapeaux de test__ (Z pour zéro, N pour négatif, C pour carry, retenue et V pour overflow). 
    - les __bus__ reliant les différents composants du processeur et la mémoire (en bleu). 
    - Les registres MAR et MBR servent à transférer des données entre la mémoire et les registres : 
      - MAR contient l’adresse (en décimal) où l’on veut lire ou écrire.
      - MBR la valeur lue ou à écrire (en hexadécimal).
  - À droite, la __mémoire divisée en mots de largeur 32 bits__ et dont __les adresses commencent à 0__. Dans "OPTIONS" on peut choisir le format d’affichage (décimal signé ou non, binaire, hexadécimal).

> __Remarque :__ il n’existe pas de structure de contrôle conditionnelle comme le "if... then... else" ou les boucles "while", "for". Pour les implémenter, on utilise des __instructions de saut inconditionnel ou conditionnel__ en fonction du résultat de la comparaison précédente. Les points de chute de saut sont repérés par des étiquettes placées dans le programme.

### AQA et le modèle de Von Neumann

Ci-dessous, sont encadrés les __quatre éléments constitutifs d'une architecture de Von Neumann__ :

[![AQA Von Neumann](img/AQA.png)](http://www.peterhigginson.co.uk/AQA/)

> __Légende des encadrements :__
> - En rouge, le processeur (CPU), comprenant :
>   - En rose, l'unité de contrôle (UC)
>   - En bleu, l'untité arithmétique et logique (UAL)
> - En vert, la mémoire vive (RAM)

### Mon premier programme en assembleur

Le [jeu d’instructions AQA est précisé dans la documentation](http://peterhigginson.co.uk/AQA/info.html).

> __Remarque préalable :__ les opérandes ont la syntaxe suivante...
> - __Rn__ correspond au __registre__ numéro n.
> - __#n__ correspond à une __valeur entière immédiate__ n (sans passer par une mémoire).
> - __n__ correspond à une __adresse mémoire__ n (dans la RAM).

Voici quelques exemples d’instructions d’opérations arithmétiques et de transfert de mémoire :

|Instruction|Traduction|
|:---|:---|
|LDR R1, 78|Charge dans le registre R1 la valeur stockée en mémoire à l’adresse 78
|LDR R1, R2|Charge dans le registre R1 la valeur stockée en mémoire à l’adresse contenue dans le registre R2
|STR R1, 123|Stocke le contenu du registre R1 à l’adresse 123 en mémoire
|ADD R1, R0, #128|Additionne le nombre 128 et la valeur stockée dans le registre R0. Place le résultat dans le registre R1
|MOV R1, #23|Place le nombre 23 dans le registre R1
|MOV R0, R3|Place la valeur stockée dans le registre R3 dans le registre R0
|INP R2|Demande une saisie utilisateur et enregistre cette valeur dans le registre R2
|OUT R4|Affiche la valeur contenue dans le registre R4
|HALT|Symbole de fin de programme, indispensable pour que le programme se termine sans erreur

1. __Ouvrir le [simulateur AQA](http://www.peterhigginson.co.uk/AQA/)__. 
2. __Saisir le programme__ ci-dessous dans la fenêtre d’édition puis le soumettre avec submit .

    MOV R0, #10  
    MOV R1, #250  
    ADD R2, R1, R0  
    OUT R2  
    HALT  

3. Choisir l'__option hex__, pour un affichage hexadécimal des emplacements mémoire.
4. Déterminer la __taille d'un mot__ de la mémoire des registres.
5. __Constater que...__
    - les 5 lignes d'instructions (ligne 0 à 4) sont bien enregistrées dans la RAM aux emplacements mémoire de 0 à 4. 
    - les emplacements de mémoire de registre sont vides (valeurs nulles).
6. __Répérer...__
    - l'Unité de Contrôle (UC) qui décode l'instruction en cours.
    - l'Unité Arithmétique et Logique (UAL) qui prend deux opérandes en entrée pour sortir le résultat de son calcul.
    - le registre du compteur de programme (PC) qui stocke l'emplacement mémoire de la prochaine instruction à aller chercher.
    - Le champ d'entrée clavier (input).
    - le champ de sortie qui servira d'affichage (output).
7. __Exécuter__ le programme pas à pas (step) en vitesse lente ("OPTIONS" : "def slow"). A la fin, relancer l'exécution pour essayer de comprendre au mieux les étapes de ce programme.
8. __Décrire__ à l'écrit l’enchaînement des opérations élémentaires effectuées lors de l’exécution des instructions.
  - Pour chaque ligne d'instruction, décrire le rôle du PC, de l'UC, de la RAM, du l'UAL. On considérera l'état avant toute exécution de la ligne étudiée (ex: initialement, on étudie l'état des composants __avant__ le début d'exécution de la ligne 0)
  - Résumer vos notes dans ce tableau à compléter :
  
|Ligne|Instruction en assembleur|Instruction en hexadécimal|Etat/rôle du PC|Etat/rôle de l'UC|Etat/rôle de l'UAL|Etat/rôle de la RAM|Etat/rôle du registre|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|0|MOV R0, #10|e3a0000a|Prochaine adresse à chercher : 0|Vide|Aucun rôle|Zone 0 en attente de chargement|Vide|
|1|MOV R1, #250|e3a010fa|Prochaine adresse à chercher : 1|A décodé l'instruction e3a0000a. En attente de l'instruction e3a010fa|Aucun rôle|Zone 0 chargée. Zone 1 en attente de chargement|valeur 10 affectée au registre R0|
|...|...|...|...|...|...|...|...|...|

### L'addition à partir de données en mémoire vive

1. __Saisir le programme__ ci-dessous dans la fenêtre d’édition puis le soumettre avec submit .

    MOV R0, #78  
    LDR R1, 10  
    ADD R2, R1, R0  
    STR R2, 11  
    HALT  

2. __Modifier le mot mémoire d’adresse 10__ en lui donnant la valeur 12.
3. __Décrire__ à l'écrit l’enchaînement des opérations élémentaires effectuées lors de l’exécution des instructions.
4. __Où se trouve le résultat__ de cette addition ?

### Entrées - sorties en assembleur

Dans le __menu "SELECT", choisir le programme "add"__. 

Le programme va se charger dans la zone d'édition.

__Quelles sont les nouvelles instructions__ utilisées dans ce programme ?

Comme précédemment, __décrire précisément la suite des instructions__ de ce programme d'addition.

> __Remarque :__ les instructions INP et OUT ont parfois un argument chiffré supplémentaire (ex : `INP R1, 2` au lieu de `INP R1`). Ce chiffre correspond au numéro d'entrée (ou de sortie) que l'on veut utiliser si le processeur en possède plusieurs. Pour simplifier le cours, j'ai décidé de ne pas faire apparaitre ce chiffre, ce qui ne pose pas de problème au programme car ces instructions ont une valeur d'entrée / sortie par défaut.

## Approfondissement

Si vous souhaitez aller plus loin dans la connaissance du langage assembleur, je vous __conseille les activités suivantes__ :

- Le [cours de Frédéric Junier](https://frederic-junier.org/NSI/premiere/chapitre17/NSI-ArchitectureVonNeumann-Cours2020V2/#programmer-une-boucle-en-assembleur), sur lequel je me suis déjà inspiré pour ce cours, propose davantage d'activités sur l'assembleur (Chapitre 3). Vous verrez en particulier __comment coder une boucle__.
- Une [activité de l'__Université de Nantes__ sur le __processeur RISC__](https://extradoc.univ-nantes.fr/pluginfile.php/185383/mod_folder/intro/exo-von-neuman.pdf).

## Que retenir ?
### A minima...

- Les programmes stockés dans la mémoire centrale de l’ordinateur sont constitués d’__instructions de bas niveau, exécutables directement par les circuits logiques du processeur__. 
- Le __langage assembleur__ n'est qu'un moyen mnémotechnique de traduire des instructions en langage machine.
- Le __programme assembleur__ traduit donc facilement un langage assembleur en langage machine.
- Les __opérandes__, c'est à dire les données nécessaires à l'exécution de ces instructions sont elles aussi stockées dans la mémoire.
- Un programme nommé __compilateur permet de transformer le texte d’un programme en langage de haut niveau (comme Python ou C) en une série d’instructions en langage machine__.
- Le __jeu d’instructions du microprocesseur est restreint__. 
- Les jeux d'instructions sont différents d'un processeur à l'autre.

### Au mieux...

- L’__unité de contrôle décode__ la série de bits composant chaque instruction : 
  - les premiers bits forment un __code de l'opération__ (ex : MOV, STR, ADD,...) qui peut déclencher l’activation des circuits nécessaires dans l’ALU.
  - les bits suivants portent les opérandes :
    - une valeur immédiate si précédée par #.
    - une adresse mémoire de registre si sous la forme Rn.
    - une adresse mémoire vive si sous la forme d'un entier.
- Savoir coder en langage assembleur des programmes très basiques.
- Savoir interpréter le résultat d'un simulateur de type AQA pour un programme simple (ex : addition).
  
---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.fr)
<p style="text-align: center;">Auteur : David Landry, Lycée Clemenceau - Nantes</p>
<p style="text-align: center;">D'après des documents partagés par...</p>
<p style="text-align: center;"><a  href=http://www.monlyceenumerique.fr/index_nsi.html#premiere>JC. Gérard, T. Lourdet, J. Monteillet, P. Thérèse, sur le site monlyceenumerique.fr</a></p>
<p style="text-align: center;"><a  href=https://frederic-junier.org/>Frédéric Junier, Lycée du Parc à Lyon</a></p>
<p style="text-align: center;"><a  href=https://www.isnbreizh.fr/nsi/activity/support1.html>isnbreizh.fr, le site de Christophe Béasse</a></p>