Introduction à Rust

# Séance 2 – Structures de données et Gestion de la mémoire

[Pierre-Antoine Champin](http://champin.net/)

Département Info Doua – [IUT Lyon 1](http://iut.univ-lyon1.fr/)

## Gestionnaire de projet `cargo`

L'outil `cargo` est un outil central pour le développement rust.

Il sert notamment à :

* créer un nouveau projet (`cargo new <dirname>`)
* compiler un projet (`cargo build`)
* exécuter un projet (`cargo run`) – en le compilant préalablement si nécessaire
* exécuter les tests unitaires (`cargo test`)
* générer la documentation (`cargo doc`)

### Anatomie d'un projet créé par cargo

```
myproject
 \_ .git
 \_ .gitignore
 \_ Cargo.toml
 \_ src
     \_ main.rs
```

Le fichier `Cargo.toml`:

```toml
[package]
name = "myproject"
version = "0.1.0"
authors = ["Pierre-Antoine Champin <pierre-antoine.champin@univ-lyon1.fr>"]
edition = "2018"

# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html

[dependencies]
```

## Tableaux et chaînes

### Tranches (*slices*)

In [2]:
let mut a = ["foo", "bar", "baz"];
a.len()

3

In [3]:
a[2]

"baz"

In [4]:
a[2] = "BAZ";
a

["foo", "bar", "BAZ"]

In [5]:
&a[..2]

["foo", "bar"]

In [6]:
a.contains(&"BAZ")

true

In [7]:
a.sort();
a

["BAZ", "bar", "foo"]

In [8]:
// Autre possiblité pour créer une slice
let b = [0; 1000];
b.len()

1000

Documentation complète : https://doc.rust-lang.org/std/primitive.slice.html

### Vecteur `Vec<T>`

Un vecteur est un tableau de taille variable.

Ce concept est implémenté par le type générique `Vec<T>` (où `T` est le type des éléments du vecteur).

In [9]:
// création d'un vecteur vide
let mut v = Vec::new();

// remplissage d'un vecteur
v.push(3.14);
v.push(101e-1);
v.push(-1.0);
v

[3.14, 10.1, -1.0]

NB: le compilateur infère `T` grâce aux éléments insérés lignes 5 à 7.

La macro `vec!` permet de créer un vecteur plus simplement.

In [10]:
let v1 = vec![3.14, 101e-1, -1.0];
let v2 = vec![0; 1000];

Les vecteurs peuvent être utilisés comme des tranches, ils « héritent » de leurs méthodes.

In [11]:
let mut v = vec!["foo", "bar", "baz"];
v.len()

3

In [12]:
v[2]

"baz"

In [13]:
v[2] = "BAZ";
v

["foo", "bar", "BAZ"]

In [14]:
&v[..2]  // ⚠ ceci est une tranche, PAS un vecteur

["foo", "bar"]

In [15]:
v.sort();
v

["BAZ", "bar", "foo"]

Méthodes spécifiques des vecteurs

In [16]:
// ajoute un élément à la fin du vecteur
v.push("A");
v

["BAZ", "bar", "foo", "A"]

In [17]:
// supprime le dernier élément du vecteur
v.pop();
v

["BAZ", "bar", "foo"]

In [18]:
// insère un élément à une position donnée
// en décalant vers la droite les éléments suivants
v.insert(1, "X");
v

["BAZ", "X", "bar", "foo"]

In [19]:
// retire un élément à une position donnée
// en décalant vers la gauche les éléments suivants
let e = v.remove(1);
println!("{:?}", e);
v

"X"


["BAZ", "bar", "foo"]

In [20]:
// vide le vecteur
v.clear();
v

[]

Documentation complète : https://doc.rust-lang.org/std/vec/struct.Vec.html

### Chaîne de caractères `str`

Une `str` est une chaîne de caractères de longueur fixe.

C'est le type des chaînes littérales, comme par exemple `"hello world"`.
Il supporte l'ensemble des  caractères [Unicode](https://fr.wikipedia.org/wiki/Unicode).

⚠ `str` n'est **pas** équivalent à `[char]`.
Il utilise en interne le codage [UTF-8](https://fr.wikipedia.org/wiki/UTF-8),
qui a la particularité de coder les caractère sur différents nombres d'octets. Par exemple :

* `'a'` est codé sur 1 octet
* `'à'` est codé sur 2 octets
* `'☃'` est codé sur 3 octets

Par conséquent, `str` ne permet pas d'accéder directement à un caractère :

In [21]:
let txt = "hello world";
//let c = txt[1]; // NE COMPILE PAS

La méthode `len` de `str` retourne le nombre d'**octets**.

In [22]:
"hello world".len()

11

In [23]:
"☃❄".len()

6

La méthode `chars` retourne un itérateur de `char`.

In [24]:
for c in "☃❄".chars() {
    println!("{:?}", c)
};

'☃'
'❄'


Les méthodes de cet itérateur permettent notamment de calculer le nombre de caractères, ou de construire un `Vec<char>`.

In [25]:
"☃❄".chars().count()

2

In [26]:
let v: Vec<char> = "☃❄".chars().collect();
v[1]

'❄'

Le type `str` possède de nombreuses méthodes de manipulation de chaînes :

* `contains` indique si la chaîne contient une sous-chaîne,
* `trim` retourne une sous-chaîne en supprimant les espaces au début et à la fin,
* `split` retourne un itérateur de sous-chaînes, délimitées par un séparateur donné,
* `replace` retourne une nouvelle chaîne en remplaçant les occurences d'une sous-chaîne par un texte donné,
* `make_ascii_uppercase`, `make_ascii_lowercase` modifie la chaîne en changeant la casse des caractères ASCII,
* ...

Documentation complète : https://doc.rust-lang.org/std/primitive.str.html

### Chaîne mutable `String`

Une `String` est une chaîne de caractères de taille variable.

In [27]:
// création d'une String vide
let mut s = String::new();

// remplissage d'une String
s.push('H');
s.push_str("ello");
s.push_str(" world");
s

"Hello world"

In [28]:
// création d'une String à partir d'une str
let s = "Hello world".to_string();
s

"Hello world"

Les `String` peuvent être utilisées comme des `str`, elles « héritent » de leurs méthodes.

In [29]:
let s = "Winter is coming ❄".to_string();
s.contains("coming")

true

In [30]:
s.len() // Attention, il s'agit toujours du nombre d'OCTETS

20

Documentation complète : https://doc.rust-lang.org/std/string/struct.String.html

## Types complexes `struct`

### Déclaration d'un type struturé

In [31]:
// similaire aux `struct` du C

struct Person {
    given_name: String,
    family_name: String,
    age: u8,
}

struct Color {
    r: u8,
    g: u8,
    b: u8,
}

### Initialisation d'une valeur structurée

In [32]:
let black = Color { r: 0, g: 0, b: 0};

// si la valeur d'un champ est une variable du même nom,
// inutile de répéter le nom

let (r, g, b) = (50, 100, 150);
let mut mycolor = Color { r, g, b };

### Accès aux champs

In [33]:
println!("{}", mycolor.b);
mycolor.r = 200;

150


### Type structuré générique

In [34]:
struct GColor<T> {
    r: T,
    g: T,
    b: T,
}

let gray: GColor<f64> = GColor { r: 0.5, g: 0.5, b: 0.5};

NB: `String` et `Vec<T>` sont définis comme des `struct`s.

On verra lors d'une prochaine séance comment munir nos `struct`s de *méthodes*,
comme c'est le cas pour `String` et `Vec<T>`.

Notez cependant que les `struct` ne sont *pas* des classes au sens de la programmation OO.
En particulier, un type `struct` ne *peut pas* hériter d'un autre.

## Gestion de la mémoire 🦀🦀

### Rappel : la pile et le tas

La pile

- contient les données des variables,
- de taille connue à la compilation (statique),
- gérées de manière *Last in, first out* par le compilateur (quel que soit le langage)
    
Le tas

- contient des données de taille connue à l'exécution (dynamique),
- gérées différemment selon les langages.

#### Gestion du tas

En C
- le développeur a la responsabilité de libérer la mémoire,
- ce qui peut donner lieu à des erreurs (mémoire libérée trop tôt, trop tard, jamais...).

En Java
- le ramasse-miettes (*garbage collector*) se charge de libérer la mémoire à l'exécution,
- ce qui peut entraîner des problèmes de performances.

#### Gestion du tas en Rust

En Rust
- le **compilateur** se charge de libérer la mémoire.
- Cela suppose de lui fournir assez d'information pour qu'il le fasse,
- d'où les concepts spécifiques de **propriété** et d'**emprunt**. 🦀🦀

### Illustration : le type `String`

In [35]:
let s1 = "hello".to_string();

<div style="text-align: center">
<img alt="String en mémoire" src="images/trpl04-01.svg" style="display: inline; width: 12em;">
</div>

In [36]:
let s1 = "hello".to_string();
let s2 = s1;
// Quelles est la structure en mémore de s1 et s2 ?

<div style="text-align: center"> <img alt="Shallow copy" src="images/trpl04-02.svg" style="display: inline; width: 12em;"> &nbsp;&nbsp;&nbsp;/&nbsp;&nbsp;&nbsp; <img alt="Deep copy" src="images/trpl04-03.svg" style="display: inline; width: 12em;"> ? </div>

In [37]:
// copie profonde EXPLICITE avec la méthode clone
let mut s1 = "hello".to_string();
let s2 = s1.clone();
println!("{:?} {:?}", s1, s2);

"hello" "hello"


<div style="text-align: center">
<img alt="Copie profonde" src="images/trpl04-03.svg" style="display: inline; width: 12em;">
</div>

In [38]:
let s1 = "hello".to_string();
let s2 = s1;
//println!("{}", s1); // NE COMPILE PAS

<div style="text-align: center">
<img alt="String en mémoire" src="images/trpl04-04.svg" style="display: inline; width: 12em;">
</div>

### Propriété 🦀🦀

* Toute donnée est la **propriété** d'exactement une variable (ou champ de structure).

* Conceptuellement, l'affectation d'une variable à une autre **déplace** (*move*) les données,
  et transfère la propriété à la nouvelle variable.
  
* Lorsqu'une variable est supprimée, si elle est encore propriétaire de ses données,
  celles-ci sont **libérées**.

In [39]:
fn produit(nom: &str) -> String {
    let mut msg = "Bonjour ".to_string(); // 1. La chaîne est allouée ici
    msg.push_str(nom);
    msg                                   // 2. La chaîne est transférée au code appelant
}

fn consomme(s: String) {
    println!("Le message contient {} octets", s.len());
}                                         // 5. La variable 's' arrive au bout de son scope,
                                          //    et elle possède toujours la chaîne,
                                          //qui est donc libérée.


{ 
    let mut txt = produit("Alice");       // 3. La chaîne est récupérée depuis la fonc. produit
    txt.push_str(" !");
    consomme(txt);                        // 4. La chaîne est transférée à la fonc. consomme
    //txt.len() // NE COMPILE PAS
};

Le message contient 15 octets


#### Cas particulier des types atomiques

Les types de base (entiers, flottants, booléens, caractères)
peuvent être copiés implicitement,
car le compilateur sait que cette copie est sûre (*safe*) et rapide.

In [40]:
let x = 42;
let y = x; // copy instead of move
println!("{} {}", x, y);

42 42


NB: il est possible d'étendre ce comportement à d'autres types (e.g. le type `Color` défini plus haut).

### Emprunts (*borrow*) 🦀🦀

In [41]:
let s1 = "hello".to_string();
{
    let s: &String = &s1;
    println!("{} {}", s1, s);
}
println!("{}", s1);

hello hello
hello


()

<div style="text-align: center">
<img alt="String en mémoire" src="images/trpl04-05.svg" style="display: inline; width: 16em;">
</div>

Pour tout type `T`, les variables de type `&T` sont des **références** vers un `T`.

* Physiquement, les références sont des pointeurs.
* Conceptuellement, les références ne *possèdent pas* les données vers lesquelles elles pointent,
* la disparition de la référence n'entraîne donc pas la libération des données.
* En conséquence, plusieurs références vers les même données peuvent *co-exister*.

In [42]:
let s1 = "hello".to_string();
{
    let s2: &String = &s1;
    let s3: &String = &s1;
    println!("{} {} {}", s1, s2, s3);
}
println!("{}", s1);

hello hello hello
hello


()

NB : Les références de type `&T` sont immutables.

In [43]:
let mut s1 = "hello".to_string();
{
    let s2: &String = &s1;
    //s2.push('!'); // NE COMPILE PAS
}
s1.push('!');
println!("{}", s1);

hello!


()

Pour que l'exemple ci-dessus fonctionne, il faut utiliser une **référence mutable**,
de type `&mut T`.

In [44]:
let mut s1 = "hello".to_string();
{
    let s2 = &mut s1;
    s2.push('!');
}
s1.push('!');
println!("{}", s1);

hello!!


()

### Règles sur les références

On ne peut pas avoir en même temps

* plusieurs références mutables, ni
* une référence mutable et une (ou plusieurs) référence(s) immutable(s).

En effet, il faut éviter

* que deux parties du code modifient les mêmes données simultanément, et
* qu'une partie du code lise des données en cours de modification.

In [45]:
let mut s1 = "hello".to_string();
{
    let s2 = &s1;
    //s1.push('?'); // NE COMPILE PAS
    println!("{}", s2);
}
s1.push('!');

hello


()

In [46]:
let mut s1 = "hello".to_string();
{
    let s2 = &mut s1;
    /* NE COMPILE PAS
    let s3 = &mut s1;
    println!("{} {}", s2, s3);
    */
    
}
s1.push('!');

()

### Choix des passages de paramètres des fonctions

In [47]:
// ma fonction n'a pas besoin de modifier les données : &T
fn compte_e(txt: &String) -> usize {
    let mut c = 0;
    for i in txt.chars() {
        if i == 'e' {
            c += 1;
        }
    }
    c
}

In [48]:
// ma fonction a besoin de modifier les données : &mut T
fn exclame(txt: &mut String) {
    if !txt.ends_with("!") {
        txt.push('!')
    }
}

In [49]:
// ma fonction "consomme" les données (rare) / les données sont "copiables" : T
fn fact(n: usize) -> usize {
    if n <= 1 { 1 } else { n*fact(n-1) }
}

### Différence conceptuelle entre pointeur et référence


In [50]:
let a = 42;
let b = 41 + 1;
let test = &a == &42;

In [51]:
test

true

* la « valeur » d'une référence n'est **pas** l'adresse en mémoire, c'est la valeur pointée.

    * Ne pas penser `&T` comme « un pointeur vers un `T` » mais comme « un `T` emprunté à quelqu'un d'autre ».
    * `T` et `&T` restent malgré tout deux types différents...

* En Rust, une référence n'est **jamais** un pointeur null. 🦀

In [52]:
let a = 42;
let b = 41 + 1;
// let test = &a == b; // NE COMPILE PAS
// let test = &a == 42; // NE COMPILE PAS
let test = &a == &42; // on imagine bien que &42 n'est pas un pointeur
{
    let c = &a;
    let test = *c == 42;  // on peut aussi l'écrire ainsi (* est l'opposé de &)
};

### Durées de vie

Un composant du compilateur (le *borrow checker*)
vérifie qu'aucun emprunt ne dure plus longtemps que la durée de vie du propriétaire.

(puisqu'à la « mort » du propriétaire, les données sont libérées)


In [53]:
// NE COMPILE PAS
let emprunteur;
{
    let proprietaire = "hello".to_string();
    emprunteur = &proprietaire;
}
println!("{}", emprunteur);

Error: `proprietaire` does not live long enough

Dans certaines situations, le compilateur a besoin qu'on lui donne des indications sur les durées de vie respectives des différentes références (« qui doit vivre aussi longtemps que qui ? »).

On utilise alors la syntaxe `&'a T` ou `&'a mut T`.

In [54]:
// NE COMPILE PAS
fn without_prefix(txt: &str, prefix: &str) -> &str {
    if txt.starts_with(prefix) {
        &txt[prefix.len()..]
    } else {
        txt
    }
}

without_prefix("bonjour", "bon")

Error: missing lifetime specifier

Mais dans ce module, nous ferons en sorte d'éviter ces situations.

In [55]:
fn without_prefix<'a>(txt: &'a str, prefix: &str) -> &'a str {
//               ^^^^       ^^                        ^^
    if txt.starts_with(prefix) {
        &txt[prefix.len()..]
    } else {
        txt
    }
}

without_prefix("bonjour", "bon")

"jour"