# **Chapitre 3 : Les vecteurs**

Les vecteurs constituent la classe d'objets la plus importante de R. On va voir par la suite qu'à partir de ces vecteurs, on va pouvoir construire tous les autres objets qui nous intéressent. Vous vous rappelez peut-être qu'au chapitre précédent, on a divisé les vecteurs en deux sous-classes, les **vecteurs atomiques** et les **listes**. Les premiers ne peuvent contenir que des éléments du même type, au contraire des derniers.

NB : Vous verrez très souvent une simplification de langage consistant à appeler les *vecteurs atomiques* des *vecteurs* tout court. Je vais me permettre de faire la même chose par la suite pour alléger les formulations et parce que c'est ce que vous trouverez sur les forums d'entraide en ligne, mais retenez qu'une liste est également un vecteur.

## **1. Les vecteurs atomiques**

On a vu dans le chapitre précédent qu'ils pouvaient être principalement de quatre types primaires différents (je ne mentionnerai plus par la suite les types *Complex* et *Raw* car ils ne sont que très rarement utilisés) :

* **Integer** : les entiers naturels, par convention suivis de la lettre "L" (ex : `23L`, `5L`, `0L`)
* **Double** : les nombres réels (ex : `23.0`, `12.5`, `0.2334`) et trois valeurs spéciales que sont `Inf`, `-Inf` et `NaN` (*Not a Number*)
* **Character** : le texte, par convention entre guillemets (ex : `"Hello"`, `"TRUE"`, `"123"`, `"3 quarts"`)
* **Logical** : les booléens, variables à deux états, notés par convention *vrai*/*faux* (ex : `TRUE`, `FALSE`)

Quelques remarques en vrac :

* Sans le "L", les entiers naturels sont interprétés comme des *double*
* Les booléens `TRUE` et `FALSE` peuvent aussi être abrégés `T` et `F`
* Les *integer* et les *double* peuvent être regroupés dans un "surtype", qu'on appelle *numeric*

### **1.1 Instanciation**

Pour créer un vecteur atomique, on utilise la fonction `c()` ("c" pour *combine*) :

In [18]:
int_vect <- c(2L, 35L, 0L)
dbl_vect <- c(1.23, 2, 0.345)
chr_vect <- c("pbr", "bct", "abc")
lgl_vect <- c(TRUE, FALSE, TRUE)

On peut également combiner plusieurs vecteurs en un avec la même fonction :

In [23]:
lng_vect <- c(c(1, 2, 3), c(4, 5, 6))
print(lng_vect)

[1] 1 2 3 4 5 6


Lorsqu'on combine des éléments de types différents, R va convertir tous les éléments vers le type le plus "inclusif" :
* Les booléns peuvent être convertis en *integer*, `TRUE` valant `1` et `FALSE` valant `0`, en *double* ou en *character*
* Les *integer* peuvent être convertis en *double* ou en *chracter*
* Les *double* peuvent être convertis en *character* 
* Les *character* ne sont jamais convertis

In [28]:
mix_vect <- c(TRUE, 43L, 34.5343, "trois")
print(mix_vect)

[1] "TRUE"    "43"      "34.5343" "trois"  


Selon les règles énoncées plus haut, tous les éléments du vecteur ont donc été convertis au format texte.

### **1.2 Opérations numériques**

Rien de bien compliqué ici, vous pouvez interagir dans la console comme avec une calculatrice :

In [1]:
somme_chiffres <- 1 + 2
print(somme_chiffres)

[1] 3


Les opérations entre vecteurs se font position par position (le premier élément d'un vecteur avec le premier élément d'un autre, etc.) :

In [2]:
somme_vecteurs <- c(1, 2, 3) + c(4, 5, 6)
print(somme_vecteurs)

[1] 5 7 9


Une opération un peu spéciale ici, qu'on appelle *modulo*, et qui renvoie le reste de la division euclidienne :

In [3]:
# 13 divisé par 5 = 2 (reste 3)
print(13 %% 5)

[1] 3


Selon les mêmes règles que la conversion automatique des éléments d'un vecteur pour qu'ils aient le même type, R essaie quand c'est possible de convertir les éléments d'une opération en *double* pour qu'elle soit réalisable :

In [10]:
somme_bizarre <- 56 + TRUE
verite <- TRUE + TRUE + TRUE

print(somme_bizarre)
print(verite)

[1] 57
[1] 3


Toujours pas de conversion automatique du texte :

In [14]:
somme_erreur <- 41 + "1"
print(somme_erreur)

ERROR: Error in 41 + "1": non-numeric argument to binary operator


Mais c'est possible de le faire manuellement avec les fonctions `as.integer()` ou `as.double()` par exemple :

In [15]:
somme_qui_marche <- 41 + as.double("1")
print(somme_qui_marche)

[1] 42


### **1.2 Opérations logiques**

Les opérateurs logiques et relationnels permettent de vérifier si une condition est "vraie" ou non, et renvoient le booléen correspondant (`TRUE` ou `FALSE`). Les plus fréquemment rencontrés sont les suivants :
    
| Type | Opérateur | Description | Détails |
| --- | :---: | --- | --- |
| Logique | `&` | AND (= ET) | Affiche `TRUE` si les conditions de part et d'autre de l'opérateur sont toutes deux vérifiées |
| Logique | `\|` | OR (= OU) | Affiche `TRUE` si au moins l'une des conditions de part et d'autre de l'opérateur est vérifiée |
| Logique | `!` | NOT | Précède une opération logique et affiche l'inverse du résultat de celle-ci |
| Relationnel | `==` | est égal à | |
| Relationnel | `<` | est inférieur à | |
| Relationnel | `<=` | est inférieur ou égal à | |
| Relationnel | `>` | est supérieur à | |
| Relationnel | `>=` | est supérieur ou égal à | |
| Relationnel | `!=` | est différent de | |

In [127]:
print(TRUE & TRUE)
print(TRUE & FALSE)
print(TRUE | FALSE)
print(!TRUE)

[1] TRUE
[1] FALSE
[1] TRUE
[1] FALSE


Attention à ne pas confondre l'opérateur `==` (double signe *égal*), qui vérifie une égalité entre deux éléments, et l'opérateur `=` (signe *égal*) qui fait à très peu de chose près la même chose que `<-` (assignation).

In [118]:
print(1 == 2)
print(4 > 3)
print(8 <= 10)
print(11 != 11)

[1] FALSE
[1] TRUE
[1] TRUE
[1] FALSE


On peut également combiner les opérateurs afin d'évaluer des conditions complexes :

In [129]:
print((4 < 5) & (3 > 9))
print((4 < 5) | (3 > 9))
print((4 < 5) & !(3 > 9))

[1] FALSE
[1] TRUE
[1] TRUE


Lors que les opérateurs sont utilisés avec des vecteurs, les évaluations se font encore une fois deux à deux selon la position dans le vecteur :

In [120]:
vec1 <- c(6, 2, 9)
vec2 <- c(3, 6, 12)
print(vec1 >= vec2)

[1]  TRUE FALSE FALSE


On peut aussi utiliser les opérateurs relationnels avec du texte, même si c'est très peu fait en pratique. Pour les opérateurs `<`, `>`, `<=` et `>=`, seule la première lettre est évaluée (la notion d'infériorité ou de supériorité se définit selon la position dans l'alphabet).

In [123]:
print("ABC" == "ABC")
print("A" < "B")
print("ABC" < "B")

[1] TRUE
[1] TRUE
[1] TRUE


### **1.3 Ordonner un vecteur**

Pour cela on va utiliser la fonction `sort()` et l'argument `decreasing` (on verra plus tard plus en détail ce qu'est une fonction et ses arguments) :

In [5]:
vecteur_desordonne <- c(129, 4, 3)

ordre_croissant <- sort(vecteur_desordonne, decreasing=FALSE)
ordre_decroissant <- sort(vecteur_desordonne, decreasing=TRUE)

print(ordre_croissant)
print(ordre_decroissant)

[1]   3   4 129
[1] 129   4   3


## **2. Les listes**

On ne va pas beaucoup s'attarder sur les listes simples dans cette partie, pour la bonne raison qu'une liste est la même chose qu'un vecteur atomique, sauf qu'elle peut accueillir des éléments de types différents en son sein :

In [38]:
hopital <- list("Ambroise Paré", 92)
print(hopital)

[[1]]
[1] "Ambroise Paré"

[[2]]
[1] 92



Je passe rapidement dessus, mais l'un des objets les plus importants de R, celui qui nous permet de traiter les données que l'on rencontre au quotidien (le **data frame**), est en réalité bien une liste. Et on aura le temps d'y revenir dans un chapitre ultérieur qui y sera entièrement dédié !

## **3. Accéder aux éléments d'un vecteur**

### **3.1 Indices**

Afin d'accéder aux éléments d'un vecteur, on utilise des crochets `[]` directement à la suite du vecteur, avec l'indice de position de l'élément en question entre les crochets :

In [144]:
vecteur_lambda <- c("Vive", "la", "santé", "publique", "!")
print(vecteur_lambda[3])

[1] "santé"


En utilisant un indice négatif entre les crochets, R affiche le vecteur en omettant l'élément correspondant :

In [145]:
lambda_ampute <- vecteur_lambda[-4]
print(lambda_ampute)

[1] "Vive"  "la"    "santé" "!"    


### **3.2 Filtres conditionnels**

Une autre méthode pour sélectionner les éléments d'un vecteur, consiste à écrire entre les crochets un vecteur de booléens, de la même longueur que le vecteur d'intérêt :

In [146]:
vecteur_absurde <- vecteur_lambda[c(TRUE, FALSE, TRUE, FALSE, TRUE)]
print(vecteur_absurde)

[1] "Vive"  "santé" "!"    


Ça peut paraître rébarbatif au premier abord, mais c'est en réalité très utile pour accéder à des éléments qui remplissent une certaine **condition**, que l'on va préciser grâce aux opérations logiques que l'on a vu plus haut :

In [28]:
enumeration <- c(1, 2, 7, 8, 3)
filtre <- enumeration >= 5
print(filtre)

[1] FALSE FALSE  TRUE  TRUE FALSE


R a donc vérifié la condition, à savoir `enumeration >= 5` sur chacun des éléments du vecteur `enumeration`, comme si on avait fait l'opération `enumeration >= c(5, 5, 5, 5, 5)`. En effet, lorsqu'une opération s'effectue entre deux vecteurs de longueur différente, R prend le plus petit et le répète jusqu'à atteindre la longueur du vecteur le plus grand. Par exemple :

In [29]:
filtre_diff <- enumeration >= c(2, 3)
print(filtre_diff)

“longer object length is not a multiple of shorter object length”

[1] FALSE FALSE  TRUE  TRUE  TRUE


Ici R a effectué l'opération `enumeration >= c(2, 3, 2, 3, 2)`, et on est prévenu par un message que la longueur du vecteur le plus long n'est pas un multiple de la longueur du vecteur le plus court. Un dernier filtre pour la route pour illustrer au passage l'utilité du *modulo* (`%%`) :

In [30]:
# Un nombre est pair si le reste de sa division 
# euclidienne par 2 est égal à zéro
filtre_pair <- enumeration %% 2 == 0
print(filtre_pair)

[1] FALSE  TRUE FALSE  TRUE FALSE


Enfin on va pouvoir faire usage de nos filtres comme si on voulait sélectionner les éléments d'un vecteur avec des booléens :

In [31]:
print(enumeration[filtre])
print(enumeration[filtre_diff])
print(enumeration[filtre_pair])

[1] 7 8
[1] 7 8 3
[1] 2 8


Vous en savez maintenant suffisamment pour manipuler des vecteurs (vecteurs atomiques et listes). Et même si vous êtes en train de penser qu'on manipule beaucoup plus souvent des données tabulaires (ce qu'on verra au prochain chapitre), détrompez-vous, les **data frames** sont en fait des listes de vecteurs atomiques... Mais je ne vous embrouille pas plus, et passons au chapitre suivant !