# **Bases du langage R**
## Objectifs
- #### Expression en ligne de commande.
- #### Affectation d'une valeur à une variable.
- #### Convention pour les noms d'objets.
- #### Types de données.
- #### Structure de données.
####
---
## Toute commande R est soit une **expression**, soit une **affectation**.

## **Une expression:**

### Normalement, une expression est immédiatement évaluée et le résultat est affiché à l’écran.
### Opérateurs arithmétiques avec lesquels tout le monde est familier : `+`, `-`, `*` et `/` pour les quatre opérations de base. 
### Il existe aussi `^` pour l’exponentiation, `%%` pour le reste et `%/%` pour la division entière.

In [None]:
2 + 3

In [None]:
3 * 6

In [None]:
10 %% 2

In [None]:
57 %/% 2

### R peut reconnaitre certaines constantes intégrées. `pi`, `LETTERS`, `letters`, `month.abb`.

In [None]:
pi ; LETTERS ; letters ; month.abb


## **Une affectation:**
### Deux signes sont acceptés en R pour affecter une valeur à une variable : `=` et `<-`
### Lors d’une affectation, une expression est évaluée, le résultat est stocké dans un objet (variable) `a = 5` et rien n’est affiché à l’écran.

In [5]:
a = 5 + 2

In [6]:
a

In [None]:
b = a

In [None]:
b

### Pour afficher le résultat:
- ### 1. On peut utiliser print().
- ### 2. On peut utiliser print(paste()) pour lier du texte et des variables.
- ### 3. Dans un notebook, simplement écrire la variable et exécuter la cellule.
- ### 4. Pour afficher simultanément le résultat d'une affectation, on met le tout entre parenthèse.

In [8]:
print(a)
print(paste("La valeur de a est:", a))
a
(a = 2 + 3)

[1] 5
[1] "La valeur de a est: 5"


---
### Conventions pour les noms d’objets (variables).

#### - On commence par une **lettre minuscule**.
#### - On sépare les mots d'une variable avec un `_`.
#### - On utilise seulement des lettres minuscules, le `_` et des chiffes.
#### - Les noms d’objets ne peuvent commencer par un chiffre. 
#### - S’ils commencent par un point, le second caractère ne peut être un chiffre.
####
#### Le R est sensible à la casse, ce qui signifie que `foo`, `Foo` et `FOO` sont trois objets distincts.
#### Certains noms et mots sont utilisés par le système R, aussi vaut-il mieux éviter de les utiliser.
#### `c`, `q`, `t`, `C`, `D`, `I`, `diff`, `length`, `mean`, `pi`, `range`, `var`, `break`, `else`, `for`, `function`, `if`, `in`, `next`, `repeat`, `return`, `while`, `TRUE`, `FALSE`, `Inf`, `NA`, `NaN`, `NULL`, `NA_integer_`, `NA_real_`, `NA_complex_`, `NA_character_`, `...`, `..1`, `..2`, etc.

In [None]:
weight0 = 0  # valid
0weight = 1  # invalid

## **Exercice**: 
### Affecter une opération numérique à une variable et l'afficher.

In [1]:
resultat = 2 * 9
resultat

[1] 18


## **Exercice**: 
### Affecter une constante à une variable  et l'afficher.

In [None]:
constante = pi
constante

---
## **Les types de données.**
#### Tout dans le langage R est un objet.
#### R a 6 types de base. (Le type raw ne sera pas couvert ici.)
- #### *character*: "a", 'swc'
- #### *numeric*: 2, 15.5
- #### *integer*: 2L (Le L indique à R de sauvegarder à titre de nombre entier (*integer*))
- #### *logical*: TRUE, FALSE (booléen)
- #### *complex*: 1+4i 

In [None]:
x = 'dataset'

In [None]:
y = 2L

In [None]:
z = TRUE

### Le R possède plusieurs fonctions pour examiner les caractéristique des vecteurs ou autre objets. 

- #### `class()` - quel est le type de l'objet ?
- #### `typeof()` - quel type de donnée ?
- #### `length()` - quel est la longeur?
- #### `attributes()` - retourne la liste des attributs, NULL si aucun.

In [None]:
class(x) ; typeof(y) ; length(z) ; attributes(x)

## **Exercice:** 
### Afficher le type de la variable x.

In [None]:
typeof(x)

---
## **Le R a plusieurs structures de données.**

- #### *atomic vector* (vecteur)
- #### *list* (verteur)
- #### *matrix*
- #### *data frame*
- #### *factors*

## **Deux types de vecteurs**
- #### Vecteurs atomiques (*character*, *logical*, *integer* ou *numeric*).
- #### Listes

In [None]:
vector() # Un vecteur vide 'logical' (par défaut)

In [None]:
vector("character", length = 5)

In [None]:
character(5) # En utilisant le constructeur directement

In [None]:
x = numeric(5) # Un vecteur numérique
x
class(x)

In [None]:
logical(5) # Un vecteur logique

### On peut aussi créer un vecteur en spécifiant directement son contenu.
### On utilise la fonction c() pour "*combine*" ou combiner.

In [16]:
nombres1 = c(0, 1, 2, 3)
nombres2 = c(10, 9, 8 ,7)

In [17]:
nombres1
length(nombres1)

In [18]:
class(nombres1) ; typeof(nombres1) ; length(nombres1) ; attributes(nombres1) 

NULL

### On peut créer un vecteur avec des séquences de nombres:

In [19]:
(series = 1:10)

seq(10)

seq(1, 10, by = 0.1)

### On peut ajouter un élément à notre vecteur.

In [20]:
nombres1 = c(nombres1, 4)
nombres1

In [21]:
nombres1 = append(nombres1, 5, after=3) # En R on commence à compter à partir de 1. 
nombres1

## La vectorisation.
### On peut trouver le maximum, le minimum et la moyenne.

In [24]:
max(nombres1) ; min(nombres1) ; mean(nombres1) 

### On peut doubler les valeurs, additionner, multiplier...
### Si les vecteurs ne sont pas de la même longeur il va recycler les valeurs.

In [35]:
nombres1
nombres2
2 * nombres1
nombres1 + nombres2
nombres1 * nombres2

“la taille d'un objet plus long n'est pas multiple de la taille d'un objet plus court”


“la taille d'un objet plus long n'est pas multiple de la taille d'un objet plus court”


In [33]:
nombres3 = c(1,2,3)
nombres4 = c(4,5,6)
nombres3 * nombres4

## **Exercice:**  
### Créer un vecteur avec des données entre 0 et 100 avec un bon de 0.5.

In [None]:
vecteur = seq(0, 100, by=0.5)
vecteur

---
## **Les listes**

### Contrairement aux vecteurs atomiques, les listes ne sont pas restreintes à un seul mode.

In [36]:
liste1 = list(1, "a", TRUE, 1+4i)

In [37]:
str(liste1)

List of 4
 $ : num 1
 $ : chr "a"
 $ : logi TRUE
 $ : cplx 1+4i


### On peut créer une liste vide avec la fonction vector.

In [None]:
liste2 = vector("list", length = 5) # la liste sera vide
length(liste2)

### On peut aller chercher le contenu d'un élément de la liste.

In [None]:
liste1[[2]] ; liste2[[1]]

### On peut transformer un vecteur en liste avec la fonction `as.list`.

In [38]:
z = 1:10
typeof(z)

z = as.list(z)
typeof(z)

### Les éléments d'une liste peuvent être nommés. Ce sont les attributs.

In [None]:
ma_liste = list("Helene", 1:10, z)
ma_liste

In [None]:
ma_liste = list(nom = "Helene", intervalle = 1:10, liste = z)
str(ma_liste)

### Je peux accéder à un élément par son nom:

In [None]:
ma_liste$intervalle

### Je peux accéder à un élément par un index:

In [None]:
ma_liste[c(1,2)]

### On peut observer le retour des fonctions suivantes: `attributes()`, `names()`, `dim()`

In [None]:
attributes(ma_liste)

names(ma_liste)

dim(ma_liste)

## **Exercice:** 
### Transformer le vecteur de l'exercice précédent en liste et afficher le type.
vecteur = seq(0, 100, by=0.5)

In [None]:
vecteur = as.list(vecteur)
typeof(vecteur)

---
## **La matrice**
### Le R étant un langage spécialisé pour les calculs mathématiques, il supporte tout naturellement et de manière intuitive les matrices et, plus généralement, les tableaux à plusieurs dimensions.
### C'est simplement un vecteur atomic avec dimensions (rangées et colonnes).
### Les éléments doivent être de même type.
### Les matrices et tableaux ne sont rien d’autre que des vecteurs dotés d’un attribut *dim*. 
### Ces objets sont donc stockés, et peuvent être manipulés, exactement comme des vecteurs simples.

In [39]:
v = 1:10

print(v)
class(v)

 [1]  1  2  3  4  5  6  7  8  9 10


In [53]:
dim(v) = c(2, 5) # On prend le vecteur m, on distribue les valeurs en 2 rangées, 5 colonnes

print(v)

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10


In [41]:
dim(v)
class(v)

In [55]:
n = matrix(c(1:4),2,2) # une dimention avec un interval 2 à 4.
class(n)
print(n)

     [,1] [,2]
[1,]    1    3
[2,]    2    4


In [56]:
typeof(n)

### On peut aller chercher un élément de la matrice: nom[rangée, colonne]

In [58]:
v[2,3] #rangée 2, colonne 2.

### Autre façon de construire une matrice, la fonction `cbind` ou `rbind`. Pouvez-vous me dire la différence?

In [None]:
x = 1:3
y = 10:12

In [None]:
print(cbind(x, y))

In [None]:
print(rbind(x, y))

### Une matrice de plus de 2 dimensions est appelée tableau (*array*).

In [59]:
vector1 = c(5, 9, 3, 4)
vector2 = c(10, 11, 12, 13, 14, 15)
resultat = array(c(vector1, vector2), dim = c(2, 3, 4)) # rangée, colonne, dimention
print(resultat)
resultat

, , 1

     [,1] [,2] [,3]
[1,]    5    3   10
[2,]    9    4   11

, , 2

     [,1] [,2] [,3]
[1,]   12   14    5
[2,]   13   15    9

, , 3

     [,1] [,2] [,3]
[1,]    3   10   12
[2,]    4   11   13

, , 4

     [,1] [,2] [,3]
[1,]   14    5    3
[2,]   15    9    4



### On peut aller chercher un élément dans un tableau.
### nom[rangée, colonne, dimention]

In [None]:
resultat[1, 2, 1] # première rangée, deuxième colonne, première dimention ; resultat[1, 2, 2]

## **Exercice:** 
### Que doit-on modifier pour avoir une matrice en trois dimensions?

In [None]:
vector1 = c(5, 9, 3, 4)
vector2 = c(10, 11, 12, 13, 14, 15)
resultat = array(c(vector1, vector2), dim = c(3, 3, 2))
print(resultat)
resultat

---
## ***Data frame***
### Le *Data frame* est une importante structure de donnée pour le R.
### C'est le type de structure pour la plupart des données tabulées utilisées en statistique.
### On peut créer un data frame avec les fonctions `read.csv()` ou `read.table()` quand on importe des données.
### On peur créer un data frame avec la fonction `data.frame()`.

In [60]:
dat = data.frame(id = letters[1:10], x = 1:10, y = 11:20) # letters => constante vue plus haut.
print(dat)

   id  x  y
1   a  1 11
2   b  2 12
3   c  3 13
4   d  4 14
5   e  5 15
6   f  6 16
7   g  7 17
8   h  8 18
9   i  9 19
10  j 10 20


### Fonctions utiles pour le *data frame*.
- #### `head()` - retourne les 6 premières rangées
- #### `tail()` - retourne les 6 dernières rangées
- #### `dim()` - retourne les dimensions du *data frame* (le nombre de rangées et de colonnes)
- #### `nrow()` - retourne le nombre de rangées
- #### `ncol()` - retourne le nombre de colonnes
- #### `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- #### `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- #### `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [None]:
head(dat)

In [None]:
str(dat)

In [None]:
class(dat)

## **Exercice:** 
### Construire un *data frame* de 2 colonnes

In [None]:
dat = data.frame(id = month.abb , numero = 1:12)
dat

---
## En Résumé :

- #### Expression en ligne de commande.
- #### Affectation d'une valeur à une variable.
- #### Convention pour les noms d'objets.
  
### Les types de donnée de base sont:
- #### *character*, *numeric*, *integer*, *logical*, *complex*
### Les structures de donnée sont:


| Dimensions  | Homogène  |  Hétérogène |   
|---|---|---|
| 1-D	|  atomic vector | list  |     
|  2-D	 | matrix  | data frame |

### Les objets ont des attributs:
- #### *name*, *dimention*, *class*

### Fonctions pour aller chercher de l'information sur les vecteurs ou objets: 
- #### class() , typeof(), length(), attributes().
### La vectorisation = options spécifiques de R, augmente la rapidité d'exécution p/r aux boucles.
---