# **Bases du langage R**
## Objectifs
- #### Expression en ligne de commande.
- #### Affectation d'une valeur à une variable.
- #### Convention pour les noms d'objets.
- #### Types de données.
- #### Structure de donnés.
####
---
## Toute commande R est soit une **expression**, soit une **affectation**.
### Normalement, une expression est immédiatement évaluée et le résultat est affiché à l’écran.
### Opérateurs arithmétiques avec lesquels tout le monde est familier : `+`, `-`, `*` et `/` pour les quatre opérations de base. 
### Il existe aussi `^` pour l’exponentiation, `%%` pour le reste et `%/%` pour la division entière.

In [63]:
2 + 3

In [64]:
3 * 6

In [1]:
10 %% 2

In [11]:
57 %/% 2

### R peut reconnaitre certaines constantes intégrées. `pi`, `LETTERS`, `letters`, `month.abb`.

In [1]:
pi ; LETTERS ; letters ; month.abb

### Deux signes sont accepté en R pour affecter une valeur à une variable : `=` et `<-`
### Lors d’une affectation, une expression est évaluée, le résultat est stocké dans un objet (variable) `a = 5` et rien n’est affiché à l’écran.

In [1]:
a = 5 + 2

In [2]:
a

In [3]:
b = a

In [4]:
b

### Pour affecter le résultat d’un calcul dans un objet et simultanément afficher ce résultat, il suffit de placer l’affectation entre parenthèses pour ainsi créer une nouvelle expression:

In [5]:
(a = 2 + 3)

---
### Conventions pour les noms d’objets (variables).

#### - On commence par une **lettre minuscule**.
#### - On sépare les mots d'une variable avec un `_`.
#### - On utilise seulement des lettres minuscule, le `_` et des chiffes.
####
#### - Les noms d’objets ne peuvent commencer par un chiffre. 
#### - S’ils commencent par un point, le second caractère ne peut être un chiffre.
####
#### Le R est sensible à la casse, ce qui signifie que `foo`, `Foo` et `FOO` sont trois objets distincts.
#### Certains noms et mots sont utilisés par le système R, aussi vaut-il mieux éviter de les utiliser.
#### `c`, `q`, `t`, `C`, `D`, `I`, `diff`, `length`, `mean`, `pi`, `range`, `var`, `break`, `else`, `for`, `function`, `if`, `in`, `next`, `repeat`, `return`, `while`, `TRUE`, `FALSE`, `Inf`, `NA`, `NaN`, `NULL`, `NA_integer_`, `NA_real_`, `NA_complex_`, `NA_character_`, `...`, `..1`, `..2`, etc.

In [20]:
weight0 = 0  # valid
0weight = 1  # invalid

ERROR: Error in parse(text = x, srcfile = src): <text>:2:2: symbole inattendu
1: weight0 = 0  # valid
2: 0weight
    ^


## **Exercice**: 
### Affectez une opération numérique à une variable et l'afficher.

In [121]:
resultat = 2 * 9
resultat

## **Exercice**: 
### Affectez une constante à une variable  et l'afficher.

In [122]:
constante = pi
constante

---
## Type de données.

### **Tout** dans le langage R est un objet.

### R a 6 types de base. (Le type raw ne sera pas couvert ici.)

- #### *character*: "a", 'swc'
- #### *numeric*: 2, 15.5
- #### *integer*: 2L (Le L indique à R de sauvegarder à titre de nombre entier (*integer*))
- #### *logical*: TRUE, FALSE (booléen)
- #### *complex*: 1+4i 

In [7]:
x = 'dataset'

In [8]:
y = 2L

In [9]:
z = TRUE

### Le R possède plusieurs fonctions pour examiner les caractéristique des vecteurs ou autre objets. 

- #### `class()` - quel est le type de l'objet ?
- #### `typeof()` - quel type de donnée ?
- #### `length()` - quel est la longeur?
- #### `attributes()` - contient-il des metadata?

In [10]:
class(x) ; typeof(y) ; length(z) ; attributes(x)

NULL

## **Exercice:** 
### Afficher le type de la variable x.

In [128]:
typeof(x)

---
### Le R a plusieurs structure de données.

- #### *atomic vector*
- #### *list*
- #### *matrix*
- #### *data frame*
- #### *factors*

## Deux type de vecteurs 

- #### Vecteurs atomiques (*character*, *logical*, *integer* ou *numeric*).
- #### Listes

In [9]:
vector() # Un vecteur vide 'logical' (par défaut)

In [1]:
vector("character", length = 5)

In [None]:
character(5) # En utilisant le constructeur directement

In [14]:
x = numeric(5) # Un vecteur numérique
x
class(x)

In [22]:
logical(5) # Un vecteur logique

### On peut aussi créer un vecteur en spécifiant directement son contenu.

### On utilise la fonction c() pour "*combine*" ou combiner.

In [14]:
nombres = c(0, 1, 2, 3)

In [15]:
nombres
length(nombres)

In [16]:
class(nombres) ; typeof(nombres) ; length(nombres) ; attributes(nombres) 

NULL

### On peut créer un vecteur avec des séquences de nombres:

In [10]:
(series = 1:10)

seq(10)

seq(1, 10, by = 0.1)

### On peut ajouter un élément à notre vecteur.

In [17]:
nombres = c(nombres, 4)
nombres

In [19]:
nombres = append(nombres, 5, after=3) # En R on commence à compter à partir de 1. 
nombres

### On peut doubler les valeurs, trouver le maximum, le minimum et la moyenne.

In [20]:
2 * nombres ; max(nombres) ; min(nombres) ; mean(nombres)

## **Exercice:**  
### Créer un vecteur avec des données entre 0 et 100 avec un bon de 0.5.

In [57]:
vecteur = seq(0, 100, by=0.5)
vecteur

---
## Les listes

### Contrairement aux vecteurs atomiques, les listes ne sont pas restreintes à un seul mode.

In [29]:
liste1 = list(1, "a", TRUE, 1+4i)

In [30]:
liste1
class(liste1)

### On peut créer une liste vide avec la fonction vector.

In [31]:
liste2 = vector("list", length = 5) # empty list
length(liste2)

### On peut aller chercher le contenu d'un élément de la liste.

In [32]:
liste1[[2]] ; liste2[[1]]

NULL

### On peut transformer un vecteur en liste.

In [34]:
z = 1:10
typeof(z)

z = as.list(z)
typeof(z)

### Les éléments d'une liste peuvent être nommés. Ce sont les attributs.

In [36]:
ma_liste = list("Helene", 1:10, z)
ma_liste = list(nom = "Helene", intervalle = 1:10, liste = z)
ma_liste

In [37]:
attributes(ma_liste)

names(ma_liste)

dim(ma_liste)

NULL

## **Exercice:** 
### Transformer le vecteur de l'exercice précédent en liste et affichier le type.

In [59]:
vecteur = as.list(vecteur)
typeof(vecteur)

---
## La matrice
### Le R étant un langage spécialisé pour les calculs mathématiques, il supporte tout naturellement et de manière intuitive les matrices et, plus généralement, les tableaux à plusieurs dimensions.
### C'est simplement un vecteur atomic avec dimentions (rangées et colonnes).
### Les éléments doivent être de même type.
### Les matrices et tableaux ne sont rien d’autre que des vecteurs dotés d’un attribut *dim*. 
### Ces objets sont donc stockés, et peuvent être manipulés, exactement comme des vecteurs simples.

In [106]:
m = 1:10

dim(m) = c(2, 5) # On prend le vecteur m, on distribue les valeurs en 2 rangées, 5 colonnes

print(m)

dim(m)

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10


In [135]:
n = matrix(c(2:4)) # une dimention avec un interval 2 à 4.
class(n)
print(n)

     [,1]
[1,]    2
[2,]    3
[3,]    4


In [100]:
typeof(n)

### On peut aller chercher un élément de la matrice.

In [137]:
m[2,3] #rangée 2, colonne 3.

### Autre façon de construire une matrice, la fonction `cbind` ou `rbind`.

In [48]:
x = 1:3
y = 10:12

In [49]:
print(cbind(x, y))

     x  y
[1,] 1 10
[2,] 2 11
[3,] 3 12


In [50]:
print(rbind(x, y))

  [,1] [,2] [,3]
x    1    2    3
y   10   11   12


### Une matrice de plus de 2 dimentions est appelé tableau (*array*).

In [53]:
vector1 = c(5, 9, 3, 4)
vector2 = c(10, 11, 12, 13, 14, 15)
resultat = array(c(vector1, vector2), dim = c(2, 3, 4)) # rangée, colonne, dimention
print(resultat)
resultat

, , 1

     [,1] [,2] [,3]
[1,]    5    3   10
[2,]    9    4   11

, , 2

     [,1] [,2] [,3]
[1,]   12   14    5
[2,]   13   15    9

, , 3

     [,1] [,2] [,3]
[1,]    3   10   12
[2,]    4   11   13

, , 4

     [,1] [,2] [,3]
[1,]   14    5    3
[2,]   15    9    4



### On peut aller chercher un élément dans un tableau.

In [54]:
resultat[1, 2, 1] # première rangée, deuxième colonne, première dimention ; resultat[1, 2, 2]

## **Exercice:** 
### Que doit-on modifier pour avoir une matrice en trois dimentions?

In [None]:
vector1 = c(5, 9, 3, 4)
vector2 = c(10, 11, 12, 13, 14, 15)
resultat = array(c(vector1, vector2), dim = c(3, 3, 2))
print(resultat)
resultat

---
## *Data frame*
### Le *Data frames* est une importante structure de donnée pour le R.
### C'est le type de structure pour la plupart des données tabulées utilisées en statistique.
### On peut créer un data frame avec les fonctions `read.csv()` ou `read.table()` quand on importe des données.
### On peur créer un data frame avec la fonction `data.frame()`.

In [112]:
dat = data.frame(id = letters[1:10], x = 1:10, y = 11:20) # letters => constante vue plus haut.
print(dat)

   id  x  y
1   a  1 11
2   b  2 12
3   c  3 13
4   d  4 14
5   e  5 15
6   f  6 16
7   g  7 17
8   h  8 18
9   i  9 19
10  j 10 20


### Fonctions utiles pour le *data frame*.
- #### `head()` - retourne les 6 premières rangées
- #### `tail()` - retourne les 6 dernières rangées
- #### `dim()` - retourne les dimentions du *data frame* (le nombre de rangée et de colonne)
- #### `nrow()` - retourne le nombre de rangée
- #### `ncol()` - retourne le nombre de colonne
- #### `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- #### `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- #### `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [113]:
head(dat)

Unnamed: 0_level_0,id,x,y
Unnamed: 0_level_1,<chr>,<int>,<int>
1,a,1,11
2,b,2,12
3,c,3,13
4,d,4,14
5,e,5,15
6,f,6,16


In [114]:
str(dat)

'data.frame':	10 obs. of  3 variables:
 $ id: chr  "a" "b" "c" "d" ...
 $ x : int  1 2 3 4 5 6 7 8 9 10
 $ y : int  11 12 13 14 15 16 17 18 19 20


In [115]:
class(dat)

## **Exercice:** 
### Construire un *data frame* de 2 colonnes

In [62]:
dat = data.frame(id = month.abb , numero = 1:12)
dat

id,numero
<chr>,<int>
Jan,1
Feb,2
Mar,3
Apr,4
May,5
Jun,6
Jul,7
Aug,8
Sep,9
Oct,10


---
## En Résumé :

- #### Expression en ligne de commande.
- #### Affectation d'une valeur à une variable.
- #### Convention pour les noms d'objets.
  
#### Les types de donnée de base sont:
- #### *character*, *numeric*, *integer*, *logical*, *complex*
#### Les structures de donnée sont:


| Dimensions  | Homogène  |  Hétérogène |   
|---|---|---|
| 1-D	|  atomic vector | list  |     
|  2-D	 | matrix  | data frame |

#### Les objets ont des attributs:
- #### *name*, *dimention*, *class*

#### Fonctions pour aller chercher de l'information sur les vecteurs ou objets: 
- #### class() , typeof(), length(), attributes().