# **Bases du langage R**
## Objectifs
- Expression en ligne de commande.
- Affectation d'une valeur à une variable.
- Convention pour les noms d'objets.
- Types de données.
- Structure de données.

---

Toute commande R est soit une **expression**, soit une **affectation**.

**Une expression:**

Normalement, une expression est immédiatement évaluée et le résultat est affiché à l’écran.

In [2]:
2 + 3

---

**Une affectation:**
Deux signes sont acceptés en R pour affecter une valeur à une variable : `=` et `<-`


Lors d’une affectation, une expression est évaluée, le résultat est stocké dans un objet (variable) `a = 5` et rien n’est affiché à l’écran. 

Pour afficher ce que contient la variable à l'écran on a simplement à écrire le nom de la variable avec la fonction `print()`.

In [3]:
a = 2 + 3

In [4]:
print(a)

[1] 5


---
## **Conventions pour les noms d’objets (variables).**

- On commence par une **lettre minuscule**.
- On sépare les mots d'une variable avec un `_`.
- On utilise seulement des lettres minuscules, le `_` et des chiffes.
- Les noms d’objets ne peuvent commencer par un chiffre. 
- S’ils commencent par un point, le second caractère ne peut être un chiffre.

Le R est sensible à la casse, ce qui signifie que `foo`, `Foo` et `FOO` sont trois objets distincts.


Certains noms et mots sont utilisés par le système R, mais aussi vaut-il mieux éviter de les utiliser.


 `c`, `q`, `t`, `C`, `D`, `I`, `diff`, `length`, `mean`, `pi`, `range`, `var`, `break`, `else`, `for`, `function`, `if`, `in`, `next`, `repeat`, `return`, `while`, `TRUE`, `FALSE`, `Inf`, `NA`, `NaN`, `NULL`, `NA_integer_`, `NA_real_`, `NA_complex_`, `NA_character_`, `...`, `..1`, `..2`, etc.

In [None]:
weight0 = 0  # valid
0weight = 1  # invalid

---
## **Les types de données.**
Tout dans le langage R est un objet.
R a 6 types de base. (Le type raw ne sera pas couvert ici.)
- *character*: "a", 'swc'
- *numeric*: 2, 15.5
- *integer*: 2L (Le L indique à R de sauvegarder à titre de nombre entier (*integer*))
- *logical*: TRUE, FALSE (booléen)
- *complex*: 1+4i 

In [None]:
x = 'dataset'

In [None]:
y = 2L

In [None]:
z = TRUE

---
## **Le R a plusieurs structures de données.**

- *atomic vector* (vecteur)
- *list* (vecteur)
- *matrix*
- *data frame*
- *factors* (pour les valeurs catégorielles (masculin, féminin),(type sanguin))

---
## **Deux types de vecteurs**
- Vecteurs atomiques (*character*, *logical*, *integer* ou *numeric*).
- Listes

---
## **Les vecteurs atomiques**
On peut créer un vecteur en spécifiant directement son contenu.

On utilise la fonction c() pour "*combine*" ou combiner.

In [5]:
nombres1 = c(0, 1, 2, 3)

In [6]:
print(nombres1)

[1] 0 1 2 3


On peut créer un vecteur avec des séquences de nombres:

In [7]:
print(seq(10))

 [1]  1  2  3  4  5  6  7  8  9 10


In [8]:
print(seq(1, 10, by = 0.1))

 [1]  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4
[16]  2.5  2.6  2.7  2.8  2.9  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9
[31]  4.0  4.1  4.2  4.3  4.4  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4
[46]  5.5  5.6  5.7  5.8  5.9  6.0  6.1  6.2  6.3  6.4  6.5  6.6  6.7  6.8  6.9
[61]  7.0  7.1  7.2  7.3  7.4  7.5  7.6  7.7  7.8  7.9  8.0  8.1  8.2  8.3  8.4
[76]  8.5  8.6  8.7  8.8  8.9  9.0  9.1  9.2  9.3  9.4  9.5  9.6  9.7  9.8  9.9
[91] 10.0


## Le R possède plusieurs fonctions pour examiner les caractéristiques des vecteurs ou autres objets. 

- `class()` - quel est le type de l'objet ?
- `typeof()` - quel type de donnée ?
- `length()` - quelle est la longueur?
- `attributes()` - retourne la liste des attributs, NULL si aucun.

In [9]:
typeof(nombres1)

In [11]:
length(nombres1)

---
## **Les listes**
Contrairement aux vecteurs atomiques, les listes ne sont pas restreintes à un seul mode.

In [14]:
liste1 = list(1, "a", TRUE, 1+4i)

In [15]:
print(liste1)

[[1]]
[1] 1

[[2]]
[1] "a"

[[3]]
[1] TRUE

[[4]]
[1] 1+4i



Je peux accéder à un élément par un index:

In [16]:
print(liste1[c(1,2)])

[[1]]
[1] 1

[[2]]
[1] "a"



---
## **La matrice**
Le R étant un langage spécialisé pour les calculs mathématiques, il supporte tout naturellement et de manière intuitive les matrices et, plus généralement, les tableaux à plusieurs dimensions.


C'est simplement un vecteur atomic avec dimensions (rangées et colonnes).


Les éléments doivent être de même type.


Les matrices et tableaux ne sont rien d’autre que des vecteurs dotés d’un attribut *dim*. 


Ces objets sont donc stockés, et peuvent être manipulés, exactement comme des vecteurs simples.

In [22]:
matrix1 = matrix(c(1:4),2,2) # une dimention avec un intervalle 1 à 4 sur 2 rangées et 2 colonnes.

In [23]:
print(class(matrix1))

[1] "matrix" "array" 


In [24]:
print(matrix1)

     [,1] [,2]
[1,]    1    3
[2,]    2    4


On peut aller chercher un élément de la matrice: nom[rangée, colonne]

In [25]:
print(matrix1[2,2])

[1] 4


---
## ***Data frame***
Le *Data frame* est une importante structure de donnée pour le R.

C'est le type de structure pour la plupart des données tabulées utilisées en statistique.

On peut créer un data frame avec les fonctions `read.csv()` ou `read.table()` quand on importe des données.

On peur créer un data frame avec la fonction `data.frame()`.

In [28]:
dat = data.frame(id = letters[1:10], x = 1:10, y = 11:20) # letters => constante.

In [27]:
print(dat)

   id  x  y
1   a  1 11
2   b  2 12
3   c  3 13
4   d  4 14
5   e  5 15
6   f  6 16
7   g  7 17
8   h  8 18
9   i  9 19
10  j 10 20


### Fonctions utiles pour le *data frame*.
- `head()` - retourne les 6 premières rangées
- `tail()` - retourne les 6 dernières rangées
- `dim()` - retourne les dimensions du *data frame* (le nombre de rangées et de colonnes)
- `nrow()` - retourne le nombre de rangées
- `ncol()` - retourne le nombre de colonnes
- `str()` - *structure of data frame* - retourne le nom et type de donnée avec un résumé de chaque colonne.
- `summary()` - résumé avec mean, max, median sur les collonnes.
- `names()` or `colnames()` - retourne les noms des attributs pour le *data frame*
- `sapply(dataframe, class)` - retourne la classe de chaque colonne dans le *data frame*

In [29]:
head(dat)

Unnamed: 0_level_0,id,x,y
Unnamed: 0_level_1,<chr>,<int>,<int>
1,a,1,11
2,b,2,12
3,c,3,13
4,d,4,14
5,e,5,15
6,f,6,16


---
## En Résumé :

- Expression en ligne de commande.
- Affectation d'une valeur à une variable.
- Convention pour les noms d'objets.
  
Les types de données de base sont:
- *character*, *numeric*, *integer*, *logical*, *complex*
 Les structures de donnée sont:


| Dimensions  | Homogène  |  Hétérogène |   
|---|---|---|
| 1-D	|  atomic vector | list  |     
|  2-D	 | matrix  | data frame |

Les objets ont des attributs:

-  *name*, *dimention*, *class*

Certaines fonctions à se rappeler pour aller chercher de l'information sur les vecteurs ou objets: 

-  class() , typeof(), length(), attributes().

--- 