<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Opérations-sur-les-matrices" data-toc-modified-id="Opérations-sur-les-matrices-1">Opérations sur les matrices</a></span><ul class="toc-item"><li><span><a href="#apply" data-toc-modified-id="apply-1.1">apply</a></span></li><li><span><a href="#lapply" data-toc-modified-id="lapply-1.2">lapply</a></span></li><li><span><a href="#sapply" data-toc-modified-id="sapply-1.3">sapply</a></span></li><li><span><a href="#autre" data-toc-modified-id="autre-1.4">autre</a></span></li></ul></li><li><span><a href="#arrays" data-toc-modified-id="arrays-2">arrays</a></span></li><li><span><a href="#Listes" data-toc-modified-id="Listes-3">Listes</a></span></li><li><span><a href="#Data-Frames" data-toc-modified-id="Data-Frames-4">Data Frames</a></span></li></ul></div>

In [2]:
options(repr.matrix.max.cols=8, repr.matrix.max.rows=5)

# Opérations sur les matrices


## apply


Nous avons vu qu'il était possible de faire des opérations sur les matrices en ligne ou en colonne. Toutefois, ce n'est pas toutes les fonctions statistiques qui sont applicables sur des colonnes et/ou lignes comme  `colMeans`. Pour appliquer d'utres sortes de fonctions, nous devons utiliser la fonction `apply`.

On peut alors utiliser `apply` lorsqu'on veut appliquer un calcule ou une fonction quelconque (FUN) sur des colonnes ou des lignes d'une matrice (incluant les matrices plus que 2D)

Soit une matrice de 12 premiers entiers;

In [2]:
m<-matrix(1:12, nrow=3)
m

0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


Calculons le logarithme naturel de chaque élément de cette matrice:

In [3]:
h<-apply(m, c(1,2), log) #c(1,2) ça veut dire sur ligne et colonne
h

0,1,2,3
0.0,1.386294,1.94591,2.302585
0.6931472,1.609438,2.079442,2.397895
1.0986123,1.791759,2.197225,2.484907


Créons une matrice `3 x 1` qui nous retourne le résultat de la somme de chaque ligne;

In [4]:
h<-matrix(apply(m, 1, sum))
h

0
22
26
30


Si nous comparerons à la fonction `rowSums` que nous avons vue;

In [7]:
rowSums(m)

## lapply

La fonction lapply applique une fonction quelconque (FUN) à tous les éléments d’un vecteur ou d’une liste X et retourne le résultat sous forme de liste.

Dans l'exemple suivant, nous avons une liste de trois vecteurs {vecteur_1, vecteur_2, vecteur_3} de taille différente, on voudrait savoir quelle est la taille de chaque élément, on voudrait la réponse dans une **liste**;

In [4]:
x <- list(vecteur_1 = 1, vecteur_2 = 1:17, vecteur_3 = 55:97) 
lapply(x, FUN = length) 

Dans le résultat ci-haut, la fonction `lapply` nous a retourné une liste de trois éléments avec la taille de chaque vecteur.

Regardons un autre exemple où nous cherchons à créer quatre échantillons aléatoires de taille {5, 6, 7, 8} tirés du vecteur `x= 1 2 3 4 5 6 7 8 9 10`

In [5]:
set.seed(123)
lapply(5:8, sample, x = 1:10)

## sapply

Dans certains cas, on voudrait appliquer une fonction quelconque sur une liste, mais on ne veut pas que `R` nous retourne une une liste, on désire plutôt que `R` nous retourne un vecteur. La fonction `sapply` fait exactement cela. Le résultat est donc **s**implifiée par rapport à celui de `lapply`, d’où le nom de la fonction. 

La taille de chaque élément de notre liste;

In [7]:
sapply(x, FUN = length)

ou la somme de chaque élément de notre liste `x`

In [6]:
sapply(x, FUN = sum)   

Si le résultat de chaque application de la fonction est un vecteur et que les vecteurs sont tous de la même longueur, alors sapply retourne une matrice, remplie comme toujours par colonne :

In [7]:
(x <- lapply(rep(5, 3), sample, x = 1:10))

In [8]:
sapply(x, sort)

0,1,2
2,1,1
3,3,2
6,7,3
9,9,8
10,10,9


## autre
Il existe d'autres façons de manipuler les matrices, listes, vecteurs ...etc. Dans ce cours nous avons couvert les trois principaux, toutefois, on peut avoir besoin dans certains cas d'utiliser `vapply`, `mapply`, `Map`, `rapply` ou même `tapply` qui s'apparentent tous aux trois fonctions que nous avons couverts avec plus d'options ou format différent du résultat obtenu.

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#arrays" data-toc-modified-id="arrays-1">arrays</a></span></li><li><span><a href="#Listes" data-toc-modified-id="Listes-2">Listes</a></span></li><li><span><a href="#Data-Frames" data-toc-modified-id="Data-Frames-3">Data Frames</a></span></li></ul></div>

# arrays

Les tableaux sont une généralisation des matrices. Le nombre de dimensions d'un tableau est égal à la longueur de l'attribut `dim`. Sa classe est "array"

In [22]:
x<-array(1:24, dim=c(3,4,2))

In [23]:
x

Les tableaux sont un cas spécial des matrices. Ils sont comme des vecteurs ou des matrices, à l'exception d'avoir des attributs additionnels.

# Listes

Les listes sont un type de vecteur spécial qui peut être composé d'élément ayant n'importe laquelle classe (numérique, string ou booléen).

In [41]:
(x <- list(taille = c(1, 5, 2), utilisateur = "Mike", new = TRUE))

Puisque la liste un vecteur, on peut alors extraire avec les crochets `[]`

In [42]:
x[1]

In [43]:
x[[1]]

In [44]:
x$taille

In [46]:
x$utilisateur

# Data Frames

Un _Data Frame_ est une **liste** de vecteurs de même longueur. Conceptuellement, c'est une matrice dont les lignes correspondent aux variables explicatives, et les lignes sont les valeurs mesurées de ces variables.

In [46]:
villes <-c("Montréal", "Québec", "Laval")
Population <-c(1942044, 585485, 430077)
village <-c(F,T,T)

In [47]:
donnees_ville <-data.frame(villes, Population, village)

In [48]:
donnees_ville

villes,Population,village
Montréal,1942044,False
Québec,585485,True
Laval,430077,True


Si l’on vérifie les attributs de ce _data frame_

In [49]:
attributes(donnees_ville)

ça nous donne les étiquettes des colonnes, le nom de colonnes (numéros) et la classe

In [51]:
 donnees_ville[,1]

In [52]:
 donnees_ville[,2]

In [53]:
 donnees_ville[2,1]

Ou par nom;

In [54]:
donnees_ville$Population

Remarquez que les villes ne s'affichent pas entre guillemets comme des strings, mais plutôt comme des `levels`, Si l’on voulait les avoir en strings, il faut ajouter l'argument `stringAsFactors=F`

In [50]:
 donnees_ville <-data.frame(villes, Population, village, stringsAsFactors=F)

In [51]:
donnees_ville

villes,Population,village
Montréal,1942044,False
Québec,585485,True
Laval,430077,True


In [52]:
 donnees_ville$villes   

Une fonction très utile afin d'avoir un résumé sur les éléments du `df`

In [53]:
str(donnees_ville)

'data.frame':	3 obs. of  3 variables:
 $ villes    : chr  "Montréal" "Québec" "Laval"
 $ Population: num  1942044 585485 430077
 $ village   : logi  FALSE TRUE TRUE


In [54]:
df<-donnees_ville

In [55]:
summary(df)

    villes            Population       village       
 Length:3           Min.   : 430077   Mode :logical  
 Class :character   1st Qu.: 507781   FALSE:1        
 Mode  :character   Median : 585485   TRUE :2        
                    Mean   : 985869   NA's :0        
                    3rd Qu.:1263764                  
                    Max.   :1942044                  

On se rappelle des données `Cars93`, ce sont des données sous format df. Chargeons-les afin de travailler avec quelques exemples.

In [20]:
require(MASS)

In [21]:
data(Cars93)

In [66]:
class(Cars93)

In [67]:
str(Cars93)

'data.frame':	93 obs. of  27 variables:
 $ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
 $ Model             : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ...
 $ Type              : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...
 $ Min.Price         : num  12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ...
 $ Price             : num  15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ...
 $ Max.Price         : num  18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ...
 $ MPG.city          : int  25 18 20 19 22 22 19 16 19 16 ...
 $ MPG.highway       : int  31 25 26 26 30 31 28 25 27 25 ...
 $ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ...
 $ DriveTrain        : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ...
 $ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ...
 $ EngineSize        : num  1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.

On voit que nous avons 93 observations avec 27 variables