<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Matrices" data-toc-modified-id="Matrices-1">Matrices</a></span><ul class="toc-item"><li><span><a href="#Extraction-d'un-élément-d'une-matrice" data-toc-modified-id="Extraction-d'un-élément-d'une-matrice-1.1">Extraction d'un élément d'une matrice</a></span></li><li><span><a href="#diag" data-toc-modified-id="diag-1.2">diag</a></span></li><li><span><a href="#Opértaion-sur-les-matrices" data-toc-modified-id="Opértaion-sur-les-matrices-1.3">Opértaion sur les matrices</a></span></li><li><span><a href="#cbind" data-toc-modified-id="cbind-1.4">cbind</a></span></li><li><span><a href="#rbind" data-toc-modified-id="rbind-1.5">rbind</a></span></li><li><span><a href="#matrcice-en-vecteur" data-toc-modified-id="matrcice-en-vecteur-1.6">matrcice en vecteur</a></span></li><li><span><a href="#Quelques-fonctions-statistiques-sur-les-matrices" data-toc-modified-id="Quelques-fonctions-statistiques-sur-les-matrices-1.7">Quelques fonctions statistiques sur les matrices</a></span></li><li><span><a href="#Corrélation" data-toc-modified-id="Corrélation-1.8">Corrélation</a></span></li><li><span><a href="#summary" data-toc-modified-id="summary-1.9">summary</a></span></li></ul></li><li><span><a href="#Générer-des-variables-aléatoires" data-toc-modified-id="Générer-des-variables-aléatoires-2">Générer des variables aléatoires</a></span><ul class="toc-item"><li><span><a href="#runif" data-toc-modified-id="runif-2.1">runif</a></span></li><li><span><a href="#Seed" data-toc-modified-id="Seed-2.2">Seed</a></span></li><li><span><a href="#Sample-(échantillonage)" data-toc-modified-id="Sample-(échantillonage)-2.3">Sample (échantillonage)</a></span></li><li><span><a href="#rnorm" data-toc-modified-id="rnorm-2.4">rnorm</a></span></li></ul></li><li><span><a href="#arrays" data-toc-modified-id="arrays-3">arrays</a></span></li><li><span><a href="#Listes" data-toc-modified-id="Listes-4">Listes</a></span></li><li><span><a href="#Data-Frames" data-toc-modified-id="Data-Frames-5">Data Frames</a></span></li></ul></div>

# Matrices

Une matrice est un objet constitué de données en deux dimensions, soit des lignes et des colonnes. Chaque élément de la matrice est situé à l'intersection d'une ligne et d'une colonne.

In [56]:
A<- matrix(c(6,8,1,1,4,2), nrow = 2, ncol = 3)

In [57]:
A

0,1,2
6,1,4
8,1,2


Il arrive souvent qu'on veuille transposer une matrice. Pour ce faire, il suffit de l'inclure à l'intérieur de `t(matrice)`

In [58]:
t(A)

0,1
6,8
1,1
4,2


**Note** Lorsqu'on transpose un vecteur, R transforme ce vecteur en une matrice à une seule dimension:

In [59]:
vec<-1:5

In [61]:
t(vec)

0,1,2,3,4
1,2,3,4,5


**Note** la fonction `dim()` donne les dimensions d'une matrice. Si l’on vérifie la dimension du vecteur.

In [62]:
dim(vec)

NULL

Bien évidemment il nous retourne une valeur nulle. Mais lorsqu'on transforme ce vecteur en matrice, on obtient;

In [63]:
dim(t(vec))

Ce qui veut dire que notre matrice est composée d'une seule ligne et cinq colonnes

## Extraction d'un élément d'une matrice

Si l'on veut extraire un élément d'une matrice, il suffit d'indiquer ses coordonnées **`[ligne, colonne]`**

In [64]:
A[1,3]

In [65]:
A

0,1,2
6,1,4
8,1,2


Lorsqu'on veut extraire un élément qui n'existe pas dans la matrice, on obtien alors le message d'erreur `subscript out of bounds`. Un message d'erreur que nous verrons souvent!

In [67]:
A[1,4]

ERROR: Error in A[1, 4]: subscript out of bounds


Si l'on omet de mettre une valeur au numéro de colonne ou de ligne, on obtient la ligne ou la colonne complète

In [68]:
A[,1]

Lorsqu'on crée une matrice, nous ne sommes pas obligés d'indiquer le nombre de colonnes ou de lignes en même temps. Un seul argument suffit.

In [81]:
B<-matrix(seq(1,9.5,.5), 3)

In [82]:
B

0,1,2,3,4,5
1.0,2.5,4.0,5.5,7.0,8.5
1.5,3.0,4.5,6.0,7.5,9.0
2.0,3.5,5.0,6.5,8.0,9.5


Si l'on veut extraire la deuxième et la quatrième colonne

In [83]:
B[,c(2,4)]

0,1
2.5,5.5
3.0,6.0
3.5,6.5


In [78]:
B<-t(B)

In [79]:
B

0,1,2
1.0,1.5,2.0
2.5,3.0,3.5
4.0,4.5,5.0
5.5,6.0,6.5
7.0,7.5,8.0
8.5,9.0,9.5


Si l'on veut extraire la troisième et la cinquième ligne;

In [80]:
B[c(3,5),]

0,1,2
4,4.5,5
7,7.5,8


## diag

Cette fonction crée une matrice identité, c'est une matrice carrée avec des 1 sur la diagonale et des 0 partout ailleurs.

In [84]:
diag(5)

0,1,2,3,4
1,0,0,0,0
0,1,0,0,0
0,0,1,0,0
0,0,0,1,0
0,0,0,0,1


## Opértaion sur les matrices

On peut aussi appliquer des fonctions mathématiques sur des matrices comme nous l'avons fait avec des vecteurs

In [85]:
A**2

0,1,2
36,1,16
64,1,4


In [86]:
B/2

0,1,2,3,4,5
0.5,1.25,2.0,2.75,3.5,4.25
0.75,1.5,2.25,3.0,3.75,4.5
1.0,1.75,2.5,3.25,4.0,4.75


In [89]:
C<-B*2

In [90]:
B+C

0,1,2,3,4,5
3.0,7.5,12.0,16.5,21.0,25.5
4.5,9.0,13.5,18.0,22.5,27.0
6.0,10.5,15.0,19.5,24.0,28.5


Créons une matrice `A=5X3`. Cette matrice contient les températures en Fahrenheit des trois villes "Fairbanks","San Francisco" et "Chicago" (nom de colonnes). Les lignes sont les données du mois de mars 2012 au mois de mars 2016.

In [6]:
A<-matrix(c(30,32,31,27,36,72,60,78,67,71,55,57,56,55,49),ncol=3)
A

0,1,2
30,72,55
32,60,57
31,78,56
27,67,55
36,71,49


Convertissons ces données en Celsius avec la formule suivante;

\begin{equation}\label{eq:}
℃= \frac{℉-32}{1.8000}
\end{equation}


In [7]:
A<-round((A-32)/1.8,0)
A

0,1,2
-1,22,13
0,16,14
-1,26,13
-3,19,13
2,22,9


On peut donner des noms à chacune des colonnes avec la fonction `colnames()`

In [8]:
colnames(A)<-c("Fairbanks","San Francisco","Chicago")

et des nom aux lignes avec la fonction `rownames()`

In [9]:
rownames(A)<-paste("3/",12:16,sep='')

La fonction `paste` ci-haut permet de concatener des caractères 

In [10]:
paste("3/",12:16,sep='___')

In [11]:
A

Unnamed: 0,Fairbanks,San Francisco,Chicago
3/12,-1,22,13
3/13,0,16,14
3/14,-1,26,13
3/15,-3,19,13
3/16,2,22,9


Créons une autre matrice `B`

In [12]:
B<-matrix(c(88,85,83,81,78,62,61,54,60,65,90,92,91,89,90),ncol=3)
colnames(B)<-c("Los Angeles","Seattle","Honolulu")
rownames(B)<-paste("3/",12:16,sep='')

In [13]:
B<-round((B-32)/1.8,0)
B

Unnamed: 0,Los Angeles,Seattle,Honolulu
3/12,31,17,32
3/13,29,16,33
3/14,28,12,33
3/15,27,16,32
3/16,26,18,32


## cbind

La fonction `cbind` permet de concaténer deux matrices ensemble en colonne

In [14]:
cbind(A,B)

Unnamed: 0,Fairbanks,San Francisco,Chicago,Los Angeles,Seattle,Honolulu
3/12,-1,22,13,31,17,32
3/13,0,16,14,29,16,33
3/14,-1,26,13,28,12,33
3/15,-3,19,13,27,16,32
3/16,2,22,9,26,18,32


## rbind

La fonction `rbind` permet de concaténer deux matrices ensemble une par-dessus l'autre

In [15]:
rbind(A,B)

Unnamed: 0,Fairbanks,San Francisco,Chicago
3/12,-1,22,13
3/13,0,16,14
3/14,-1,26,13
3/15,-3,19,13
3/16,2,22,9
3/12,31,17,32
3/13,29,16,33
3/14,28,12,33
3/15,27,16,32
3/16,26,18,32


## matrcice en vecteur

On peut aussi transformer une matrice en un vecteur;

Reprenons la matrice que nous avons créée avec la fonction `rbind`. On lui donne le nom "mat_comb"

In [16]:
mat_comb<-cbind(A,B)

On la transforme en vecteur avec `c(nomMatrice)`

In [17]:
c(mat_comb)

## Quelques fonctions statistiques sur les matrices

In [18]:
mat_comb

Unnamed: 0,Fairbanks,San Francisco,Chicago,Los Angeles,Seattle,Honolulu
3/12,-1,22,13,31,17,32
3/13,0,16,14,29,16,33
3/14,-1,26,13,28,12,33
3/15,-3,19,13,27,16,32
3/16,2,22,9,26,18,32


Lorsqu'on applique la fonction `min`, on obtient alors la valeur minimale de toutes les valeurs contenues dans la matrice

In [19]:
min(mat_comb)

In [20]:
max(mat_comb)

In [21]:
range(mat_comb)

In [22]:
sd(mat_comb)

Les statistiques que nous venons d'obtenir, sont applquées à toutes les valeurs de la matrice. Et si nous voulions des statistiques par ligne ou par colonne

In [23]:
rowMeans(mat_comb)

In [24]:
colMeans(mat_comb)

## Corrélation

In [33]:
cor(mat_comb)

Unnamed: 0,Fairbanks,San Francisco,Chicago,Los Angeles,Seattle,Honolulu
Fairbanks,1.0,0.07356124,-0.6918586,-0.24325462,0.38624364,0.05025189
San Francisco,0.07356124,1.0,-0.3084798,-0.06947125,-0.49810768,0.0
Chicago,-0.69185856,-0.30847978,1.0,0.6400569,-0.48366537,0.5151222
Los Angeles,-0.24325462,-0.06947125,0.6400569,1.0,-0.04559608,0.1423737
Seattle,0.38624364,-0.49810768,-0.4836654,-0.04559608,1.0,-0.72057669
Honolulu,0.05025189,0.0,0.5151222,0.1423737,-0.72057669,1.0


## summary

In [34]:
summary(mat_comb)

   Fairbanks    San Francisco    Chicago      Los Angeles      Seattle    
 Min.   :-3.0   Min.   :16    Min.   : 9.0   Min.   :26.0   Min.   :12.0  
 1st Qu.:-1.0   1st Qu.:19    1st Qu.:13.0   1st Qu.:27.0   1st Qu.:16.0  
 Median :-1.0   Median :22    Median :13.0   Median :28.0   Median :16.0  
 Mean   :-0.6   Mean   :21    Mean   :12.4   Mean   :28.2   Mean   :15.8  
 3rd Qu.: 0.0   3rd Qu.:22    3rd Qu.:13.0   3rd Qu.:29.0   3rd Qu.:17.0  
 Max.   : 2.0   Max.   :26    Max.   :14.0   Max.   :31.0   Max.   :18.0  
    Honolulu   
 Min.   :32.0  
 1st Qu.:32.0  
 Median :32.0  
 Mean   :32.4  
 3rd Qu.:33.0  
 Max.   :33.0  

 Si on veut par ligne, rappelons-nous que nous avons appris à transposer les matrices!

In [35]:
summary(t(mat_comb))

      3/12            3/13            3/14            3/15      
 Min.   :-1.00   Min.   : 0.00   Min.   :-1.00   Min.   :-3.00  
 1st Qu.:14.00   1st Qu.:14.50   1st Qu.:12.25   1st Qu.:13.75  
 Median :19.50   Median :16.00   Median :19.50   Median :17.50  
 Mean   :19.00   Mean   :18.00   Mean   :18.50   Mean   :17.33  
 3rd Qu.:28.75   3rd Qu.:25.75   3rd Qu.:27.50   3rd Qu.:25.00  
 Max.   :32.00   Max.   :33.00   Max.   :33.00   Max.   :32.00  
      3/16      
 Min.   : 2.00  
 1st Qu.:11.25  
 Median :20.00  
 Mean   :18.17  
 3rd Qu.:25.00  
 Max.   :32.00  

# Générer des variables aléatoires

## runif
La fonction `runif` permet de générer des pseudo-variables aléatoires indépendantes entre deux bornes
`runif(n=combien, min, max)`

In [40]:
runif(1,0,10)

In [41]:
runif(10,0,1)

On peut insérer maintenant les valeurs générées à l'intérieur d'un vecteur

In [44]:
x<-runif(100,0,1)
x

Ou les insérer à l'intérieur d'une matrice

In [45]:
x<-matrix(x, 10)
x

0,1,2,3,4,5,6,7,8,9
0.539611001,0.43703539,0.85709912,0.4599631,0.9746683,0.9150659,0.1251427,0.1800253,0.63296958,0.127779
0.969200172,0.98869122,0.4587888,0.272586,0.58830241,0.7808764,0.2056756,0.6443141,0.82069732,0.199427
0.161860105,0.44683774,0.05306833,0.3773334,0.75579931,0.1784268,0.3055089,0.4147207,0.43887943,0.604085
0.446521448,0.54748316,0.92775225,0.9982479,0.54972412,0.6394982,0.686443,0.9867912,0.03091283,0.5808925
0.007107472,0.02445618,0.3534589,0.4459476,0.77903144,0.4392217,0.8644656,0.3406485,0.56053496,0.4633779
0.963198963,0.40298549,0.56838054,0.8158883,0.03108763,0.797969,0.6087287,0.5747714,0.07915931,0.4372559
0.5790666,0.34913192,0.2306677,0.2059267,0.41230033,0.70821,0.2880309,0.9337467,0.77597654,0.8853603
0.16570529,0.74011543,0.33763606,0.1456844,0.56672791,0.2197435,0.1583491,0.2270206,0.06134143,0.2939507
0.594905792,0.27719153,0.37522597,0.829737,0.49838097,0.3884056,0.3239845,0.1054112,0.80395329,0.1680158
0.375249445,0.84355537,0.387821,0.863745,0.70958528,0.3343178,0.3899539,0.6956865,0.90822088,0.8057296


Nous avons maintenant obtenu une matrice de dimension 10X10

## Seed

Comme dans SAS, nous avons appris comment générer les mêmes variables aléatoires dans un contexte de cumulation par exemple, avec la fonction seed

In [151]:
set.seed(2)

In [152]:
runif(2,0,1) 

In [153]:
runif(2,0,1) 

In [154]:
runif(2,0,1) 

Si on remet le seed=2, on obtient alors les mêmes valeurs que nous avons obtenues auparavant

In [159]:
set.seed(2)

In [160]:
runif(2,0,1) 

In [161]:
runif(2,0,1) 

In [162]:
runif(2,0,1) 

## Sample (échantillonage)

La fonction `sample` tire un échantillon aléatoire de $n$ variables à partir d'un ensemble de données allant de $\left\{1, \dots ,N\right\}$

In [168]:
sample(1:10,5)

In [169]:
sample(x,5)

In [170]:
sample(x,5)

$n\leq N$

In [172]:
sample(x,length(x)+1)

ERROR: Error in sample.int(length(x), size, replace, prob): cannot take a sample larger than the population when 'replace = FALSE'


Lorsque notre échantillon tiré est plus grand que notre ensemble de données, on peut utiliser un tirage avec remise:

In [175]:
sample(0:1, 100, replace = T)

Cette fonction fonctionne aussi sur un tirage de variable de type caractères

In [176]:
sample(state.name, 5)

La fonction `sample` donne des probabilités égales à tous les éléments tirés d'un ensemble de données. Toutesfois, il est possible de préciser la probabilité de chaque élément tiré.

In [1]:
s<-sample(1:5, 1000, replace=T, prob=c(.2,.2,.2,.2,.2))
s

Si on utilise la fonction `table` afin de compter l'occurrence de chaque élément

In [7]:
tableau <- table(s)
tableau

s
  1   2   3   4   5 
222 187 203 183 205 

on remarque que chaque élément à été tiré à un taux d'environ 20%

In [18]:
tableau[[1]]/sum(tableau)

Si on change les probabilités maintenant, mais **attention** la somme des probabilités doit être égale à 1

In [188]:
s<-sample(1:5, 1000, replace=T, prob=c(.2,.5,.1,.1,.1))
table(s)

s
  1   2   3   4   5 
197 509 101  87 106 

## rnorm
La moyenne par défaut est égale à 0 et l'écart-type=1

In [190]:
rnorm(1)

In [191]:
rnorm(1, 0, 100)

Créons un vecteur de 100 valeurs avec moyenne=100 et écart-type=100

In [192]:
x<-rnorm(100, 0, 100)

Si on calcule la moyenne de ce vecteur;

In [193]:
mean(x)

Nous avons obtenu une moyenne proche de la moyenne de nos variables aléatoires générées par la fonction `rnorm`

La même chose maintenant pour l'écart-type

In [195]:
sd(x)

Toutefois, si nous augmentons le nombre de variables aléatoires généré, nous sommes alors plus proches des arguments de la fonction `rnorm` que nous avons saisie

In [197]:
x<-rnorm(10000, 0, 100)
mean(x)

In [198]:
sd(x)

# arrays

Les tableaux sont une généralisation des matrices. Le nombre de dimensions d'un tableau est égal à la longueur de l'attribut `dim`. Sa classe est "array"

In [22]:
x<-array(1:24, dim=c(3,4,2))

In [23]:
x

Les tableaux sont un cas spécial des matrices. Ils sont comme des vecteurs ou des matrices, à l'exception d'avoir des attributs additionnels.

# Listes

Les listes sont un type de vecteur spécial qui peut être composé d'élément ayant n'importe laquelle classe (numérique, string ou booléen).

In [41]:
(x <- list(taille = c(1, 5, 2), utilisateur = "Mike", new = TRUE))

Puisque la liste un vecteur, on peut alors extraire avec les crochets `[]`

In [42]:
x[1]

In [43]:
x[[1]]

In [44]:
x$taille

In [46]:
x$utilisateur

# Data Frames

Un _Data Frame_ est une **liste** de vecteurs de même longueur. Conceptuellement, c'est une matrice dont les lignes correspondent aux variables explicatives, et les lignes sont les valeurs mesurées de ces variables.

In [46]:
villes <-c("Montréal", "Québec", "Laval")
Population <-c(1942044, 585485, 430077)
village <-c(F,T,T)

In [47]:
donnees_ville <-data.frame(villes, Population, village)

In [48]:
donnees_ville

villes,Population,village
Montréal,1942044,False
Québec,585485,True
Laval,430077,True


Si l’on vérifie les attributs de ce _data frame_

In [49]:
attributes(donnees_ville)

ça nous donne les étiquettes des colonnes, le nom de colonnes (numéros) et la classe

In [51]:
 donnees_ville[,1]

In [52]:
 donnees_ville[,2]

In [53]:
 donnees_ville[2,1]

Ou par nom;

In [54]:
donnees_ville$Population

Remarquez que les villes ne s'affichent pas entre guillemets comme des strings, mais plutôt comme des `levels`, Si l’on voulait les avoir en strings, il faut ajouter l'argument `stringAsFactors=F`

In [50]:
 donnees_ville <-data.frame(villes, Population, village, stringsAsFactors=F)

In [51]:
donnees_ville

villes,Population,village
Montréal,1942044,False
Québec,585485,True
Laval,430077,True


In [52]:
 donnees_ville$villes   

Une fonction très utile afin d'avoir un résumé sur les éléments du `df`

In [53]:
str(donnees_ville)

'data.frame':	3 obs. of  3 variables:
 $ villes    : chr  "Montréal" "Québec" "Laval"
 $ Population: num  1942044 585485 430077
 $ village   : logi  FALSE TRUE TRUE


In [54]:
df<-donnees_ville

In [55]:
summary(df)

    villes            Population       village       
 Length:3           Min.   : 430077   Mode :logical  
 Class :character   1st Qu.: 507781   FALSE:1        
 Mode  :character   Median : 585485   TRUE :2        
                    Mean   : 985869   NA's :0        
                    3rd Qu.:1263764                  
                    Max.   :1942044                  

On se rappelle des données `Cars93`, ce sont des données sous format df. Chargeons-les afin de travailler avec quelques exemples.

In [20]:
require(MASS)

In [21]:
data(Cars93)

In [66]:
class(Cars93)

In [67]:
str(Cars93)

'data.frame':	93 obs. of  27 variables:
 $ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
 $ Model             : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ...
 $ Type              : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...
 $ Min.Price         : num  12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ...
 $ Price             : num  15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ...
 $ Max.Price         : num  18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ...
 $ MPG.city          : int  25 18 20 19 22 22 19 16 19 16 ...
 $ MPG.highway       : int  31 25 26 26 30 31 28 25 27 25 ...
 $ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ...
 $ DriveTrain        : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ...
 $ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ...
 $ EngineSize        : num  1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.

On voit que nous avons 93 observations avec 27 variables