In [1]:
source("../utils.R")
options(repr.plot.width = 10, repr.plot.height = 10)

‚ÄúNAs introduced by coercion‚Äù


# Programmation orient√©e objet

<div class="subtitle1" id="coursename">
Techniques avanc√©es en programmation statistique <strong>R</strong>
</div>
<div class="subtitle2" id="author">
Patrick Fournier<br>
Automne 2021<br>
Universit√© du Qu√©bec √Ä Montr√©al<br>
</div>

## Cours 4: Programmation orient√©e objet
1. Introduction
2. OOP et **R**
3. S3

## Introduction

* Paradigme sous lequel le concept d'*objet* joue un r√¥le fondamental
* Objet: peut repr√©senter:
    + Objet physique (table, charg√© de cours...)
    + Concept (matrice, paix dans le monde...)
* Approche OO:
    + D√©finir un ensemble d'objets
    + D√©finir les interactions entre ces objets
* De ce point de vue, possible dans la plupart des langages
* Premier langage OO: Simula, 1962.
    + Destin√© aux simulations Monte Carlo üßÆ

### Terminologie 1

* *Classe*: D√©claration (parfois d√©finition) de la structure interne d'un ensemble d'objets
* *Slot*/*field*/*attribut*: Variable associ√©e √† un objet / une classe
* *M√©thode*: Fonction associ√©e √† un ou plusieurs objet(s) / classe(s)
* *H√©ritage*: Processus par lequel une classe fille acquiert la structure d'une ou plusieurs classe(s) m√®re(s)
* *Polymorphisme*: Une interface pour plusieurs entit√©s de types diff√©rents
* *Encapsulation*: Cacher l'impl√©mentation √† l'utilisateur

### Terminologie 2
* *Message passing*: objets $ \Rightarrow $ communiquent entre eux par messages
    + *Message* $ = $ id√©e fondamentale de l'OOP originale (Alan Kay & Smalltalk)
    + Souvent limit√©s √† des appels de m√©thodes (C++, Java...)
    + Concept beaucoup plus large (Smalltalk, Groovy...)
* *Fonction g√©n√©rique*: appels de m√©thodes $ \Rightarrow $ *dispatch√©s* par des *fonctions g√©n√©riques*
    + Origines: Flavors (Lisp Machine Lisp) & CommonLoops (Common Lisp)
    + Approche "de base" de **R**

## OOP et **R**
### Syst√®mes d'objets

* *S3* ([Advanced R](https://adv-r.hadley.nz/s3.html))
    + Fonctions g√©n√©riques
    + Pas (vraiment) de classe
* *S4* ([Advanced R](https://adv-r.hadley.nz/s4.html))
    + S3 $ + $ classes formelles
* *Reference classes* (*RC*, *R5*)
    + Message passing
    + Instances mutables
* *R6* ([Advanced R](https://adv-r.hadley.nz/r6.html), [Site officiel](https://r6.r-lib.org))
    + "Version am√©lior√©e" de RC
* *Closure*

### Choisir un syst√®me
* S3
    + Tr√®s informel
    + Peu de fonctionnalit√©s
    + Facile √† apprendre
    + Facile √† utiliser
    + Suffisant pour un grand nombre d'utilisations
* S4
    + Moins performant
    + Plus difficile √† utiliser
* RC
    + Moins performant que R6
    + Objets mutables
    + Bas√© sur S4
* R6
    + Bas√© sur S3
    + Essentiellement RC, mais "mieux" 

### Choisir un syst√®me

* Choix par d√©faut: S3
* Si la mutabilit√© est importante: R6
* Utilisez S4 si vous avez besoin
    + H√©ritage multiple (plus d'une classe m√®re)
    + Dispatch multiple (dispatch sur plusieurs arguments)
    + Interaction avec [Bioconductor](https://www.bioconductor.org/)
* Utilisez RC si vous √™tes oblig√©s!

[D√©tails](https://adv-r.hadley.nz/oo-tradeoffs.html)

## S3
### Attribut `class`

* S3 est bas√© sur une seule chose: l'*attribut class*
* Vecteur de chaine de caract√®res (`character`)
* Entr√©es ordonn√©es de la classe la plus sp√©cifique √† la moins sp√©cifique

### S3: structure

* Un objet S3 est compos√© de
    + Un objet "standard"
    + Un attribut `class`
* Objet standard: souvent une `list`, mais aucune obligation

In [2]:
p1 <- c(1, 2)
class(p1) <- c("point", "numeric")

In [3]:
p2 <- c(1, 2)
attributes(p2) <- list(class = c("point", "numeric"))

In [4]:
p3 <- structure(c(3, 4), class = c("point", "numeric"))

### S3: structure

* $ \Rightarrow $ Possible de changer la classe d'un objet a posteriori
* D√©conseill√©, surtout si l'objet a √©t√© cr√©√© par quelqu'un d'autre

### Constructeur

* L'appel √† `class<-`, `attributes<-` ou `structure` n'est pas √©l√©gant, pratique ni s√©curitaire
* $ \Rightarrow $ Il est d'usage de d√©finir un (plusieurs) constructeur(s) üë∑
* Simple fonction qui se charge de l'appel
    + Apr√®s avoir v√©rifi√© le type des arguments!
* Habituellement, nom constructeur $ = $ nom classe

In [5]:
point <- function(v){
    v <- as.numeric(v)
    
    stopifnot(identical(length(v), 2L))

    structure(v, class = c("point", class(v)))
}

In [6]:
point(1:3)

ERROR: Error in point(1:3): identical(length(v), 2L) is not TRUE


In [7]:
point(letters[1:2])

‚ÄúNAs introduced by coercion‚Äù


In [8]:
point(1:2)

### M√©thodes

* Reconaissables par leur nom: `m√©thode.classe(...)`
* $ \Rightarrow $ facile de d√©finir de nouvelles m√©thodes!
    + Suffisant de d√©finir une fonction nomm√©e de mani√®re appropri√©e
* Possible d'impl√©menter des m√©thodes pour une classe que l'on a pas d√©finie
    + `Monkey patching`
    + √Ä utiliser avec parcimonie!

### M√©thodes

* Lorsque le nom d'une variable est saisi, **R** appelle `print`sur cette variable
* Nous allons:
    1. D√©finir une m√©thode `print`pour notre type `point`
    2. D√©finir une m√©thode `summary` comme une version d√©taill√©e de `print`
* `Important`: Arguments m√©thode $ = $ arguments g√©n√©rique!

In [9]:
formals(print)

$x


$...



In [10]:
print.point <- function(x, ...)
    cat("x = ", x[1], "& y = ", x[2], "\n")

In [11]:
summary.point <- function(object, ...){
    cat("Point de coordonn√©es ")
    print(object)
}

In [12]:
p1

In [13]:
summary(p1)

Point de coordonn√©es x =  1 & y =  2 


In [14]:
summary(cars)

     speed           dist       
 Min.   : 4.0   Min.   :  2.00  
 1st Qu.:12.0   1st Qu.: 26.00  
 Median :15.0   Median : 36.00  
 Mean   :15.4   Mean   : 42.98  
 3rd Qu.:19.0   3rd Qu.: 56.00  
 Max.   :25.0   Max.   :120.00  

In [15]:
summary(lm(dist ~ speed, cars))


Call:
lm(formula = dist ~ speed, data = cars)

Residuals:
    Min      1Q  Median      3Q     Max 
-29.069  -9.525  -2.272   9.215  43.201 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -17.5791     6.7584  -2.601   0.0123 *  
speed         3.9324     0.4155   9.464 1.49e-12 ***
---
Signif. codes:  0 ‚Äò***‚Äô 0.001 ‚Äò**‚Äô 0.01 ‚Äò*‚Äô 0.05 ‚Äò.‚Äô 0.1 ‚Äò ‚Äô 1

Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared:  0.6511,	Adjusted R-squared:  0.6438 
F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12


### Method dispatch

* Les deux expressions sont des appels √† la m√™me fonction: `summary`
* Diff√©rence: *argument* fourni √† summary
    + En fait, *classe* de l'argument
* Exemple de *polymorphisme*
    + Interface commune: `summary`
    + Comportement diff√©rent en fonction de la classe de l'argument

### Method dispatch

* Fonctionnement de la fonction `summary` est tr√®s complexe
* Son code doit √™tre remarquablement compliqu√©

In [16]:
body(summary)

UseMethod("summary")

<font size = 50>???</font>

### Method dispatch
* `summary` ne calcule aucune statistique sommaire et n'affiche rien directement üò±
* R√¥le: d√©terminer la *m√©thode* appropri√©e √† appeller $ \Rightarrow $ *method dispatch* 
* Fonction qui dispatch: *fonction g√©n√©rique*
* En R: se reconnaissent facilement par leur appel √† `UseMethod`
* `UseMethod`trouve la m√©thode la plus *sp√©cialis√©e* pouvant s'appliquer

In [24]:
v1 <- structure(c(1, 2), class = c("vec", "numeric"))

summary.vec

ERROR: Error in eval(expr, envir, enclos): object 'summary.vec' not found


In [19]:
summary.numeric

ERROR: Error in eval(expr, envir, enclos): object 'summary.numeric' not found


In [21]:
methods(summary)

 [1] summary.aov                    summary.aovlist*              
 [3] summary.aspell*                summary.check_packages_in_dir*
 [5] summary.connection             summary.data.frame            
 [7] summary.Date                   summary.default               
 [9] summary.ecdf*                  summary.factor                
[11] summary.ggplot*                summary.glm                   
[13] summary.hcl_palettes*          summary.infl*                 
[15] summary.lm                     summary.loess*                
[17] summary.manova                 summary.matrix                
[19] summary.mlm*                   summary.nls*                  
[21] summary.packageStatus*         summary.point                 
[23] summary.POSIXct                summary.POSIXlt               
[25] summary.ppr*                   summary.prcomp*               
[27] summary.princomp*              summary.proc_time             
[29] summary.rlang_error*           summary.rlang_trace*      

* Exemple: initialement, `summary` cherchait une m√©thode pour la classe la plus sp√©cifique de `v1`, `vec`
    + N'existe pas $ \Rightarrow $ recommence la recherche pour la classe `numeric`
* Arriv√© √† ce point, **R** a √©puis√© toutes les classes
* Pourtant, `summary` fonctionne quand m√™me ü§®

In [25]:
summary(v1)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    1.25    1.50    1.50    1.75    2.00 

* Dernier atout: `summary.default`
* En g√©n√©ral, avant d'abandonner, **R** cherche une m√©thode par d√©faut
    + Utile pour d√©finir un comportement par d√©faut

In [26]:
summary.default(v1)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    1.25    1.50    1.50    1.75    2.00 

### Fonction g√©n√©rique

* M√©thode *sans* fonction g√©n√©rique: ‚òπÔ∏è
* $ \Rightarrow $ N√©cessit√© de d√©finir nos propres g√©n√©riques (parfois)
* La plupart du temps, se limite √† un appel √† `UseMethod` qui prend 2 arguments:
    + *generic*: nom de la m√©thode √† appeler
    + *object*: objet dont le type est utilis√© pour le dispatch.
        * Par d√©faut, premier argument pass√© √† la fonction g√©n√©rique ü™Ñ

### Fonction g√©n√©rique

D√©finissons une m√©thode permettant de d√©terminer si des points sont align√©s

In [31]:
isaligned.point <- function(...) {
    points <- list(...)
    
    isTRUE(length(points) <= 2) && return(TRUE)
    
    fit <- crossprod(
        solve(cbind(1, c(points[[1]][1], points[[2]][1]))),
        c(points[[1]][2], points[[2]][2]))
    
    for (p in points[-(1:2)]) {
        pred <- crossprod(c(1, p[1]), fit)[1]
        
        isTRUE(all.equal(pred, p[2])) || return(FALSE)
    }
    
    TRUE
}

In [32]:
isaligned.point(point(1:2), point(3:4), point(5:6))

In [33]:
isaligned.point(point(1:2), point(3:4), point(c(5, 7)))

### Fonction g√©n√©rique

D√©finissons une g√©n√©rique

In [34]:
isaligned <- function(...) UseMethod("isaligned")

In [35]:
isaligned(point(1:2), point(5:6), point(9:10))

In [36]:
isaligned(point(1:2), point(5:6), point(c(9, 11)))

### Exemple

* Classe `point`: simple sp√©cialisation de la classe `numeric`
* Peut facilement se complexifier!
* Exemple: offrir la possibilit√© √† l'utilisateur de marquer son point √† l'aide d'une cha√Æne de caract√®re

In [67]:
pointM <- function(v, mark = NULL) {
    stopifnot(is.null(mark) ||
              (is.character(mark) && identical(length(mark), 1L)))
    
    p <- point(v)
    attr(p, "mark") <- mark
    
    structure(p, class = c("pointM", class(p)))
}

### Exemple

* On cr√©e notre nouvelle classe en ajoutant un attribut √† un `point`
    + fonction `attr<-`
* Possibilit√© d'ajouter un nombre arbitraire d'attributs √† un objet
    + Certains (ex. `class`, `dim`) jouent un r√¥le sp√©cial
    + Voir documentation de `attr`
* Autre possibilit√©: utiliser une liste
    + Premi√®re entr√©e: `point`
    + Seconde entr√©e: marque
* Notre approche comporte certains avantages

In [41]:
p1 <- pointM(1:2, "Premier point")
p2 <- pointM(3:4, "Second point")
p3 <- pointM(5:6, "Troisi√®me point")

Comme nos `pointM` h√©ritent de `point`, on dispose d√©j√† de quelques m√©thodes!

In [42]:
p1

In [43]:
summary(p2)

Point de coordonn√©es x =  3 & y =  4 


In [44]:
isaligned(p1, p2, p3)

### Exemple

* Conceptuellement correct: tout ce qui peut √™tre fait avec un point devrait pouvoir se faire avec un point marqu√©
* Fournissons √† l'utilisateur un moyen de voir la marque d'un point

In [68]:
mark.pointM <- function(point) {
    print(attr(point, "mark"))
}

mark <- function(point) UseMethod("mark")

In [48]:
mark(p1)

[1] "Premier point"


### Exemple

Malheureusement, pas possible de modiifer la marque de la mani√®re "habituelle"

In [49]:
mark(p1) <- "1er point"

ERROR: Error in mark(p1) <- "1er point": could not find function "mark<-"


### Exemple

Solution:

In [50]:
`mark<-.pointM` <- function(point, value) {
    attr(point, "mark") <- value
    
    point
}

`mark<-` <- function(point, value) UseMethod("mark<-")

In [51]:
mark(p1)

[1] "Premier point"


In [52]:
mark(p1) <- "1er point"

In [53]:
mark(p1)

[1] "1er point"


### Exemple

Finalement, sp√©cialisons `print`

In [60]:
print.pointM <- function(x, ...) {
    print.point(x)
    cat(mark(x), "\n")
}

In [63]:
print(p1)

x =  1 & y =  2 
[1] "1er point"
1er point 


In [64]:
summary(p2)

Point de coordonn√©es x =  3 & y =  4 
[1] "Second point"
Second point 


### Performance

* Syst√®me par fonction g√©n√©rique $ \Rightarrow $ *grande* flexibilit√©
* Co√ªt: fonction g√©n√©rique $ \Rightarrow $ plus d'appels de fonctions
* En g√©n√©ral, pas un probl√®me
    + Dans du code critique (boucle...), consid√©rer appeler directement la m√©thode