# Section 3 - Quelques pas plus loin en R

## <span style="color: steelblue">3. Boucles, fonctions et famille "apply"</span> 
## <span style="font-family:Calibri">3.1. Syntaxe des boucles et conditions (if, for, while)</span>
## <span style="font-family:Calibri">3.2. Ecrire une fonction en R</span>
## <span style="font-family:Calibri">3.3. La famille des apply</span>


<br>
<br>


<br>
<br>
## <span style="color: steelblue">3. Boucles, fonctions et famille "apply"</span> 


Extrait de <i><u>Hadley Wickham, Advanced R</u> : <br>

"R, at its heart, is a functional programming (FP) language. This means that it provides many tools for the creation and manipulation of functions".<br></i>


Avant de rentrer dans le dur de l'ecriture de fonction, voyons rapidement la syntaxe des boucles conditionnelles en R.

## <span style="font-family:Calibri">3.1. Syntaxe des boucles et conditions (if, for, while)</span>

Elements standard d'algorithmique, voici ci-dessous un rappel du formalisme utilisé en R.<br>
On verra dans la suite que l'utilisation de fonctions permet de s'affranchir autant que possible de ces boucles conditionnelles ou imbriquées, souvent couteuses en CPU.


In [None]:
(1:10)

In [2]:
# Boucle for : "for (i in (1:n)) {}"

serie <- 0 ; n <- 10000

for (i in (1:n)) {
serie <- serie + (-1)^(i-1) / i^2
}

serie
pi^2/12

In [None]:
# Boucle while : "while ( i <= n) {}"

serie <- 0 ; i <- 1 ; n <- 10000

while ( i <= n) {
    serie <- serie + (-1)^(i-1) / i^2
    i <- i + 1
}

serie
pi^2/12

In [None]:
# Condition if : "if ( i%%2 == 0 ) {}"

serie.paire <- 0 ; n <- 100000

for (i in (1:n)) {
    
    if ( i%%2 == 0 ) {  # si i est pair
        serie.paire <- serie.paire + (-1)^(i-1) / i^2
    }
}

serie.paire
-pi^2/24

In [None]:
# Condition if : "if ( i%%2 == 0 ) {}"

serie.paire <- 0 ; n <- 100000

for (i in (1:n)) {
    
    if ( i%%2 == 0 ) serie.paire <- serie.paire + (-1)^(i-1) / i^2
}

serie.paire
-pi^2/24

### Très important : notion de vectorisation

La vectorisation est la capacité du langage a repliquer a des vecteurs ou des matrices des opérations ordinairement dédiées au scalaires.  

dans l'exemple si dessus de condition if, la condition compare des elements de type et taille identique (en l'occurence un scalaire)

Si je compare 2 elements de taille différente, R va lever une erreur.

Comme on le verra dans l'utilisation des apply, il peut etre utile (voire indispensable) de travailler au niveau d'un vecteur et non d'un scalaire.

A noter qu'il existe en R une version "vectorisée" de la condition if-then-else : <b>la fonction ifelse() </b>



In [None]:
a <- 23 
b <- 123 

if(a>100) 100 else a   
if(b>100) 100 else b


In [None]:
a <- 23 
b <- 123 

ifelse(a>100, 100, a)   
ifelse(b>100, 100, b)   
 

In [None]:
c <- c(a, b)
ifelse(c>100, 100, c)  

In [None]:
c <- c(23, 123)
if(c>100) 100 else c

## <span style="font-family:Calibri">3.2. Ecrire une fonction en R</span>

On peut faire avec les fonctions ce qu'on peut faire avec un vecteur : les assigner a des variables, les sauvegarder dans une liste, les passer en argument d'autres fonctions, voire les retourner comme resultat d'une fonction.

En pratique, une fonction adopte generiquement le formalisme ci-dessous. 


Il est important de noter que <u>la fonction ne retourne qu'un seul objet</u>. <br>
Cela peut sembler déroutant si l'on oublie qu'elle peut de fait, retourner une liste, qui peut donc elle meme contenir de nombreux objets.

Prenons un exemple simple : la creation d'une fonction determinant si un entier est pair ou impair

In [None]:
est.pair <- function(x) { if ((x %% 2) == 0) {TRUE} else {FALSE}}

est.pair(2) ; est.pair(3) ; est.pair(pi)


On peut affiner la fonction : 

In [None]:
est.pair <- function(x) { if (is.numeric(x)) {
                                    if ((x %% 2) == 0) {TRUE} else {FALSE}
                                            }
                          else {cat("NON NUMERIQUE")}
                        }

est.pair(2) ; est.pair(3) ; est.pair(pi) ; est.pair("pi")


## <span style="font-family:Calibri">3.3. La famille des apply</span>

Cette famille est très utile en R, puisqu'elle permet de rendre generique, lisible et rapide toute operation par ailleurs repetitive.  
La raison pour laquelle elle est <u> plus rapide</u> que la boucle classique est qu'elle est nativement codé en langage compilé (C) et non en langage interpreté comme R.

?apply ?lapply ..; pour + d'infos

Les principales fonctions : 

 - <b>apply(D, [dim], function)</b> est la fonction de base : elle permet d'appliquer une fonction  aux lignes(1) ou colonnes(2) d'un tableau a 2 dimensions  
 - <b>lapply(D, function)</b> : s'applique à et retourne une liste : permet d'appliquer une fonction à chaque élément de la liste d'entrée, et retourne les resultats sous forme d'une liste de même dimension
 - <b>sapply(D, function)</b> est une version user-friendly de lapply qui retourne un vecteur ou un tableau a 2 dimensions  
<br>

A noter l'existence de <b>tapply(D, facteur, function)</b> qui permet d'appliquer une fonction à un vecteur selon les modalités d'un facteur.  L'utilisation de dplyr::summarize() se substitue aisément à cette fonction, y compris en temps de calcul :  
<br>


Prenons un cas élémentaire : 
Je dispose d'un dataset contenant 5 colonnes dont je veux recuperer la moyenne

In [1]:
set.seed(1)
(DF <- data.frame(x1 = rpois(4, 100),
                 x2 = rpois(4, 10),
                 x3 = rpois(4, 25),
                 x4 = rpois(4, 50),
                 x5 = rpois(4, 12)
                ))


Unnamed: 0,x1,x2,x3,x4,x5
1,93,14,32,47,14
2,113,12,26,49,15
3,112,11,21,56,14
4,104,9,23,55,12


En appliquant l'operation a chaque variable, on doit taper : 

In [None]:
c(mean(DF$x1), mean(DF$x2), mean(DF$x3), mean(DF$x4), mean(DF$x5))

### Comparer les apply sur un exemple simple
apply() permet de "factoriser" le code en indiquant generiquement d'appliquer la meme fonction a l'ensemble des variables de DF

Essayez les resultats des différentes fonctions pour comprendre la difference :   
<u><font color="0044FF" size = 3> - apply</font></u>

In [None]:
apply(DF, 2, mean)  ## ici on reproduit une moyenne par colonne

In [None]:
## on peut reprendre le format comme on le souhaite avec t() ou as.data.frame()
t(apply(DF, 2, mean))

In [None]:
## avec une moyenne par ligne : 
apply(DF, 1, mean)

<u><font color="0044FF" size = 3> - lapply</font></u>

In [None]:
class(lapply(DF, mean))  ## mon DF a 5 colonnes =>  liste a 5 dimensions. 
                  ## lapply renvoie une moyenne par liste

In [None]:
lapply(as.data.frame(t(DF)), mean)  ## si on voulait dans l'autre sens

<u><font color="0044FF" size = 3> - sapply</font></u>

In [None]:
(test <- sapply(DF, mean))  ## renvoie un vecteur
class(test)

<u><font color="0044FF" size = 3> - tapply</font></u>
Ici le cas est particulier, puisque la fonction tapply permet d'introduire une segmentation d'application de la fonction.  


In [None]:
DF$val <- c("A", "A", "A", "B") ; DF

### Definir sa propre fonction
Dans ce cas, la fonction que l'on applique a l'ensemble des elements du dataset existe deja. Mais on peut egalement faire appliquer n'importe quelle fonction, y compris directement ecrite dans la zone FUN du [s]apply <br>
Quelques exemples : 

In [None]:
 ( DF2 <- sapply(DF, function(x) { ( x - mean(x) ) / var(x)})  )


In [None]:
 ( DF2 <- tapply(DF, 2, function(x) { if (x > 50) return(100)} )  )


 On peut egalement appliquer plusieurs fonctions à une même variable en 1 temps : 

In [None]:
summary <- function(x) {
funs <- c(mean, median, sd, mad, IQR)
lapply(funs, function(f) f(x, na.rm = TRUE))
}
       
summary(DF$x1)

<br>
<b>Fonctions de plusieurs arguments</b><br>
Si l'on considère une fonction de plusieurs arguments, les arguments supplementaires peuvent être passés dans le corps du [x]apply. <br>
Ex : prenons une fonction qui va transformer en facteurs une sous partie des colonnes de notre dataframe

In [None]:
a_changer <- c("x1", "x2")

fac <- function(BDD, x) { i <- which(colnames(DF) == x)
                          if (x %in% a_changer)  { tmp <- data.frame(as.factor(BDD[, i])) }
                          else                   { tmp <- data.frame(BDD[, i])}
                          names(tmp) <- x
                          return(tmp)
                        }

DF <- as.data.frame(lapply(names(DF), fac, BDD=DF ))
str(DF)

### Apply et vectorisation
Un des premiers écueils de l'utilisation des fonctions apply est qu'elles adressent des <u>vecteurs</u> et que naturellement, on s'attend a pouvoir avoir accès au scalaire élémentaire.  
Sans utiliser des fonctions qui utilisent la vectorisation (donc s'appliquent correctement à des vecteurs), il ne vous sera pas possible d'attaquer individuellement chaque cellule du tableau.  
Reprenons l'exemple de la condition if vs ifelse : 

In [None]:
DF  ## rappel

In [None]:

sapply(DF, function(x) {if(x>100) 100 else x})

In [None]:
sapply(DF, function(x) {ifelse(x>100, 100, x)})

In [None]:
## La syntaxe pour débuter est plutot celle-ci : 

for(v in names(DF)){
   DF[[v]] = sapply(DF[[v]], function(x) {if(x>100) 100 else x})
}
 
DF


<br>
<font color = "00FF44" size=5><b>A VOUS DE JOUER !!</b></font>

Reproduire <u>DANS UN DATAFRAME</u> l'equivalent de <b>PROC CONTENTS, PROC MEANS, PROC UNIVARIATE, PROC FREQ</b>

In [2]:
## Chargement du fichier et construction d'une base test

load("C:/R/05_Training/Axa_Training/Data/DF.rabais.SRA.Rdata")
DF.rabais.SRA <- head(DF.rabais.SRA,100)

## Rajout de 2 NA pour verifier leur prise en compte
DF.rabais.SRA[1,]$rabais=NA
DF.rabais.SRA[2,]$sex=NA



1/ <b>PROC CONTENTS</b><br>
<span style="font-family:Courier New;">proc contents data=DF.rabais.SRA out=contenu;run; <br>
   proc print data=contenu;run;<br>
   </span>
   
=> on attend a minima : index variable ; nom variable ; type variable ; taille de la variable 
=> je propose de rajouter : le nombre d'elements distincts, le nombre d'elements vide (NA)


In [3]:
## VOTRE REPONSE : 

contenu <- data.frame(
index    = which(names(DF.rabais.SRA) == names(DF.rabais.SRA)) , 
var      = names(DF.rabais.SRA) , 
type     = sapply(DF.rabais.SRA, class) , 
taille   = apply(DF.rabais.SRA, 2, function(x) max(nchar(x))) , 
distinct = apply(DF.rabais.SRA, 2, function(x) length(unique(x))) , 
nb.na    = apply(DF.rabais.SRA, 2, function(x) sum(is.na(x)))
    )
contenu

Unnamed: 0,index,var,type,taille,distinct,nb.na
GTA,1,GTA,character,7,98,0
version,2,version,factor,6,3,0
numpol2,3,numpol2,character,16,100,0
nreg,4,nreg,factor,2,5,0
sex,5,sex,factor,2,3,1
statut,6,statut,factor,1,2,0
crm,7,crm,factor,6,3,0
antivol,8,antivol,factor,1,2,0
nbgar,9,nbgar,integer,1,6,0
primeht,10,primeht,numeric,7,100,0


In [None]:
## regardez la difference entre apply, sapply et lapply
apply(DF.rabais.SRA, 2, class)
sapply(DF.rabais.SRA, class)
lapply(DF.rabais.SRA, class) 

  
2/ <b>PROC MEANS</b><br>
<span style="font-family:Courier New;">proc means data=DF.rabais.SRA noprint;<br>
   var rabais primeht_tech;<br>
   by CLASS_PRIX;<br>
   output out=agregat (drop=_type_) mean=;<br>
   run;<br>
   <br>
   proc print data=agregat;run;<br>
 </span>
   
=>  on attend : CLASS_PRIX ; sum(rabais) ;  sum(primeht_tech) ; freq  (qui correspond a l'effectif)


In [4]:

## VOTRE REPONSE : 
library(dplyr, warn.conflicts = FALSE)

agregat <- DF.rabais.SRA %>%
group_by(CLASS_PRIX) %>%
summarise(rabais_tot = mean(rabais, na.rm = TRUE), 
          primeht_tech.tot = mean(primeht_tech), 
          freq = n())

agregat

Unnamed: 0,CLASS_PRIX,rabais_tot,primeht_tech.tot,freq
1,D,84.0,663.8929,1
2,E,87.625,405.1102,2
3,F,78.5,346.7212,8
4,G,80.8125,386.1785,4
5,H,89.46429,565.8251,7
6,I,83.34091,619.5765,11
7,J,81.21281,596.6128,14
8,K,81.69827,609.1186,14
9,L,87.625,494.7393,8
10,M,81.96201,719.6765,9


In [None]:
## A noter que vous pouvez rajouter la ligne totale de cette façon : 

agregat.tot <- DF.rabais.SRA %>%
summarise(rabais_tot = mean(rabais, na.rm = TRUE), 
          primeht_tech.tot = mean(primeht_tech), 
          freq = n()) %>%
mutate(CLASS_PRIX = "TOT") 

rbind(agregat, agregat.tot)

 
3/ <b>PROC UNIVARIATE</b><br>
<span style="font-family:Courier New;">
   proc univariate data=DF.rabais.SRA <br>
   var rabais;<br>
   output out=univ pctlpts=1 to 100 by 10 pctlpre=Q_;<br>
   run;<br>
  <br>
   proc print data=univ;run;<br>
   </span>
   
=> on attend une table contenant les deciles de rabais


In [None]:
## VOTRE REPONSE : 
options(digits=1)  # ne semble pas marcher sous Jupyter, mais ca fonctionne dans RStudio :)
decile <- quantile(DF.rabais.SRA$rabais, seq(0,1, by = .1), na.rm = TRUE)
decile

   
4/ <b>PROC FREQ</b><br>
<span style="font-family:Courier New;">
proc freq data=DF.rabais.SRA;<br>
   tables region*sex/missing; <br>
   run;<br>
 <br>
 </span>
 => Essayez de créer 4 tableaux ( ATTENTION de ne pas oublier les NA !! :)  ) : <br> 
 - les effectifs globaux
 - les fréquences en colonne
 - les fréquences en ligne
 - les fréquences totales



In [5]:
## Table de contingence - effectifs globaux : 
## VOTRE REPONSE : 
(freq <- table(DF.rabais.SRA$sex, DF.rabais.SRA$nreg, useNA = "ifany"))  
  # option useNA = "always" integre systematiquement une ligne NA
class(freq)

# Pour le traitement ulterieur, R supporte mal d'avoir NA comme libellé de ligne : on le remplace : 
freq <- addNA(freq)

      
       64 65 66 67 68
  F     3  4  8  6  2
  M    12 12 23 16 13
  <NA>  0  1  0  0  0

In [8]:
## Fréquences en colonne
## VOTRE REPONSE : 

freq.tot.col <- apply(freq, 2, sum)
(freq.perc.col <- (t(apply(freq, 1, function(x) x/freq.tot.col))))


ERROR: Error in apply(freq, 2, sum): dim(X) must have a positive length


ERROR: Error in apply(freq, 1, function(x) x/freq.tot.col): dim(X) must have a positive length


In [7]:
library(scales)  # pour utiliser la fonction percent()

freq.perc.col <- apply(freq.perc.col, 2, percent)

rownames(freq.perc.col) <- rownames(freq) ; freq.perc.col

: package 'scales' was built under R version 3.2.4

ERROR: Error in apply(freq.perc.col, 2, percent): objet 'freq.perc.col' introuvable


ERROR: Error in rownames(freq.perc.col) <- rownames(freq): objet 'freq.perc.col' introuvable


ERROR: Error in eval(expr, envir, enclos): objet 'freq.perc.col' introuvable


In [None]:
## Fréquences en ligne
## VOTRE REPONSE : 

freq.tot.row <- apply(freq, 1, sum)
freq.perc.row <- as.data.frame(apply(freq, 2, function(x) percent(x/freq.tot.row)))
    
rownames(freq.perc.row) <-  rownames(freq) ; freq.perc.row

In [6]:
## Fréquence totale
## VOTRE REPONSE : 

(freq.perc.tot <- freq/sum(freq))

ERROR: Error in Summary.factor(structure(c(4L, 8L, 1L, 5L, 8L, 2L, 7L, 11L, 1L, : 'sum' not meaningful for factors
