# Le  package *boot*

Le package **boot** contient des fonctions  puissantes et optimisées pour le bootstrap. En effet, les fonctions que vous avez programmées au dernier notebook sont toutes disponibles dans le package **boot**. Cela ne veut pas dire que votre travail a été inutile. Au fait, la mise en oeuvre des différentes fonctions bootstrap vous a sûrement aidé a mieux comprendre les méthodes !

Maintenant chargons le package par l'instruction suivante :


In [1]:
library(boot)

### Répliques bootstrap

La fonction de base est la fonction **boot**. Elle génère des répliques bootstrap d'un estimateur $T$ - au choix par le bootstrap paramétrique ou non paramétrique. Elle a des nombreuses options :

Voyons d'abord le bootstrap nonparamétrique. Les arguments de **boot** sont les suivants : le vecteur des données (**data**), une fonction qui définit l'estimateur $T$ (**statistics**) et le nombre $B$ de répliques souhaités. Par exemple :

In [2]:
n <- 20
obs <- rnorm(n)
B <- 10
boot.mean <- function(obs, indice){
    moy.boot <- mean(obs[indice]) # permet à boot de choisir les données
    return(moy.boot)
}
repl.np <- boot(obs, boot.mean, B)
repl.np


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = obs, statistic = boot.mean, R = B)


Bootstrap Statistics :
      original     bias    std. error
t1* -0.0941912 -0.0197479   0.2719792

On obtient toute une liste d'objets en sortie :



In [3]:
names(repl.np)

dont les plus utiles sont :
- repl.np\$t0 : la valeur $t=T(x_1,\dots,x_n)$ de l'estimateur sur les données observées
- repl.np\$t : le vecteur des répliques bootstrap de l'estimateur

In [4]:
repl.np$t

0
-0.4536847
-0.07638852
0.01895007
-0.50096064
-0.28825825
0.09492866
0.16904587
-0.13470408
0.32669565
-0.29501499


In [5]:
repl.np$t0

Pour utiliser l'approche bootstrap paramétrique, c'est légèrement plus compliqué :
- il faut préciser  **sim='parametric'**,
- **statistic**  est une fonction qui prend en argument un vecteur de données et renvoie la valeur de l'estimateur sur ces données,
-  **ran.gen** est la  fonction qui génère un échantillon bootstrap paramétrique. Elle prend en argument les données et une liste de paramètres.
-  **mle** prend les valeurs observées des paramètres (que **boot** passera à la fonction **ran.gen**).

Dans le cas de la moyenne empirique comme estimateur et des échantillons  bootstrap tirés selon une loi normale, ça donne ça:

In [6]:
ran.gen.norm <- function(data, param){
  rnorm(length(data), param$mu, param$sig)
}
repl.param <- boot(obs, mean, B, sim='parametric', ran.gen=ran.gen.norm, 
                   mle=list(mu=mean(obs), sig=sd(obs)))
repl.param


PARAMETRIC BOOTSTRAP


Call:
boot(data = obs, statistic = mean, R = B, sim = "parametric", 
    ran.gen = ran.gen.norm, mle = list(mu = mean(obs), sig = sd(obs)))


Bootstrap Statistics :
      original      bias    std. error
t1* -0.0941912 -0.02613339   0.2597448

## Question 1
Considérons, une fois de plus, un échantillon $(X_1,\dots,X_n)$ de loi exponentielle $\mathcal E(\theta)$. La quantité à estimer est $1/\mathbb E[X_1]$, que l'on estime naturellement par $T=1/\bar X_n$.
- Quelle est l'instruction pour créer 1000 répliques bootstrap non paramétrique de l'estimateur $T$ en utilisant la fonction **boot** ?
- A l'image de **ren.gen.norm**, écrire une fonction **ren.gen.exp** pour la génération d'échantillons bootstrap de loi exponentielle.
- Utiliser **boot** pour créer des répliques bootstrap paramétrique de $T$.

Répliques bootstrap non paramétrique

In [7]:
dataexp <- rexp(20, 3)
T.exp.np <- boot(dataexp, function(obs, indice)1/mean(obs[indice]), R=1000)
T.exp.np


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = dataexp, statistic = function(obs, indice) 1/mean(obs[indice]), 
    R = 1000)


Bootstrap Statistics :
    original    bias    std. error
t1* 5.164521 0.1465655    1.032285

In [8]:
## génération d'un échnatillon bootstrap de loi exponentielle
ran.gen.exp <- function(data, param){
  rexp(length(data), param)
}


Répliques bootstrap paramétrique

In [9]:

T.exp.param <- boot(dataexp, function(x)1/mean(x), 1000, sim='parametric',
                    ran.gen=ran.gen.exp, mle=1/mean(dataexp))
T.exp.param



PARAMETRIC BOOTSTRAP


Call:
boot(data = dataexp, statistic = function(x) 1/mean(x), R = 1000, 
    sim = "parametric", ran.gen = ran.gen.exp, mle = 1/mean(dataexp))


Bootstrap Statistics :
    original    bias    std. error
t1* 5.164521 0.2709473    1.286023

### Intervalles de confiance

Pour le calcul de divers intervalles bootstrap, on utilise la fonction **boot.ci** :

Le premier argument est un objet obtenu par un appel à **boot** (essentiellement, ce sont des répliques bootstrap de l'estimateur). 

Avec **type** on précise le(s) intervalles bootstrap souhaité(s) : au choix **c("norm","basic", "stud", "perc", "bca")** ou simplement **type = "all"** (par défaut) pour tous les intervalles.


Voici l'appel le plus simple de **boot.ci** (qui produit un *warning* car l'intervalle studentisé nécessite plus d'information) pour calculer des intervalles de confiance bootstrap non paramétrique de la moyenne de la loi normale basés sur la moyenne empirique :

In [10]:
B <- 1000
repl.np <- boot(obs, boot.mean, B)
icb.np <- boot.ci(repl.np)
icb.np

"bootstrap variances needed for studentized intervals"

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = repl.np)

Intervals : 
Level      Normal              Basic         
95%   (-0.5303,  0.3224 )   (-0.5397,  0.3269 )  

Level     Percentile            BCa          
95%   (-0.5153,  0.3514 )   (-0.5153,  0.3517 )  
Calculations and Intervals on Original Scale

Au fait, l'instruction **boot.ci(repl.np)** calcule les quatre intervalles bootstrap suivants : l'intervalle par approximation normale $\mathcal I^*_{\text{norm}}$, l'intervalle de base $\mathcal I^*_{\text{basic}}$, l'intervalle par la méthode de percentile de base $\mathcal I^*_{\text{perc}}$ et l'intervalle par la méthode des percentiles ajustée $\mathcal I^*_{\mathrm{BC_a}}$. Plus précisément, **boot.ci** renvoie une liste avec les éléments suivants :

In [11]:
names(icb.np)

Voici le niveau de confiance nominal $1-\alpha$ ainsi que les limites de l'intervalle $\mathcal I^*_{\text{norm}}$ :

In [12]:
icb.np$normal

conf,Unnamed: 1,Unnamed: 2
0.95,-0.5303433,0.3223692


Pour l'intervalle $\mathcal I^*_{\text{basic}}$ on a les informations suivantes : d'abord le niveau de confiance nominal, ensuite l'ordre utilisé des statistiques d'ordres dans les limites de l'intervalle, et enfin les limites de l'intervalle bootstrap :

In [13]:
icb.np$basic

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,-0.5397467,0.3269308


Les mêmes informations pour l'intervalle $\mathcal I^*_{\text{perc}}$ :

In [14]:
icb.np$percent

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,25.03,975.98,-0.5153132,0.3513643


et pour l'intervalle $\mathcal I^*_{\mathrm{BC_a}}$ :

In [15]:
icb.np$bca

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,25.14,976.09,-0.5152596,0.3516507


Pour le calcul de l'intervalle bootstrap studentisé $\mathcal I^*_{\text{stud}}$ il faut fournir des estimations de la variance de $T$ pour les différents échantillons bootstrap. Une façon de faire consiste à modifier la fonction **boot.mean** pour qu'elle renvoie également l'estimateur de la variance :

In [16]:
obs <- rnorm(20, 10, 2)       
boot.mean.var <- function(obs, indice){
    obs.boot <- obs[indice] 
    moy.boot <- mean(obs.boot) 
    var.boot <- var(replicate(50, mean(sample(obs.boot, replace=T))))
    return(c(moy.boot, var.boot))
}
repl.np.var <- boot(obs, boot.mean.var, R=1000)
repl.np.var


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = obs, statistic = boot.mean.var, R = 1000)


Bootstrap Statistics :
      original       bias    std. error
t1* 10.2088230 -0.007290181   0.3367985
t2*  0.1074398  0.003367702   0.0403568

Maintenat on obtient l'intervalle bootstrap studentisé par l'instruction suivante :

In [17]:
boot.ci(repl.np.var)$stud

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,9.429312,10.83476


## Question 2
- Pour un jeu de données simulé de loi exponentielle $\mathcal E(\theta)$ calculer  les intervalles de confiance bootstrap $\mathcal I^*_{\text{norm}}$,  $\mathcal I^*_{\text{basic}}$,  $\mathcal I^*_{\text{perc}}$ et $\mathcal I^*_{\mathrm{BC_a}}$ pour $1/\mathbb E[X_1]$ en utilisant des répliques de $T=1/\bar X_n$ par le bootstrap **non paramétrique**.
- Mettre en oeuvre le calcul de l'intervalle studentisés par le bootstrap **non paramétrique**.
- Quant au  bootstrap **paramétrique** calculer les intervalles de confiance bootstrap $\mathcal I^*_{\text{norm}}$,  $\mathcal I^*_{\text{basic}}$ et  $\mathcal I^*_{\text{perc}}$.
-  Observer que **boot.ci** ne fournit pas  l'intervalle  $\mathcal I^*_{\mathrm{BC_a}}$. Au fait, **boot.ci** ne sait le calculer que dans le cas non paramétrique. Dans le cas paramétrique, la définition de l'intervalle est différente, mais elle n'est pas implementée dans **boot.ci**. Nous allons nous contenter des autres intervalles.
- Mettre en oeuvre le calcul de l'intervalle studentisé par le bootstrap **paramétrique**.

In [18]:
## données exponentielles
dataexp <- rexp(20,3)
## répliques bootstrap non paramétrique
T.exp.np <- boot(dataexp, function(obs, indice)1/mean(obs[indice]), R=1000)
T.exp.np
## IC bootstrap non paramétrique    
confint.np <- boot.ci(T.exp.np, type=c("norm", "basic", "perc", "bca"))
confint.np


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = dataexp, statistic = function(obs, indice) 1/mean(obs[indice]), 
    R = 1000)


Bootstrap Statistics :
    original    bias    std. error
t1* 3.386679 0.1196082   0.6420754

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = T.exp.np, type = c("norm", "basic", "perc", 
    "bca"))

Intervals : 
Level      Normal              Basic         
95%   ( 2.009,  4.526 )   ( 1.817,  4.282 )  

Level     Percentile            BCa          
95%   ( 2.492,  4.956 )   ( 2.356,  4.710 )  
Calculations and Intervals on Original Scale

In [19]:
## IC studentisé, bootstrap non paramétrique
boot.estim.var.np <- function(obs, indice){
    obs.boot <- obs[indice]
    estim.boot <- 1/mean(obs.boot) 
    var.boot <- var(replicate(50, 1/mean(sample(obs.boot, replace=T))))
    return(c(estim.boot, var.boot))
}

# répliques bootstrap avec estimation de la variance
T.exp.var <- boot(dataexp, boot.estim.var.np, R=1000)
# ICB studentisé
confint.np <- boot.ci(T.exp.var)
confint.np

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = T.exp.var)

Intervals : 
Level      Normal              Basic             Studentized     
95%   ( 1.978,  4.545 )   ( 1.676,  4.280 )   ( 1.879,  4.846 )  

Level     Percentile            BCa          
95%   ( 2.493,  5.098 )   ( 2.442,  4.865 )  
Calculations and Intervals on Original Scale

In [20]:
## ICB paramétriques
boot.estim.param <- function(obs){
    n <- length(obs)
    estim.boot <- 1/mean(obs) 
    var.boot <- var(replicate(50, 1/mean(rexp(n, estim.boot))))
    return(c(estim.boot, var.boot))
}

T.exp.param <- boot(dataexp, boot.estim.param, R=1000, sim='parametric',
                    ran.gen=ran.gen.exp, mle=1/mean(dataexp))
boot.ci(T.exp.param, type=c('norm', 'basic', 'perc'))

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = T.exp.param, type = c("norm", "basic", "perc"))

Intervals : 
Level      Normal              Basic              Percentile     
95%   ( 1.536,  4.886 )   ( 1.104,  4.499 )   ( 2.274,  5.669 )  
Calculations and Intervals on Original Scale

In [21]:
## ICB paramétrique type BCa 
boot.ci(T.exp.param, type=c('bca'))

ERROR: Error in empinf(boot.out, index = index, t = t.o, ...): influence values cannot be found from a parametric bootstrap


In [22]:
## IC studentisé, bootstrap paramétrique
boot.estim.var.param <- function(obs){
    n <- length(obs)
    estim.boot <- 1/mean(obs) 
    var.boot <- var(replicate(50, 1/mean(rexp(n, estim.boot))))
    return(c(estim.boot, var.boot))
}

T.exp <- boot(dataexp, boot.estim.var.param, R=1000, sim='parametric',
              ran.gen=ran.gen.exp, mle=1/mean(dataexp))
T.exp
confint.param <- boot.ci(T.exp, type=c('norm', 'basic', 'stud', 'perc'))
confint.param


PARAMETRIC BOOTSTRAP


Call:
boot(data = dataexp, statistic = boot.estim.var.param, R = 1000, 
    sim = "parametric", ran.gen = ran.gen.exp, mle = 1/mean(dataexp))


Bootstrap Statistics :
     original     bias    std. error
t1* 3.3866788 0.20981615   0.8682283
t2* 0.7470741 0.09947525   0.5299179

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = T.exp, type = c("norm", "basic", "stud", "perc"))

Intervals : 
Level      Normal              Basic         
95%   ( 1.475,  4.879 )   ( 1.144,  4.517 )  

Level    Studentized          Percentile     
95%   ( 1.940,  5.124 )   ( 2.256,  5.629 )  
Calculations and Intervals on Original Scale

In [23]:
all.confint <- list(confint.param[4:7], confint.np[4:7])
all.confint

conf,Unnamed: 1,Unnamed: 2
0.95,1.475166,4.878559

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,1.144287,4.517493

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,1.939817,5.123881

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,25.03,975.98,2.255865,5.629071

conf,Unnamed: 1,Unnamed: 2
0.95,1.977521,4.544514

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,1.67553,4.28042

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,975.98,25.03,1.878657,4.846373

conf,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0.95,25.03,975.98,2.492938,5.097827


## Question 3
Ecrire un programme pour simuler un grand nombre de jeu de données de loi exponentielle et calculer tous les  intervalles de confiance  $\mathcal I^*_{\text{norm}}$,  $\mathcal I^*_{\text{basic}}$,  $\mathcal I^*_{\text{stud}}$ et $\mathcal I^*_{\text{perc}}$  pour $1/\mathbb E[X]$  par les deux méthodes : bootstrap paramétrique et non paramétrique. Enfin estimer le niveau de confiance effectif de chaque intervalle. Commenter les résultats.

In [24]:
# theta = paramètre exponentiel
# n = taille d'échantillon
# M = nb de jeux de données simulés
# R = nb d'échantillons bootstrap
contains.theta <- function(vecIC, theta){
    L <- length(vecIC)
    is.theta.in <- (vecIC[L-1]<theta)&(vecIC[L]>theta)
    return(is.theta.in)
}

simul_icb_exp <- function(theta, n, M=100, R=100){
    prop <- matrix(0, 4, 2)
    colnames(prop) <- c('p','np')
    rownames(prop) <- c("norm", "basic", "stud", "perc")
    for (i in 1:M){
        obs <- rexp(n, theta)
        ## répliques bootstrap paramétriques avec estimations de variance
        T.param <- boot(obs, boot.estim.var.param, R, sim='parametric',
                        ran.gen=ran.gen.exp, mle=1/mean(obs))
        ## répliques bootstrap non paramétriques avec estimations de variance        
        T.np <- boot(obs, boot.estim.var.np, R)
        ## ICB paramétrique
        confint.param <- boot.ci(T.param, type=c('norm', 'basic', 'stud', 'perc'))
        ## ICB non paramétrique
        confint.np <- boot.ci(T.np,type=c("norm", "basic", "stud", "perc"))
        ## theta inclus dans ICB ...oui ou non 
        prop[,1] <- prop[,1] + sapply(confint.param[4:7], function(x) contains.theta(x, theta))
        prop[,2] <- prop[,2] + sapply(confint.np[4:7], function(x) contains.theta(x, theta))
    }
    return(prop/M)
}

In [25]:
simul_icb_exp(2, 10)

Unnamed: 0,p,np
norm,0.95,0.94
basic,0.86,0.86
stud,0.97,0.9
perc,0.95,0.87


## Question 4

On veut étudier ce qui se passe si les données ne suivent pas exactement une loi exponentielle. Maintenant les données  suivent la loi Gamma $\Gamma(\alpha,\theta)$.
La quantité inconnue est toujours $1/\mathbb E[X]=\theta/\alpha$, estimée par $T=1/\bar X_n$.

Modifier votre programme pour générer des données de loi Gamma. Ensuite, appliquer exactement les mêmes calculs comme si les données avaient une loi exponentielle (notamment l'échantillons bootstrap paramétrique est toujours tiré selon une loi exponentielle). 

Rappelons que $\mathcal E(\theta)=\Gamma(1,\theta)$.  Comment évolue les différent niveaux de confiance effectif lorsque les  données suivent une loi $\Gamma(\alpha,\theta)$ avec des valeurs de $\alpha$ inférieures à  1 ?



In [26]:
simul_icb_gamma <- function(gam, n, M=100, R=100){
    prop <- matrix(0, 4, 2)
    colnames(prop) <- c('p','np')
    rownames(prop) <- c("norm", "basic", "stud", "perc")
    for (i in 1:M){
        obs <- rgamma(n, gam$alpha, gam$theta)
        ## répliques bootstrap paramétriques avec estimations de variance
        T.param <- boot(obs, boot.estim.var.param, R, sim='parametric',
                        ran.gen=ran.gen.exp, mle=1/mean(obs))
        ## répliques bootstrap non paramétriques avec estimations de variance        
        T.np <- boot(obs, boot.estim.var.np, R)
        ## ICB paramétrique
        confint.param <- boot.ci(T.param, type=c('norm', 'basic', 'stud', 'perc'))
        ## ICB non paramétrique
        confint.np <- boot.ci(T.np, type=c("norm", "basic", "stud", "perc"))
        ## theta inclus dans ICB ?
        prop[,1] <- prop[,1] + sapply(confint.param[4:7], function(x) contains.theta(x, gam$theta/gam$alpha))
        prop[,2] <- prop[,2] + sapply(confint.np[4:7], function(x) contains.theta(x, gam$theta/gam$alpha))
    }
    return(prop/M)
}

In [27]:
simul_icb_gamma(list(alpha=.8, theta=2), 10)

Unnamed: 0,p,np
norm,0.95,0.94
basic,0.89,0.9
stud,0.92,0.96
perc,0.94,0.92


In [28]:
simul_icb_gamma(list(alpha=.1, theta=2), 10)

Unnamed: 0,p,np
norm,0.72,0.98
basic,0.78,0.82
stud,0.47,0.94
perc,0.44,0.68
