# Procédure de test DF sur un processus simulé

On commence par la simulation du processus:

In [8]:
T <- 1000
u <- rnorm(T)
e <- rep(NA,T)
y <- rep(NA,T)
dy <- rep(NA,500)
y[1] <- 0
e[1] <- 0

for (t in 2:T){
  e[t] <- 0.2*e[t-1]  +u[t]
  y[t] <- y[t-1] + e[t]
}


* Etape 1: On fait un test de racine unitaire sur le modèle le plus général

$$\Delta y_t = c + \rho y_{t-1} + \beta t + \varepsilon_t$$


In [9]:
dy=diff(y)
T=length(dy)
lags = 0
y.lag.1=y[(lags+1):T]
t = (lags+1):T
model_nc3 <- lm(dy~1+t+y.lag.1 )
summary(model_nc3)


Call:
lm(formula = dy ~ 1 + t + y.lag.1)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9971 -0.6996 -0.0025  0.7159  3.5212 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)   
(Intercept)  0.0004925  0.0657797   0.007  0.99403   
t            0.0004224  0.0001729   2.443  0.01474 * 
y.lag.1     -0.0177673  0.0060689  -2.928  0.00349 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.038 on 996 degrees of freedom
Multiple R-squared:  0.008663,	Adjusted R-squared:  0.006672 
F-statistic: 4.352 on 2 and 996 DF,  p-value: 0.01313


La statistique de test associée à $\rho$ est -0.970. On compare cette valeur à la valeur critique d'une table Dickey Fuller. Par exemple: http://homes.chass.utoronto.ca/~floyd/statabs.pdf
Cette valeur critique est égale à -3.45. La t-stat est au dessus, on accepte l'hypothèse nulle de racine unitaire. 

* Etape 2: Il faut maintenant vérifier que le modèle 3 est le bon modèle.

In [3]:
# Validité du modèle 3
ssrnc3 = sum(residuals(model_nc3)^2)
model_c3 <- lm(dy~1)
ssrc3 = sum(residuals(model_c3)^2)
stat_f3 = ((ssrc3 - ssrnc3)/2)/(ssrnc3/(T-3))
print(stat_f3)


[1] 5.224349


La statistique de Fisher est de 1.77. On compare à la statistique de la table de DF. On trouve F critique = 6.49
On accepte l'hypothèse nulle, le modèle 3 n' est pas le bon. 

* Étape 3: On recommence avec le modèle 2

$$ \Delta y_t = c + \rho y_{t-1} + \varepsilon_t $$

In [4]:
# On estime le modèle 2 car modèle 3 mal spécifié

model_nc2 <- lm(dy~1+y.lag.1 )
summary(model_nc2)



Call:
lm(formula = dy ~ 1 + y.lag.1)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4250 -0.7105  0.0005  0.6399  3.2814 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) -0.160609   0.079827  -2.012   0.0445 *
y.lag.1     -0.005468   0.002698  -2.027   0.0429 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.026 on 997 degrees of freedom
Multiple R-squared:  0.004103,	Adjusted R-squared:  0.003105 
F-statistic: 4.108 on 1 and 997 DF,  p-value: 0.04295


La statistique de test associée à $\rho$ est -0.970. On compare cette valeur à la valeur critique d'une table Dickey Fuller. La statistique associée est t = -1.778. La valeur critique lue dans la table DF est égale à -2.8. On accepte l'hypothèse nulle de racine unitaire.

* Étape 4: On vérifie que le modèle 2 est le bon modèle

In [5]:
# Validité du modèle 2
ssrnc2 = sum(residuals(model_nc2)^2)
ssrc2 = sum(dy^2)
stat_f2 = ((ssrc2 - ssrnc2)/2)/(ssrnc2/(T-2))
print(stat_f2)

[1] 2.131676


La statistique de Fisher est F=1.62. La valeur critique est de 4.71. On accepte l'hypothèse nulle, le modèle 2 n'est pas le bon. 

* Étape 5: On finit avec le modèle le plus simple

In [6]:
model_nc1 <- lm(dy~0 + y.lag.1 )
summary(model_nc1)


Call:
lm(formula = dy ~ 0 + y.lag.1)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.5051 -0.7514 -0.0266  0.6228  3.2794 

Coefficients:
          Estimate Std. Error t value Pr(>|t|)
y.lag.1 -0.0005092  0.0010988  -0.463    0.643

Residual standard error: 1.028 on 998 degrees of freedom
Multiple R-squared:  0.0002151,	Adjusted R-squared:  -0.0007867 
F-statistic: 0.2147 on 1 and 998 DF,  p-value: 0.6432


La t-stat est de -1.40. La valeur critique lue dans la table de DF est de -1.95. Le modèle est I(1)
Refaisons le même exercice mais avec une tendance déterministe. 



In [7]:
T <- 1000
u <- rnorm(T)
e <- rep(NA,T)
y <- rep(NA,T)
dy <- rep(NA,500)
y[1] <- 0
e[1] <- 0

for (t in 2:T){
  e[t] <- 0.2*e[t-1]  +u[t]
  y[t] <- y[t-1] + e[t] + 0.01*t
}

dy=diff(y)
T=length(dy)
lags = 0
y.lag.1=y[(lags+1):T]
t = (lags+1):T
model_nc3 <- lm(dy~1+t+y.lag.1 )
summary(model_nc3)

# Validité du modèle 3
ssrnc3 = sum(residuals(model_nc3)^2)
model_c3 <- lm(dy~1)
ssrc3 = sum(residuals(model_c3)^2)
stat_f3 = ((ssrc3 - ssrnc3)/2)/(ssrnc3/(T-3))
print(stat_f3)



Call:
lm(formula = dy ~ 1 + t + y.lag.1)

Residuals:
     Min       1Q   Median       3Q      Max 
-3.06952 -0.68455  0.01418  0.71270  2.74188 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.298e-01  9.927e-02  -1.307    0.191    
t            1.048e-02  4.476e-04  23.409   <2e-16 ***
y.lag.1     -5.944e-05  8.623e-05  -0.689    0.491    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.051 on 996 degrees of freedom
Multiple R-squared:  0.8866,	Adjusted R-squared:  0.8864 
F-statistic:  3895 on 2 and 996 DF,  p-value: < 2.2e-16


[1] 3895.276


La t-value est de 0.98, la valeur critique de -3.45. On accepte la racine unitaire. La stat de Fisher est de 4043, on rejette l'hypothèse nulle. On a bien le modèle simulé. 
Entrainez-vous avec différents modèles!!!!