In [1]:
import random
import numpy as np
from sklearn.linear_model import LinearRegression
from scipy.optimize import minimize_scalar


In [51]:
#Paramètre du modèle + génération des espilon
random.seed(2040)
n=5
T=5
phizero=0.9
a=np.array([np.random.normal(0,1) for i in range(n)])
y0=np.array([np.random.normal(a[i]/(1-phizero),1/np.sqrt(1-phizero**2)) for i in range(n)])
epsilon=[np.random.normal(0,1) for i in range(n*T)]

On génère les données dans une matrice y de taille $N \times T$ avec en ligne les i et en colonne les T selon la formule :
$y_i,t = y_{i,t-1}+a_i+\epsilon_{i,t}$

In [52]:
y=np.zeros((T,n))
y[0]=y0
y=y.T
for i in range(n):
    for j in range(1,T):
        y[i][j]=a[i]+phizero*y[i][j-1]+epsilon[i*T+j]

yit=y.reshape(n*T)

In [53]:
#Generation des first difference :
delta_y=np.zeros((n,T-1))
for i in range(n):
    for j in range(T-1):
        delta_y[i,j]=y[i,j+1]-y[i,j]

On cheche à coder un GMM baser sur ces moments là : $\forall t>1, \forall s>2, E(y_{it-s}\Delta u_{it})=0$. 

Leur contrepartie empirique est : $$ \frac{1}{N}\sum_{i=1}^N y_{it-s}(\Delta u_{it}) = \frac{1}{N}\sum_{i=1}^N y_{it-s}(\Delta y_{it} - \phi_0 \Delta y_{it-1}) $$

Comme on instrumente directement les différences premières, on ne considère plus l'observation à t=0

$Z_{it}$ contient la liste des instruments de l'individu i au temps t. 

Par exemple : pour t=1, pas d'instrument (car s>2) => on ajoute un 0. Pour t=2, le seul instrument disponible est $y_{i0}$...

Donc sur la ligne t de Z on aura : $(0,y_{i0},(y_{i0},y_{i1}),(y_{i0},y_{i1},y_{i2}),...)$ et ce pour les n individus



In [54]:
z=[]
y
#On parcours tous les individus
for i in range(n):
    #On ajoute une ligne avec un zéros qui symbolise t=1
    z.append([[0]])
    
    #Pour tous les temps T>2, on ajoute les instruments jusqu'à yi0
    for t in range(2,T):
        instrument=[y[i,t-s] for s in range(2,t+1) ]
        z[i].append(instrument)


On a donc $h(\rho,\Delta y_{it},z_{it})$ tel que : $E(h(\rho,\Delta y_{it},z_{it}))=0$.

En l'occurence :  $ h(\rho,\Delta y_{it},z_{it}) = z_{it}(\Delta y_{it}-\rho \Delta y_{it-s})$.

Ici la fonction h stock l'ensemble des moments générés pour l'observation $y_{i,t}$ (un par instrument)




In [55]:
def h(rho,i,t):
    instr=z[i][t]
    return [inst*(delta_y[i,t]-rho*delta_y[i,t-1]) for inst in instr]


Puis on a : 
$h(\rho,Y_i,Z_i,X_i) = (h(\rho,\Delta y_{11},z_{1T}),h(\rho,\Delta y_{21},z_{2T})...)$

Finalement on minimise le critère : 
    $$Q(\theta)=[\sum_{i=1}^Nh_i(\theta,Y_i)]'W_T[\sum_{i=1}^Nh(\theta,Y_i)]$$

In [56]:
#On agrège tous les moments d'un individu donné dans un vecteur 
def tab_h(i,rho):
    tab_h=[]
    for t in range(1,T-1):
        tab_h+=h(rho,i,t)
    return np.array(tab_h)

#On définit le critère ci dessus.
def critere(rho):
    M=1/(n-1)*sum([tab_h(i,rho) for i in range(n-1)])
    return M@M.T


In [57]:
minimize_scalar(critere)

     fun: 223.66415792227454
    nfev: 10
     nit: 6
 success: True
       x: -0.20885584094959997

Après trop de temps à me perdre dans l'article de Arellano Bover 95 (pour qqch de vraiment pas ouf), j'ai enfin compris que Arrelo Bover ajoute comme nouveaux moments à rajouter dans le GMM. J'ai trouvé cette version clair de ça dans Blundell bond 98 :
$$ E(u_{i,t},\Delta y_{i,t-1})=E((y_{i,t}-\phi_0 y_{it-1})(y_{i,t-1}-y_{it-2})=0, \text{for } t=2,3,...,T $$

Genre les résidu de l'équation au temps t sont orthogonaux de leur "condition intiale" au temps t-1.

On va coder ça. Comme il y qu'un seul momen par temps c'est plus facile, on les mets direct dans un vecteur pour chaque individu.

In [58]:
def moment_l (i,rho):
    moment_l=[]
    for t in range(3,T):
        moment_l+=[(y[i,t]-rho*y[i,t-1])*(y[i,t-1]-y[i,t-2])] 
    return moment_l


def GMM_Ar_Bond (rho) :
    moments=[]
    for i in range(n):
        moments.append(np.array(moment_l(i,rho)+list(tab_h(i,rho))))
    M=1/(n-1)*sum([moments[i] for i in range(n-1)])
    return M@M.T




In [59]:
minimize_scalar(GMM_Ar_Bond)

     fun: 386.0937376776315
    nfev: 13
     nit: 9
 success: True
       x: 0.07749656148674389

Bon pour l'instant je sais pas pourquoi mais les résultats sont absolument pas ouf XD. Je pense que si on remettait tout ca en forme matricielle et qu'on fait juste la formule ca fonctionnerait mieux :(

- Approche Han et Phillips

In [60]:
#Implémentation directe
numerateur=0
denominateur=0
for i in range(n) :
    for t in range(T):
        delta_1=y[i,t-1]-y[i,t-2]
        delta=y[i,t]-y[i,t-1]
        numerateur+=delta_1*(2*delta+delta_1)
        denominateur+=(delta_1)**2

estim=numerateur/denominateur
print("Estimation directe: ",estim)

#implémentation par algo de maximisation
def moment_HP(i,rho):
    moment_l=[]
    for t in range(3,T):
        delta_1=y[i,t-1]-y[i,t-2]
        delta=y[i,t]-y[i,t-1]
        moment_l+=[delta_1*(2*delta+delta_1)-rho*delta_1] 
    return moment_l

def GMM_HP(rho):
    moments=[]
    for i in range(n):
        moments.append(np.array(moment_HP(i,rho)))
    M=1/(n-1)*sum([moments[i] for i in range(n-1)])
    return M@M.T

estim2=minimize_scalar(GMM_HP, tol=0.01)
print("Estimation par algo: ",estim2["x"])  


Estimation directe:  0.6954486906378622
Estimation par algo:  2.0194641356034246


MLE avec correction de biais de Han et Kuersteiner : la formule explicite est donnée directe dans l'article : je recopie.

In [61]:
within_ = [1/T*sum([y[i][t-1] for t in range(1,T)]) for i in range(n)]
within = [1/T*sum([y[i][t] for t in range(1,T)]) for i in range(n)]

#Denominateur (le même pour OLS et HK, noté Upsilon):
Upsilon=0
for i in range(n):
    for t in range(1,T):
        Upsilon+=(y[i,t-1]-within_[i])**2
        
Upsilon*=1/(n*T)

#Numérateur (le même pour OLS et la première partie de HK)
HK_num_1=0
for i in range(n):
    for t in range(1,T):
        HK_num_1+=(y[i,t-1]-within_[i])*(y[i,t]-within_[i])
HK_num_1*=1/(n*T)

phi_OLS=HK_num_1/Upsilon

omega=(1-phi_OLS**2)*Upsilon

HK_num_2 = (1/T)*(1-phi_OLS)*omega

HK_estim=(HK_num_1+HK_num_2)/Upsilon

print(HK_estim)

0.8526229224942496


Mnt il faut coder l'inférence indirecte :

1) On crée une fonction qui génère des données avec un phi donné

2) On crée une fonction qui calcul OLS avec des données donnée

3) On utilise la super fonction trop cool qui minimise des fonctions

In [89]:
#Exactement la même chose qu'au début
def gener_donne(phi,n,T):
    phizero=phi
    a=np.array([np.random.normal(0,1) for i in range(n)])
    y0=np.array([np.random.normal(a[i]/(1-phizero),1/np.sqrt(1-phizero**2)) for i in range(n)])
    epsilon=[np.random.normal(0,1) for i in range(n*T)]
    y=np.zeros((T,n))
    y[0]=y0
    y=y.T
    for i in range(n):
        for j in range(1,T):
            y[i][j]=a[i]+phizero*y[i][j-1]+epsilon[i*T+j]
    
    return y



array([[-1.37815475, -1.187473  , -0.99938961, -2.26176945, -0.586684  ],
       [ 0.98934813, -0.3869332 ,  2.26244059,  2.8437997 ,  3.87017523],
       [ 1.00268627, -0.80841778, -0.6969046 , -0.46456136,  0.07071828],
       [ 1.89031558,  2.96238038,  3.97420205,  3.02333134,  3.10420198],
       [ 0.18242059, -2.44030232,  0.49096488,  0.71678833,  1.22867252]])

In [None]:
#Formule du papier pour l'estimateur
def ML_papier(y):
    mat_y_=y[:,:T-1]
    mat_y=y[:,1:]
    
    y=mat_y.reshape(n*(T-1),1)
    y_=mat_y_.reshape(n*(T-1),1)
        
    phi_ML_aux=np.linalg.inv((y_.T)@y_)@((y_.T)@y)
    
    return phi_ML_aux

#Calcul de la binding function simulée pour un phi donnée
def b_NT(phi,H):
    b_simul=[ML_papier(gener_donne(phi,n,T)) for H in range(H)]
    return np.mean(b_simul)

In [134]:

#Minimisation de l'écart entre la binding fuction simulée et la "vraie valeur"
# de la binding function

def estim_indirect(H):
    def ecart(phi):
        return abs(ML_papier(y)-b_NT(phi,H))
    return minimize_scalar(ecart, method="bounded", bounds=(0.1,0.9))

estim_indirect(H)

ValueError: could not broadcast input array from shape (5,1,1) into shape (5)