In [1]:
import random
import numpy as np
from sklearn.linear_model import LinearRegression
from scipy.optimize import minimize_scalar
import tqdm
import matplotlib.pyplot as plt

## I - GMM/IV 

### (Andersen and Hsiao, 1981, 1982)

In [None]:
#Simulation of the data
random.seed(2040)
n= 100
T= 5
phizero=0.4

#definition of y0 for the n individuals 
a = np.random.normal(0,1, size = n)
y0 = np.vectorize(lambda x: np.random.normal(x/(1-phizero),1/np.sqrt(1-phizero**2)))(a)
epsilon = np.random.normal(0, 1, size = n*T)


#matrix where each row is the time period, and each column is the ith individual
y=np.zeros((T+1,n))

#the first row of the matrix is y0
y[0] = y0

delta_y = np.zeros((T,n))
delta_epsilon = np.zeros((T,n))

#recursive definition of y, delta_y and delta_epsilon
for j in tqdm.tqdm(range(1,T+1)):
    y[j] = a + y[j-1]*phizero + epsilon[j]
    delta_y[j-1] = y[j] - y[j-1]
    delta_epsilon[j-1] = epsilon[j] - epsilon[j-1]
    

def moments(phizero): 
    moments = []
    Z = np.zeros(((T-2,n)))
    
    for s in tqdm.tqdm(range(2, T)):
        t = 3
        while t - s <= t - 1:
                moments.append(sum(y[t-s][i]*phizero*delta_y[t-2][i]+ delta_epsilon[t-1][i] for i in range(0,n)))
    return(moments)

In [None]:
moments(0.4) 

Recall the empirical counterpart of the moment condition (5), p69

$$ \frac{1}{N}\sum_{i=1}^N y_{it-s}(\Delta y_{i,t-1}) = 0 $$

Where  $s \in \{2, ..., t-1 \}$ thus $ \forall t \geq 3$.


Puis on a : 
$h(\rho,Y_i,Z_i,X_i) = (h(\rho,\Delta y_{11},z_{1T}),h(\rho,\Delta y_{21},z_{2T})...)$

Finalement on minimise le critère : 
    $$Q(\theta)=[\sum_{i=1}^Nh_i(\theta,Y_i)]'W_T[\sum_{i=1}^Nh(\theta,Y_i)]$$

In [217]:
#On agrège tous les moments d'un individu donné dans un vecteur 
def tab_h(i,rho):
    tab_h=[]
    for t in range(1,T-1):
        tab_h+=h(rho,i,t)
    return np.array(tab_h)

#On définit le critère ci dessus.
def critere(rho):
    M=1/(n-1)*sum([tab_h(i,rho) for i in range(n-1)])
    return M@M.T


In [218]:
minimize_scalar(critere)

     fun: 0.15289905480514548
    nfev: 9
     nit: 5
 success: True
       x: 0.846562269178982

In [None]:
u_i,t = alpha_i + varepsilon_i,t

Après trop de temps à me perdre dans l'article de Arellano Bover 95 (pour qqch de vraiment pas ouf), j'ai enfin compris que Arrelo Bover ajoute comme nouveaux moments à rajouter dans le GMM. J'ai trouvé cette version clair de ça dans Blundell bond 98 :
$$ E(u_{i,t},\Delta y_{i,t-1})=E((y_{i,t}-\phi_0 y_{it-1})(y_{i,t-1}-y_{it-2})=0, \text{for } t=2,3,...,T $$

Genre les résidu de l'équation au temps t sont orthogonaux de leur "condition intiale" au temps t-1.

On va coder ça. Comme il y qu'un seul momen par temps c'est plus facile, on les mets direct dans un vecteur pour chaque individu.

In [219]:
def moment_l (i,rho):
    moment_l=[]
    for t in range(3,T):
        moment_l+=[(y[i,t]-rho*y[i,t-1])*(y[i,t-1]-y[i,t-2])] 
    return moment_l


def GMM_Ar_Bond (rho) :
    moments=[]
    for i in range(n):
        moments.append(np.array(moment_l(i,rho)+list(tab_h(i,rho))))
    M=1/(n-1)*sum([moments[i] for i in range(n-1)])
    return M@M.T




In [220]:
minimize_scalar(GMM_Ar_Bond)

     fun: 0.18093396871093076
    nfev: 9
     nit: 5
 success: True
       x: 0.7668950057455812

Bon pour l'instant je sais pas pourquoi mais les résultats sont absolument pas ouf XD. Je pense que si on remettait tout ca en forme matricielle et qu'on fait juste la formule ca fonctionnerait mieux :(

- Approche Han et Phillips

In [221]:
#Implémentation directe
numerateur=0
denominateur=0
for i in range(n) :
    for t in range(T):
        delta_1=y[i,t-1]-y[i,t-2]
        delta=y[i,t]-y[i,t-1]
        numerateur+=delta_1*(2*delta+delta_1)
        denominateur+=(delta_1)**2

estim=numerateur/denominateur
print("Estimation directe: ",estim)

#implémentation par algo de maximisation
def moment_HP(i,rho):
    moment_l=[]
    for t in range(3,T):
        delta_1=y[i,t-1]-y[i,t-2]
        delta=y[i,t]-y[i,t-1]
        moment_l+=[delta_1*(2*delta+delta_1)-rho*delta_1] 
    return moment_l

def GMM_HP(rho):
    moments=[]
    for i in range(n):
        moments.append(np.array(moment_HP(i,rho)))
    M=1/(n-1)*sum([moments[i] for i in range(n-1)])
    return M@M.T

estim2=minimize_scalar(GMM_HP, tol=0.01)
print("Estimation par algo: ",estim2["x"])  


Estimation directe:  0.5083157687270698
Estimation par algo:  -7.033631747419856


MLE avec correction de biais de Han et Kuersteiner : la formule explicite est donnée directe dans l'article : je recopie.

In [222]:
within_ = [1/T*sum([y[i][t-1] for t in range(1,T)]) for i in range(n)]
within = [1/T*sum([y[i][t] for t in range(1,T)]) for i in range(n)]

#Denominateur (le même pour OLS et HK, noté Upsilon):
Upsilon=0
for i in range(n):
    for t in range(1,T):
        Upsilon+=(y[i,t-1]-within_[i])**2
        
Upsilon*=1/(n*T)

#Numérateur (le même pour OLS et la première partie de HK)
HK_num_1=0
for i in range(n):
    for t in range(1,T):
        HK_num_1+=(y[i,t-1]-within_[i])*(y[i,t]-within_[i])
HK_num_1*=1/(n*T)

phi_OLS=HK_num_1/Upsilon

omega=(1-phi_OLS**2)*Upsilon

HK_num_2 = (1/T)*(1-phi_OLS)*omega

HK_estim=(HK_num_1+HK_num_2)/Upsilon

print(HK_estim)

0.37619122231607705


Mnt il faut coder l'inférence indirecte :

1) On crée une fonction qui génère des données avec un phi donné

2) On crée une fonction qui calcul OLS avec des données donnée

3) On utilise la super fonction trop cool qui minimise des fonctions

In [223]:
#Exactement la même chose qu'au début
random.seed(2040)
def gener_donne(phi,n,T):
    phizero=float(phi)
    a=np.array([np.random.normal(0,1) for i in range(n)])
    y0=np.array([np.random.normal(a[i]/(1-phizero),1/np.sqrt(1-phizero**2)) for i in range(n)])
    epsilon=[np.random.normal(0,1) for i in range(n*T)]
    y=np.zeros((T,n))
    y[0]=y0
    y=y.T
    for i in range(n):
        for j in range(1,T):
            y[i][j]=a[i]+phizero*y[i][j-1]+epsilon[i*T+j]
    
    return y



In [224]:
#Formule du papier pour l'estimateur
def ML_papier(y):
    mat_y_=y[:,:T-1]
    mat_y=y[:,1:]
    
    y=mat_y.reshape(n*(T-1),1)
    y_=mat_y_.reshape(n*(T-1),1)
        
    phi_ML_aux=np.linalg.inv((y_.T)@y_)@((y_.T)@y)
    
    return phi_ML_aux

#Calcul de la binding function simulée pour un phi donnée
def b_NT(phi,H):
    b_simul=[ML_papier(gener_donne(phi,n,T)) for H in range(H)]
    return np.mean(b_simul)

In [225]:
#Minimisation de l'écart entre la binding fuction simulée et la "vraie valeur"
# de la binding function

def estim_indirect(H):
    x=ML_papier(y)
    def ecartL2(phi):
        return abs(x-b_NT(phi,H))
    return minimize_scalar(ecartL2,method="bounded", bounds=(0.01,0.99) )


estim_indirect(40)

     fun: array([[0.00032135]])
 message: 'Solution found.'
    nfev: 18
  status: 0
 success: True
       x: array([[0.41676448]])