# <center> INTRODUCTION À PYTHON POUR L'ÉCONOMIE APPLIQUÉE</center>
## <center> PROBLÈMES ET EXERCICES : No 5</center>
#### <center>Michal Urdanivia (UGA)</center>
#### <center> michal.wong-urdanivia@univ-grenoble-alpes.fr </center>

### <center> NUMPY ET CALCUL DE L'ESTIMATEUR DES MCO </center>

On considère le calcul de l'estimateur des MCO d'un modèle économétrique/statistique pour la relation entre une variable $ Y $ et un vecteur(colonne) $ X\in \mathbb{R}^p $. $Y$ est généralement appelée variable dépendante ou régressande, et $X$ vecteur de covariable ou régresseurs.

Nous avons $ n $ observations sur $ Y $ et $ X $, $\{(X_i, Y_i)\}_{i=1}^n$, et on suppose que la relation entre $Y_i$ et $X_i$ vérifie:

$$
\begin{align*}
Y_i &= X_i^\top\beta = X_{1, i}\beta_1 + X_{2, i}\beta_2+\ldots X_{p, i}\beta_p + \varepsilon_i, \quad i = 1, 2, \ldots, n.
\end{align*}
$$
où $ \varepsilon_i $ est l'erreur du modèle et représente tout ce qui n''est pas observé et explique les variations de $Y_i$ pour $ X_i $ donné.

Nous voulons calculer l'estimateur des MCO(c.à.d., des moindres carrés ordinaires) de $ \beta:=(\beta_1, \beta_2, \ldots, \beta_p) $, à savoir,

$$
\begin{align*}
\hat{\beta}^{MCO}&= (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y},
\end{align*}
$$

où $ \mathbf{X} $ est la matrice $ n\times p $ dite des régresseurs ayant pour ligne $i$ le vecteur ligne $ X_i^\top $, et $ \mathbf{Y} $ est le vecteur $n\times 1$ dont l'élément $i$ est $Y_i$.


Nous allons d'abord générer des données afin de tester la fonction qui calculera l'estimateur des MCO. Pour cela on considère le cas de deux régresseurs(donc $p = 2$) et où le premier est constant, soit:

$$
\begin{align*}
Y_i &= \beta_1 + \beta_2 X_{2, i} + \varepsilon_i, \quad i = 1, 2, \ldots, n.
\end{align*}
$$

Donc ici: 

- on cherche à calculer l'estimateur des MCO du vecteur $\beta:=(\beta_1, \beta_2)^\top$ qu'on note $\hat{\beta}^{MCO}:=(\hat{\beta}_1^{MCO}, \hat{\beta}_2^{MCO})$,

- la matrice $ \mathbf{X} $ est une matrice $ n \times 2 $ de la forme:

$$
\begin{align*}
\mathbf{X} & = 
\begin{pmatrix}
1 & X_{2, 1}\\
1 & X_{2, 2}\\
\vdots&\vdots\\
1 & X_{2, n}\\
\end{pmatrix}	
\end{align*}
$$

**Question 1:**

Pour $ n=100 $, $ \beta_1 = 0.25 $, $ \beta_2 = 0.2 $:
- Générez un vecteur de taille $n$ de nombre aléatoires selon une loi $\mathcal{N}(0, 1)$, ce sera $ X_{2, i} $.
- Générez un vecteur de taille $n$ ne contenant que le nombre 1, ce sera $ X_{1, i} $, le régresseur constant.
- à partir de ces deux vecteurs créez la matrice $ \mathbf{X} $, vous pouvez utiliser pour cela la fonction [`hstack()`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html) ou [`concanate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html#numpy.concatenate) de numpy(c.f., notebook du cours 2, indiquées dans la liste des "choses à connaître")
- Générez un vecteur de taille $n$ de nombre aléatoires selon une loi $\mathcal{N}(0, 1)$, ce sera 
$ \varepsilon_{i} $.
- Générez le vecteur $\mathbf{Y}$ selon: $ Y_i = \beta_1  + \beta_2 X_{2i} + \varepsilon_i $.

**Réponse:**

In [1]:
import numpy as np

In [2]:
n = 100
beta1 = 0.25
beta2 = 0.2
X1 = np.ones((n, 1))
X2 = np.random.randn(n, 1)
X = np.hstack((X1, X2))
varepsilon = np.random.randn(n, 1)
Y = beta1*X1 + beta2*X2 + varepsilon
print(X1.shape, X2.shape, X.shape, Y.shape)

(100, 1) (100, 1) (100, 2) (100, 1)


**Question 2:**

Créez une fonction qui calcule l'estimateur des MCO de $\beta$(pour $p$ quelconque). Pour calculer l'inverse d'une matrice vous pouvez utiliser [`linalg.inv()`](https://numpy.org/doc/stable/reference/generated/numpy.linalg.inv.html)(fonction non évoquée dans le notebook présentant Numpy) de Numpy, et le transposé d'une matrice $ A $ est donné par $ A.T $(voir "cheatcheet" numpy dans le dépôt git du cours-dossier Autres-) ou bien [ici](https://assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf). Voici un exemple:

In [None]:
# '#' enlevez le # si numpy n'a pas été importé avant(par exemple parce que vous n'avez pas traité les question
# précédentes)
# import numpy as np 
B = np.array([[2,0],[1,2]]) # une matrice 2x2
print(B) 
print(B.T) # affichage de sa transposé
print(np.linalg.inv(B)) # affichage de son inverse

Dans le cas qui nous intéresse vous devez appliquer la transposé à la matrice $\mathbf{X}$ et l'inverse à 
$ \mathbf{X}^\top \mathbf{X} $.

**Réponse:**

In [3]:
def ols(X, Y):
    betahat = np.linalg.inv(X.T@X)@(X.T@Y)
    return betahat

**Question 3:**

Testez votre fonction sur les données de la question 12(affichez vos résultats)

**Réponse:**

In [4]:
ols(X, Y)

array([[0.10150967],
       [0.10633322]])

#### Application.

- Nous allons considérer un modèle où la variable dépendante est un log du salaire, et les régresseurs incluent une constante, le niveau d'études, une mesure de l'expérience potentielle sur le marché du travail en années($ \text{exper} $), son carré($ \text{expersq} $), une indicatrice du sexe($ \text{female} $), et une indicatrice d'être noir($ \text{black} $).  Soit,

  - $ Y $: $ \text{lwage} $(salaire horaire en log),
  - $ X $: $ (1, \text{education}, \text{exper}, \text{expersq}, \text{female}, \text{black})$.

- Parmi ces variables nous devons construire $ \text{lwage} $, $\text{exper}$, $\text{expersq}$, et $\text{black}$.

- Donc la version de (1) qu'on considère est:

$$ 
\begin{align*}
\text{lwage} &= \beta_1 + \beta_2 \text{education} + \beta_3\text{exper} + \beta_4\text{exper}^2  + \beta_5\text{female} + \beta_6\text{black}
+ U
\end{align*}
$$

- Nous allons utiliser un échantillon qui correspond aux personnes qui se définissent comme blanches, ou noires(remarque: la collecte de données américaines permet de recueillir des informations quant à l'appartenance à des groupes ethniques préalablement définis).
