# <center> INTRODUCTION À PYTHON POUR L'ÉCONOMIE APPLIQUÉE</center>
## <center> PROBLÈMES ET EXERCICES : No 5</center>
#### <center>Michal Urdanivia (UGA)</center>
#### <center> michal.wong-urdanivia@univ-grenoble-alpes.fr </center>

### <center> NUMPY ET CALCUL DE L'ESTIMATEUR DES MCO </center>
On considère le calcul de l'estimateur des MCO d'un modèle économétrique/statistique pour la relation entre une variable $ Y $ et un vecteur(colonne) $ X\in \mathbb{R}^p $. $Y$ est généralement appelée variable dépendante ou régressande, et $X$ vecteur de covariable ou régresseurs.

Nous avons $ n $ observations sur $ Y $ et $ X $, $\{(X_i, Y_i)\}_{i=1}^n$, et on suppose que la relation entre $Y_i$ et $X_i$ vérifie:

$$
\begin{align*}
Y_i &= X_i^\top\beta = X_{1, i}\beta_1 + X_{2, i}\beta_2+\ldots X_{p, i}\beta_p + \varepsilon_i, \quad i = 1, 2, \ldots, n.
\end{align*}
$$
où $ $ \varepsilon_i $ est l'erreur du modèle et représente tout ce qui n''est pas observé et explique les variations de $Y_i$ pour $ X_i $ donné.

Nous voulons calculer l'estimateur des MCO(c.à.d., des moindres carrés ordinaires) de $ \beta:=(\beta_1, \beta_2, \ldots, \beta_p) $, à savoir,

$$
\begin{align*}
\hat{\beta}^{MCO}&= (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y},
\end{align*}
$$

où $ \mathbf{X} $ est la matrice $ n\times p $ dite des régresseurs ayant pour ligne $i$ le vecteur ligne $ X_i^\top $, et $ \mathbf{Y} $ est le vecteur $n\times 1$ dont l'élément $i$ est $Y_i$.


Nous allons d'abord générer des données afin de tester la fonction qui calculera l'estimateur des MCO. Pour cela on considère le cas de deux régresseurs(donc $p = 2$) et où le premier est constant, soit:

$$
\begin{align*}
Y_i &= \beta_1 + \beta_2 X_{2, i} + \varepsilon_i, \quad i = 1, 2, \ldots, n.
\end{align*}
$$

Donc ici: 

- on cherche à calculer l'estimateur des MCO du vecteur $\beta:=(\beta_1, \beta_2)^\top$ qu'on note $\hat{\beta}^{MCO}:=(\hat{\beta}_1^{MCO}, \hat{\beta}_2^{MCO})$,

- la matrice $ \mathbf{X} $ est une matrice $ n \times 2 $ de la forme:

$$
\begin{align*}
\mathbf{X} & = 
\begin{pmatrix}
1 & X_{2, 1}\\
1 & X_{2, 2}\\
\vdots&\vdots\\
1 & X_{2, n}\\
\end{pmatrix}	
\end{align*}
$$

**Question 1:**

Pour $ n=100 $, $ \beta_1 = 0.25 $, $ \beta_2 = 0.2 $:
- Générez un vecteur de taille $n$ de nombre aléatoires selon une loi $\mathcal{N}(0, 1)$, ce sera $ X_{2, i} $.
- Générez un vecteur de taille $n$ ne contenant que le nombre 1, ce sera $ X_{1, i} $, le régresseur constant.
- à partir de ces deux vecteurs créez la matrice $ \mathbf{X} $, vous pouvez utiliser pour cela la fonction [`hstack()`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html) ou [`concanate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html#numpy.concatenate) de numpy(c.f., notebook du cours 2, indiquées dans la liste des "choses à connaître")
- Générez un vecteur de taille $n$ de nombre aléatoires selon une loi $\mathcal{N}(0, 1)$, ce sera 
$ \varepsilon_{i} $.
- Générez le vecteur $\mathbf{Y}$ selon: $ Y_i = \beta_1  + \beta_2 X_{2i} + \varepsilon_i $.

**Réponse:**

In [14]:
import numpy as np

In [16]:
# Votre code/réponse ici(à compléter)
n = 100
beta1 = 0.25
beta2 = 0.2
X1 = np.ones()
X2 = np.random.randn(, 1)
X = np.hstack((, ))
varepsilon = np.random.randn(n, 1)
Y = beta1*X1 + beta2*X2 + varepsilon
print(X1.shape, X2.shape, X.shape, Y.shape)

(100, 1) (100, 1) (100, 2) (100, 1)


**Question 2:**

Créez une fonction qui calcule l'estimateur des MCO de $\beta$(pour $p$ quelconque). Pour calculer l'inverse d'une matrice vous pouvez utiliser [`linalg.inv()`](https://numpy.org/doc/stable/reference/generated/numpy.linalg.inv.html)(fonction non évoquée dans le notebook présentant Numpy) de Numpy, et le transposé d'une matrice $ A $ est donné par $ A.T $(voir "cheatcheet" numpy dans le dépôt git du cours-dossier Autres-) ou bien [ici](https://assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf). Voici un exemple:

In [None]:
# '#' enlevez le # si numpy n'a pas été importé avant(par exemple parce que vous n'avez pas traité les question
# précédentes)
# import numpy as np 
B = np.array([[2,0],[1,2]]) # une matrice 2x2
print(B) 
print(B.T) # affichage de sa transposé
print(np.linalg.inv(B)) # affichage de son inverse

Dans le cas qui nous intéresse vous devez appliquer la transposé à la matrice $\mathbf{X}$ et l'inverse à 
$ \mathbf{X}^\top \mathbf{X} $.

**Réponse:**

In [17]:
# Votre code/réponse(à compléter)
def ols(X, Y)
    betahat = np.linalg.inv()
    return 

**Question 3:**

Testez votre fonction sur les données de la question 12(affichez vos résultats)

**Réponse:**

In [18]:
# Votre code/réponse(à compléter)

ols

array([[ 0.20762138],
       [-0.02827498]])

**Question 3:** application sur données réelles.

**Données**: 
- Nous allons utiliser des données qui sont disponible sur le site que [Bruce Hansen](https://www.
ssc.wisc.edu/~bhansen/) dédie à son cours d'
[économétrie](https://www.ssc.wisc.edu/~bhansen/
econometrics/). Plus précisément, nous allons utiliser des données extraites du **Current 
Population Survey**(CPS) de 2009. Une description du fichier est 
[ici](https://www.ssc.wisc.edu/\~bhansen/econometrics/cps09mar_description.pdf)
- Pour travailler(e.g., lire/charger les données, sélectionner des variables, etc) sur les données nous allons utiliser la bibliothèque [pandas](https://fr.wikipedia.org/wiki/Pandas) dont vous n'avez pas besoin de lire toute la documentation pour l'utiliser(quelqu'un a t-il déjà lu les quelques 3000 pages correspondantes à la doc en pdf? ou au moins 50 %?). 
- Cette bibliothèque et le travail sur données sera étudié plus en détail par la suite du cours, et pour le moment vous pouvez vous contenter d'executer le code fourni.


In [1]:
import pandas as pd   

In [3]:
# Lecture des données.
# On utilise la fonction "read_stata" dans pandas pour lire le fichier au format stata(".dta") disponible 
# sur le site de Bruce Hansen. Vous pouvez aussi le télécharger sur votre poste et ensuite le lire.
# Nous l'appellons cps_df(pour cps data frame)

cps_df = pd.read_stata("https://www.ssc.wisc.edu/~bhansen/econometrics/cps09mar.dta")
cps_df.info()   # Affichage d'informations.


<class 'pandas.core.frame.DataFrame'>
Int64Index: 50742 entries, 0 to 50741
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        50742 non-null  float64
 1   female     50742 non-null  float64
 2   hisp       50742 non-null  float64
 3   education  50742 non-null  float64
 4   earnings   50742 non-null  float64
 5   hours      50742 non-null  float64
 6   week       50742 non-null  float64
 7   union      50742 non-null  float64
 8   uncov      50742 non-null  float64
 9   region     50742 non-null  float64
 10  race       50742 non-null  float64
 11  marital    50742 non-null  float64
dtypes: float64(12)
memory usage: 5.0 MB


In [4]:
# Affichage des premières lignes(5 par défaut) et de statistiques descriptives de base(moyennes, écart-types, etc)
print(cps_df.head())
cps_df.describe()

    age  female  hisp  education  earnings  hours  week  union  uncov  region  \
0  52.0     0.0   0.0       12.0  146000.0   45.0  52.0    0.0    0.0     1.0   
1  38.0     0.0   0.0       18.0   50000.0   45.0  52.0    0.0    0.0     1.0   
2  38.0     0.0   0.0       14.0   32000.0   40.0  51.0    0.0    0.0     1.0   
3  41.0     1.0   0.0       13.0   47000.0   40.0  52.0    0.0    0.0     1.0   
4  42.0     0.0   0.0       13.0  161525.0   50.0  52.0    1.0    0.0     1.0   

   race  marital  
0   1.0      1.0  
1   1.0      1.0  
2   1.0      1.0  
3   1.0      1.0  
4   1.0      1.0  


Unnamed: 0,age,female,hisp,education,earnings,hours,week,union,uncov,region,race,marital
count,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0,50742.0
mean,42.131725,0.425722,0.148792,13.924619,55091.530685,43.827244,51.879272,0.021521,0.002207,2.635627,1.433507,2.763174
std,11.48762,0.494457,0.355887,2.744447,52222.071166,7.704467,0.598646,0.145113,0.04693,1.060051,1.31743,2.503158
min,15.0,0.0,0.0,0.0,1.0,36.0,48.0,0.0,0.0,1.0,1.0,1.0
25%,33.0,0.0,0.0,12.0,28000.0,40.0,52.0,0.0,0.0,2.0,1.0,1.0
50%,42.0,0.0,0.0,13.0,42000.0,40.0,52.0,0.0,0.0,3.0,1.0,1.0
75%,51.0,1.0,0.0,16.0,65000.0,45.0,52.0,0.0,0.0,4.0,1.0,5.0
max,85.0,1.0,1.0,20.0,561087.0,99.0,52.0,1.0,1.0,4.0,21.0,7.0


- Nous allons considérer un modèle où la variable dépendante est un log du salaire, et les 
régresseurs incluent une constante, le niveau d'études, une mesure de l'expérience potentielle 
sur le marché du travail en années($ \text{exper} $), son carré($ \text{expersq} $), une 
indicatrice du sexe($ \text{female} $), et une indicatrice d'être noir($ \text{black} $).  Soit

  - $ Y $: $ \text{lwage} $(salaire horaire en log),
  - $ X $: $ (1, \text{education}, \text{exper}, \text{expersq}, \text{female}, \text{black})$.

- Parmi ces variables nous devons construire $ \text{lwage} $, $\text{exper}$, $\text{expersq}$
et $\text{black}$.

- Donc la version de (1) qu'on considère est:

$$ 
\begin{align*}
\text{lwage} &= \beta_1 + \beta_2 \text{education} + \beta_3\text{exper} + \beta_4\text{exper}
^2  + \beta_5\text{female} + \beta_6\text{black}
+ U
\end{align*}
$$

- Nous allons utiliser un échantillon qui correspond aux personnes qui se définissent comme 
blanches, ou noires(remarque: la collecte de données américaines permet de recueillir des 
informations quant à l'appartenance à des groupes ethniques préalablement définis).

In [6]:
import numpy as np

In [7]:
# Échantillon

cps_df2 = cps_df[(cps_df.race == 1.0) | (cps_df.race == 2.0)]

# Variables

cps_df2 = cps_df2.assign(exper = cps_df2.age - cps_df2.education - 6) # Expérience
cps_df2 = cps_df2.assign(expersq = cps_df2.exper**2/100) # Expérience au carré
cps_df2 = cps_df2.assign(lwage = np.log(cps_df2.earnings / ( cps_df2.hours * cps_df2.week))) # revenu horaire
cps_df2 = pd.get_dummies(data = cps_df2, columns= ['race']) # indicatrice d'appartenance ethnique
cps_df2 = cps_df2.rename(columns={"race_1.0": "white", "race_2.0": "black"}) # on les renomme 
print(cps_df2.shape)
cps_df2.describe()
#cps_df2[['exper', 'age', 'education', 'expersq', 'lwage', 'earnings', 'week', 'hours']].head()


(46411, 16)


Unnamed: 0,age,female,hisp,education,earnings,hours,week,union,uncov,region,marital,exper,expersq,lwage,white,black
count,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0,46411.0
mean,42.213915,0.423477,0.154468,13.882269,55082.729181,43.879964,51.879554,0.021934,0.002262,2.597789,2.754584,22.331646,6.337939,2.945706,0.889358,0.110642
std,11.468616,0.494115,0.3614,2.713667,52324.915589,7.701222,0.596815,0.146471,0.047511,1.047513,2.497897,11.623014,5.635276,0.673137,0.313692,0.313692
min,15.0,0.0,0.0,0.0,1.0,36.0,48.0,0.0,0.0,1.0,1.0,-4.0,0.0,-7.863267,0.0,0.0
25%,33.0,0.0,0.0,12.0,28000.0,40.0,52.0,0.0,0.0,2.0,1.0,13.0,1.69,2.560096,1.0,0.0
50%,42.0,0.0,0.0,13.0,42000.0,40.0,52.0,0.0,0.0,3.0,1.0,22.0,4.84,2.956512,1.0,0.0
75%,51.0,1.0,0.0,16.0,65000.0,45.0,52.0,0.0,0.0,3.0,5.0,31.0,9.61,3.354542,1.0,0.0
max,85.0,1.0,1.0,20.0,561087.0,99.0,52.0,1.0,1.0,4.0,7.0,75.0,56.25,5.583706,1.0,1.0


Nous allons travailler sur des arrays numpy qui seront obtenus par conversion des variables dans le dataframe pandas.

In [8]:
# Variables(dépendante et régresseurs)

dep_var = cps_df2['lwage']
reg_var = cps_df2[['education', 'female', 'black', 'exper', 'expersq']]

# Ce ne sont pas array mais des objets pour pandas leur type est

print(type(dep_var), type(reg_var))

# Conversion en arrays pour numpy(on crée de nouveaux objets Yn, Xn, afin de ne pas écraser ceux de départ
# que nous utiliserons par la suite.

Y = dep_var.values[:, np.newaxis]
X = reg_var.values
n = len(Y)
# On estime un modèle avec terme constant qu'on doit joindre
X = np.concatenate((np.ones((n,1)), X), axis=1) 
print(type(Y), Y.shape)
print(type(X), X.shape)


<class 'pandas.core.series.Series'> <class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'> (46411, 1)
<class 'numpy.ndarray'> (46411, 6)


In [10]:
# Testez de votre fonction sur ces données
def ols(X, Y):
    betahat = np.linalg.inv(X.T@X)@(X.T@Y)
    return betahat

In [11]:
ols(X, Y)

array([[ 1.0207843 ],
       [ 0.11485911],
       [-0.26294147],
       [-0.11038367],
       [ 0.03688886],
       [-0.05834852]])

#### Calcul avec modules existants

En général pour une tâche donnée, il est recommandé d'utiliser des modules/bibliothèques/
fonctions déjà existantes plutôt que de chercher à les reprogrammer de zéro(bien que cet 
exercice soit très instructif) car ces fonctions on souvent été déjà largement testées, et
surtout cela permet 
d'envisage des développements/améliorations sur des bases établies.

Par exemple, pour calculer un estimateur des MCO il existe énormément de modules disponibl
largement employés par la communauté. Nous allons en considérer deux associés à deux 
bibliothèques parmi les plus populaires:

- [statsmodels](https://www.statsmodels.org/stable/index.html): orienté statistique au sen
général.

- [scikit-learn](https://scikit-learn.org/stable/): davantage apprentissage.

**Remarque**: ces modules seront vus dans le cours à venir sur le travail avec données, et pour le moment vous pouvez vous contenter d'executer ce code.

In [19]:
import statsmodels.api as sm
from sklearn import linear_model

In [20]:
model = sm.OLS(dep_var, sm.add_constant(reg_var))
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.280
Model:                            OLS   Adj. R-squared:                  0.280
Method:                 Least Squares   F-statistic:                     3602.
Date:                Thu, 10 Nov 2022   Prob (F-statistic):               0.00
Time:                        11:40:27   Log-Likelihood:                -39873.
No. Observations:               46411   AIC:                         7.976e+04
Df Residuals:                   46405   BIC:                         7.981e+04
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.0208      0.017     60.495      0.0

**Question** 

1. Programmez une fonction qui calcule l'estimateur de la matrice de variances-covariances de l'estimateur des MCO dans le cas hétéroscédastique et homoscédastique en utilisant le calcul numérique sur des array numpy, et calculez les écart-types estimés.
Pour rappel:
- Dans le cas homoscédastique cet estimateur est donné par:

$$
\hat{\sigma}^2(\mathbf{X}^\top\mathbf{X})^{-1}
$$
où $\hat{\sigma}^2$ est un estimateur convergent de la variance des erreurs. 

2. Testez votre fonction sur les données artificielles, et celles de B. Hansen.