# <center> INTRODUCTION À PYTHON POUR L'ÉCONOMIE APPLIQUÉE</center>
## <center> EXERCICES : 06.12.2022</center>
#### <center>Michal Urdanivia (UGA)</center>
#### <center> michal.wong-urdanivia@univ-grenoble-alpes.fr </center>

1. Créer une fonction qui calcule la moyenne d'une variable représentée sous la forme d'un array numpy.
2. Tester la fonction sur une variable aléatoire de loi normale $ \mathcal{N}(0, 1) $
3. Faire la même chose qu'en 1 et 2 mais pour l'écart-type.
4. Comparez vos résultats à ceux des fonctions de numpy [.mean](https://numpy.org/doc/stable/reference/generated/numpy.mean.html) et [.std](https://numpy.org/doc/stable/reference/generated/numpy.std.html). 

**Remarque** : 

Sur un vecteur $ X = (X_1, X_2, \ldots, X_n)^\top $. Pour calculer la moyenne de $X$, $\bar{X}$,
on peut faire:

$$
\bar{X} = X^\top \times \mathbf{1}_n / n,
$$
où  $\mathbf{1}_n$ est le vecteur $(1, 1, \ldots, 1)^\top$ de taille $n$.


In [1]:

import numpy as np

X = np.random.normal(loc=0,scale=1,size=10)# variable aléatoire de loi N(0, 1)

# Votre code ici

5. Testez votre fonction sur le données issus du site de [Bruce Hansen](https://www.ssc.wisc.edu/~bhansen/econometrics/). Pour cela utilisez d'abord le code suivant qui lit les données sous forme d'un [dataframe pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html), sélectionne un échantillon et transforme des variables choisies en `numpy arrays`. En particulier on considère le niveau d'études( `education`) et le salaire en logarithme(`lwage`). Pour des détail sur ces données vous pouvez consulter ce [dictionnaire](https://www.ssc.wisc.edu/~bhansen/econometrics/cps09mar_description.pdf).

In [2]:
# Import de pandas
import pandas as pd

In [3]:
# Lecture des données.
# On utilise la fonction "read_stata" dans pandas pour lire le fichier au format stata(".dta") disponible 
# sur le site de Bruce Hansen. Vous pouvez aussi le télécharger sur votre poste et ensuite le lire.
# Nous l'appellons cps_df(pour cps data frame)
cps_df = pd.read_stata("https://www.ssc.wisc.edu/~bhansen/econometrics/cps09mar.dta")
cps_df.info()   # Affichage d'informations.

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50742 entries, 0 to 50741
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        50742 non-null  float64
 1   female     50742 non-null  float64
 2   hisp       50742 non-null  float64
 3   education  50742 non-null  float64
 4   earnings   50742 non-null  float64
 5   hours      50742 non-null  float64
 6   week       50742 non-null  float64
 7   union      50742 non-null  float64
 8   uncov      50742 non-null  float64
 9   region     50742 non-null  float64
 10  race       50742 non-null  float64
 11  marital    50742 non-null  float64
dtypes: float64(12)
memory usage: 5.0 MB


In [None]:
# Échantillon

cps_df2 = cps_df[(cps_df.race == 1.0) | (cps_df.race == 2.0)]

# Variables

cps_df2 = cps_df2.assign(exper = cps_df2.age - cps_df2.education - 6) # Expérience
cps_df2 = cps_df2.assign(expersq = cps_df2.exper**2/100) # Expérience au carré
cps_df2 = cps_df2.assign(lwage = np.log(cps_df2.earnings / ( cps_df2.hours * cps_df2.week))) # revenu horaire
cps_df2 = pd.get_dummies(data = cps_df2, columns= ['race']) # indicatrice d'appartenance ethnique
cps_df2 = cps_df2.rename(columns={"race_1.0": "white", "race_2.0": "black"}) # on les renomme 
print(cps_df2.shape)
cps_df2.describe()
#cps_df2[['exper', 'age', 'education', 'expersq', 'lwage', 'earnings', 'week', 'hours']].head()



In [None]:
# Variables(dépendante et régresseurs)

dep_var = cps_df2['lwage']
reg_var = cps_df2[['education', 'female', 'black', 'exper', 'expersq']]

# Ce ne sont pas array mais des objets pour pandas leur type est

print(type(dep_var), type(reg_var))

# Conversion en arrays pour numpy(on crée de nouveaux objets Yn, Xn, afin de ne pas écraser ceux de dépar
# que nous utiliserons par la suite.

Y = dep_var.values[:, np.newaxis]
X = reg_var.values
n = len(Y)
# On estime un modèle avec terme constant qu'on doit joindre
X = np.concatenate((np.ones((n,1)), X), axis=1) 
print(type(Y), Y.shape)
print(type(X), X.shape)


In [None]:
# Testez à présent vos fonctions