<a href="https://colab.research.google.com/github/Otavio8888/econometric_tests/blob/test1/EA03_py.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Econometria Aplicada [Módulo em Python]

### Regressão linear múltipla - Estimação

In [None]:
!pip install wooldridge



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import wooldridge as woo
plt.rcParams['figure.dpi'] = 150

## Estimando a regressão múltipla

estimar uma regressão simples pela função "ols" da biblioteca Statmodels é bastante simples. No caso da regressão que leva em conta mais variáveis, a chamada regressão múltipla, isso não é diferente. Basta incluir mais variáveis no lado direito da formula da função, separada pelo "~".

Todo o resto do procedimento ocorre da mesma maneira do caso simples. Assim, a utilização do **smf.ols()**, **.fit** e **summary()** permanece igual.

Na seção passada nós estimamos a regressão com o dataset "wage1" entre salário e escolaridade. Para mostrar um primeiro exemplo, podemos estimar a mesma regressão, agora incluíndo mais variáveis na análise. Assim, decidimos incluir as variáveis que medem a experiência (exper), tempo no atual emprego (tenure) e gênero (female), que é uma variável binária que retorna 1, caso a pessoa seja mulher e 0, caso contrário.

Primeiramente, vamos estimar a mesma regressão simples, apenas para compararmos com a nova estimação.

In [None]:
wage1 = woo.dataWoo("wage1")

reg_simples = smf.ols(formula = 'np.log(wage) ~ educ', data = wage1)
results_simples = reg_simples.fit()

results_simples.summary()

0,1,2,3
Dep. Variable:,np.log(wage),R-squared:,0.186
Model:,OLS,Adj. R-squared:,0.184
Method:,Least Squares,F-statistic:,119.6
Date:,"Thu, 20 Jul 2023",Prob (F-statistic):,3.27e-25
Time:,15:54:19,Log-Likelihood:,-359.38
No. Observations:,526,AIC:,722.8
Df Residuals:,524,BIC:,731.3
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.5838,0.097,5.998,0.000,0.393,0.775
educ,0.0827,0.008,10.935,0.000,0.068,0.098

0,1,2,3
Omnibus:,11.804,Durbin-Watson:,1.801
Prob(Omnibus):,0.003,Jarque-Bera (JB):,13.811
Skew:,0.268,Prob(JB):,0.001
Kurtosis:,3.586,Cond. No.,60.2


In [None]:
wage1 = woo.dataWoo("wage1")

reg_mult = smf.ols(formula = 'np.log(wage) ~ educ + exper + tenure + female', data = wage1)
results_mult = reg_mult.fit()

results_mult.summary()

0,1,2,3
Dep. Variable:,np.log(wage),R-squared:,0.392
Model:,OLS,Adj. R-squared:,0.388
Method:,Least Squares,F-statistic:,84.07
Date:,"Thu, 20 Jul 2023",Prob (F-statistic):,4.6799999999999995e-55
Time:,15:54:19,Log-Likelihood:,-282.46
No. Observations:,526,AIC:,574.9
Df Residuals:,521,BIC:,596.2
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.5013,0.102,4.920,0.000,0.301,0.702
educ,0.0875,0.007,12.605,0.000,0.074,0.101
exper,0.0046,0.002,2.845,0.005,0.001,0.008
tenure,0.0174,0.003,5.835,0.000,0.012,0.023
female,-0.3011,0.037,-8.085,0.000,-0.374,-0.228

0,1,2,3
Omnibus:,12.037,Durbin-Watson:,1.775
Prob(Omnibus):,0.002,Jarque-Bera (JB):,22.36
Skew:,0.012,Prob(JB):,1.4e-05
Kurtosis:,4.01,Cond. No.,141.0


Veja que o parâmetro estimado para a variável de escolaridade aumenta de 0.0827 para 0.0875. Lembrem-se que, como estamos estimando o valor da variável dependente (salário) em log, esse parâmetro deve ser interpretado como o impacto percentual. Ou seja, um ano a mais de escolaridade aumenta o salário em 8.75% nesta nova estimação.

As demais variáveis tem o sinal que esperavamos, positivo para experiência e tempo de trabalho no mesmo emprego e negativo para mulheres, o que ocorre por diversos motivos, incluindo discriminação no mercado de trabalho.

Outra questão importante é que o R2 subiu 0.18 para 0.39. A inclusão de variáveis explicativas aumenta a variação explicada pelo modelo.

### Interpretação e variável omitida

É importante que fique claro que a interpretação dos parâmetros estimados depende de umna condição de *ceteris paribus*. Ou seja, o parâmetro $\beta_{j}$, associado à variável $x_{j}$ é a mudança de $y$, dado que $x_{j}$ aumentou uma unidade e todas as outras variáveis permaneceram constantes. Suponha uma regressão com duas variáveis explicativas:

\begin{equation}
\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}
\end{equation}

Em que o parâmetro $\beta_{1}$ é o efeito do aumento de uma unidade de $x_{1}$, mantendo $x_{2}$ fixo. Agora, considere que nós vamos estimar a regressão utilizando apenas a variável $x_{1}$:

\begin{equation}
\tilde{y}=\tilde{\beta}_{0}+\tilde{\beta}_{1} x_{1}
\end{equation}

Agora nós não estamos deixando $x_{2}$ fixo, simplesmente porque não estamos incluindo ele na regressão. Isso gera um viés na estimação:

\begin{equation}
\tilde{\beta}_{1}=\hat{\beta}_{1}+\hat{\beta}_{2} \tilde{\delta}_{1}
\end{equation}

Em que o $\delta_{1}$ é o parâmetro do coeficiente angular de $x_{2}$ em $x_{1}$:

\begin{equation}
x_{2}=\tilde{\delta}_{0}+\tilde{\delta}_{1} x_{1}
\end{equation}

Ou seja, se não houver relação linear entre as duas variáveis, $\delta_{1}$ é igual a zero e não há viés. Caso contrário, omitir uma variável relevante gera complicações importantes.

## Notação Matricial

Para formalizar a estimação da regressão múltipla, precisamos utilizar a notação matricial. Com um pouco de álgebra linear, nós chegamos ao método que minimiza o erro quadrado médio de um sistema de equações lineares. Assim, nosso vetor de parâmetros $\beta$ pode ser obtido com a seguinte multiplicação de matrizes:

\begin{equation}
\hat{\beta}=\left(X^{T} . X\right)^{-1} \cdot X^{T} . Y
\end{equation}

Sendo $X$ uma matriz de variáveis independentes e uma coluna de "uns", para definição do intercepto.

Para estimar uma regressão múltipla "na mão", basta utilizar algumas ferramentas da biblioteca numpy que permitem realizar operações de álgebra linear. Para multiplicar matrizes, basta usar o "@". Já para tomar a inversa, "linalg.inv". A transposta é obtida com um "T", após a matriz.

In [None]:
X = np.random.rand(20,5)
Y = np.random.rand(20,1)

b = np.linalg.inv(X.T @ X) @ X.T @ Y
b

array([[ 0.19598221],
       [ 0.06527637],
       [ 0.56881781],
       [-0.10614904],
       [ 0.28037491]])

## Multicolineariedade

A multicolinearidade ocorre quando existem duas ou mais variáveis independentes em um modelo de regressão múltipla que apresentam alta correlação entre sí. Quando algumas variáveis são altamente correlacionadas, podemos ter dificuldade em distinguir seus efeitos individuais na variável dependente. A multicolinearidade pode ser detectada usando várias técnicas, sendo a principal o Variance Inflation Factor (VIF). Com este método, regredimos cada variável contra todas as outras. Para cada uma delas, podemos calcular o VIF como:


\begin{equation}
VIF = \frac{1}{1-R ^ 2}
\end{equation}

Em que $R ^ 2$ é o coeficiente de determinação na regressão linear. Assim, quanto maior o valor de $R ^ 2$, maior a correlação e maior é o VIF. Geralmente, um VIF acima de 5 indica uma forte presença de multicolinearidade.

Para termos o resultado do VIF no Python, usaremos como exemplo a regressão de salário, já utilizado. Assim basta realizar o seguinte procedimento:

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

X =  wage1[["educ", "exper", "tenure", "female"]]

vif_data = pd.DataFrame()
vif_data["variável"] = X.columns

vif_data["VIF"] = [variance_inflation_factor(X.values, i)
                          for i in range(len(X.columns))]

vif_data

Unnamed: 0,variável,VIF
0,educ,2.8339
1,exper,3.023392
2,tenure,2.10198
3,female,1.880317


Ou seja, não há multicolineariedade nesta estimação.