<a href="https://colab.research.google.com/github/Otavio8888/econometric_tests/blob/test5/EA07_py.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Econometria Aplicada [Módulo em Python]

### Regressão com variáveis qualitativas

Até agora, nós tratamos essencialmente de variáveis quantitativas na composição dos regressores. Entretanto, muitas vezes é o caso de utilizarmos variáveis qualitativas, como no caso de gênero, raça, marca ou local. Variáveis qualitativas podem ser tanto binárias  que têm 2 classes, quanto categóricas, que podem ter mais classes.

Além disso, nesta aula trataremos brevemente da regressão logística, que é o modelo utilziado quando tempos uma variável binária como dependente.

## Variáveis dummy

Variáveis binárias são simples de serem utilizadas na regressão linear. De fato já utilizamos elas em alguns exemplos ao longo do curso. Se nós estimarmos um modelo de regressão simples com apenas uma variável binária, o valor do parâmetro representa a variação no intercepto entre os grupos.

Um dos exemplos utilizados anteriormente foi o dataset "wage1" do pacote wooldridge, que traz características de diversas pessoas, incluindo o salário. Assim, estimamos o salário com base no gênero (1, caso mulher, 0 se for homem), educação, experiência e tempo no emprego.

In [None]:
!pip install wooldridge
!pip install pydataset

In [None]:
import wooldridge as woo
import pandas as pd
import statsmodels.formula.api as smf

wage1 = woo.dataWoo('wage1')

reg = smf.ols(formula='wage ~ female + educ + exper + tenure', data=wage1)
results = reg.fit()

print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                   wage   R-squared:                       0.364
Model:                            OLS   Adj. R-squared:                  0.359
Method:                 Least Squares   F-statistic:                     74.40
Date:                Thu, 15 Jul 2021   Prob (F-statistic):           7.30e-50
Time:                        20:51:27   Log-Likelihood:                -1314.2
No. Observations:                 526   AIC:                             2638.
Df Residuals:                     521   BIC:                             2660.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.5679      0.725     -2.164      0.0

Veja que, em média, mulheres ganham 1.81 dólares a menos por hora do que homens com as mesmas características.

Em outro exemplo, utilizamos o dataset "catholic" que traz características de alunos. O foco é analisar o impacto de estudar em colégios católicos em relação ao restante na nota de matemática dos alunos. Com isso, há uma variável binária "cathhs", que traz essa informação. Além delas, incluímos uma variável de educação da mãe ("mothereduc") e  outra com o  log da renda familiar ("lfaminc").

In [None]:
catholic = woo.dataWoo('catholic')

reg = smf.ols(formula='math12 ~ cathhs + motheduc + lfaminc', data=catholic)
results = reg.fit()

print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                 math12   R-squared:                       0.157
Model:                            OLS   Adj. R-squared:                  0.157
Method:                 Least Squares   F-statistic:                     460.7
Date:                Thu, 15 Jul 2021   Prob (F-statistic):          1.65e-274
Time:                        20:51:27   Log-Likelihood:                -26603.
No. Observations:                7430   AIC:                         5.321e+04
Df Residuals:                    7426   BIC:                         5.324e+04
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     10.3340      1.332      7.759      0.0

O resultado indica que alunos de colégios católicos tem performance superior em 1.78 na nota de matemática.

## Variáveis categóricas

A implementação de variáveis categóricas já é um pouco mais diferente. Tecnicamente, quando estimamos uma regressão com uma variável categórica, estamos estimando uma regressão com varias variáveis binárias. Cada variável binária representa um grupo (1, se a observação for pertecente ao grupo, 0, caso contrário).

Basicamente, pela formula do *statsmodels* qualquer variável pode ser transformada em categórica pela inclusão da função **C**. A função *ols* adicionará $n-1$ variáveis dummy, sendo *n* o número de categorias. São incluídos $n-1$ e não $n$ variáveis, pois se não teriámos uma situação de perfeita colineariedade.

Assim, para mostrar um exemplo de regressão utilizando variáveis categóricas, iremos utilizar o dataset "chickwts", do pacote *pydataset*, que traz pesos de galinhas e os tipos de dieta que estão ingerindo. Como os grupos estão dispostos com o nome podemos implementar normalmente na regressão, sem o uso da função **C**. São seis grupos: 'horsebean', 'linseed', 'soybean', 'sunflower', 'meatmeal' e 'casein'.

In [None]:
from pydataset import data

chickwts = data("chickwts")

chickwts.feed.unique()

array(['horsebean', 'linseed', 'soybean', 'sunflower', 'meatmeal',
       'casein'], dtype=object)

In [None]:
reg = smf.ols(formula='weight ~ feed', data=chickwts)
results = reg.fit()

print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                 weight   R-squared:                       0.542
Model:                            OLS   Adj. R-squared:                  0.506
Method:                 Least Squares   F-statistic:                     15.36
Date:                Thu, 15 Jul 2021   Prob (F-statistic):           5.94e-10
Time:                        20:51:28   Log-Likelihood:                -381.94
No. Observations:                  71   AIC:                             775.9
Df Residuals:                      65   BIC:                             789.5
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                        coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------
Intercept           323.5833     15.83

Perceba que temos 5 parâmetros estimados, dado que o grupo "Casein" está incluído no intercepto. Com exceção do grupo "sunflower", todos são estatísticamente diferentes do valor do grupo "base", de acordo com o p-valor.

# Regressão Logística

O modelo de regressão logística abrange a situação em que a variável de resposta é uma variável binária. Regressão logística, que é um caso particular de um Modelo Linear Generalizado, surge em diversas áreas, incluindo por exemplo, a análise de dados de pesquisas.

# Modelos de Regressão Logística

Uma variável binária é aquela que pode ter apenas dois valores, *sucesso* ou *falha*, muitas vezes codificado como 1 ou 0. No modelo ANOVA vimos que podemos usar variáveis binárias como preditores em um modelo de regressão linear usando fatores. E se quisermos usar um variável binária como uma variável de resposta?

Esse tipo de problema tipicamente surge quando estamos tentando classificar observações com um modelo. Dadas certas observações clínicas, um paciente tem que probabilidade de ter uma certa doença? Conseguimos inferir se um e-mail é spam ou não a partir de características objetivas do corpo do texto, se precisar de alguém para isso, somente com um modelo? Um cliente de um banco vai pedir um empréstimo ou não?

Suponha que temos duas variáveis $X$ e $Y$, onde $Y$ é a variável de resposta, que assume $0$ ou $1$. Se escrevermos um modelo linear como vimos anteriormente, $Y_i = \beta_0 + \beta X_i + \epsilon_i$, precisamos impor seríssimas restrições no comportamento dos erros nesse modelo, que não podem mais ser normais. É melhor então trocar $Y_i$ pela probabilidade de $Y_i$ ser um sucesso, $\pi_i = P[Y_i = 1]$. Agora podemos escrever $\pi_i = \beta_0 + \beta X_i + \epsilon_i$. No entanto observe que apesar dos erros ficarem mais bem comportados, ainda não como gostaríamos. Enquanto a probabilidade varia entre $0$ e $1$, o lado direito da equação varia muito mais amplamente.

Se condicionarmos a $X_i$, então podemos trocar a probabilidade pelo valor esperado $E[Y_i | X_i] = \pi_i$. A última alteração necessária é como tratamos a regressão binária. Vamos quebrar o procedimento em dois passos. Primeiro, estimaremos $\eta = \beta_0 + \beta X_i + \epsilon_i$, então assumimos que podemos transformar $\eta$ para dar a média condicional de uma função $m$, que chamamos de função de ligação. Quando $m = \frac{e^x}{1+e^x}$, dizemos que o modelo é de regressão logística. Resolvendo, teríamos:

\begin{align}
\pi_i = \frac{e^{\beta_0 + \beta X_i}}{1+e^{\beta_0 + \beta X_i}}
\end{align}

A função logística $m$ transforma qualquer valor real em valores entre 0 e 1, de forma que seus valores possam ser lidos como probabilidades. Quando $m$ é invertida, temos:

\begin{align}
\log{\frac{\pi_i}{1 - \pi_i}} = \beta_0 + \beta X_i
\end{align}

Esse termo em log é chamado *log da razão de chances*. Para clarificar, as chances de uma probabilidade $p$ são $p/1-p$, e entendemos que se um evento tem chances $a$ em $b$ então se tivermos $a+b$ amostras, esperamos que o evento aconteça $a$ vezes.

A implementação de modelos assim é pela função "glm".

Para demonstrar uma aplicação, iremos utilizar o dataset "affairs" do pacote do Wooldridge, que traz os dados de uma pesquisa sobre relações extraconjugais. Assim, a coluna "affair" é uma variável binária, que retorna 1, em caso de relacionamento extraconjugal, e 0, caso contrário. Iremos estimar o efeito na variável dependente dos seguintes indicadores: Idade ("age"), anos de casado ("yrsmarr") e uma variável binária de gênero ("male"), em que 1 é homem, 0 mulher.   

In [None]:
import statsmodels.formula.api as smf
import statsmodels.api as sm

import wooldridge as woo

affairs = woo.data("affairs")

model = smf.glm(formula = 'affair ~ male + age + yrsmarr',
                data=affairs,
                family=sm.families.Binomial())

result = model.fit()
print(result.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:                 affair   No. Observations:                  601
Model:                            GLM   Df Residuals:                      597
Model Family:                Binomial   Df Model:                            3
Link Function:                  logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -328.18
Date:                Thu, 15 Jul 2021   Deviance:                       656.35
Time:                        20:51:28   Pearson chi2:                     597.
No. Iterations:                     4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.8998      0.403     -2.233      0.0

Entretanto, os coeficiente são de difícil interpretação. Por isso, aplicando a exponencial, transformaremos eles na chamada razão de chances. Em que a interpretação para variáveis categóricas é a seguinte:

OR = 1, mesma chance entre os grupos

OR <1, menos chances em comparação ao grupo de referência

OR> 1, maior chance em comparação ao grupo de referência

Para variáveis contínuas, a interpretação dos odds ratios é ligeiramente diferente porque não há grupo de comparação. Nesse caso, a interpretação seria que a probabilidade do resultado aumentar / diminuir por um fator de X, para cada aumento de unidade na variável independente.

In [None]:
import numpy as np
params = result.params
conf = result.conf_int()
conf['Odds Ratio'] = params
conf.columns = ['5%', '95%', 'Odds Ratio']
print(np.exp(conf))

                 5%       95%  Odds Ratio
Intercept  0.184602  0.895865    0.406667
male       0.957823  2.084107    1.412871
age        0.928492  0.993310    0.960354
yrsmarr    1.057333  1.180483    1.117212


Assim, temos que homens tem 41% de chance a mais do que mulheres de estarem em um relacionamento extraconjugal. Para cada ano a mais a probabilidade diminui em cerca de 4%. Já um ano de casado aumento em quase 11% a chance.