In [1]:
import pandas as pd
import numpy as np
import pyreadr
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Modelo de Regressão Linear Simples com Variável Qualitativa

Exmplo da aula do MBA DSA USP/ESALQ com Prof. Fávero e Belfiore

## Contexto

 - CPI: corruption perception index
 - Região
 
 > CPI em função da Região

In [40]:
#Importa base e transforma em objeto
rData = pyreadr.read_r(r'bases\corrupcao.RData')

#Verifica o nomne do objeto
print(rData.keys())

odict_keys(['corrupcao'])


In [41]:
#Transforma o objeto em um pandas DataFrame
corrupcao = rData['corrupcao']
corrupcao.head()

Unnamed: 0,pais,cpi,regiao
0,Argentina,3.9,América do Sul
1,Australia,8.7,Oceania
2,Austria,7.9,Europa
3,Belgium,7.1,Europa
4,Brazil,4.0,América do Sul


In [42]:
corrupcao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   pais    50 non-null     object  
 1   cpi     50 non-null     float64 
 2   regiao  50 non-null     category
dtypes: category(1), float64(1), object(1)
memory usage: 1.2+ KB


In [43]:
corrupcao['regiao'].value_counts()

Europa            24
Ásia              17
América do Sul     5
EUA e Canadá       2
Oceania            2
Name: regiao, dtype: int64

In [44]:
corrupcao.describe()

Unnamed: 0,cpi
count,50.0
mean,4.894
std,2.678974
min,0.8
25%,2.575
50%,3.95
75%,7.475
max,9.3


### Gráfico

In [45]:
regiao = pd.DataFrame(corrupcao.groupby('regiao')['cpi'].mean())
corrupcao.groupby('regiao')['cpi'].mean()

regiao
América do Sul    4.180000
EUA e Canadá      8.000000
Europa            6.258333
Oceania           9.000000
Ásia              2.329412
Name: cpi, dtype: float64

In [46]:
corrupcao = corrupcao.merge(regiao, right_on='regiao', left_on='regiao')
corrupcao.columns = ['pais', 'cpi', 'regiao', 'cpi_mean']
corrupcao.head()

Unnamed: 0,pais,cpi,regiao,cpi_mean
0,Argentina,3.9,América do Sul,4.18
1,Brazil,4.0,América do Sul,4.18
2,Chile,6.2,América do Sul,4.18
3,Colombia,4.0,América do Sul,4.18
4,Venezuela,2.8,América do Sul,4.18


In [48]:
import plotly.express as px

fig = px.scatter(corrupcao, x='regiao', y='cpi', text='pais')
#fig.add_trace(go.Scatter(y='cpi_y', mode='lines'))

fig.show()


### Transformando em Variável Dummy

A categoria de referência terá marcação dummy zerada, ou seja, retirar a coluna da variável de referência.

In [53]:
corrupcao_dum = corrupcao.join(pd.get_dummies(corrupcao['regiao']))
corrupcao_dum.head()

Unnamed: 0,pais,cpi,regiao,cpi_mean,América do Sul,EUA e Canadá,Europa,Oceania,Ásia
0,Argentina,3.9,América do Sul,4.18,1,0,0,0,0
1,Brazil,4.0,América do Sul,4.18,1,0,0,0,0
2,Chile,6.2,América do Sul,4.18,1,0,0,0,0
3,Colombia,4.0,América do Sul,4.18,1,0,0,0,0
4,Venezuela,2.8,América do Sul,4.18,1,0,0,0,0


In [71]:
europa_ref = corrupcao_dum[['cpi', 'América do Sul', 'EUA e Canadá', 'Oceania', 'Ásia']] 
europa_ref.columns = ['cpi', 'América_do_Sul', 'EUA_Canada', 'Oceania', 'Asia']
europa_ref.head(4)

Unnamed: 0,cpi,América_do_Sul,EUA_Canada,Oceania,Asia
0,3.9,1,0,0,0
1,4.0,1,0,0,0
2,6.2,1,0,0,0
3,4.0,1,0,0,0


## Aplicando Modelo OLS

In [72]:
#Estimando o modelo
#https://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLS.html#statsmodels.regression.linear_model.OLS
import statsmodels.api as sm

modelo = sm.OLS.from_formula(formula="cpi~América_do_Sul+ EUA_Canada + Oceania + Asia", data=europa_ref).fit()
modelo.summary()

0,1,2,3
Dep. Variable:,cpi,R-squared:,0.603
Model:,OLS,Adj. R-squared:,0.568
Method:,Least Squares,F-statistic:,17.09
Date:,"Thu, 09 Feb 2023",Prob (F-statistic):,1.37e-08
Time:,22:05:26,Log-Likelihood:,-96.62
No. Observations:,50,AIC:,203.2
Df Residuals:,45,BIC:,212.8
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.2583,0.360,17.406,0.000,5.534,6.983
América_do_Sul,-2.0783,0.866,-2.400,0.021,-3.822,-0.334
EUA_Canada,1.7417,1.296,1.343,0.186,-0.869,4.353
Oceania,2.7417,1.296,2.115,0.040,0.131,5.353
Asia,-3.9289,0.558,-7.036,0.000,-5.054,-2.804

0,1,2,3
Omnibus:,1.205,Durbin-Watson:,1.761
Prob(Omnibus):,0.547,Jarque-Bera (JB):,1.083
Skew:,-0.347,Prob(JB):,0.582
Kurtosis:,2.804,Cond. No.,5.94


**OBS.** <br>
EUA e Canadá foi a única que não foi estatisticamente significante.

Isso significa que não tem diferença média entre CPI do ponto de vista amostral da Europa (alpha) e EUA e Canadá.

Como EUA e Candá só tem apenas duas observações não teve capacidade estatística para ter diferença  no beta em relação a média da Europa. 

In [74]:
corrupcao['cpi_fit'] = modelo.fittedvalues
corrupcao

Unnamed: 0,pais,cpi,regiao,cpi_mean,cpi_fit
0,Argentina,3.9,América do Sul,4.18,4.18
1,Brazil,4.0,América do Sul,4.18,4.18
2,Chile,6.2,América do Sul,4.18,4.18
3,Colombia,4.0,América do Sul,4.18,4.18
4,Venezuela,2.8,América do Sul,4.18,4.18
5,Australia,8.7,Oceania,9.0,9.0
6,New Zealand,9.3,Oceania,9.0,9.0
7,Austria,7.9,Europa,6.258333,6.258333
8,Belgium,7.1,Europa,6.258333,6.258333
9,Cyprus,6.3,Europa,6.258333,6.258333
