# Projeto 3 - Regressão Linear Múltipla 

### Gabriel Noal & William Palmieri

<p> Regressão Múltipla é uma técnica estatística utilizada na construção de modelos que descrevem as relações que algumas variáveis têm com outra. </p>
<p> A análise é feita através da relação apresentada por uma variável principal, denominada "Dependente", e as variáveis "Explicativas". </p>

In [2]:
%matplotlib inline

import os
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm
import pandas as pd
import numpy as np
import math

import statsmodels.api as sm1 #Usa OLS com X como matriz de planejamento
import statsmodels.formula.api as sm  #Usa OLS como no R

<p> Nossa análise será em torno do Índice de Percepcção de Corrupção (IPC).  </p>
<p> A seguir, temos a tabela retirada do site: https://www.gapminder.org/data/. </p>

#### Dados do IPC

In [3]:
notas1 = pd.read_excel("indicator ti cpi 2009.xlsx",index_col = 0)
notas1.head()

Unnamed: 0_level_0,CPI
Países,Unnamed: 1_level_1
New Zealand,9.3
Denmark,9.3
Sweden,9.2
Singapore,9.3
Switzerland,8.7


<p> Levaremos em conta em nossa análise como variáveis explicativas os parâmetros "IDH" e "Mortalidade Infantil". Ambos retirados do site: https://www.gapminder.org/data/. </p>

#### Dados do IDH

In [4]:
notas2 = pd.read_excel("Indicator_HDI.xlsx",index_col = 0)

notas2.head()

Unnamed: 0_level_0,IDH
Países,Unnamed: 1_level_1
Abkhazia,
Afghanistan,0.387
Akrotiri and Dhekelia,
Albania,0.734
Algeria,0.691


#### Dados da Mortalidade Infantil

In [5]:
notas3 = pd.read_excel("indicator gapminder infant_mortality.xlsx",index_col = 0)
notas3.head()

Unnamed: 0_level_0,Mortalidade_Infantil
País,Unnamed: 1_level_1
Abkhazia,
Afghanistan,76.8
Akrotiri and Dhekelia,
Albania,15.4
Algeria,24.3


#### Tabela com todos os dados

In [90]:
#Juntando os dados
dados = notas1.join(notas2,how ="outer")
dados = dados.join(notas3,how="outer")


#Retirando os "NaNs"
dados=dados[~np.isnan(dados.CPI)]
dados=dados[~np.isnan(dados.IDH)]
dados=dados[~np.isnan(dados.Mortalidade_Infantil)]

dados["LCPI"] = np.log(dados["CPI"])                        #adicionando uma coluna com valores do log da variável
dados["LIDH"] = np.log(dados["IDH"])                        #adicionando uma coluna com valores do log da variável
dados["LMI"] = np.log(dados["Mortalidade_Infantil"])        #adicionando uma coluna com valores do log da variável


dados.head()

Unnamed: 0,CPI,IDH,Mortalidade_Infantil,LCPI,LIDH,LMI
Afghanistan,1.4,0.387,76.8,0.336472,-0.949331,4.341205
Albania,3.3,0.734,15.4,1.193922,-0.309246,2.734368
Algeria,2.9,0.691,24.3,1.064711,-0.369615,3.190476
Angola,1.9,0.481,112.2,0.641854,-0.731888,4.720283
Argentina,2.9,0.788,13.4,1.064711,-0.238257,2.595255


Iremos então gerar os gráficos das variáveis explicativas em relação à variável dependente. 

In [89]:
f, ax = plt.subplots(1,2,figsize=(16,4))
ax[0].scatter(dados.LIDH, dados.LCPI, alpha=0.6, color = "green")  # Plot the raw data
ax[0].set_xlabel("IDH")
ax[0].set_ylabel("Índice de Percepcção de Corrupção")


ax[1].scatter(dados.LMI, dados.LCPI, alpha=0.6, color = "red")  # Plot the raw data
ax[1].set_xlabel("Mortalidade Infantil")
ax[1].set_ylabel("Índice de Percepcção de Corrupção")


<IPython.core.display.Javascript object>

<matplotlib.text.Text at 0x1956ada5898>

Agora, iremos calcular a correlação entre as variáveis:

In [15]:
dados.corr(method='pearson')

Unnamed: 0,CPI,IDH,Mortalidade_Infantil
CPI,1.0,0.727452,-0.603364
IDH,0.727452,1.0,-0.904021
Mortalidade_Infantil,-0.603364,-0.904021,1.0


Lembrando que, quanto mais próximo é a correlação de 1 (ou -1), mais forte é a associação que podemos estabelecer entre duas variáveis, seja ela diretamente proporcional(próximo de 1) ou inversamente proporsional (próximo de -1). Assim,  vemos que há um bom índice de correlação entre CPI e IDH e um índice razoável, e inversamente proporcinal, entre CPI e Mortalidade.

Agora, iremos gerar o gráfico tridimensional que mostra a relação entre as três variáveis ao mesmo tempo:

In [75]:
%matplotlib notebook

In [85]:
from mpl_toolkits.mplot3d import Axes3D

X = dados[["LMI", "LIDH"]]
y = dados["LCPI"]

X = sm1.add_constant(X)
est = sm1.OLS(y, X).fit()

xx1, xx2 = np.meshgrid(np.linspace(X.LMI.min(), X.LMI.max(), 100), 
                       np.linspace(X.LIDH.min(), X.LIDH.max(), 100))

Z = est.params[0] + est.params[1] * xx1 + est.params[2] * xx2

fig = plt.figure(figsize=(12, 8))
ax = Axes3D(fig, azim=-115, elev=15)

surf = ax.plot_surface(xx1, xx2, Z, cmap=plt.cm.RdBu_r, alpha=0.4, linewidth=0.5)


resid = y - est.predict(X)
ax.scatter(X[resid >= 0].LMI, X[resid >= 0].LIDH, y[resid >= 0], color="red", alpha=1)
ax.scatter(X[resid < 0].LMI, X[resid < 0].LIDH, y[resid < 0], color='blue', alpha=1.0)

ax.set_xlabel("ln (MI)")
ax.set_ylabel("ln (IDH)")
ax.set_zlabel("ln (CPI)")

<IPython.core.display.Javascript object>

<matplotlib.text.Text at 0x1956b8f3208>

Após ter gerado o gráfico, iremos, por meio de teste de hipóteses, provar que os valores são influentes em nossa análise.

A seguir, as hipóteses que valerão para ambas as variáveis:

Ho --> b1 = 0 

e 

Ha --> b1 != 0

temos, então, o seguinte teste para ambas as variáveis:

In [86]:
prev_CPI_IDH = pd.ols(y=dados.CPI, x=dados.LIDH)
prev_CPI_MortalidadeInfantil = pd.ols(y=dados.CPI, x=dados.LMI)

In [87]:
IDH = sm.OLS(dados.CPI,dados.IDH).fit()

In [88]:
model=sm1.OLS(y, X)
fit=model.fit()
fit.summary()

0,1,2,3
Dep. Variable:,LCPI,R-squared:,0.61
Model:,OLS,Adj. R-squared:,0.605
Method:,Least Squares,F-statistic:,125.2
Date:,"Tue, 06 Dec 2016",Prob (F-statistic):,1.9e-33
Time:,19:20:39,Log-Likelihood:,-34.567
No. Observations:,163,AIC:,75.13
Df Residuals:,160,BIC:,84.42
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5
,coef,std err,t,P>|t|,[95.0% Conf. Int.]
const,2.2699,0.079,28.744,0.000,2.114 2.426
LMI,-0.3560,0.048,-7.487,0.000,-0.450 -0.262
LIDH,-0.0510,0.169,-0.302,0.763,-0.384 0.282

0,1,2,3
Omnibus:,0.843,Durbin-Watson:,2.119
Prob(Omnibus):,0.656,Jarque-Bera (JB):,0.909
Skew:,-0.167,Prob(JB):,0.635
Kurtosis:,2.851,Cond. No.,24.9


  A segunda tabela mostra que, pelo valor-p, a hipótese nula é rejeitada. 
  Isso significa que a variável dependente sofre influência da variável explicativa.

Para verificarmos a adequação das suposições do modelo e a qualidade do ajuste, iremos utilizar o método "R-Squared".
Quanto mais próximo de 1, melhor a aproximaçaõ. 
Como o obtido foi 0.601, temos que a validação é qualifacada como "mediana". 

Como a transformação feita é log-log, teremos que, para cada 1% que cresce no CPI, há um decrescimo de 0.356 de Mortalidade Infantil e decrescimo de 0.051 no IDH. 