<h1><center>Regressão Linear Múltipla</center></h1>

<h2>Introdução</h2>

Esse é um exercício de regressão linear múltipla do curso <a href='https://www.udemy.com/the-data-science-course-complete-data-science-bootcamp/'>The Data Science Course 2019: The Complete Data Science Bootcamp</a>, onde nos é dado um dataset do mercado imobiliário e devemos criar a regressão linear do preço do imóvel utilizando seu tamanho e ano.<br>
Aproveitando este exercício, vou utilizar estes dados para dar continuidade no meu caderno de estudo no curso, que servirá para mim posteriormente como fonte de revisão.

<a name='INDICE'></a>
<h2>Índice</h2>
<ol>
    <li><a href='#REG'>Regressão Linear</a></li>
    <ol>
        <li><a name='#REG_MULT'>Regressão Linear Múltipla</a></li>
    </ol>
    <li><a href='#SUPOSICOES'>Suposições da Regressão Linear</a></li>
    <ol>
        <li><a href='#LINEARIDADE'>Linearidade</a></li>
        <li><a href='#ENDOGENEIDADE'>Sem Endogeneidade</a></li>
        <li><a href='#NORMEHOMOS'>Normalidade e Homoscedasticidade</a></li>
        <li><a href='#AUTOCORR'>Sem Autocorrelação</a></li>
        <li><a href='#MULTICOL'>Sem Multicolinearidade</a></li>
    </ol>
    <li><a href='#EXERCICIO'>Exercício</a></li>
    <ol>
        <li><a href='#BIBLIOTECA'>Importando as bibliotecas</a></li>
        <li><a href='#EXPLORAR'>Explorando os dados</a></li>
        <li><a href='#REGRESSAO'>Criando a regressão</a></li>
    </ol>
    <li><a href='#ANALISANDO'>Analisando o modelo</a></li>
    <ol>
        <li><a href='#RQUADAJUS'>Coeficiente de Determinação Ajustado</a></li>
        <li><a href='#FSTATISTIC'>Estatística F</a></li>
        <li><a href='#FTEST'>Teste F</a></li>
    </ol>
    <li><a href='#CONCLUSAO'>Conclusão</a></li>
</ol>

<a name='REG'></a>
<h2>Regressão Linear</h2>

É a aproximação linear de uma relação causal entre duas ou mais variáveis, se a relação é entre duas variáveis temos uma Regressão Linear Simples (RLS) ou se temos uma relação entre três ou mais variáveis temos uma Regressão Linear Múltipla (RLM), que vamos utilizar neste exemplo. É uma das formas mais comuns de fazer inferências e previsões.

<a name='REG_MULT'></a>
<h3>Regressão Linear Múltipla</h3>

Nem sempre é possível fazermos predições utilizando apenas uma variável, pois quanto mais complexo o contexto mais variáveis independentes são necessárias para explicar a variável dependente. Entretanto a equação da RLM é muito parecida RLS incluindo apenas os coeficientes e suas variáveis, como mostra abaixo:
\begin{align}
\ y = a + b_{0}x_{0} + b_{1}x_{1} + ... +b_{k}x_{k}
\end{align}
<br>
Quando utilizamos uma regressão linear simples tentávamos achar a melhor linha que explique os pontos, porém quando ultrapassamos de 3 dimensões não conseguimos plotar um gráfico ou visualizar, por isso quando utilizamos uma regressão linear múltipla tentamos achar o melhor modelo que encaixe os dados.

<a name='SUPOSICOES'></a>
<h2>Suposições da Regressão Linear</h2>

A regressão linear há cinco suposições que devem ser seguidas:

<a name='LINEARIDADE'></a>
<h3>Linearidade</h3>

Como o nome já diz e no nome da regressão diz, a relação entre a variável dependente e variável independente deve ser linear.

<a name='ENDOGENEIDADE'></a>
<h3>Sem Endogeneidade</h3>

Essa suposição diz que não pode haver correlação entre o erro e a variável independente, e isso geralmente ocorre quando há alguma variável importante que não está considerada no modelo.

<a name='NORMEHOMOS'></a>
<h3>Normalidade e Homocedasticidade</h3>

Nesta suposição que se refere à distribuição temos duas palavras, porém temos três parâmetros, a primeira é que assumimos que o erro é normalmente distribuído, e para grandes amostras podemos utilizar o Teorema Central do Limite para o erro também. A segunda é a média zero, pois se a média não é zero o modelo não é o que melhor se encaixa, porém o coeficiente linear resolve este problema. Já homocedasticidade significa ter uma variância igual para todas as observações, e para previnir a heterocedasticidade é necessário procurar por variáveis omitidas, outliers ou fazer algumas transformações nos dados.

<a name='AUTOCORR'></a>
<h3>Sem Autocorrelação</h3>

O nome dessa suposição é autoexplicativo, não pode haver autocorrelação e para encontrar é necessário plotar os dados, se não encontrar um padrão esta suposição não foi infringida, outro método é o teste Durbin-Watson que é apresentado no <i>summary</i> do StatsModels, se o valor do teste for menor que 1 ou maior que 3 é um sinal de alarme. Infelizmente não há como previnir para este caso e se recomenda não utilizar a regressão linear quando há autocorrelação.

<a name='MULTICOL'></a>
<h3>Sem Multicolinearidade</h3>

Multicolinearidade é encontrada quando duas ou mais variáveis possuem um alto coeficiente de correlação, para evitar quebrar essa suposição se recomenda utilizar apenas uma variável ou transformar as variáveis em apenas uma.

<a href='#INDICE'>Voltar para o índice</a>

<a name='EXERCICIO'></a>
<h2>Exercício</h2>

Após toda essa teoria, chegou a hora de colocarmos em prática. Para resolver esse exercício iremos utilizar a biblioteca StatsModel, então será necessário importar algumas bibliotecas.

<a name='BIBLIOTECA'></a>
<h3>Importando as bibliotecas</h3>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline

In [2]:
df = pd.read_csv('real_estate_price_size_year.csv')
df.head()

Unnamed: 0,price,size,year
0,234314.144,643.09,2015
1,228581.528,656.22,2009
2,281626.336,487.29,2018
3,401255.608,1504.75,2015
4,458674.256,1275.46,2009


Com as bibliotecas importadas e dataset carregado, vamos verificar se há algum dado faltante.

In [3]:
df.isnull().sum()

price    0
size     0
year     0
dtype: int64

Como não há nenhum dado faltante, podemos começar a explorar o nosso dataset.

<a name='EXPLORAR'></a>
<h3>Explorando os dados</h3>

Primeiro vamos utilizar do método <i>describe</i> para vermos a tendência central e a dispersão dos nossos dados.

In [4]:
df.describe()

Unnamed: 0,price,size,year
count,100.0,100.0,100.0
mean,292289.47016,853.0242,2012.6
std,77051.727525,297.941951,4.729021
min,154282.128,479.75,2006.0
25%,234280.148,643.33,2009.0
50%,280590.716,696.405,2015.0
75%,335723.696,1029.3225,2018.0
max,500681.128,1842.51,2018.0


<a name='REGRESSAO'></a>
<h3>Criando a Regressão</h3>

Antes de criarmos a regressão precisamos separar qual é a nossa variável dependente e variáveis independentes.

In [5]:
x = df[['size', 'year']]    #Variável Independente
y = df['price']             #Variável Dependente

Pronto, variáveis declaradas, porém o <i>StatsModels</i> necessita que adicionamos um constante para o X.

In [6]:
X = sm.add_constant(x)

Agora estamos pronto para criar a regressão.

In [7]:
results = sm.OLS(y,x).fit()
results.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.984
Model:,OLS,Adj. R-squared:,0.983
Method:,Least Squares,F-statistic:,2946.0
Date:,"Mon, 20 May 2019",Prob (F-statistic):,2.99e-88
Time:,13:23:37,Log-Likelihood:,-1198.1
No. Observations:,100,AIC:,2400.0
Df Residuals:,98,BIC:,2405.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
size,222.9545,13.161,16.940,0.000,196.836,249.073
year,50.7478,5.906,8.593,0.000,39.028,62.467

0,1,2,3
Omnibus:,6.367,Durbin-Watson:,2.268
Prob(Omnibus):,0.041,Jarque-Bera (JB):,2.966
Skew:,0.118,Prob(JB):,0.227
Kurtosis:,2.19,Cond. No.,8.03


<a href='#INDICE'>Voltar para o índice</a>

<a name='ANALISANDO'></a>
<h2>Analisando o modelo</h2>

Para a análise da regressão linear múltipla temos mais alguns parâmetros que devemos levar em conta.

<a name='RQUADAJUS'></a>
<h3>Coeficiente de Determinação Ajustado R²(aj)</h3>

O Coeficiente de Determinação Ajustado ou R Quadrado Ajustado, é normalmente menor que o R Quadrado, pois penaliza o uso excessivo de variáveis ou uso de variáveis que contribuem para explicar a variável dependente.

<a name='FSTATISTIC'></a>
<h3>Estatística F</h3>

É utilizado para testar a significância geral do modelo, ou seja, quanto menor o valor mais perto de ser um modelo não significante.

<a name='FTEST'></a>
<h3>Teste F</h3>

O Teste F, no sumário do <i>StatsModels</i> está como <i>Prob(F-statistic)</i>, é um teste de hipótese, onde a hipótese nula é que todos os coeficientes <i>b</i> são iguais a zero e a hipótese alternativa é que ao menos um coeficiente é diferente de zero.

<a href='#INDICE'>Voltar para o índice</a>

<a name='CONCLUSAO'></a>
<h2>Conclusão</h2>

Após aprendermos com os novos parâmetros de comparação entre modelos, podemos entender que ao incluir a feature <i>year</i>, a nossa regressão melhorou sua explicabilidade, pois o seu coeficiente de determinação aumentou junto com o coeficiente de determinação ajustado, constatando que a variável dependente depende da variável <i>year</i>. Outro ponto é a <i>Estatística F</i> que aumentou e a <i>Prob (F-statistic)</i> que diminui, comprovando que o nosso modelo é significante.

<a href='#INDICE'>Voltar para o índice</a>