# Regress√£o linear em Python üêç

## Obtendo os dados

Para exemplificar o ajuste de regress√µes lineares ser√° usado o conjunto de dados `diamonds` dispon√≠vel na biblioteca *Seaborn*. O conjunto de dados mostra dados de `53.940` diamantes com 10 vari√°veis:

* **price** - pre√ßo em d√≥lares americanos (`$326` a `$18.823`).
* **carat** - peso do diamante em quilates (`0,2` a `5.01`).
* **cut** - qualidade do corte (`Fair`, `Good`, `Very Good`, `Premium`, `Ideal`).
* **color** - cor do diamante de `D` (melhor) para `J` (pior).
* **clarity** - uma medida da clareza do diamante (`I1` (pior), `SI2`, `SI1`, `VS2`, `VS1`, `VVS2`, `VVS1`, `IF` (melhor)).
* **x** - comprimento em mil√≠metros (`0` a `10.74`).
* **y** - largura em mil√≠metros  mm (`0` a `58.9`).
* **z** - profundidade em mil√≠metros (`0` a `31.8`).
* **depth** - percentagem total da profundidade = z / mean(x, y) = 2 * z / (x + y) (`43` a `79`).
* **table** - largura do topo do diamante relativo ao ponto mais largo (`43` a `95`).



In [None]:
import seaborn as sns

dds = sns.load_dataset('diamonds')
dds['cut']     = dds['cut'].astype('category')
dds['color']   = dds['color'].astype('category')
dds['clarity'] = dds['clarity'].astype('category')
dds.head()

Como o pre√ßo dos diamantes possui uma escala muito grande ser√° utilizado o logaritmo deste valor. Tamb√©m como a base de dados √© muito grande ser√° selecionado apenas 1000 observa√ß√µes ao acaso.

In [None]:
import numpy as np

dds['logprice'] = np.log(dds['price'])
dds = dds.sample(n= 1000, replace= False)

### Regress√£o linear com uma √∫nica vari√°vel explicativa

In [None]:
import statsmodels.api as sm
Y = dds['logprice']
X = dds['carat']
X.head()

### Adicionando uma coluna para a constante

Para ajustar o modelo com **intercepto** √© necess√°rio adicionar uma coluna constante com o m√©todo `add_constant()` da biblioteca *Statsmodels*:

In [None]:
X = sm.add_constant(X)
X.head()

### Ajustando o modelo

Uma vez constru√≠do o vetor das respostas (`Y`) e a matriz de covari√°veis (`X`) √© poss√≠vel ajustar o modelo por *m√≠nimos quadrados ordin√°rios*:

In [None]:
model = sm.OLS(Y, X, missing='drop')
model_result = model.fit()
model_result.summary()

### Diagn√≥sticos da regress√£o

Da mesma forma que o *R* a biblioteca *Statsmodels* exp√µe os res√≠duos do modelo. Uma suposi√ß√£o fundamental do modelo de regress√£o √© que os res√≠duos (ou ‚Äúerros‚Äù) s√£o aleat√≥rios: os erros seguem uma distribui√ß√£o Normal com m√©dia ZERO.

#### Histograma dos res√≠duos

Desenhar um histograma para os res√≠duos com a biblioteca *Seaborn* √© trivial: simplesmente forne√ßa os res√≠duos para o m√©todo `histplot()`:

In [None]:
import seaborn as sns
sns.histplot(model_result.resid);

Uma forma mais √∫til para verificar a normalidade √© comparar o n√∫cleo (*kernel*) da densidade com a curva correspondente √† distribui√ß√£o Normal. Para fazer isso, gena-se uma curva Normal com a mesma m√©dia e desvio-padr√£o dos res√≠duos.

No *Python* √© f√°cil obter os par√¢metros necess√°rios: o m√©todo `fit()` retorna a m√©dia e o desvio-padr√£o da distribui√ß√£o Normal que melhor se ajusta.

In [None]:
from scipy import stats
mu, std = stats.norm.fit(model_result.resid)
mu, std

Agora √© poss√≠vel desenhar os res√≠duos com a curva Normal sobreposta:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots()
# plot the residuals
sns.histplot(x=model_result.resid, ax=ax, stat="density", linewidth=0, kde=True)
ax.set(title="Distribution of residuals", xlabel="residual")

# plot corresponding normal curve
xmin, xmax = plt.xlim() # the maximum x values from the histogram above
x = np.linspace(xmin, xmax, 100) # generate some x values
p = stats.norm.pdf(x, mu, std) # calculate the y values for the normal curve
sns.lineplot(x=x, y=p, color="orange", ax=ax)
plt.show()

### *Boxplot* dos res√≠duos

Um *boxplot* permite verificar a simetria da distribui√ß√£o.

In [None]:
sns.boxplot(x=model_result.resid, showmeans=True);

### *Q-Q plot*

Um *Q-Q plot* √© um gr√°fico especializado para mostrar a ader√™ncia do modelo com a alguma distribui√ß√£o. Por padr√£o a compara√ß√£o √© feita com a distribui√ß√£o Normal. A biblioteca *Seaborn* define o m√©todo `qqplot()` para tal fim.

In [None]:
sm.qqplot(model_result.resid, line='s');

### Gr√°fico de ajuste

Um **gr√°fico de ajuste** mostra os valores preditos pelo modelo e os valores observados para a vari√°vel resposta.

In [None]:
sm.graphics.plot_fit(model_result,1, vlines=False);

Em particular, o modelo est√° muito mal ajustado. O esperado eram os pontos azuis "em torno" dos pontos vermelhos. Observa-se que os pontos se espalham na base do gr√°fico.

### Uma segunda op√ß√£o de gr√°fico de ajuste.

In [None]:
model_result.fittedvalues

In [None]:
Y_max = Y.max()
Y_min = Y.min()

ax = sns.scatterplot(x=model_result.fittedvalues, y=Y)
ax.set(ylim=(Y_min, Y_max))
ax.set(xlim=(Y_min, Y_max))
ax.set_xlabel("Valores preditos para o log-pre√ßo por quilate.")
ax.set_ylabel("Valores observados para o log-pre√ßo por quilate.")

X_ref = Y_ref = np.linspace(Y_min, Y_max, 100)
plt.plot(X_ref, Y_ref, color='red', linewidth=1)
plt.show()

## Regress√µes lineares m√∫ltipla

Para ajustar o modelo √© poss√≠vel definir dois *data frames* distintos:

1. `Y` para armazenar a vari√°vel resposta (uma √∫nica coluna "price").
2. `X` para armazenar as vari√°veis explicativas.

Uma constante √© adicionada com o m√©todo `add_constant()` da biblioteca *Statsmodels* como na regress√£o linear simples.

In [None]:
Y = dds['logprice']
X = dds[['carat', 'x', 'y', 'z', 'depth', 'table']]
X = sm.add_constant(X)

### Modelo inicial

Um primeiro modelo com todas as vari√°veis num√©ricas pode ser ajustado para uma an√°lise inicial.

In [None]:
model = sm.OLS(Y, X)
model_res = model.fit()
model_res.summary()

### Vari√°veis explicativas categoricas

No *Python* √© poss√≠vel usar tanto a codifica√ß√£o manual (criar uma matriz de vari√°veis *dummy*) ou a codifica√ß√£o autom√°tica (deixar o algoritmo se adaptar aos dados). Em um primeiro passo, observe a codifica√ß√£o manual.

### Criando uma matriz de vari√°veis *dummy*s

A biblioteca *pandas* possui o m√©todo `get_dummies()` para codificar vari√°veis categorizadas do *data frame*.

In [None]:
import pandas as pd

cut_d = pd.get_dummies(dds['cut'], dtype=float)
cut_d.head()

In [None]:
color_d = pd.get_dummies(dds['color'], dtype=float)
color_d.head()

In [None]:
clarity_d = pd.get_dummies(dds['clarity'], dtype=float)
clarity_d.head()

S√£o criadas vari√°veis *dummy* para cada uma das poss√≠veis respostas das vari√°veis categ√≥ricas. Para evitar multicolinearidade √© interessante remover uma das resposta (que √© fun√ß√£o das demais).

In [None]:
cut_d.drop(columns= 'Fair', inplace= True)
color_d.drop(columns= 'J', inplace= True)
clarity_d.drop(columns= 'I1', inplace= True)

### Adicionando as colunas *dummy* na matriz X

In [None]:
fullX = pd.concat([X,
                   cut_d['Ideal'], cut_d['Premium'],
                   cut_d['Very Good'], cut_d['Good'],
                   color_d['D'], color_d['E'], color_d['F'],
                   color_d['G'], color_d['H'], color_d['I'],
                   clarity_d['IF'], clarity_d['VVS1'],
                   clarity_d['VVS2'], clarity_d['VS1'],
                   clarity_d['VS2'], clarity_d['SI1'], clarity_d['SI2']],
                  axis= 1)
fullX.head()

### Executando a regress√£o completa

In [None]:
full_model = sm.OLS(Y, fullX)
full_model_res = full_model.fit()
full_model_res.summary()

### Usando f√≥rmulas no estilo do *R*

Ao inv√©s de criar o modelo com as vari√°veis *dummies* √© poss√≠vel executar o modelo com uma sintaxe similar ao usado no *R*:

In [None]:
import statsmodels.formula.api as smf
model =  smf.ols(
    'logprice ~ carat + cut + color + clarity + x + y + z + depth + table + 1',
    data= dds)
model_res = model.fit()
model_res.summary()

### Verificando a colinearidade

#### Matriz de diagramas de pontos

A biblioteca *Seaborn* disponibiliza o m√©todo `pairplot()` para plotar matrizes de diagrams de pontos.

In [None]:
import seaborn as sns
X = dds[['carat', 'x', 'y', 'z', 'depth', 'table']]
sns.pairplot(X);

#### Restringindo as vari√°veis na matriz de diagramas de pontos

Em um conjunto de dados com muitas colunas, a matriz de diagramas de pontos pode se tornar ileg√≠vel. Portanto, √© poss√≠vel escolher apenas algumas das colunas para exibir no gr√°fico.


In [None]:
sns.pairplot(X[['x', 'y', 'z', 'table']]);

### Matriz de correla√ß√£o

As matrizes de correla√ß√£o podem ser √∫teis em diversos modelos (multivariados). Tal matriz podem ser calculadas de forma muito simples.

In [None]:
round(dds.corr(numeric_only= True), 2)

In [None]:
sns.heatmap(dds.corr(numeric_only= True), cmap='crest');

### Diagn√≥stico de regress√£o

√â poss√≠vel desenhar gr√°ficos de qualidade de ajuste.

In [None]:
from scipy import stats
sns.displot(model.fit().resid, kde= True);

In [None]:
sns.boxplot(list(model.fit().resid), showmeans=True);

In [None]:
sm.qqplot(model.fit().resid, line='s');

In [None]:
import matplotlib.pyplot as plt
import numpy as np

yy = model.fit().fittedvalues
temp = pd.concat([Y, yy.rename('fitted')], axis =1)

Y_max = Y.max()
Y_min = Y.min()

ax = sns.scatterplot(x = temp['fitted'], y = temp['logprice'])
ax.set(ylim=(Y_min, Y_max))
ax.set(xlim=(Y_min, Y_max))
ax.set_xlabel("Predicted value log price")
ax.set_ylabel("Observed value log price")

X_ref = Y_ref = np.linspace(Y_min, Y_max, 100)
plt.plot(X_ref, Y_ref, color='red', linewidth=1)
plt.show()