<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Regressão-Linear-Múltipla" data-toc-modified-id="Regressão-Linear-Múltipla-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Regressão Linear Múltipla</a></span><ul class="toc-item"><li><span><a href="#Simulando-Dados" data-toc-modified-id="Simulando-Dados-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Simulando Dados</a></span><ul class="toc-item"><li><span><a href="#Duas-variáveis-continuas" data-toc-modified-id="Duas-variáveis-continuas-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>Duas variáveis continuas</a></span></li><li><span><a href="#Simulando-Variáveis-Categóricas" data-toc-modified-id="Simulando-Variáveis-Categóricas-1.1.2"><span class="toc-item-num">1.1.2&nbsp;&nbsp;</span>Simulando Variáveis Categóricas</a></span><ul class="toc-item"><li><span><a href="#Convertendo-variáveis-categóricas-em-variáveis-dummy" data-toc-modified-id="Convertendo-variáveis-categóricas-em-variáveis-dummy-1.1.2.1"><span class="toc-item-num">1.1.2.1&nbsp;&nbsp;</span>Convertendo variáveis categóricas em variáveis dummy</a></span></li></ul></li></ul></li><li><span><a href="#Dados-Reais" data-toc-modified-id="Dados-Reais-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Dados Reais</a></span></li><li><span><a href="#Exploração-de-Dados" data-toc-modified-id="Exploração-de-Dados-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Exploração de Dados</a></span></li><li><span><a href="#Criando-nossa-regressão" data-toc-modified-id="Criando-nossa-regressão-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Criando nossa regressão</a></span></li></ul></li></ul></div>

In [None]:
import random
import numpy as np
import seaborn as sns
import pandas as pd
from matplotlib import pyplot as plt

from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
import statsmodels.api as sm

# Regressão Linear Múltipla

## Simulando Dados

Começaremos vendo como a entrada de múltiplas variáveis em uma regressão linear funciona a partir de conjuntos de dados sintéticos.

### Duas variáveis continuas

In [None]:
def simular_dado_mv(parametros_x1, parametros_x2, desvpad_E, samples):
    x1 = np.random.normal(loc=parametros_x1[0],
                          scale=parametros_x1[1],
                          size=samples)
    x2 = np.random.normal(loc=parametros_x2[0],
                          scale=parametros_x2[1],
                          size=samples)
    E = np.random.normal(loc=0, scale=desvpad_E, size=samples)
    y = parametros_x1[2] * x1 + parametros_x2[2] * x2 + E
    return pd.DataFrame({'x1': x1, 'x2': x2, 'y': y})

In [None]:
simular_dado_mv((2, 5, 10), (10, 8, 5), 12, 100)

Podemos criar um DataFrame com nossos dados simulados para utilizarmos nossas ferramentas de EDA buscando visualizar a relação entre X1, X2 e Y

In [None]:
teste_mv = simular_dado_mv((0, 1, 10), (0, 1, 5), 2, 100)
sns.pairplot(teste_mv)

Agora, vamos utilizar nossa regressão para estimar os coeficientes associados à X1 e X2

In [None]:
X = sm.add_constant(teste_mv[['x1', 'x2']])
Y = teste_mv['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

Podemos utilizar a biblioteca `sklearn` para conseguir a interface preditiva desta biblioteca:

In [None]:
modelo = LinearRegression()
X = teste_mv[['x1', 'x2']]
Y = teste_mv['y']
modelo.fit(X, Y)
print(modelo.coef_)
print(modelo.intercept_)

In [None]:
teste_mv['pred'] = modelo.predict(teste_mv[['x1', 'x2']])

Agora, vamos comparar as relações de nossa variável resposta e variável prevista contra X1 e X2:

In [None]:
sns.pairplot(teste_mv)

### Simulando Variáveis Categóricas

Muitas variáveis que encontramos são **categóricas**, ou seja, não são numéricas. Vamos simular uma variável categórica com impacto linear sobre nossa variável Y:

In [None]:
def simular_dado_mv_cat(parametros_x1, categorias_dict, desvpad_E, samples):
    x1 = np.random.normal(loc=parametros_x1[0],
                          scale=parametros_x1[1],
                          size=samples)
    cat = random.choices(list(categorias_dict.keys()), k = samples)
    eff_cat = list(map(lambda x: categorias_dict[x], cat))
    E = np.random.normal(loc=0, scale=desvpad_E, size=samples)
    y = parametros_x1[2] * x1 + eff_cat + E
    return pd.DataFrame({'x1': x1, 'categoria': cat, 'y': y})

In [None]:
teste_mv_cat = simular_dado_mv_cat((0, 1, 5), {'A' : 1, 'B' : 5, 'C' : 10}, 1, 100)

Podemos utilizar um BoxPlot para visualizar a relação entre nossa variável categórica e nossa variável resposta:

In [None]:
sns.boxplot(data = teste_mv_cat, x = 'categoria', y = 'y');

ou então alterar a cor dos pontos em um scatterplot, visualizando múltiplas relações ao mesmo tempo:

In [None]:
sns.scatterplot(data = teste_mv_cat, x = 'x1', y = 'y', hue = 'categoria');

#### Convertendo variáveis categóricas em variáveis dummy

Para utilizarmos variáveis categóricas em um modelo, precisamos transforma-las em variáveis **numéricas**. A forma mais simples de fazê-lo é através de **variáveis dummies**: vamos criar **uma variável binaria nova para cada nível de nossa variável categórica**. Em cada variável, esta terá valor 1 quando a observação for daquela categoria e 0 caso não.

Podemos utilizar a função `get_dummies()` para construir as variáveis dummies associadas à uma variável categórica.

In [None]:
pd.get_dummies(teste_mv_cat['categoria'])

In [None]:
teste_mv_cat.join(pd.get_dummies(teste_mv_cat['categoria']))

In [None]:
teste_mv_cat = teste_mv_cat.join(pd.get_dummies(teste_mv_cat['categoria']))

In [None]:
X = sm.add_constant(teste_mv_cat[['x1', 'A' , 'B', 'C']])
Y = teste_mv_cat['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

A nota 2 do resultado da StatsModels nos diz que temos um problema: nossos dados tem colinearidades! As variáveis dummy **A**, **B** e **C** não são **independentes** - tendo 2 podemos calcular a última.

Neste caso, o problema pode ser resolvido removendo um dos níveis da variável categórica:

In [None]:
X = sm.add_constant(teste_mv_cat[['x1', 'B', 'C']])
Y = teste_mv_cat['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

Como podemos interpretar o modelo acima a luz da exclusão da variável dummy de A?

## Dados Reais

Vamos utilizar um conjunto de dados com valores de seguro cobrado por operadoras americanas. O objetivo deste dataset é ser uma introdução à regressão múltipla.


In [None]:
tb_insu = pd.read_csv('data/tb_insurance.csv')

In [None]:
tb_insu.info()

## Exploração de Dados

In [None]:
sns.pairplot(tb_insu.select_dtypes(include = 'number'))

In [None]:
fig, ax = plt.subplots(1,3, figsize = (12,4))
sns.boxplot(data = tb_insu, x = 'sex', y = 'expenses', ax=ax[0])
sns.boxplot(data = tb_insu, x = 'smoker', y = 'expenses', ax=ax[1])
sns.boxplot(data = tb_insu, x = 'region', y = 'expenses', ax=ax[2])

In [None]:
sns.scatterplot(data = tb_insu, x = 'bmi', y = 'expenses', color = 'smoker')

In [None]:
sns.scatterplot(data = tb_insu[tb_insu['smoker']=='yes'], x = 'bmi', y = 'expenses')

In [None]:
sns.scatterplot(data = tb_insu[tb_insu['smoker']=='no'], x = 'bmi', y = 'expenses')

In [None]:
min(tb_insu[(tb_insu['smoker']=='yes') & (tb_insu['expenses']>45000)]['bmi'])

In [None]:
tb_insu['obese'] = np.where(tb_insu['bmi'] >= 30, 'yes', 'no')

In [None]:
tb_insu['children']

In [None]:
tb_insu = tb_insu.join(pd.get_dummies(tb_insu['obese'], prefix = 'obese'))
tb_insu = tb_insu.join(pd.get_dummies(tb_insu['smoker'], prefix = 'smoker'))

In [None]:
tb_insu

In [None]:
tb_insu['obese_smoker'] = tb_insu['obese_yes'] * tb_insu['smoker_yes']

In [None]:
sm.add_constant(tb_insu[['obese_smoker', 'age', 'smoker_yes']])

## Criando nossa regressão

Vamos utilizar as variáveis que criamos em nosso dataset para construir uma regressão linear para os valores dos seguros.

In [None]:
X = sm.add_constant(tb_insu[['obese_smoker', 'age', 'smoker_yes']])
Y = tb_insu['expenses']
modelo = sm.OLS(Y, X)

lm_fit = modelo.fit()
lm_fit.summary()

Vamos inserir as previsões do nosso modelo em nossa base de dados para visualizarmos as relações capturadas pela nossa regressão:

In [None]:
tb_insu['lm_pred'] = lm_fit.predict()
sns.pairplot(tb_insu[['expenses', 'lm_pred', 'age', 'bmi']])

In [None]:
sns.lineplot(data = tb_insu, x = 'age', y='lm_pred', hue = 'smoker', style = 'obese')
sns.scatterplot(data = tb_insu, x = 'age', y='expenses', hue = 'smoker', style = 'obese')

In [None]:
sns.scatterplot(data = tb_insu, x = 'bmi', y='expenses', hue = 'smoker', style = 'obese')

In [None]:
sns.scatterplot(data = tb_insu, x = 'bmi', y='lm_pred', hue = 'smoker', style = 'obese')