# Regressão Linear Múltipla


A regressão linear múltipla, diferente da regressão linear simples, utiliza mais de uma variável independente (atributo) para fazer a modelagem.

In [1]:
# Importando a biblioteca pandas para criar um DataFrame
import pandas as pd

In [2]:
# Criando um DataFrame para utilizar na modelagem de regressão múltipla
df = pd.DataFrame({
    'qtd_cerveja': [3,2,0],
    'qtd_agua': [0,0,1],
    'qtd_hamburguer': [0,1,1],
    'valor_total': [30,40,25]
})

In [3]:
df

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer,valor_total
0,3,0,0,30
1,2,0,1,40
2,0,1,1,25


In [4]:
# Importando o método LinearRegression da biblioteca sklearn
from sklearn.linear_model import LinearRegression

In [5]:
# Encapsulando o método LinearRegression na variável "modelo"
modelo = LinearRegression()
modelo

In [6]:
# Separando apenas as variável independentes (atributos) para treinar o modelo
atributos = df.drop('valor_total', axis=1)
atributos

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,3,0,0
1,2,0,1
2,0,1,1


In [7]:
# Separando apenas a variável independente (rótulo)
rotulo = df['valor_total'].to_frame()
rotulo

Unnamed: 0,valor_total
0,30
1,40
2,25


In [8]:
# Treinando o modelo passando os atributos e os rótulos
modelo.fit(atributos, rotulo)

In [9]:
# Criando outro DataFrame com novos dados de entrada
novos_dados = pd.DataFrame({
    'qtd_cerveja': [1,0,0],
    'qtd_agua': [0,1,0],
    'qtd_hamburguer': [0,0,1]
})

In [10]:
novos_dados

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,1,0,0
1,0,1,0
2,0,0,1


In [11]:
# Fazendo a predição com os novos_dados
modelo.predict(novos_dados)

array([[23.33333333],
       [11.66666667],
       [33.33333333]])

In [12]:
# Verificando os preços unitários que o modelo encontrou
modelo.coef_

array([[ 3.33333333, -8.33333333, 13.33333333]])

In [13]:
print(f'Preço da cerveja conforme modelo: {modelo.coef_[0,0]}')
print(f'Preço da água conforme modelo: {modelo.coef_[0,1]}')
print(f'Preço do hambúguer conforme modelo: {modelo.coef_[0,2]}')

Preço da cerveja conforme modelo: 3.3333333333333326
Preço da água conforme modelo: -8.333333333333337
Preço do hambúguer conforme modelo: 13.333333333333332


In [14]:
# .intercept_ verificamos onde a reta intercepta o eixo y
modelo.intercept_

array([20.])

Verificando os valores acima, o modelo "adicionou" um valor fixo de 20 reais, para cada item.

Vamos verificar a fórmula abaixo para entender melhor:

```
y = a0x0 + a1x1 + a2x2 + b

total = valor_cerveja*qtd_cerveja + valor_agua*qtd_agua + valor_hambuguer*qts_hamburguer + entrada

coeficiente(a) = [valor_cerveja, valor_agua, valor_hamburguer]
constante(b) = entrada
```

No caso, ele entendeu que o coeficiente "b" é 20.








In [15]:
# Vamos verificar os valores fazendo passo a passo de forma manual
atributos

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,3,0,0
1,2,0,1
2,0,1,1


In [16]:
modelo.coef_

array([[ 3.33333333, -8.33333333, 13.33333333]])

In [17]:
# Multiplicando o preço unitário de cada item achado pelo modelo x a quantidade consumida
df_modelo = atributos*modelo.coef_
df_modelo

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,10.0,-0.0,0.0
1,6.666667,-0.0,13.333333
2,0.0,-8.333333,13.333333


In [18]:
# Adicionando uma coluna com o valor fixo de entrada encontrada pelo modelo (20 reais)
df_modelo['taxa_entrada'] = 20
df_modelo

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer,taxa_entrada
0,10.0,-0.0,0.0,20
1,6.666667,-0.0,13.333333,20
2,0.0,-8.333333,13.333333,20


In [19]:
# Somando as linhas na horizontal
df_modelo.sum(axis=1)

0    30.0
1    40.0
2    25.0
dtype: float64

In [20]:
# Verificando acima, vimos que o modelo acertou os valores
df

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer,valor_total
0,3,0,0,30
1,2,0,1,40
2,0,1,1,25


In [22]:
# Como o modelo considerou um valor "extra" de entrada definido com 20 reais
# vamos treinar o modelo novamente definindo esse valor de entrada = 0 através do parâmetro fit_intercept=False

modelo = LinearRegression(fit_intercept=False)
modelo

In [23]:
# Treinando o modelo passando os atributos e os rótulos
modelo.fit(atributos, rotulo)

In [27]:
# Fazendo a predição com os novos_dados
modelo.predict(novos_dados)

array([[10.],
       [ 5.],
       [20.]])

De acordo com os resulados acima, vimos que agora o modelo acertou exatamente o valor de cada unidade de produto.

In [32]:
# Verificando os coeficiente (preços) que o modelo achou
modelo.coef_

array([[10.,  5., 20.]])

In [33]:
df

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer,valor_total
0,3,0,0,30
1,2,0,1,40
2,0,1,1,25


In [34]:
atributos*modelo.coef_

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,30.0,0.0,0.0
1,20.0,0.0,20.0
2,0.0,5.0,20.0


In [36]:
atributos*modelo.coef_

Unnamed: 0,qtd_cerveja,qtd_agua,qtd_hamburguer
0,30.0,0.0,0.0
1,20.0,0.0,20.0
2,0.0,5.0,20.0
