# Demonstração de regressão linear múltipla

### Carregando o dataset e realizando procedimentos iniciais

In [1]:
import pandas as pd
import numpy as np

dataset=pd.read_csv('Advertising.csv')
dataset.head()

Unnamed: 0.1,Unnamed: 0,TV,Radio,Newspaper,Sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


In [2]:
X=dataset[['TV','Radio','Newspaper']]
y=dataset['Sales']

# Regressão linear múltipla

In [21]:
#Utilizando primeiramente o sklearn
from sklearn.linear_model import LinearRegression


lm=LinearRegression()
lm.fit(X.values,y.values)

print(lm.intercept_,lm.coef_)

2.9388893694594085 [ 0.04576465  0.18853002 -0.00103749]


In [18]:
#Usando o statsmodels
import statsmodels.api as sm

#Essa linha adiciona o intercept (isso vai representar o valor das vendas quando todos os investimentos são 0)
X_intercept = sm.add_constant(X.values) 
model = sm.OLS(y.values, X_intercept).fit()
 
print_model = model.summary()
print(print_model)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Mon, 30 Oct 2023   Prob (F-statistic):           1.58e-96
Time:                        20:17:20   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

### Observação:
Note que os coeficientes com utilizando o sklearn e o stasmodel são os mesmos, como deveria ser.

In [19]:
#Analisando a correlação entre as vaiáveis para entender melhor o resultado da regressão linear múltipla.

X.corr()

Unnamed: 0,TV,Radio,Newspaper
TV,1.0,0.054809,0.056648
Radio,0.054809,1.0,0.354104
Newspaper,0.056648,0.354104,1.0


## Predição

In [29]:
#TV = 1000
#Radio =10
#Newspaper = 20
print(lm.predict([[1000,10,20]]))

[50.56808513]


In [31]:
#TV = 100
#Radio =100
#Newspaper = 100
print(lm.predict([[100,100,100]]))

[26.2646063]


## Avaliando predição

In [33]:
from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.model_selection import cross_val_score



# Divide as features em treino e teste
X_train = X.iloc[:-10,:]
X_test = X.iloc[-10:,:]

# Separa os alvos em treino e teste 
y_train = y[:-10]
y_test = y[-10:]

# Cria um objeto de regressão linear 
regr = LinearRegression()

# Treina o modelo usando o conjunto de treino
regr.fit(X_train, y_train)

# Faz predições usando o conjunto de teste 
y_pred = regr.predict(X_test)

# Coeficientes
print("Coeficientes:", regr.coef_)

# Mean squared error (MSE)
print("Mean squared error: %.2f" % mean_squared_error(y_test, y_pred))

# O coeficiente de determinação (ou R2)
print("R2 (ou coeficiente de determinação): %.4f" % r2_score(y_test, y_pred))


scoresTreeReg = cross_val_score(regr, X, y, cv=5, scoring='r2')

print(scoresTreeReg.mean())

Coeficientes: [ 0.04599515  0.19003705 -0.00121422]
Mean squared error: 2.33
R2 (ou coeficiente de determinação): 0.9278
0.8871063495438436


# Árvore de regressão

In [34]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score

treeRegr = DecisionTreeRegressor(random_state=42)

treeRegr.fit(X_train, y_train)

y_pred = regr.predict(X_test)


print("R2 (ou coeficiente de determinação): %.4f" % r2_score(y_test, y_pred))


scoresTreeReg = cross_val_score(treeRegr, X, y, cv=5, scoring='r2')

print(scoresTreeReg.mean())

R2 (ou coeficiente de determinação): 0.9278
0.9596134366644424
