# Regressão Linear Múltipla
dataset: Carsmall

## Importação de Bilbiotecas

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression

## Importação do Dataset

In [2]:
df = pd.read_csv('/content/drive/My Drive/PORTIFOLIO/Algoritmos Machine Learning/Datasets/carsmall.csv')
df.head()

Unnamed: 0,Acceleration,Cylinders,Displacement,Horsepower,Model,Model_Year,MPG,Origin,Weight,Model_Year_70,Model_Year_76,Model_Year_82
0,12.0,8,307,130,chevrolet chevelle malibu,70,18.0,USA,3504,1,0,0
1,11.5,8,350,165,buick skylark 320,70,15.0,USA,3693,1,0,0
2,11.0,8,318,150,plymouth satellite,70,18.0,USA,3436,1,0,0
3,12.0,8,304,150,amc rebel sst,70,16.0,USA,3433,1,0,0
4,10.5,8,302,140,ford torino,70,17.0,USA,3449,1,0,0


In [3]:
df.columns

Index(['Acceleration', 'Cylinders', 'Displacement', 'Horsepower', 'Model',
       'Model_Year', 'MPG', 'Origin', 'Weight', 'Model_Year_70',
       'Model_Year_76', 'Model_Year_82'],
      dtype='object')

## Seleção das variáveis para treinamento do Modelo

In [4]:
# Seleção de variáveis para Modelo 1 depende da aceleração, volume e potência
X1 = df[['Acceleration','Displacement','Horsepower']]
y1 = df[['MPG']]

print('==>MODELO 1')
print('Dimensões de X1:', X1.shape)
print('Tipo de X1:', type(X1))
print('Dimensões de y1:', y1.shape)
print('Tipo de y1:', type(y1))
print('\n')

# Seleção de variáveis para Modelo 2 depende da aceleração, volume e peso
X2 = df[['Acceleration','Displacement','Weight']]
y2 = df[['MPG']]

print('==>MODELO 2')
print('Dimensões de X2:', X2.shape)
print('Tipo de X2:', type(X2))
print('Dimensões de y2:', y2.shape)
print('Tipo de y2:', type(y2))
print('\n')

# Seleção de variáveis para Modelo 3 depende da Volume, potência e peso
X3 = df[['Displacement','Horsepower','Weight']]
y3 = df[['MPG']]

print('==>MODELO 3')
print('Dimensões de X3:', X3.shape)
print('Tipo de X3:', type(X3))
print('Dimensões de y3', y3.shape)
print('Tipo de y3:', type(y3))

==>MODELO 1
Dimensões de X1: (93, 3)
Tipo de X1: <class 'pandas.core.frame.DataFrame'>
Dimensões de y1: (93, 1)
Tipo de y1: <class 'pandas.core.frame.DataFrame'>


==>MODELO 2
Dimensões de X2: (93, 3)
Tipo de X2: <class 'pandas.core.frame.DataFrame'>
Dimensões de y2: (93, 1)
Tipo de y2: <class 'pandas.core.frame.DataFrame'>


==>MODELO 3
Dimensões de X3: (93, 3)
Tipo de X3: <class 'pandas.core.frame.DataFrame'>
Dimensões de y3 (93, 1)
Tipo de y3: <class 'pandas.core.frame.DataFrame'>


## Treinamento dos Modelos

In [5]:
#Treinamento do Modelo 1
modelo1 = LinearRegression()
modelo1.fit(X1,y1)

print('Coeficientes: ', modelo1.intercept_,modelo1.coef_)

#Treinamento do Modelo 2
modelo2 = LinearRegression()
modelo2.fit(X2,y2)

print('Coeficientes: ', modelo2.intercept_,modelo2.coef_)

#Treinamento do Modelo 3
modelo3 = LinearRegression()
modelo3.fit(X3,y3)

print('Coeficientes: ', modelo3.intercept_,modelo3.coef_)

Coeficientes:  [48.51544757] [[-0.51797101 -0.0359865  -0.08846691]]
Coeficientes:  [45.96566139] [[ 0.06153903 -0.01264766 -0.00696286]]
Coeficientes:  [47.18231811] [[-0.0053631  -0.03456242 -0.00627752]]


## Previsão dos Modelos

In [6]:
y1_prev = modelo1.predict(X1)
y2_prev = modelo2.predict(X2)
y3_prev = modelo3.predict(X3)

## Ajuste de R2

In [7]:
# Avaliação da qualidade do ajuste do modelo 1
R21 = modelo1.score(X1,y1)
 
n = len(y1)      # Quantidade de dados de treino (=93)
k = X1.shape[1]  # Quantidade de variáveis independentes do modelo (=3)
R21ajust = 1-((n-1)/(n-k-1))*(1-R21)  # R^2 ajustado
print("Coeficiente de determinação ajustado do modelo 1 =",R21ajust)

# Avaliação da qualidade do ajuste do modelo 2
R22 = modelo2.score(X2,y2)
R22ajust = 1-((n-1)/(n-k-1))*(1-R22)  # R^2 ajustado
print("Coeficiente de determinação ajustado do modelo 2 =",R22ajust)

# Avaliação da qualidade do ajuste do modelo 3
R23 = modelo3.score(X3,y3)
R23ajust = 1-((n-1)/(n-k-1))*(1-R23)  # R^2 ajustado
print("Coeficiente de determinação ajustado do modelo 3 =",R23ajust)

Coeficiente de determinação ajustado do modelo 1 = 0.6884606939323316
Coeficiente de determinação ajustado do modelo 2 = 0.7386826176390976
Coeficiente de determinação ajustado do modelo 3 = 0.744433911802808


## Métricas dos Modelos (RMSE - Root Mean Squared Error)

In [8]:
#Avaliação do RMSE
from sklearn.metrics import mean_squared_error

print("RSME do Modelo 1: ",mean_squared_error(y_true=y1,y_pred=y1_prev,squared=False)) #squared=False : RMSE | squared=Ture MSE
print("RSME do Modelo 2: ",mean_squared_error(y_true=y2,y_pred=y2_prev,squared=False)) #squared=False : RMSE | squared=Ture MSE
print("RSME do Modelo 3: ",mean_squared_error(y_true=y3,y_pred=y3_prev,squared=False)) #squared=False : RMSE | squared=Ture MSE

RSME do Modelo 1:  4.411271585840515
RSME do Modelo 2:  4.040094485055009
RSME do Modelo 3:  3.995388223446182


## Validação Cruzada

In [9]:
from sklearn.model_selection import cross_val_score

aval = cross_val_score(modelo1,X3,y3, cv =10, scoring='neg_root_mean_squared_error') #cv=10 (padrão): número de partições "usa 9 partições para treino e 1 para teste" e faz isso 10 vezes  | scoring:
print('RMSE de cada uma das partições: \n',-aval)
m=np.mean(-aval)
print('RMSE médio: ',m)
dp=np.std(-aval,ddof=1) # ddof=1: para que seja calculado desvio padr]ao da amostra e não da população
print('Desvio padrão entre os RMSE: ',dp)
print('Variação Percentual do RMSE: ',100*dp/m) # VP<60: baixa | 40<VP<60: moderada | VP>60: alta

RMSE de cada uma das partições: 
 [4.00425291 6.03294437 2.97926777 3.03449368 3.17253886 3.26311272
 3.67012069 4.41408645 7.12411281 6.08578866]
RMSE médio:  4.378071891701408
Desvio padrão entre os RMSE:  1.5017091013709538
Variação Percentual do RMSE:  34.30069534073729
