### Regressão Linear Múltipla - Previsão de Consumo de Combustível de Carros ###

1. Contexto de Cenário 

Uma montadora de automóveis está interessada em entender como diferentes características de um carro (como potência, peso e cilindrada) afetam seu consumo de combustível (medido em Milhas por Galão - MPG). Eles querem um modelo que possa prever o MPG de novos designs de veículos antes mesmo de serem construídos. 

2. Objetivo 

Construir um modelo de regressão linear múltipla para prever o consumo de combustível (MPG - Milhas por Galão) de um carro (variável dependente) com base em múltiplas características como cilindrada ( displacement ), potência ( horsepower ) e peso ( weight ) (variáveis independentes). 

3. Dataset Utilizado 

Simulamos um pequeno dataset com base nas características do  dataset "Auto MPG"

https://www.kaggle.com/datasets/uciml/autompg-dataset

4. Voce deve fazer a proporção de treinamento vs teste.  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)


In [2]:
import pandas as pd 
from sklearn.linear_model import LinearRegression 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import mean_squared_error, r2_score 
import matplotlib.pyplot as plt 
import seaborn as sns

In [3]:
# Importando a base de vendas
base = pd.read_csv("./auto-mpg.csv")

df = pd.DataFrame(base) 
print('Dataset gerado (primeiras 5 linhas):') 
print(df.head()) 



Dataset gerado (primeiras 5 linhas):
    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0        130    3504          12.0          70   
1  15.0          8         350.0        165    3693          11.5          70   
2  18.0          8         318.0        150    3436          11.0          70   
3  16.0          8         304.0        150    3433          12.0          70   
4  17.0          8         302.0        140    3449          10.5          70   

   origin                   car name  
0       1  chevrolet chevelle malibu  
1       1          buick skylark 320  
2       1         plymouth satellite  
3       1              amc rebel sst  
4       1                ford torino  


### Apresentar os valores de performace ### 

MSE ≈ 0 → O modelo está muito bom (as previsões estão muito próximas dos valores reais).

Quanto menor o MSE, melhor. Mas quão pequeno depende dos seus dados.

O R² indica que aproximadamente o percentual da variância no MPG pode ser explicada pelas variáveis independentes no modelo, o que é um bom resultado para este dataset. 


In [4]:

# Convertendo horsepower para numérico (se houver valores não numéricos)
df['horsepower'] = pd.to_numeric(df['horsepower'], errors='coerce')
df.dropna(inplace=True)

# Separando variáveis independentes (X) e dependente (y)
X = df[['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']]
y = df['mpg']

# Separando treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Fazendo previsões
y_pred = modelo.predict(X_test)

# Calculando métricas
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibindo resultados
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f}")

# Interpretação
print("\nInterpretação:")
if mse < 5:
    print("MSE baixo → O modelo está fazendo previsões muito próximas dos valores reais.")
else:
    print("MSE relativamente alto → As previsões têm um erro considerável.")

print(f"O R² de {r2:.2f} indica que {r2*100:.1f}% da variação no MPG é explicada pelas variáveis do modelo.")

Mean Squared Error (MSE): 10.71
Coeficiente de Determinação (R²): 0.79

Interpretação:
MSE relativamente alto → As previsões têm um erro considerável.
O R² de 0.79 indica que 79.0% da variação no MPG é explicada pelas variáveis do modelo.
