In [1]:
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error


In [2]:
# Criando um conjunto de dados fictício
dados = pd.DataFrame({
    'Combustível': ['Gasolina', 'Diesel', 'Etanol', 'Gasolina', 'Diesel'],
    'Idade': [3, 5, 2, 8, 1],  # Idade do carro em anos
    'Quilometragem': [40000, 80000, 25000, 120000, 10000],  # Km rodados
    'Preço': [35000, 28000, 45000, 18000, 50000]  # Valor do carro
})


In [3]:
# Definição das colunas
categorical_features = ['Combustível']
numerical_features = ['Idade', 'Quilometragem']

# Transformadores
categorical_transformer = OneHotEncoder(handle_unknown='ignore')
numerical_transformer = StandardScaler()

# ColumnTransformer para aplicar as transformações adequadas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ]
)


In [4]:
# Criando o pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', LinearRegression())
])


In [5]:
from sklearn.model_selection import train_test_split

# Separando variáveis preditoras (X) e alvo (y)
X = dados.drop(columns=['Preço'])
y = dados['Preço']

# **🚀 Passo 1: Dividindo os dados em treino (80%) e teste (20%)**
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **🚀 Passo 2: Treinando o modelo APENAS no conjunto de treino**
pipeline.fit(X_train, y_train)

# **🚀 Passo 3: Fazendo previsões no conjunto de teste**
y_pred = pipeline.predict(X_test)

# **🚀 Passo 4: Calculando o Erro Quadrático Médio (MSE)**
mse = mean_squared_error(y_test, y_pred)
print(f'Erro Quadrático Médio (MSE) no conjunto de teste: {mse:.2f}')



Erro Quadrático Médio (MSE) no conjunto de teste: 60331722.83


In [6]:
# Calculando o Erro Quadrático Médio
mse = mean_squared_error(y_test, y_pred)
print(f'Erro Quadrático Médio (MSE) no conjunto de teste: {mse:.2f}')


Erro Quadrático Médio (MSE) no conjunto de teste: 60331722.83
