In [1]:
import pandas as pd
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Criando dados fictícios
np.random.seed(42)
n_samples = 100

# Categoria: Tipo de combustível
combustivel = np.random.choice(["gasolina", "diesel", "etanol"], n_samples)

# Numéricas: Idade do veículo e quilometragem
idade = np.random.randint(1, 20, n_samples)
quilometragem = np.random.randint(1000, 200000, n_samples)

# Preço do veículo (variável alvo)
preco = 20000 - (idade * 1000) - (quilometragem * 0.1) + np.random.normal(0, 5000, n_samples)

# Criando um DataFrame
data = pd.DataFrame({
    'combustivel': combustivel,
    'idade': idade,
    'quilometragem': quilometragem,
    'preco': preco
})

print(data.head())

# Definindo as colunas categóricas e numéricas
categorical_features = ['combustivel']
numerical_features = ['idade', 'quilometragem']

# Criando o ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), categorical_features),
        ('num', StandardScaler(), numerical_features)
    ])

# Criando o pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# Dividindo os dados em treino e teste
X = data.drop('preco', axis=1)
y = data['preco']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinando o modelo
pipeline.fit(X_train, y_train)

# Fazendo previsões
y_pred = pipeline.predict(X_test)

# Avaliando o modelo
mse = mean_squared_error(y_test, y_pred)
print(f'Erro Quadrático Médio (MSE): {mse:.2f}')

  combustivel  idade  quilometragem         preco
0      etanol     12          26342   7488.231220
1    gasolina      8         169229   -220.222075
2      etanol     11         199935 -15331.705450
3      etanol     19         107308  -9001.490738
4    gasolina     17         184155 -22264.855284
Erro Quadrático Médio (MSE): 28874776.10
