# Importando as bibliotecas necessárias

import pandas as pd from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression from sklearn.metrics
import mean_squared_error, r2_score from sklearn.preprocessing import
OneHotEncoder from sklearn.compose import ColumnTransformer from
sklearn.pipeline import Pipeline

# Passo 1: Carregar os dados da planilha

file_path = ‘garantia_retorno.xlsx’ \# Substitua pelo caminho do seu
arquivo df = pd.read_excel(file_path)

# Exibir as primeiras linhas para entender o formato dos dados

print(df.head())

# Passo 2: Pré-processamento

data = { ‘Marca’: \[‘Marca A’, ‘Marca B’, ‘Marca A’, ‘Marca C’, ‘Marca
B’, ‘Marca C’\], ‘Garantia’: \[12, 24, 12, 18, 24, 18\], ‘Retornos de
Garantia (Mensal)’: \[5, 3, 6, 8, 2, 7\]

# Separando as variáveis independentes (X) e dependente (y)

X = df\[\[‘Marca’, ‘Garantia’\]\] \# Características: Marca e Garantia y
= df\[‘Retorno’\] \# Variável alvo: Retorno

# Usando um pipeline para aplicar OneHotEncoder à coluna ‘Marca’ e aplicar um modelo de regressão linear

pipeline = Pipeline(steps=\[ (‘preprocessor’, ColumnTransformer(
transformers=\[ (‘marca’, OneHotEncoder(), \[‘Marca’\]), \# Aplica
OneHotEncoding na coluna ‘Marca’ (‘scaler’, ‘passthrough’,
\[‘Garantia’\]) \# A coluna ‘Garantia’ é numérica e não precisa de
codificação \])), (‘regressor’, LinearRegression()) \# Modelo de
regressão linear\])

# Passo 3: Dividir os dados em treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Passo 4: Treinar o modelo

pipeline.fit(X_train, y_train)

# Passo 5: Fazer previsões

y_pred = pipeline.predict(X_test)

# Passo 6: Avaliar o modelo

mse = mean_squared_error(y_test, y_pred) \# Erro quadrático médio r2 =
r2_score(y_test, y_pred) \# Coeficiente de determinação (R²)

# Exibir os resultados

print(f’Erro Quadrático Médio (MSE): {mse}‘) print(f’Coeficiente de
Determinação (R²): {r2}’)

# Exibindo algumas previsões em comparação com os valores reais

comparison = pd.DataFrame({‘Real’: y_test, ‘Previsto’: y_pred})
print(comparison.head())