<a href="https://colab.research.google.com/github/andrelmsunb/FIPE.manuscript/blob/main/Pesquisa_FIPE_Veiculos_Colab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP - Previs√£o de Valor FIPE de Ve√≠culos

Este notebook segue o roteiro proposto para a cria√ß√£o de um MVP (Minimum Viable Product) de Machine Learning.

**Autor**: An√°lise realizada com Andre Luiz Marques Serrano  
**Data**: 10/09/2025

## 1. Defini√ß√£o do Problema

- **Objetivo**: Construir um modelo de Machine Learning para prever o **Valor FIPE** de um ve√≠culo com base em suas caracter√≠sticas (ano, montadora, modelo, etc.).
- **Tipo de Problema**: Regress√£o.
- **Base de Dados**: `C√≥piadeVe√≠culos.xlsx`, contendo dados de uma frota de ve√≠culos.
- **Premissas**: O Valor FIPE √© influenciado principalmente por caracter√≠sticas como ano, montadora e modelo. Outras vari√°veis podem ter menor impacto.
- **Restri√ß√µes**: Foram removidos dados com inconsist√™ncias graves, como `Ano Modelo` inv√°lido e `Valor FIPE` zerado.

## 2. Setup e Importa√ß√£o das Bibliotecas

In [1]:
# Instala√ß√£o de depend√™ncias (execute apenas se necess√°rio)
!pip install xgboost

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings

warnings.filterwarnings("ignore")

# Configura√ß√µes de visualiza√ß√£o
plt.style.use("seaborn-v0_8-whitegrid")
sns.set_palette("viridis")

print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


## 3. Carga e Prepara√ß√£o dos Dados

**Instru√ß√µes para carregar os dados no Google Colab:**

1. Fa√ßa o upload do arquivo `veiculos_limpo.csv` (gerado na an√°lise pr√©via)
2. Ou carregue o arquivo original `C√≥piadeVe√≠culos.xlsx` e execute a limpeza dos dados

**Op√ß√£o 1: Carregar arquivo limpo**

In [2]:
# Op√ß√£o 1: Upload do arquivo limpo
from google.colab import files
uploaded = files.upload()
df = pd.read_excel(next(iter(uploaded.keys())))

print(f"Dimens√µes do dataset: {df.shape}")
print("\nVisualiza√ß√£o das primeiras linhas:")
df.head()

Saving C√≥pia de Ve√≠culos (1).xlsx to C√≥pia de Ve√≠culos (1).xlsx


UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9e in position 14: invalid start byte

**Op√ß√£o 2: Carregar e limpar arquivo original**

In [None]:
# Op√ß√£o 2: Upload e limpeza do arquivo original
# from google.colab import files
# uploaded = files.upload()
# df_raw = pd.read_excel(next(iter(uploaded)))

# # Limpeza dos dados
# df = df_raw.copy()
# df = df[df['Ano Modelo'] >= 1990]  # Filtrar anos realistas
# df = df[df['Valor FIPE'] > 0]      # Remover valores FIPE zerados

# print(f"Dataset original: {df_raw.shape}")
# print(f"Dataset ap√≥s limpeza: {df.shape}")
# df.head()

## 4. An√°lise Explorat√≥ria dos Dados

In [None]:
# Informa√ß√µes gerais do dataset
print("=== INFORMA√á√ïES GERAIS ===")
print(f"Dimens√µes: {df.shape}")
print(f"\nColunas: {list(df.columns)}")
print(f"\nTipos de dados:")
print(df.dtypes)

# Estat√≠sticas descritivas da vari√°vel target
print(f"\n=== ESTAT√çSTICAS DO VALOR FIPE ===")
print(df['Valor FIPE'].describe())

# An√°lise das principais vari√°veis categ√≥ricas
print(f"\n=== PRINCIPAIS VARI√ÅVEIS CATEG√ìRICAS ===")
print(f"\nMontadoras (top 5):")
print(df['Montadora'].value_counts().head())

print(f"\nModelos (top 5):")
print(df['Modelo'].value_counts().head())

print(f"\nCores:")
print(df['Cor'].value_counts())

print(f"\nSitua√ß√£o:")
print(df['Situa√ß√£o'].value_counts())

In [None]:
# Visualiza√ß√µes explorat√≥rias
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Distribui√ß√£o do Valor FIPE
axes[0, 0].hist(df['Valor FIPE'], bins=50, alpha=0.7, color='skyblue')
axes[0, 0].set_title('Distribui√ß√£o do Valor FIPE')
axes[0, 0].set_xlabel('Valor FIPE (R$)')
axes[0, 0].set_ylabel('Frequ√™ncia')

# 2. Valor FIPE por Ano Modelo
axes[0, 1].scatter(df['Ano Modelo'], df['Valor FIPE'], alpha=0.6, color='coral')
axes[0, 1].set_title('Valor FIPE por Ano Modelo')
axes[0, 1].set_xlabel('Ano Modelo')
axes[0, 1].set_ylabel('Valor FIPE (R$)')

# 3. Top 10 Montadoras
top_montadoras = df['Montadora'].value_counts().head(10)
axes[1, 0].bar(range(len(top_montadoras)), top_montadoras.values, color='lightgreen')
axes[1, 0].set_title('Top 10 Montadoras')
axes[1, 0].set_xlabel('Montadoras')
axes[1, 0].set_ylabel('Quantidade')
axes[1, 0].set_xticks(range(len(top_montadoras)))
axes[1, 0].set_xticklabels(top_montadoras.index, rotation=45, ha='right')

# 4. Valor FIPE por Situa√ß√£o
df.boxplot(column='Valor FIPE', by='Situa√ß√£o', ax=axes[1, 1])
axes[1, 1].set_title('Valor FIPE por Situa√ß√£o')
axes[1, 1].set_xlabel('Situa√ß√£o')
axes[1, 1].set_ylabel('Valor FIPE (R$)')

plt.tight_layout()
plt.show()

# Correla√ß√£o entre Ano e Valor FIPE
correlation = df[['Ano Modelo', 'Valor FIPE']].corr()
print(f"\nCorrela√ß√£o entre Ano Modelo e Valor FIPE:")
print(correlation)

## 5. Feature Engineering e Pr√©-processamento

In [None]:
# Definindo a vari√°vel target (y) e as features (X)
target = "Valor FIPE"
features_categoricas = ["Montadora", "Modelo", "Cor", "Grupo", "Situa√ß√£o"]
features_numericas = ["Ano Modelo"]

X = df[features_categoricas + features_numericas]
y = df[target]

print(f"Target: {target}")
print(f"Features: {X.columns.tolist()}")
print(f"\nShape das features: {X.shape}")
print(f"Shape do target: {y.shape}")

# Verificar valores nulos
print(f"\nValores nulos nas features:")
print(X.isnull().sum())

In [None]:
# Divis√£o dos dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamanho do conjunto de treino: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")
print(f"Propor√ß√£o treino/teste: {X_train.shape[0]/X_test.shape[0]:.1f}:1")

In [None]:
# Cria√ß√£o do pipeline de pr√©-processamento
# 1. Features Num√©ricas: Padroniza√ß√£o (StandardScaler)
# 2. Features Categ√≥ricas: One-Hot Encoding (ignorar categorias n√£o vistas no treino)
preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), features_numericas),
        ("cat", OneHotEncoder(handle_unknown="ignore"), features_categoricas),
    ]
)

print("Pipeline de pr√©-processamento criado.")
print(f"\nTransforma√ß√µes aplicadas:")
print(f"- Features num√©ricas ({len(features_numericas)}): StandardScaler")
print(f"- Features categ√≥ricas ({len(features_categoricas)}): OneHotEncoder")

## 6. Modelagem e Treinamento

In [None]:
# Definindo os modelos que ser√£o treinados e comparados
models = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(random_state=42, n_estimators=100),
    "XGBoost": XGBRegressor(random_state=42, n_estimators=100),
}

results = {}

print("Iniciando o treinamento dos modelos...")
print(f"Modelos a serem treinados: {list(models.keys())}")

In [None]:
for name, model in models.items():
    print(f"\n--- Treinando {name} ---")

    # Criando o pipeline final com pr√©-processamento e o modelo
    pipeline = Pipeline(steps=[("preprocessor", preprocessor), ("regressor", model)])

    # Treinamento
    pipeline.fit(X_train, y_train)

    # Predi√ß√£o
    y_pred = pipeline.predict(X_test)

    # Avalia√ß√£o
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)

    results[name] = {"MAE": mae, "RMSE": rmse, "R¬≤": r2, "predictions": y_pred}

    print(f"Resultados para {name}:")
    print(f"  - MAE (Erro M√©dio Absoluto): R$ {mae:,.2f}")
    print(f"  - RMSE (Raiz do Erro Quadr√°tico M√©dio): R$ {rmse:,.2f}")
    print(f"  - R¬≤ (Coeficiente de Determina√ß√£o): {r2:.4f}")

print("\nTreinamento conclu√≠do!")

## 7. Avalia√ß√£o e Compara√ß√£o dos Resultados

In [None]:
# Tabela comparativa de m√©tricas
results_df = pd.DataFrame(results).T.drop(columns=["predictions"])
print("=== Tabela Comparativa de M√©tricas ===")
results_df_sorted = results_df.sort_values(by="R¬≤", ascending=False)
print(results_df_sorted)

# Identificar o melhor modelo
best_model_name = results_df["R¬≤"].idxmax()
best_model_r2 = results_df.loc[best_model_name, "R¬≤"]
best_model_mae = results_df.loc[best_model_name, "MAE"]

print(f"\nüèÜ Melhor modelo: {best_model_name}")
print(f"   R¬≤ = {best_model_r2:.4f}")
print(f"   MAE = R$ {best_model_mae:,.2f}")

In [None]:
# Visualiza√ß√£o dos resultados
fig, axes = plt.subplots(1, 3, figsize=(20, 6), sharey=True)
fig.suptitle("Compara√ß√£o entre Valores Reais e Preditos por Modelo", fontsize=16)

for i, (name, data) in enumerate(results.items()):
    sns.scatterplot(ax=axes[i], x=y_test, y=data["predictions"], alpha=0.6)
    axes[i].set_title(f"{name} (R¬≤ = {data['R¬≤']:.3f})")
    axes[i].set_xlabel("Valor FIPE Real")
    axes[i].set_ylabel("Valor FIPE Predito")
    # Linha de refer√™ncia (y=x)
    axes[i].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], "r--", lw=2)

plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()

In [None]:
# An√°lise de res√≠duos do melhor modelo
best_predictions = results[best_model_name]["predictions"]
residuals = y_test - best_predictions

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Gr√°fico de res√≠duos
axes[0].scatter(best_predictions, residuals, alpha=0.6)
axes[0].axhline(y=0, color='r', linestyle='--')
axes[0].set_xlabel('Valores Preditos')
axes[0].set_ylabel('Res√≠duos')
axes[0].set_title(f'An√°lise de Res√≠duos - {best_model_name}')

# Histograma dos res√≠duos
axes[1].hist(residuals, bins=30, alpha=0.7)
axes[1].set_xlabel('Res√≠duos')
axes[1].set_ylabel('Frequ√™ncia')
axes[1].set_title('Distribui√ß√£o dos Res√≠duos')

plt.tight_layout()
plt.show()

print(f"Estat√≠sticas dos res√≠duos:")
print(f"M√©dia: {residuals.mean():.2f}")
print(f"Desvio padr√£o: {residuals.std():.2f}")
print(f"Mediana: {residuals.median():.2f}")

## 8. Conclus√£o e Pr√≥ximos Passos

In [None]:
print("=== CONCLUS√ÉO DO MVP ===")
print(f"O modelo com melhor desempenho foi o **{best_model_name}**, com um R¬≤ de **{best_model_r2:.4f}**.")
print("Este valor indica que o modelo consegue explicar uma por√ß√£o significativa da variabilidade do Valor FIPE.")
print(f"O Erro M√©dio Absoluto (MAE) nos diz que, em m√©dia, as previs√µes do modelo erram em torno de R$ {best_model_mae:,.2f}.")

print("\n**Pr√≥ximos Passos Sugeridos:**")
print("1. **Otimiza√ß√£o de Hiperpar√¢metros**: Utilizar t√©cnicas como GridSearchCV ou RandomizedSearchCV para encontrar os melhores hiperpar√¢metros para o XGBoost e Random Forest.")
print("2. **Feature Engineering Avan√ßada**: Criar novas features, como a idade do ve√≠culo (ano atual - ano modelo) ou combinar informa√ß√µes de diferentes colunas.")
print("3. **An√°lise de Erros**: Investigar os casos onde o modelo mais erra para entender suas limita√ß√µes.")
print("4. **Valida√ß√£o Cruzada**: Implementar valida√ß√£o cruzada (K-Fold) para obter uma estimativa mais robusta do desempenho do modelo.")
print("5. **Inclus√£o de Mais Dados**: Utilizar mais features que foram descartadas (ap√≥s tratamento adequado) ou buscar dados externos.")

print("\n**Insights Obtidos:**")
print(f"- O dataset possui {df.shape[0]} ve√≠culos com {df.shape[1]} caracter√≠sticas.")
print(f"- A correla√ß√£o entre Ano Modelo e Valor FIPE √© de {df[['Ano Modelo', 'Valor FIPE']].corr().iloc[0,1]:.3f}.")
print(f"- As principais montadoras s√£o: {', '.join(df['Montadora'].value_counts().head(3).index.tolist())}.")
print(f"- O modelo Linear Regression teve desempenho surpreendentemente bom, indicando rela√ß√µes lineares fortes entre as features e o target.")