In [0]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações visuais
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)


In [0]:
# https://www.kaggle.com/datasets/CooperUnion/cardataset
df = pd.read_csv("../../dados/CarFeatures_Predictions.csv")
df.head()

### Comparar preços reais vs previstos

In [0]:
sns.scatterplot(x="MSRP", y="MSRP_pred", data=df)
plt.title("Preço real vs Preço previsto")
plt.xlabel("Preço real (MSRP)")
plt.ylabel("Preço previsto (MSRP_pred)")
plt.show()

### Distribuição de preços previstos

In [0]:
sns.histplot(df["MSRP_pred"], bins=30, kde=True, color="skyblue")
plt.title("Distribuição do preço previsto")
plt.xlabel("MSRP previsto")
plt.show()

### Consumo cidade vs estrada por marca

In [0]:
sns.scatterplot(x="city_mpg_pred", y="highway_mpg_pred", hue="Make", data=df, alpha=0.7)
plt.title("Consumo cidade vs estrada por marca")
plt.xlabel("city mpg previsto")
plt.ylabel("highway MPG previsto")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

### Preço vs Consumo (cidade)

In [0]:
sns.scatterplot(
    x="city_mpg_pred", 
    y="MSRP_pred", 
    hue="Vehicle Size", 
    data=df
)
plt.title("Preço previsto vs Consumo na cidade")
plt.xlabel("Consumo cidade (mpg previsto)")
plt.ylabel("Preço previsto (MSRP_pred)")
plt.show()

### Top 10 modelos mais caros

In [0]:
top10 = df.groupby("Model")["MSRP_pred"].mean().sort_values(ascending=False).head(10)
sns.barplot(x=top10.values, y=top10.index, palette="viridis")
plt.title("Top 10 modelos mais caros")
plt.xlabel("Preço médio previsto (MSRP_pred)")
plt.show()

### Boxplot de consumo por Vehicle Size

In [0]:
sns.boxplot(
    x="Vehicle Size", 
    y="city_mpg_pred", 
    data=df, 
    palette="pastel"
)
plt.title("Consumo na cidade por tamanho do veículo")
plt.xlabel("Vehicle Size")
plt.ylabel("City MPG previsto")
plt.show()