In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [2]:
# Limita a leitura a 100 mil linhas para otimizar o desempenho
df = pd.read_csv('car_prices_sem_na.csv', nrows=100000)
df.columns = df.columns.str.strip()  # Remove espaços nos nomes das colunas
df = df.drop(columns=['Unnamed: 0', 'vin', 'seller'])

# Codificação de variáveis categóricas
df_encoded = pd.get_dummies(df, drop_first=True)

# Separar as variáveis independentes (X) e a variável dependente (y)
X = df_encoded.drop('sellingprice', axis=1)
y = df_encoded['sellingprice']

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Inicialização do modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Interface por input manual (ou editar diretamente os valores abaixo)
print("Introduz os dados do carro para prever o preço:")

year = int(input(f"Ano ({int(df['year'].min())}-{int(df['year'].max())}): "))
make = input(f"Marca (ex: {df['make'].unique()[0]}): ")
model_input = input(f"Modelo (ex: {df[df['make'] == make]['model'].unique()[0]}): ")
trim = input(f"Versão (ex: {df['trim'].unique()[0]}): ")
body = input(f"Tipo de carroçaria (ex: {df['body'].unique()[0]}): ")
transmission = input(f"Transmissão (ex: {df['transmission'].unique()[0]}): ")
state = input(f"Estado (EUA) (ex: {df['state'].unique()[0]}): ")
condition = int(input("Condição (1 a 5): "))
color = input(f"Cor (ex: {df['color'].unique()[0]}): ")
interior = input(f"Interior (ex: {df['interior'].unique()[0]}): ")

# Construção do DataFrame do novo carro com os inputs
new_car = pd.DataFrame([{
    'year': year,
    'make': make,
    'model': model_input,
    'trim': trim,
    'body': body,
    'transmission': transmission,
    'state': state,
    'condition': condition,
    'color': color,
    'interior': interior,
}])

# Codificação das variáveis categóricas do novo carro
new_car_encoded = pd.get_dummies(new_car)

# Adicionar colunas em falta com zero (necessário para alinhar com X)
missing_cols = set(X.columns) - set(new_car_encoded.columns)
for col in missing_cols:
    new_car_encoded[col] = 0
new_car_encoded = new_car_encoded[X.columns]  # garantir a ordem correta

# Previsão
predicted_price = model.predict(new_car_encoded)

# Resultado
print(f"\nPreço previsto de venda: ${predicted_price[0]:,.2f}")


Introduz os dados do carro para prever o preço:


  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
  new_car_encoded[col] = 0
 


Preço previsto de venda: $-604.23
