# üöó Projeto Completo: Previs√£o de Pre√ßo de Carros Usados

Este notebook apresenta a an√°lise, limpeza, modelagem e previs√£o usando dados de ve√≠culos usados.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from scipy.stats import chi2_contingency


## 1Ô∏è‚É£ üì• Carregamento dos Dados e Limpeza Inicial

### 1.1Ô∏è‚É£ Carregar os dados
Carregamos o arquivo CSV com os dados dos ve√≠culos para an√°lise inicial.

In [None]:
df = pd.read_csv('vehicles.csv')

### 1.2Ô∏è‚É£ An√°lise descritiva inicial (opcional)
Visualiza√ß√£o das primeiras linhas e estat√≠sticas para entender o formato e as vari√°veis do dataset.

In [None]:
# print(df.head())
# print(df.describe())

### 1.3Ô∏è‚É£ üîß Tratamento de Outliers na Vari√°vel 'price'
Valores de pre√ßo acima de 500.000 foram considerados outliers. Substitu√≠mos esses valores pela m√©dia dos pre√ßos dentro do limite para evitar que valores extremos prejudiquem o modelo.

In [None]:
limite_preco = 500000  # limite superior para pre√ßo
df_sem_outlier = df[df['price'] <= limite_preco]
media_sem_outlier = df_sem_outlier['price'].mean()

df['price'] = df['price'].astype(float)
df.loc[df['price'] > limite_preco, 'price'] = media_sem_outlier


### 1.4Ô∏è‚É£ üîß Tratamento de Outliers na Vari√°vel 'odometer'
Valores de od√¥metro acima de 200.000 km foram considerados incomuns e substitu√≠dos pela m√©dia dos ve√≠culos dentro desse limite para manter dados consistentes.

In [None]:
limite_odometer = 200000
out_odometer = df[df['odometer'] <= limite_odometer]
media_filtrada = out_odometer['odometer'].mean()

df.loc[df['odometer'] > limite_odometer, 'odometer'] = media_filtrada


### 1.5Ô∏è‚É£ üîÑ Preenchimento de valores ausentes em colunas num√©ricas
Para as colunas num√©ricas importantes, como 'year' e 'odometer', substitu√≠mos valores ausentes pela m√©dia, garantindo que n√£o haja dados faltantes que possam prejudicar a an√°lise.

In [None]:
for col in ['year', 'odometer']:
    df[col] = df[col].fillna(df[col].mean())


### 1.6Ô∏è‚É£ ‚ùå Remo√ß√£o de linhas com valores ausentes em colunas cr√≠ticas
Removemos linhas que possuem valores ausentes em latitude, longitude e descri√ß√£o, pois s√£o essenciais para a an√°lise e modelagem.

In [None]:
df.dropna(subset=['lat', 'long', 'description'], inplace=True)

### 1.7Ô∏è‚É£ üü† Preenchimento de NaNs em colunas categ√≥ricas com 'unknown'
Para colunas categ√≥ricas importantes, substitu√≠mos valores ausentes por 'unknown', mantendo a consist√™ncia sem remover registros.

In [None]:
colunas_para_preencher = [
    'manufacturer', 'model', 'fuel', 'title_status',
    'transmission', 'type', 'paint_color', 'condition',
    'cylinders', 'drive'
]
df[colunas_para_preencher] = df[colunas_para_preencher].fillna('unknown')


### 1.8Ô∏è‚É£ üßπ Remo√ß√£o de colunas irrelevantes ou com muitos dados faltantes
Colunas que n√£o agregam valor para a modelagem ou possuem muitos dados ausentes foram removidas para simplificar o dataset.

In [None]:
df.drop(columns=['VIN', 'size', 'county', 'url', 'region_url', 'image_url', 'description', 'posting_date'], inplace=True, errors='ignore')


### 1.9Ô∏è‚É£ üßº Verifica√ß√£o e remo√ß√£o de linhas duplicadas
Identificamos e removemos registros duplicados para garantir qualidade e evitar vieses no modelo.

In [None]:
print(f"Duplicadas: {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)


## 2Ô∏è‚É£ üß© Prepara√ß√£o das Vari√°veis Categ√≥ricas

### 2.1Ô∏è‚É£ üîç Identifica√ß√£o das colunas categ√≥ricas
Selecionamos as colunas categ√≥ricas para codifica√ß√£o.

In [None]:
cols_object = df.select_dtypes(include='object').columns
print(f"Colunas categ√≥ricas: {cols_object}")


### 2.2Ô∏è‚É£ üéØ Manter as 10 categorias mais comuns em 'model' e 'region' e agrupar as outras em 'other'
Agrupamos as categorias menos frequentes em uma categoria √∫nica para evitar alta cardinalidade que pode prejudicar o modelo.

In [None]:
top_10_model = df['model'].value_counts().nlargest(10).index.tolist()
df['model'] = df['model'].apply(lambda x: x if x in top_10_model else 'other')

top_10_region = df['region'].value_counts().nlargest(10).index.tolist()
df['region'] = df['region'].apply(lambda x: x if x in top_10_region else 'other')


### 2.3Ô∏è‚É£ üß™ Teste Qui-Quadrado para vari√°veis categ√≥ricas
Avalia se as vari√°veis categ√≥ricas possuem rela√ß√£o estatisticamente significativa com o pre√ßo.

In [None]:
cols_to_cod = [
    'region', 'manufacturer', 'model', 'condition', 
    'cylinders', 'fuel', 'title_status', 'transmission', 
    'drive', 'type', 'paint_color', 'state'
]

for col in cols_to_cod:
    tabela = pd.crosstab(df[col], df['price'])
    qui2, p, _, _ = chi2_contingency(tabela)
    print(f"{col} P-valor: {p:.2f}")


üìù **Interpreta√ß√£o:**
‚úÖ Todas as vari√°veis categ√≥ricas testadas apresentaram p-valor < 0.05, indicando que possuem rela√ß√£o significativa com o pre√ßo.

## 3Ô∏è‚É£ üìä Teste de Correla√ß√£o para Vari√°veis Num√©ricas

In [None]:
numeric = df[['price', 'year', 'odometer', 'lat', 'long']]
correlation = numeric.corr(numeric_only=True)['price'].drop('price')
print("\nCorrela√ß√£o com Price:")
print(correlation)


üìù **Interpreta√ß√£o:**  
‚è≥ Ano (year): +0.28 (correla√ß√£o positiva moderada) ‚Äî Carros mais novos tendem a ter pre√ßo maior.  
üöó Quilometragem (odometer): -0.43 (correla√ß√£o negativa moderada) ‚Äî Quanto maior a quilometragem, menor o pre√ßo.  
üìç Latitude e Longitude apresentam correla√ß√£o muito baixa, sem impacto relevante.


## 4Ô∏è‚É£ ‚öôÔ∏è Codifica√ß√£o One-Hot e Prepara√ß√£o dos Dados para Modelagem

In [None]:
df = pd.get_dummies(df, columns=cols_to_cod, drop_first=True)

previsores = ['year', 'odometer'] + [col for col in df.columns if (
    col.startswith('region_') or
    col.startswith('manufacturer_') or
    col.startswith('model_') or
    col.startswith('condition_') or
    col.startswith('cylinders_') or
    col.startswith('fuel_') or
    col.startswith('title_status_') or
    col.startswith('transmission_') or
    col.startswith('drive_') or
    col.startswith('type_') or
    col.startswith('paint_color_') or
    col.startswith('state_')
)]

X = df[previsores].values
y = df['price'].values


## 5Ô∏è‚É£ üß™ Treinamento e Avalia√ß√£o do Modelo

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

modelo = DecisionTreeRegressor(random_state=42)
modelo.fit(X_train, y_train)

y_pred = modelo.predict(X_test)

print(f"\nMSE: {mean_squared_error(y_test, y_pred):,.2f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):,.2f}")
print(f"MAE: {mean_absolute_error(y_test, y_pred):,.2f}")

r2 = r2_score(y_test, y_pred)
print(f"R¬≤ (coeficiente de determina√ß√£o): {r2:.3f}")


üìù **Interpreta√ß√£o do R¬≤:**  
üìâ R¬≤ < 0.3: modelo fraco, baixa capacidade explicativa.  
‚ö†Ô∏è 0.3 ‚â§ R¬≤ < 0.6: modelo razo√°vel, precisa melhorar.  
‚úÖ 0.6 ‚â§ R¬≤ < 0.8: modelo bom, explica boa parte da variabilidade.  
üåü R¬≤ ‚â• 0.8: modelo excelente, alta capacidade explicativa.

**Nosso Resultado:**  
üìä R¬≤ = 0.7 ‚Äî O modelo demonstra boa capacidade de previs√£o, capturando a maior parte das varia√ß√µes no pre√ßo dos ve√≠culos. Esse resultado indica uma base robusta, por√©m, √© poss√≠vel aprimorar o modelo para alcan√ßar maior precis√£o.


## 6Ô∏è‚É£ üöó Previs√£o Simples com Vari√°veis Num√©ricas

In [None]:
previsores_num = ['year', 'odometer']
X_num = df[previsores_num].values
y = df['price'].values

X_train, X_test, y_train, y_test = train_test_split(X_num, y, test_size=0.3, random_state=42)

modelo_num = DecisionTreeRegressor(random_state=42)
modelo_num.fit(X_train, y_train)

novo_carro_num = [[2015, 60000]]  # Ano 2015 e 60.000 km rodados (previsores)

preco_previsto = modelo_num.predict(novo_carro_num)[0]
print(f"Pre√ßo previsto s√≥ com dados num√©ricos: ${preco_previsto:,.2f}")


üìù **Observa√ß√£o:**  
Este √© um exemplo simples de previs√£o usando somente as vari√°veis num√©ricas mais relevantes, √∫til para testes r√°pidos e valida√ß√µes iniciais.


# üìù Observa√ß√µes Finais

Este projeto apresenta uma limpeza e tratamento de dados detalhados e completos, incluindo:

- Identifica√ß√£o e tratamento de outliers nas vari√°veis principais (price e odometer) para evitar distor√ß√µes.  
- Tratamento cuidadoso de valores ausentes com estrat√©gias diferentes para num√©ricos e categ√≥ricos.  
- Agrupamento das categorias menos frequentes para evitar alta cardinalidade.  
- An√°lises estat√≠sticas com teste Qui-Quadrado e correla√ß√£o para validar rela√ß√µes com o target.  
- Aplica√ß√£o de t√©cnicas adequadas para codifica√ß√£o e prepara√ß√£o dos dados.  
- Treinamento e avalia√ß√£o de modelo de √°rvore de decis√£o com m√©tricas claras e interpreta√ß√£o profissional.  
- Inclus√£o de exemplo pr√°tico para previs√£o simples, facilitando entendimento e testes.

O R¬≤ foi adotado como principal m√©trica para avalia√ß√£o da performance, dado que √© uma m√©trica interpret√°vel para problemas de regress√£o, indicando o percentual de vari√¢ncia explicada pelo modelo.
