# Projeto de Machine Learning (TP1) - Predição de Preços de Carros

Este notebook implementa um modelo de machine learning para prever preços de carros usados baseado em suas características.

## Índice
1. [Instalação de Dependências](#instalacao)
2. [Carregamento e Exploração dos Dados](#exploracao)
3. [Preparação dos Dados](#preparacao)
4. [Modelagem](#modelagem)
5. [Avaliação](#avaliacao)

## 1. Instalação de Dependências {#instalacao}

Primeiro, vamos instalar todas as bibliotecas necessárias para o projeto.

In [None]:
# Instalação das dependências (executar apenas uma vez)
%pip install --upgrade pandas

## 2. Carregamento e Exploração dos Dados {#exploracao}

Agora vamos carregar o dataset e fazer uma análise exploratória inicial para entender os dados com que estamos trabalhando.

In [None]:
# Importar bibliotecas e carregar dados
import pandas as pd

# Carregar o dataset
df = pd.read_csv("train.csv")

df.info()

## 3. Preparação dos Dados {#preparacao}

Agora vamos preparar os dados para o modelo, separando features (X) e target (y).

In [None]:
X = df.drop(columns=["price"])
Y = df["price"]

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

# separar colunas por tipo de dados
categorical_cols = X.select_dtypes(include=["object"]).columns  # colunas de texto/categoria
numeric_cols = X.select_dtypes(exclude=["object"]).columns      # colunas numéricas

# criar preprocessador para tratar diferentes tipos de dados
preprocessor = ColumnTransformer(
    transformers=[
        ("categorias", OneHotEncoder(handle_unknown="ignore"), categorical_cols),  # converte categorias em 0s e 1s
        ("numericas", "passthrough", numeric_cols)                                # mantem numeros como estao
    ]
)

# pipeline completo: preprocessamento / modelo
model = Pipeline(
    steps=[
        ("preprocessor", preprocessor),
        ("regressor", LinearRegression())
    ]
)