## Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
import os
import joblib

## 1 Base de dados com dados limpos.

In [None]:
# Base Suja
carros = pd.read_csv('https://raw.githubusercontent.com/RafaelSilvax06/ProjetoIA-Analise/refs/heads/main/car_sales_data.csv')

#Aplicando a mesma limpeza da fase 1

# Tradução de colunas
carros.columns = carros.columns = ['Fabricante', 'Modelo', 'Potencia Motor', 'Tipo Combustivel', 'Ano De Fabricacao', 'Quilometragem', 'Preco']

# Convertando preço em reais.
carros['Preco'] = carros['Preco'].astype(float)
carros['Preco'] = carros['Preco'] * 5.38

# Converter Quilometragem para float.
carros['Quilometragem'] = carros['Quilometragem'].astype(float)

# Removendo valores irreais (Preços abaixo de R$ 3.500,00)
carros_valor_irreais = carros[carros['Preco'] <= 3500.00].sort_values(by='Preco')
carros.drop(index=carros_valor_irreais.index, inplace=True)


print('Dados limpos e prontos para o pre processamento: ')
print('\n')
carros.info()

## 2 Definição de X e Y
Separando o conjunto de dados.


In [None]:
#Definindo X e y para criar o modelo e trabalhar na regressão.

# Y é o preço, nosso alvo.
y = carros['Preco']
# X é nossas pistas, colunas correlacionadas ao preço.
X = carros.drop('Preco', axis=1)


### 2.1 Divisão de treino com sklearn e train_test_split

In [None]:
#Usamos 80% para treino e 20% para teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Tamanho de X_train (treino): {X_train.shape[0]} amostras") # 80% das amostras da base de dados.
print(f"Tamanho de X_test (teste): {X_test.shape[0]} amostras") # 20% das amostras da base de dados.


### 2.2 Processamento de colunas.

Nosso x_train ainda tem texto e numeros misturados, vamos separo-los para fazer uma boa regressão na modelagem.

Vamos usar encoding e scaling.

Encoding:Converter colunas de texto em colunas numericas, exemplo: Toyota vira 0, BMW vira 1, etc.

Scaling: Padroniza as colunas numericas para ter medias e escalas semelhantes, assim deixando otimo o desempenho do modelo.
 

In [None]:
# 1. Definir quais colunas são de qual tipo
colunas_categoricas = ['Fabricante', 'Modelo', 'Tipo Combustivel']
colunas_numericas = ['Potencia Motor', 'Ano De Fabricacao', 'Quilometragem']

# 2. Criar a "esteira de processamento" (ColumnTransformer)
preprocessor = ColumnTransformer(
    transformers=[
        ('encoder', OneHotEncoder(handle_unknown='ignore'), colunas_categoricas),
        ('scaler', StandardScaler(), colunas_numericas)
    ],
    remainder='passthrough'
)

# 3. Aplicar o processamento (TREINAR E TRANSFORMAR)
X_train_processado = preprocessor.fit_transform(X_train)

# 4. Aplicar o processamento (APENAS TRANSFORMAR)
X_test_processado = preprocessor.transform(X_test)

# Verificar o resultado
print("Dados processados com sucesso!")
print(f"Shape de X_train_processado: {X_train_processado.shape}")
print(f"Shape de X_test_processado: {X_test_processado.shape}")

In [None]:
# Criar uma pasta para salvar os dados processados (se ela não existir)
os.makedirs('../data_base/processed', exist_ok=True)

# Salvar as 4 variáveis em arquivos .pkl (pickle)
joblib.dump(X_train_processado, '../data_base/processed/X_train_processed.pkl')
joblib.dump(X_test_processado, '../data_base/processed/X_test_processed.pkl')
joblib.dump(y_train, '../data_base/processed/y_train.pkl')
joblib.dump(y_test, '../data_base/processed/y_test.pkl')
