# Introdução
Após a análise exploratória feita no outro arquivo, será feito o Machine Learning com os dados e conclusões obtidas.

# 1. Carregamento de Dataset
Utilizaremos os mesmos métodos de carregamento do arquivo de análise exploratória

## a) Utilizar a API do Kaggle

In [None]:
# Parte para baixar o arquivo utilizando a API do Kaggle
import kagglehub

# Baixando o arquivo
caminho = kagglehub.dataset_download("khushikyad001/electric-vehicle-analytics-dataset")

print("Caminho para o dataset:", caminho)

## b) Utilizar arquivo .csv já baixado

In [None]:
# Parte para utilizar o arquivo já baixado
import os

# Começando o caminho vazio
caminho = None

# Procurando o arquivo no diretório atual
arquivos = os.listdir(".")
for arquivo in arquivos:
    if arquivo == "electric_vehicle_analytics.csv":
        caminho = os.path.join(".",arquivo)
        break

if caminho:
    print("Caminho para o dataset:", caminho)
else:
    print("Dataset não encontrado!")

# 2. Pré-tratamento de dados
Nesta parte será retirada a coluna de ID de veículos, por não ser útil para a IA e também as variáveis categóricas serão tratadas para que possam ser utilizadas pela IA. Por último os dados serão separados entre teste e treino.

In [None]:
import pandas as pd
from datetime import datetime
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# Carregando o Dataset
df = pd.read_csv(caminho)

# Definindo a coluna de saída
TARGET_COL = "Resale_Value_USD"

# Retirando a coluna de ID
df = df.drop(columns="Vehicle_ID")

# Tratando o Ano do carro como a sua "idade"
ano_atual = datetime.now().year
df["Idade"] = ano_atual - df["Year"]
df = df.drop("Year", axis= 1)

# Tratando as variáveis categóricas
le_Make = LabelEncoder()
le_Model = LabelEncoder()
le_Region = LabelEncoder()
le_Vehicle_Type = LabelEncoder()
le_Usage_Type = LabelEncoder()

# Codificando as variáveis categóricas
df["Make"] = le_Make.fit_transform(df["Make"])
df["Model"] = le_Model.fit_transform(df["Model"])
df["Region"] = le_Region.fit_transform(df["Region"])
df["Vehicle_Type"] = le_Vehicle_Type.fit_transform(df["Vehicle_Type"])
df["Usage_Type"] = le_Usage_Type.fit_transform(df["Usage_Type"])

# Separando as entradas e saída
X = df.drop[TARGET_COL]
y = df[TARGET_COL]

# Separado os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

# 3. Criação da IA
Nesta parte serão criados 3 modelos diferentes de ensemble para no final o desempenho de cada um ser comparado e decidir qual é o melhor.

In [None]:
import numpy as np
from scipy.stats import randint
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor, BaggingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import RandomizedSearchCV

# Aleatorizando parâmetros para o RandomizedSearch
gb_param = {

}

rf_param = {

}

bg_param = {

}

# Selecionando os modelos
gb = GradientBoostingRegressor()
rf = RandomForestRegressor()
bg = BaggingRegressor()

# Fazendo a RandomizedSearch
gb_search = RandomizedSearchCV(gb, gb_param, n_iter=20, scoring="neg_mean_squared_error", cv=3, random_state=100, verbose=2)
rf_search = RandomizedSearchCV(rf, rf_param, n_iter=20, scoring="neg_mean_squared_error", cv=3, random_state=100, verbose=2)
bg_search = RandomizedSearchCV(bg, bg_param, n_iter=20, scoring="neg_mean_squared_error", cv=3, random_state=100, verbose=2)

In [None]:
# Mostrando as pontuações
print("----------//----------")
print(f"Melhor Gradient Boosting: {gb_search.best_estimator_}")
print(f"Pontuação: {gb_search.best_score_}")
print("----------//----------")
print(f"Melhor Random Forest: {rf_search.best_estimator_}")
print(f"Pontuação: {rf_search.best_score_}")
print("----------//----------")
print(f"Melhor Bagging: {bg_search.best_estimator_}")
print(f"Pontuação: {bg_search.best_score_}")