# Exercícios Regressão

Utilize a base de dados de preço de carros (`car_price_train.csv`).

O objetivo é criar um modelo que seja capaz de sugerir o preço de venda de carros usados na concessionária Supimpa.

A base contém informações sobre as caracteristicas do carro:

- `carID` - variável que identifica o carro
- `brand` - marca do carro
- `model` - modelo do carro
- `year` - ano
- `transmission` - tipo da transmissão
- `mileage` - quilometragem
- `fuelType` - tipo de combustível
- `tax` - imposto
- `mpg` - miles por gallon - milhas por galão
- `engineSize` - tamanho do motor
- `target` - preço de venda do carro em dólares



## Carregando os dados

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/datasets/car_price_train.csv')
df.head(3)

In [None]:
df.shape

In [None]:
df.describe()

## Definindo as variáveis

In [None]:
df.columns

In [None]:
key_vars = ['carID']
num_vars = ['mileage', 'tax', 'mpg', 'engineSize']
cat_vars = ['brand', 'model', 'transmission', 'fuelType']

features = cat_vars + num_vars
target = 'target'

X = df[features]
y = df[target]

## Criando a base de treino e teste

Crie a base de treino e teste utilizando o método `train_test_split` com os seguintes parâmetros.

`test_size=0.2`
`random_state=42`

## Pipeline de dados

Crie os pipelines de transformações de dados para modelos lineares e não lineares.

Selecione as técnicas de feature engineering que julgar que sejam as mais adequadas para as variáveis da conjunto de dados.

Para facilitar, crie listas de tuplas que definem os steps para modelos lineares e não lineares.

## Treinando diversos modelos

Crie um DataFrame comparativo com os seguintes algoritmos:

- LinearRegression
- SGDRegressor
- DecisionTreeRegressor
- RandomForestRegressor
- XGBRegressor
- LGBMRegressor
- XGBRegressor
- CatBoostRegressor

Compute as seguintes métricas tanto para treino, quanto para teste:
- RMSE
- MAE
- MAPE

O DataFrame abaixo é um exemplo do que é esperado.

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>algoritmo</th>
      <th>base</th>
      <th>rmse</th>
      <th>mae</th>
      <th>mape</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>16</th>
      <td>catboost</td>
      <td>treino</td>
      <td>2423.2371</td>
      <td>1742.7349</td>
      <td>0.1021</td>
    </tr>
    <tr>
      <th>17</th>
      <td>catboost</td>
      <td>teste</td>
      <td>4007.3208</td>
      <td>2385.0553</td>
      <td>0.1318</td>
    </tr>
    <tr>
      <th>6</th>
      <td>decision_tree</td>
      <td>treino</td>
      <td>249.1378</td>
      <td>24.5117</td>
      <td>0.0009</td>
    </tr>
    <tr>
      <th>7</th>
      <td>decision_tree</td>
      <td>teste</td>
      <td>6608.6693</td>
      <td>3460.4962</td>
      <td>0.1770</td>
    </tr>
    <tr>
      <th>10</th>
      <td>gb</td>
      <td>treino</td>
      <td>4260.8895</td>
      <td>3067.5421</td>
      <td>0.1932</td>
    </tr>
    <tr>
      <th>11</th>
      <td>gb</td>
      <td>teste</td>
      <td>4899.7093</td>
      <td>3312.6936</td>
      <td>0.1914</td>
    </tr>
  </tbody>
</table>

In [None]:
!pip install lightgbm xgboost catboost

## Validação Cruzada

Selecione os dois principais algoritmos que tiveram o melhor valor para MAE e aplique  a validação cruzada Kfold.

Utilize a funcionalidade `cross_val_score` com os seguintes parâmetros:

- `scoring='neg_mean_absolute_error'`
- `X=X_train`
- `y=y_train`
- `n_jobs=-1`

Utilize a funcionalidade `KFold` com os seguintes parâmetros:

- `n_splits=5`
- `shuffle=True`
- `random_state=4`

Lembre-se de calcular a média e desvio padrão para cada validação cruzada.


## Otimização de Hiperparâmetros

Para o melhor modelo encontrado na Validação Cruzada, aplique uma grid de hiperparâmetros e diversos valores.

Essa grid deve ter ao menos 3 hiperparâmetros e 3 diferentes valores para cada hiperparâmetro.

Utilize o método `GridSearchCV` com os seguintes parâmetros:
- `scoring='neg_mean_absolute_error'`
- `cv=3`
- `n_jobs=-1`

## Feature Selection

Aplique uma técnica de seleção automática de atributos.

Lembre-se de converter os dados de treino e teste utilizando o pipeline do melhor modelo.

Após a seleção automatica de atributos, será necessário treinar um novo modelo somente com esses atributos, além disso aplique os valores para os hiperparâmetros que foram encontrados durante o GridSearchCV para o algoritmo que produziu o melhor modelo.

## Avalie o melhor modelo na base de produção

Para o melhor modelo, avali-o na base de produção.

Lembre-se de avaliar os pipelines criados anteriormente. Todas as variáveis existentes durante o processo de treinamento, devem ser criadas/utilizadas na predição do modelo.

In [None]:
df_prod = pd.read_csv('/content/drive/MyDrive/datasets/car_price_prod.csv')
df_prod.shape

In [None]:
df_prod.head(3)