#Regressão - Treino do modelo
---
**Aula Prática 10**: XGBoost Regressão

**Objetivo**: Treinar um modelo de regressão

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [3]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [4]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [5]:
df.head()

Unnamed: 0,seats,kms_driven,mileage,engine,max_power,torque,price,registration_tratada_antes_2010,registration_tratada_depois 2020,fuel_type_Diesel,fuel_type_Petrol,ownsership_tratado_First Owner,ownsership_tratado_None,ownsership_tratado_Second Owner,ownsership_tratado_Third Owner,transmission_tratado_Manual,transmission_tratado_None
0,5,56000,7.81,2996.0,2996.0,333.0,63.75,0,0,0,1,1,0,0,0,0,0
1,5,30615,17.4,999.0,999.0,9863.0,8.99,0,1,0,1,1,0,0,0,0,0
2,5,24000,20.68,1995.0,1995.0,188.0,23.75,0,0,1,0,1,0,0,0,0,0
3,5,18378,16.5,1353.0,1353.0,13808.0,13.56,0,0,0,1,1,0,0,0,1,0
4,5,44900,14.67,1798.0,1798.0,17746.0,24.0,0,0,0,1,1,0,0,0,0,0


## Treino de modelo de decision tree

---

Para treinar um modelo de regressão utilizaremos o pacote sklearn.

### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split

``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo XGBRegressor


``` python
from xgboost import XGBRegressor
model = XGBRegressor(objective='reg:squarederror')
model.fit(X_train, Y_train)
```

No código acima o objeto model é do tipo XGBRegressor, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado a árvore de decisão.

``` python
# Para fazer predições
model.predict(X_test)
# Para acessar a importancia
model.feature_importances_

```
Alguns parâmetros da XGBoost:
* max_depth: profundidade da árvore. Default é 6.
* seed: semente para aleatoriedade.
* n_estimators*: número de árvores para construir. Default é 100.
* subsample: número de instancias para amostrar.
* colsample_bytree: número de colunas para amostrar ao construir uma árvore. Também é possível por level e por nó.
* objective: tipo de função de perda.
* learning_rate**: parâmetro de aprendizado do modelo. Quanto menor o valor mais árvores são necessarias. Default: 0.3


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

### Primeiro modelo
---

Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Faça as análises de apuração do modelo


In [6]:
df = df.drop(columns=['max_power'])
df=df[df.transmission_tratado_None==0]
df = df.drop(columns=['ownsership_tratado_None', 'transmission_tratado_None'])
df = df[df.price < 90]

In [7]:
var = [col for col in df.columns if col!='price']

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(df[var],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [9]:
from xgboost import XGBRegressor
model = XGBRegressor(objective='reg:squarederror')
model.fit(X_train, Y_train)

In [10]:
df_imp = pd.DataFrame(model.feature_importances_.T, index=var, columns=['Importancia'])
df_imp.sort_values('Importancia', ascending=False)

Unnamed: 0,Importancia
transmission_tratado_Manual,0.506827
engine,0.231812
registration_tratada_depois 2020,0.071102
torque,0.055659
kms_driven,0.033291
seats,0.029618
mileage,0.02407
fuel_type_Diesel,0.019881
fuel_type_Petrol,0.013037
ownsership_tratado_First Owner,0.006428


In [11]:
px.bar(df_imp.sort_values('Importancia'))

In [12]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [13]:
predict = model.predict(X_test)

In [14]:
mean_squared_error(Y_test, predict)

60.99075858031816

In [15]:
mean_absolute_error(Y_test, predict)

2.559315852532184

In [16]:
px.scatter(x=Y_test, y=model.predict(X_test))

Exercício:
* Treine um novo modelo porém com max_depth = 4

In [17]:
from xgboost import XGBRegressor
model = XGBRegressor(objective='reg:squarederror', max_depth=4, learning_rate=.1)
model.fit(X_train, Y_train)

In [18]:
predict = model.predict(X_test)

In [19]:
px.scatter(x=Y_test, y=model.predict(X_test))

In [20]:
mean_absolute_error(Y_test, predict)

3.58853143384526