#Regressão - Treino do modelo
---
**Aula Prática 06**: Decision Tree Regressão

**Objetivo**: Treinar um modelo de regressão

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [None]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [None]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [None]:
df.head()

## Treino de modelo de decision tree

---

Para treinar um modelo de regressão utilizaremos o pacote sklearn.

### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split

``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo DecisionTreeRegressor


``` python
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(X_train, Y_train)
```

No código acima o objeto model é do tipo DecisionTreeRegressor, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado a árvore de decisão.

``` python
# Para fazer predições
model.predict(X_test)
# Para acessar a importancia
model.feature_importances_

```
Alguns parâmetros da Decision Tree:
* criterion: critério para quebra de um nó. Default é squared_error, mas também pode ser friedman_mse e absolute_error
* max_depth: profundidade da árvore. Default é None, isso faz com que as folhas sejam puras (observações menor que min_samples_split)
* min_samples_split: minimo de amostra para separação. Default: 2
* min_samples_leaf: Minimo de amostras em cada folha. Só será considerado quebra com no minimo esse tamanho de amostra. Default: 1.
* random_state: semente para aleatoriedade.


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

### Primeiro modelo
---

Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Faça as análises de apuração do modelo


In [None]:
df = df.drop(columns=['max_power'])
df=df[df.transmission_tratado_None==0]
df = df.drop(columns=['ownsership_tratado_None', 'transmission_tratado_None'])
df = df[df.price < 90]

In [None]:
var = [col for col in df.columns if col!='price']

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(df[var],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [None]:
X_train.head()

In [None]:
Y_train

In [None]:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(random_state=15)
model.fit(X_train, Y_train)

In [None]:
df_imp = pd.DataFrame(model.feature_importances_.T, index=var, columns=['Importancia'])
df_imp.sort_values('Importancia', ascending=False)

In [None]:
px.bar(df_imp.sort_values('Importancia'))

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
predict = model.predict(X_test)

In [None]:
mean_squared_error(Y_test, predict)

In [None]:
mean_absolute_error(Y_test, predict)

In [None]:
px.scatter(x=Y_test, y=model.predict(X_test))

Exercício:
* Treine um novo modelo porém com max_depth = 4

In [None]:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(random_state=15, max_depth=2)
model.fit(X_train, Y_train)

In [None]:
predict = model.predict(X_test)

In [None]:
px.scatter(x=Y_test, y=model.predict(X_test))

In [None]:
mean_absolute_error(Y_test, predict)