#Regressão - Treino do modelo
---
**Aula Prática 06**: Decision Tree Regressão

**Objetivo**: Treinar um modelo de regressão

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [1]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [2]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [3]:
df.head()

Unnamed: 0,seats,kms_driven,mileage,engine,max_power,torque,price,registration_tratada_antes_2010,registration_tratada_depois 2020,fuel_type_Diesel,fuel_type_Petrol,ownsership_tratado_First Owner,ownsership_tratado_None,ownsership_tratado_Second Owner,ownsership_tratado_Third Owner,transmission_tratado_Manual,transmission_tratado_None
0,5,56000,7.81,2996.0,2996.0,333.0,63.75,0,0,0,1,1,0,0,0,0,0
1,5,30615,17.4,999.0,999.0,9863.0,8.99,0,1,0,1,1,0,0,0,0,0
2,5,24000,20.68,1995.0,1995.0,188.0,23.75,0,0,1,0,1,0,0,0,0,0
3,5,18378,16.5,1353.0,1353.0,13808.0,13.56,0,0,0,1,1,0,0,0,1,0
4,5,44900,14.67,1798.0,1798.0,17746.0,24.0,0,0,0,1,1,0,0,0,0,0


## Treino de modelo de decision tree

---

Para treinar um modelo de regressão utilizaremos o pacote sklearn.

### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split

``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo DecisionTreeRegressor


``` python
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(X_train, Y_train)
```

No código acima o objeto model é do tipo DecisionTreeRegressor, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado a árvore de decisão.

``` python
# Para fazer predições
model.predict(X_test)
# Para acessar a importancia
model.feature_importances_

```
Alguns parâmetros da Decision Tree:
* criterion: critério para quebra de um nó. Default é squared_error, mas também pode ser friedman_mse e absolute_error
* max_depth: profundidade da árvore. Default é None, isso faz com que as folhas sejam puras (observações menor que min_samples_split)
* min_samples_split: minimo de amostra para separação. Default: 2
* min_samples_leaf: Minimo de amostras em cada folha. Só será considerado quebra com no minimo esse tamanho de amostra. Default: 1.
* random_state: semente para aleatoriedade.


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

### Primeiro modelo
---

Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Faça as análises de apuração do modelo


In [4]:
df = df.drop(columns=['max_power'])
df=df[df.transmission_tratado_None==0]
df = df.drop(columns=['ownsership_tratado_None', 'transmission_tratado_None'])
df = df[df.price < 90]

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(df.drop(columns=['price']),
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [6]:
X_train.head()

Unnamed: 0,seats,kms_driven,mileage,engine,torque,registration_tratada_antes_2010,registration_tratada_depois 2020,fuel_type_Diesel,fuel_type_Petrol,ownsership_tratado_First Owner,ownsership_tratado_Second Owner,ownsership_tratado_Third Owner,transmission_tratado_Manual
1216,5,88281,21.4,1197.0,831.0,0,0,0,1,1,0,0,1
260,7,42000,10.75,2694.0,1637.0,0,0,0,1,1,0,0,0
1424,5,24268,1197.0,82.0,114.0,0,0,0,1,1,0,0,1
259,5,9246,19.4,999.0,11398.0,0,1,0,1,1,0,0,1
40,6,35000,12.4,1996.0,21501.0,0,1,1,0,1,0,0,0


In [7]:
Y_train

1216     5.01
260     17.90
1424     2.85
259     15.62
40      35.00
        ...  
705      1.32
158     37.50
416      5.71
681     16.90
1540     6.44
Name: price, Length: 1043, dtype: float64

In [8]:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(random_state=15)
model.fit(X_train, Y_train)

In [9]:
var = X_train.columns

In [10]:
df_imp = pd.DataFrame(model.feature_importances_.T, index=var, columns=['Importancia'])
df_imp.sort_values('Importancia', ascending=False)

Unnamed: 0,Importancia
engine,0.473974
kms_driven,0.166772
transmission_tratado_Manual,0.137989
torque,0.109637
mileage,0.0528
seats,0.028534
registration_tratada_depois 2020,0.019809
fuel_type_Diesel,0.006981
fuel_type_Petrol,0.002698
ownsership_tratado_First Owner,0.000572


In [12]:
px.bar(df_imp.sort_values('Importancia'))

In [13]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [14]:
predict = model.predict(X_test)

In [18]:
min(predict)

1.09

In [16]:
mean_squared_error(Y_test, predict)

126.60001016654236

In [17]:
mean_absolute_error(Y_test, predict)

3.5050633855331843

In [19]:
px.scatter(x=Y_test, y=model.predict(X_test))

Exercício:
* Treine um novo modelo porém com max_depth = 4

In [27]:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(random_state=15, max_depth=4)
model.fit(X_train, Y_train)

In [28]:
predict = model.predict(X_test)

In [33]:
sorted(predict)

[6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.88760961810466,
 6.887609618

In [29]:
px.scatter(x=Y_test, y=model.predict(X_test))

In [30]:
mean_absolute_error(Y_test, predict)

5.764233159886214

In [31]:
mean_squared_error(Y_test, predict)

125.42845430561036