#Regressão - Treino do modelo
---
**Aula Prática 08**: Random Forest Regressão

**Objetivo**: Treinar um modelo de regressão

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [1]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [2]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [3]:
df.head()

Unnamed: 0,seats,kms_driven,mileage,engine,max_power,torque,price,registration_tratada_antes_2010,registration_tratada_depois 2020,fuel_type_Diesel,fuel_type_Petrol,ownsership_tratado_First Owner,ownsership_tratado_None,ownsership_tratado_Second Owner,ownsership_tratado_Third Owner,transmission_tratado_Manual,transmission_tratado_None
0,5,56000,7.81,2996.0,2996.0,333.0,63.75,0,0,0,1,1,0,0,0,0,0
1,5,30615,17.4,999.0,999.0,9863.0,8.99,0,1,0,1,1,0,0,0,0,0
2,5,24000,20.68,1995.0,1995.0,188.0,23.75,0,0,1,0,1,0,0,0,0,0
3,5,18378,16.5,1353.0,1353.0,13808.0,13.56,0,0,0,1,1,0,0,0,1,0
4,5,44900,14.67,1798.0,1798.0,17746.0,24.0,0,0,0,1,1,0,0,0,0,0


## Treino de modelo de decision tree

---

Para treinar um modelo de regressão utilizaremos o pacote sklearn.

### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split

``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo RandomForestRegressor


``` python
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_train, Y_train)
```

No código acima o objeto model é do tipo RandomForestRegressor, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado a árvore de decisão.

``` python
# Para fazer predições
model.predict(X_test)
# Para acessar a importancia
model.feature_importances_

```
Alguns parâmetros da Random Forest:
* criterion: critério para quebra de um nó. Default é squared_error, mas também pode ser friedman_mse e absolute_error
* max_depth: profundidade da árvore. Default é None, isso faz com que as folhas sejam puras (observações menor que min_samples_split)
* min_samples_split: minimo de amostra para separação. Default: 2
* min_samples_leaf: Minimo de amostras em cada folha. Só será considerado quebra com no minimo esse tamanho de amostra. Default: 1.
* random_state: semente para aleatoriedade.
* n_estimators: número de árvores para construir. Default: 10


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

### Primeiro modelo
---

Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Faça as análises de apuração do modelo


In [4]:
df = df.drop(columns=['max_power'])
df=df[df.transmission_tratado_None==0]
df = df.drop(columns=['ownsership_tratado_None', 'transmission_tratado_None'])
df = df[df.price < 90]

In [5]:
var = [col for col in df.columns if col!='price']

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(df[var],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [7]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state=15)
model.fit(X_train, Y_train)

In [8]:
df_imp = pd.DataFrame(model.feature_importances_.T, index=var, columns=['Importancia'])
df_imp.sort_values('Importancia', ascending=False)

Unnamed: 0,Importancia
engine,0.451688
kms_driven,0.174704
transmission_tratado_Manual,0.136956
torque,0.114146
mileage,0.064393
registration_tratada_depois 2020,0.024129
seats,0.017882
fuel_type_Diesel,0.006425
fuel_type_Petrol,0.006002
ownsership_tratado_First Owner,0.001802


In [None]:
px.bar(df_imp.sort_values('Importancia'))

In [11]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [10]:
predict = model.predict(X_test)

In [12]:
mean_squared_error(Y_test, predict)

60.5097037192559

In [13]:
mean_absolute_error(Y_test, predict)

3.2458879823724627

In [14]:
px.scatter(x=Y_test, y=model.predict(X_test))

Exercício:
* Treine um novo modelo porém com max_depth = 4

In [25]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state=15, max_depth=8, n_estimators=1000)
model.fit(X_train, Y_train)

In [26]:
predict = model.predict(X_test)

In [27]:
px.scatter(x=Y_test, y=model.predict(X_test))

In [28]:
mean_absolute_error(Y_test, predict)

4.015970548802133

In [29]:
mean_squared_error(Y_test, predict)

74.0053924023362