# Importar bibliotecas

In [0]:
import pandas as pd
import numpy as np

# Leitura do arquivo fa084_tch_mult.csv

In [0]:
# Leitura do csv
df = pd.read_csv('fa084_tch_mult.csv')

* Excluir o atributo 'espac'
* Excluir os registros com estágio de corte 7
* Considerar as três variedades mais frequentes e excluir as demais

In [3]:
# Excluir 'espac'
df = df.drop(['espac'], axis=1)
# Excluir os registros com estágio de corte 7
df = df.drop(df[df.estagio > 6].index)
# Considerar somente as três variedades mais frequentes e excluir as demais
df = df[(df.variedade.isin(["RB867515", "SP813250", "RB855453"]))]
df.variedade.value_counts()

RB867515    5084
SP813250    2500
RB855453     981
Name: variedade, dtype: int64

In [4]:
# Check dimensões do arquivo
df.shape

(8565, 13)

## OneHotEncode (Atributos 'variedade' e 'solo')

In [6]:
df = pd.get_dummies(df)
df.head()

Unnamed: 0,lstd_iii,lstn_iii,lstd_ii,lstn_ii,lstd_i,lstn_i,ppt_i,ppt_ii,ppt_iii,estagio,tch,variedade_RB855453,variedade_RB867515,variedade_SP813250,solo_LP,solo_O,solo_R
0,299.186864,290.494075,306.401096,291.992136,298.458682,288.992257,206.8,678.6,247.7,6,55.55,0,1,0,1,0,0
1,298.088264,288.17315,306.461866,293.165228,297.328718,287.08118,204.0,734.3,187.2,6,48.38,0,1,0,1,0,0
6,301.344432,290.950374,302.711637,292.547192,308.845341,291.290525,243.9,683.0,175.1,5,58.82,1,0,0,1,0,0
23,299.265596,289.315784,307.63098,293.939584,300.617262,288.640784,201.1,929.6,220.3,5,37.18,0,1,0,1,0,0
24,298.606262,289.233389,307.139082,293.940056,301.197474,288.044601,203.2,927.6,220.3,5,42.92,0,1,0,1,0,0


# Construção de Modelos

## Importar pacotes do Scikit-Learn necessários para construção e avaliação dos modelos

In [0]:
# Conjunto Treino/Teste
from sklearn.model_selection import  train_test_split

# Calcular MSE/RMSE
from sklearn.metrics import  mean_squared_error

# AdaBoost
from sklearn.ensemble import AdaBoostRegressor

# Random Forest
from sklearn.ensemble import RandomForestRegressor

# Gradient Boost
from sklearn.ensemble import GradientBoostingRegressor

# XGBoost (NÃO É DO SCIKIT-LEARN)
import xgboost as xgb

## Dividir Conjunto de dados em Treino/Test na proporção 70/30 (random_state = 2020)


In [0]:
# Separar atributos preditores(X) do atributo meta (y)
y = df.tch
X = df.drop (['tch'], axis=1)

In [0]:
# Criar X_train, X_test, y_train, y_test com as proporções 70/30 e random_state = 2020
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state = 2020, test_size = 0.3)

## AdaBoost (Mod1)

In [10]:
# Construir Modelo (Mod1) (Usar random_state = 2020)
Regr_Ada = AdaBoostRegressor(random_state=2020)
Mod1 = Regr_Ada.fit(X_train,y_train) 

# Fazer predição
y_mod1 = Mod1.predict(X_test)

# Calcular RMSE
rmse_1 = np.sqrt(mean_squared_error(y_test,y_mod1))
rmse_1

17.593934506701167

## Random Forest (Mod2)

In [0]:
# Construir Modelo (Mod1) (Usar random_state = 2020)
Regr_RF = RandomForestRegressor(random_state=2020)
Mod2 = Regr_RF.fit(X_train, y_train)

# Fazer predição
y_mod2 = Mod2.predict(X_test)

# Calcular RMSE
rmse_2 = np.sqrt(mean_squared_error(y_test,y_mod2))
rmse_2

9.976841550486526

## GBoost - Gradient Boosting (Mod3)

In [0]:
# Construir Modelo (Mod3) (Usar random_state = 2020)
Regr_GB = GradientBoostingRegressor(random_state=2020)
Mod3 = Regr_GB.fit(X_train, y_train)

# Fazer predição
y_mod3 = Mod3.predict(X_test)

# Calcular RMSE
rmse_3 = np.sqrt(mean_squared_error(y_test,y_mod3))
rmse_3

15.320053433296648

## XGBoost - eXtended Gradient Boosting (Mod4)

In [0]:
# Construir Modelo (Mod3) (Usar random_state = 2020)
Regr_XGB = xgb.XGBRegressor(random_state=2020, objective='reg:squarederror')
Mod4 = Regr_XGB.fit(X_train, y_train)

# Fazer predição
y_mod4 = Mod4.predict(X_test)

# Calcular RMSE
rmse_4 = np.sqrt(mean_squared_error(y_test,y_mod4))
rmse_4

15.385537841383053

# Avaliação e comparação dos resultados obtidos com os modelos

## RMSE dos quatro modelos

In [0]:
# rmse_1 - AdaBoost
# rmse_2 - Random Forest
# rmse_3 - Gradient Boosting
# rmse_4 - eXtended Gradient Boosting
rmse_mod = [rmse_1,rmse_2,rmse_3,rmse_4]

# Construir um DataFrame para os RMSE
df_rmse = pd.DataFrame(rmse_mod,
                      columns = ['RMSE'],
                      index=['AdaBoost','Random Forest','GBoosting','XGBoosting'])

## Gráfico de Barras dos RMSE dos quatro modelos

In [0]:
# Gráfico de Barras dos RMSE dos modelos
df_rmse.plot.bar();

## Histograma dos erros do Random Forest (Melhor Modelo)

In [0]:
# Importar pacote matplotlib
import matplotlib.pyplot as plt

In [0]:
# Construir um vetor com os erros
# OBS: Desta vez, NÃO É O ERRO EM MÓDULO, MAS O VALOR DO ERRO (Positivo ou Negativo)
erro_RF = 

In [0]:
# Qual a média dos erros?


In [0]:
# Construir histograma com bins=20 e figsize=(12,8)


# ATIVIDADE PRÁTICA

## 1) Otimizar hiper parâmetros dos quatro modelos.

* AdaBoost: max_depth - Utilizar parâmetro: AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=?)  

* Random Forest: n_estimators (Número de árvores) e max_features (Quantidade de atributos a serem considerados a cada split)  
  - max_features for inteiro => número absoluto de atributos
  - max_features for real    => percentual dos atributos  

* GBoost: max_depth  

* XGBoost: max_depth

## 2) Calcular RMSE dos quatro modelos obtidos com os novos hiper parâmetros

## 3) Gráfico de Barras dos RMSE dos quatro modelos

## 4) Histograma dos erros dos quatro modelos  

* Indicar a Média dos erros para cada um
* Construir os quatro gráficos (2 x 2) utilizando as mesmas escalas para os eixos x e y

#Construir um gráfico (scatter) para cada modelo com y_test no eixo x e y_mod no eixo y
Em cada gráfico, construir a linha que corta os eixos e tem inclinação de 45°