# Random Forest Regressor

Modelo que utiliza árvores de decisão randomizadas.

## Importação do dataset

In [1]:
import numpy as np

f_train = 'facebook_general_dataset/Dataset/Training/Features_All.csv'
X_train = np.genfromtxt(f_train, delimiter=',', usecols=range(0, 53))
y_train = np.genfromtxt(f_train, delimiter=',', usecols=(53))

print(X_train.shape)
print(y_train.shape)

(239979, 53)
(239979,)


In [2]:
f_test = 'facebook_general_dataset/Dataset/Testing/Features_TestSet.csv'
X_test = np.genfromtxt(f_test, delimiter=',', usecols=range(0, 53))
y_test = np.genfromtxt(f_test, delimiter=',', usecols=(53))

print(X_test.shape)
print(y_test.shape)

(10044, 53)
(10044,)


---

## Teste com valores padrão

### Instanciação do modelo

In [4]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
rfr = RandomForestRegressor(max_depth=2, random_state=0)

### Treino e predição

In [45]:
rfr.fit(X_train, y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=2,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [48]:
y_pred = rfr.predict(X_test)

In [49]:
rfr.score(X_test, y_test)

0.15706707661723107

### Obtenção de métricas

In [8]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt

In [53]:
mae  = mean_absolute_error(y_test, y_pred)
mse  = mean_squared_error(y_test, y_pred)
rmse = sqrt(mse)
r2   = r2_score(y_test, y_pred)
print("MAE : ", mae, "\nMSE: ", mse, "\nRMSE: ", rmse, "\nR2: ", r2)

MAE :  28.01589623651051 
MSE:  11153.157902403973 
RMSE:  105.6085124523775 
R2:  0.15706707661723107


---

## Testes com variação de hiperparâmetros

O regressor Random Forest tem 2 parâmetros principais: o número de árvores (dado pelo argumento `n_estimators`) e a profundidade máxima das árvores (dada por `max_depth`). Foi avaliada a variação de cada um separadamente, mantendo os outros parâmetros constantes e com valores default.


### Variação do número de árvores (`n_estimators`)

In [32]:
mae = []
mse = []
rmse = []
r2 = []

for i in range(1,10):
    print('------------------------------------------------------------------')
    print('Número de árvores:', i)
    rfr = RandomForestRegressor(max_depth=2, random_state=0, n_estimators = i)
    rfr.fit(X_train, y_train)
    y_pred = rfr.predict(X_test)
    maei  = mean_absolute_error(y_test, y_pred)
    mae.append(maei)
    msei  = mean_squared_error(y_test, y_pred)
    mse.append(msei)
    rmsei = sqrt(msei)
    rmse.append(rmsei)
    r2i   = r2_score(y_test, y_pred)
    r2.append(r2i)
    print("MAE : ", maei, "\nMSE: ", msei, "\nRMSE: ", rmsei, "\nR2: ", r2i)

------------------------------------------------------------------
Número de árvores: 1
MAE :  28.738399751873768 
MSE:  11288.41041328002 
RMSE:  106.2469313122973 
R2:  0.14684496774140932
------------------------------------------------------------------
Número de árvores: 2
MAE :  28.668038256326597 
MSE:  11280.644348586666 
RMSE:  106.21037778196002 
R2:  0.14743191106924802
------------------------------------------------------------------
Número de árvores: 3
MAE :  28.10279846315606 
MSE:  11135.07156770814 
RMSE:  105.52284855759032 
R2:  0.15843400489995096
------------------------------------------------------------------
Número de árvores: 4
MAE :  28.129302194300013 
MSE:  11137.578788422861 
RMSE:  105.5347278786602 
R2:  0.1582445142727117
------------------------------------------------------------------
Número de árvores: 5
MAE :  28.07716669301186 
MSE:  11154.152083823945 
RMSE:  105.61321926645331 
R2:  0.15699193841350056
------------------------------------------

#### Melhores resultados

In [33]:
print("Número de árvores:" , mae.index(min(mae))+1, "MAE : ", min(mae))
print("Número de árvores:" , mse.index(min(mse))+1, "\nMSE: ", min(mse))
print("Número de árvores:" , rmse.index(min(rmse))+1, "\nRMSE: ", min(rmse))
print("Número de árvores:" , r2.index(max(r2))+1, "\nR2: ", max(r2))

Número de árvores: 9 MAE :  28.04064731253625
Número de árvores: 3 
MSE:  11135.07156770814
Número de árvores: 3 
RMSE:  105.52284855759032
Número de árvores: 3 
R2:  0.15843400489995096


### Variação da profundidade máxima (`max_depth`)

In [36]:
mae = []
mse = []
rmse = []
r2 = []

for i in range(1,10):
    print('------------------------------------------------------------------')
    print('Profundidade da árvore:', i)
    rfr = RandomForestRegressor(max_depth=i, random_state=0)
    rfr.fit(X_train, y_train)
    y_pred = rfr.predict(X_test)
    maei  = mean_absolute_error(y_test, y_pred)
    mae.append(maei)
    msei  = mean_squared_error(y_test, y_pred)
    mse.append(msei)
    rmsei = sqrt(msei)
    rmse.append(rmsei)
    r2i   = r2_score(y_test, y_pred)
    r2.append(r2i)
    print("MAE : ", maei, "\nMSE: ", msei, "\nRMSE: ", rmsei, "\nR2: ", r2i)

------------------------------------------------------------------
Profundidade da árvore: 1
MAE :  27.484384803992953 
MSE:  12295.03895714369 
RMSE:  110.8829966998714 
R2:  0.07076603577751661
------------------------------------------------------------------
Profundidade da árvore: 2
MAE :  28.01589623651051 
MSE:  11153.157902403973 
RMSE:  105.6085124523775 
R2:  0.15706707661723107
------------------------------------------------------------------
Profundidade da árvore: 3
MAE :  25.253761111614665 
MSE:  9656.635387802882 
RMSE:  98.26818095295589 
R2:  0.2701711955743321
------------------------------------------------------------------
Profundidade da árvore: 4
MAE :  25.485010791736187 
MSE:  9130.753386312836 
RMSE:  95.55497572765552 
R2:  0.30991628452127873
------------------------------------------------------------------
Profundidade da árvore: 5
MAE :  25.24103473162654 
MSE:  8669.709503609125 
RMSE:  93.11127484686871 
R2:  0.3447610407110405
-----------------------

In [37]:
print("Profundidade da árvore:" , mae.index(min(mae))+1, "MAE : ", min(mae))
print("Profundidade da árvore:" , mse.index(min(mse))+1,"\nMSE: ", min(mse))
print("Profundidade da árvore:" , rmse.index(min(rmse))+1,"\nRMSE: ", min(rmse))
print("Profundidade da árvore:" , r2.index(max(r2))+1,"\nR2: ", max(r2))

Profundidade da árvore: 5 MAE :  25.24103473162654
Profundidade da árvore: 8 
MSE:  8606.33382040595
Profundidade da árvore: 8 
RMSE:  92.77032834050955
Profundidade da árvore: 8 
R2:  0.34955084557001403
