# Carregando Bibliotecas

In [52]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import time

# Carregando Dataset

Utilizando a redução de features, tendo como base as atividades realizadas no [documento de análise de features](https://github.com/Machine-Learning-FGA/Facebook-Comment-problem/blob/master/data_visualizatio_grafics.ipynb), são retiradas 31 features : 0,1,2,3,4,9,14,19,24,26,27,31,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,   lembrando que foram retiradas todas as features que possuiam correlação menor que 20%. Obtém-se então o seguinte dataset:

## Dataset de Treino

In [53]:
f_train = 'facebook_general_dataset/Dataset/Training/Features_All.csv'
X_train = np.genfromtxt(f_train, delimiter=',', usecols=(5,6,7,8,10,11,12,13,15,16,17,18,20,21,22,23,25,28,29,30,32))
y_train = np.genfromtxt(f_train, delimiter=',', usecols=(53))

print(X_train.shape)
print(y_train.shape)

(239979, 21)
(239979,)


## Dataset de Teste

In [54]:
f_test = 'facebook_general_dataset/Dataset/Testing/Features_TestSet.csv'
X_test = np.genfromtxt(f_test, delimiter=',', usecols=(5,6,7,8,10,11,12,13,15,16,17,18,20,21,22,23,25,28,29,30,32))
y_test = np.genfromtxt(f_test, delimiter=',', usecols=(53))

print(X_test.shape)
print(y_test.shape)

(10044, 21)
(10044,)


# Aplicando o modelo

## Com valores de parâmetros padrão

In [55]:
from sklearn.ensemble import RandomForestRegressor

In [57]:
rfr = RandomForestRegressor(max_depth=None, random_state=0)

### Treino

In [58]:
rfr.fit(X_train, y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [59]:
y_pred = rfr.predict(X_test)

### Métricas

Serão aplicadas as 4 métricas principais, relacionadas a variáveis contínuas, que  melhor se adequam ao problema a ser resolvido, sendo elas: 

* MAE : Erro médio absoluto  

    Magnitude média dos erros em um conjunto de previsões, é a média, sobre a amostra de teste, das diferenças absolutas entre previsão e observação real, onde todas as diferenças individuais têm peso igual.
    
* MSE:  Erro quadrático médio

    É como um critério para selecionar um estimador adequado: em modelos estatísticos, os modeladores devem escolher entre vários estimadores do potencial. Em termos práticos, o EQM é igual à soma da variância e a tendenciosidade do quadrado do estimador. O ideal é que o ESE seja 0, pois significa que o estimador prevê observações com precisão perfeita.Coloca mais peso em grandes erros. 
    
* RMSE: Raiz do Erro quadrático médio

     RMSE é uma regra de pontuação quadrática que também mede a magnitude média do erro. É a raiz quadrada da média das diferenças quadradas entre previsão e observação real. 
     Tirar a raiz quadrada dos erros quadrados médios tem algumas implicações interessantes para o RMSE. Como os erros são elevados antes da média, o RMSE atribui um peso relativamente alto a erros grandes. Isso significa que o RMSE deve ser mais útil quando erros grandes são particularmente indesejáveis. 
     
* R2: 

    É um coeficiente de determinação que varia de 0 a 1, que fornece uma medida de quão bem as amostras futuras provavelmente serão previstas pelo modelo. Um modelo que sempre prevê o esperado teria pontuação 0, mas a melhor pontuação é 1. O cálculo se dá pelo quadrado da correlação entre os dados esperados e o previsto. 
   

In [60]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt

In [61]:
mae  = mean_absolute_error(y_test, y_pred)
mse  = mean_squared_error(y_test, y_pred)
rmse = sqrt(mse)
r2   = r2_score(y_test, y_pred)
print("MAE : ", mae, "\nMSE: ", mse, "\nRMSE: ", rmse, "\nR2: ", r2)

MAE :  36.5269507859833 
MSE:  12475.30627561789 
RMSE:  111.6929105879952 
R2:  0.057141799567332785


## Testes com variação de hiperparâmetros

O regressor Random Forest tem 2 parâmetros principais: o número de árvores (dado pelo argumento `n_estimators`) e a profundidade máxima das árvores (dada por `max_depth`). Foi avaliada a variação de ambos ao mesmo tempo. Constatou-se durante os experimentos que com a variação do número de árvores o score começava a cair muito a partir da profundidade 10, por isso o teste foi feito até aí. 


### Variação do número de árvores (`n_estimators`) e profundidade da árvore ('max_depth')

In [78]:
mae = []
mse = []
rmse = []
r2 = []
tempo = []

for i in range(1,50):
    print('------------------------------------------------------------------')
    for j in range(1,10):        
        print('\n\nNúmero de árvores:', i)
        print('\nProfundidade:', j, '\n')
        inicio = time.time()
        rfr = RandomForestRegressor(max_depth=j, random_state=0, n_estimators = i)
        rfr.fit(X_train, y_train)
        y_pred = rfr.predict(X_test)
        fim = time.time()
        maei  = mean_absolute_error(y_test, y_pred)
        mae.append(maei)
        msei  = mean_squared_error(y_test, y_pred)
        mse.append(msei)
        rmsei = sqrt(msei)
        rmse.append(rmsei)
        r2i   = r2_score(y_test, y_pred)
        r2.append(r2i)
        print("MAE : ", maei, "\nMSE: ", msei, "\nRMSE: ", rmsei, "\nR2: ", r2i)        
        tempo.append(fim)
        print("Tempo gasto: ", fim - inicio)

------------------------------------------------------------------


Número de árvores: 1

Profundidade: 1 

MAE :  27.70626032946779 
MSE:  12296.597787210427 
RMSE:  110.89002564347447 
R2:  0.07064822258086789
Tempo gasto:  0.18745017051696777


Número de árvores: 1

Profundidade: 2 

MAE :  26.39497963260048 
MSE:  11652.487627592194 
RMSE:  107.94668882180775 
R2:  0.1193287545502495
Tempo gasto:  0.35051608085632324


Número de árvores: 1

Profundidade: 3 

MAE :  27.805279389117665 
MSE:  12397.310050167838 
RMSE:  111.3432083701913 
R2:  0.06303659518546556
Tempo gasto:  0.5089778900146484


Número de árvores: 1

Profundidade: 4 

MAE :  29.52968180156031 
MSE:  15042.741936143791 
RMSE:  122.64885623659029 
R2:  -0.136899750445852
Tempo gasto:  0.6519560813903809


Número de árvores: 1

Profundidade: 5 

MAE :  31.373931333480684 
MSE:  13984.111627917395 
RMSE:  118.25443597564276 
R2:  -0.056890631207744624
Tempo gasto:  0.7879624366760254


Número de árvores: 1

Profundidad

MAE :  31.80361257750569 
MSE:  11802.547932869677 
RMSE:  108.63953209062379 
R2:  0.10798750277939495
Tempo gasto:  6.4900548458099365
------------------------------------------------------------------


Número de árvores: 6

Profundidade: 1 

MAE :  27.53293505145181 
MSE:  12299.615494920608 
RMSE:  110.90363156777423 
R2:  0.07042015038783367
Tempo gasto:  0.9814655780792236


Número de árvores: 6

Profundidade: 2 

MAE :  26.267810038790916 
MSE:  11627.82859382498 
RMSE:  107.83240975618128 
R2:  0.12119243402139834
Tempo gasto:  1.969989538192749


Número de árvores: 6

Profundidade: 3 

MAE :  26.54058947896737 
MSE:  11309.42938829036 
RMSE:  106.34580099040282 
R2:  0.1452563964858946
Tempo gasto:  2.865006446838379


Número de árvores: 6

Profundidade: 4 

MAE :  27.113402440198985 
MSE:  10637.825594467882 
RMSE:  103.13983514853939 
R2:  0.1960148412452678
Tempo gasto:  3.79703688621521


Número de árvores: 6

Profundidade: 5 

MAE :  28.266070289946033 
MSE:  10187.22745

MAE :  34.36356677553273 
MSE:  11923.12840965251 
RMSE:  109.19307857942513 
R2:  0.09887427631144241
Tempo gasto:  12.58834981918335
------------------------------------------------------------------


Número de árvores: 11

Profundidade: 1 

MAE :  27.497998520729908 
MSE:  12300.41924310967 
RMSE:  110.90725514189624 
R2:  0.07035940473923807
Tempo gasto:  1.8243281841278076


Número de árvores: 11

Profundidade: 2 

MAE :  26.28982596383904 
MSE:  11629.207977751727 
RMSE:  107.83880552821293 
R2:  0.12108818299796509
Tempo gasto:  3.550246477127075


Número de árvores: 11

Profundidade: 3 

MAE :  28.471548180668083 
MSE:  11543.893300876252 
RMSE:  107.44251160912171 
R2:  0.12753609224621465
Tempo gasto:  5.229761123657227


Número de árvores: 11

Profundidade: 4 

MAE :  28.901639936273654 
MSE:  10883.188240570145 
RMSE:  104.32252029437434 
R2:  0.17747083295831145
Tempo gasto:  6.886852502822876


Número de árvores: 11

Profundidade: 5 

MAE :  30.301437311938706 
MSE:  105

MAE :  32.23043004862381 
MSE:  11245.229836394625 
RMSE:  106.04352802691272 
R2:  0.15010846766007502
Tempo gasto:  17.168811082839966


Número de árvores: 15

Profundidade: 9 

MAE :  33.40474485533857 
MSE:  11617.677172273994 
RMSE:  107.78532911428157 
R2:  0.12195965775474293
Tempo gasto:  20.12037467956543
------------------------------------------------------------------


Número de árvores: 16

Profundidade: 1 

MAE :  27.47876386010895 
MSE:  12296.18189838919 
RMSE:  110.88815039664604 
R2:  0.07067965460962189
Tempo gasto:  2.8868677616119385


Número de árvores: 16

Profundidade: 2 

MAE :  26.25288421984609 
MSE:  11630.812132671654 
RMSE:  107.84624301602561 
R2:  0.12096694424136845
Tempo gasto:  5.08780837059021


Número de árvores: 16

Profundidade: 3 

MAE :  27.732205646816148 
MSE:  11362.94667725267 
RMSE:  106.5971232128366 
R2:  0.14121166895390136
Tempo gasto:  8.391422748565674


Número de árvores: 16

Profundidade: 4 

MAE :  28.206882249845965 
MSE:  10622.

MAE :  31.394813653535618 
MSE:  10881.754586335937 
RMSE:  104.31564880848865 
R2:  0.17757918562087893
Tempo gasto:  20.361811876296997


Número de árvores: 20

Profundidade: 8 

MAE :  31.98968990283061 
MSE:  11021.419145049178 
RMSE:  104.982946924961 
R2:  0.16702362316948205
Tempo gasto:  22.77353811264038


Número de árvores: 20

Profundidade: 9 

MAE :  33.42268267974383 
MSE:  11459.355837319843 
RMSE:  107.04838082530648 
R2:  0.13392526129721583
Tempo gasto:  25.27472233772278
------------------------------------------------------------------


Número de árvores: 21

Profundidade: 1 

MAE :  27.452712535764363 
MSE:  12293.583226003073 
RMSE:  110.87643223879037 
R2:  0.07087605696763666
Tempo gasto:  3.4609198570251465


Número de árvores: 21

Profundidade: 2 

MAE :  26.210889469365178 
MSE:  11630.027007309589 
RMSE:  107.84260293274448 
R2:  0.12102628241468749
Tempo gasto:  6.7460410594940186


Número de árvores: 21

Profundidade: 3 

MAE :  27.30268899278873 
MSE:  11

MAE :  31.05421157543411 
MSE:  10776.355695661974 
RMSE:  103.80922741096754 
R2:  0.18554501877903362
Tempo gasto:  22.062904357910156


Número de árvores: 25

Profundidade: 7 

MAE :  31.94313726763372 
MSE:  10862.229604489312 
RMSE:  104.22202072733627 
R2:  0.179054843920617
Tempo gasto:  25.259128093719482


Número de árvores: 25

Profundidade: 8 

MAE :  33.150283241283645 
MSE:  11222.145136426503 
RMSE:  105.93462671113022 
R2:  0.15185316219410894
Tempo gasto:  28.265393257141113


Número de árvores: 25

Profundidade: 9 

MAE :  34.36494074107033 
MSE:  11683.208080608043 
RMSE:  108.08888971863873 
R2:  0.1170069653767356
Tempo gasto:  31.196742057800293
------------------------------------------------------------------


Número de árvores: 26

Profundidade: 1 

MAE :  27.44657900071311 
MSE:  12293.326351744669 
RMSE:  110.87527385194892 
R2:  0.07089547100009941
Tempo gasto:  4.174846887588501


Número de árvores: 26

Profundidade: 2 

MAE :  26.197412022507812 
MSE:  116

MAE :  29.647618435536568 
MSE:  10347.81883077735 
RMSE:  101.72422932014452 
R2:  0.2179329608717948
Tempo gasto:  22.800917387008667


Número de árvores: 30

Profundidade: 6 

MAE :  30.48136846453853 
MSE:  10560.157495587375 
RMSE:  102.76262693989179 
R2:  0.20188483772660681
Tempo gasto:  26.79960036277771


Número de árvores: 30

Profundidade: 7 

MAE :  31.40996703846666 
MSE:  10657.539751154378 
RMSE:  103.23536095328178 
R2:  0.19452488549702263
Tempo gasto:  30.571954011917114


Número de árvores: 30

Profundidade: 8 

MAE :  32.614498166871705 
MSE:  10971.418580662677 
RMSE:  104.74453962218115 
R2:  0.17080256383166137
Tempo gasto:  34.266096115112305


Número de árvores: 30

Profundidade: 9 

MAE :  33.82149367331208 
MSE:  11396.68322328324 
RMSE:  106.75524916032579 
R2:  0.13866192962274237
Tempo gasto:  39.33715558052063
------------------------------------------------------------------


Número de árvores: 31

Profundidade: 1 

MAE :  27.44717115250966 
MSE:  1228

MAE :  27.685100909616203 
MSE:  10643.60377124909 
RMSE:  103.16784271879048 
R2:  0.19557813843081595
Tempo gasto:  21.38167715072632


Número de árvores: 35

Profundidade: 5 

MAE :  29.306722195432407 
MSE:  10292.740999791324 
RMSE:  101.4531468205463 
R2:  0.2220956309866533
Tempo gasto:  26.504631280899048


Número de árvores: 35

Profundidade: 6 

MAE :  30.18996418069253 
MSE:  10468.811350040249 
RMSE:  102.31720945197952 
R2:  0.208788593073708
Tempo gasto:  31.11105227470398


Número de árvores: 35

Profundidade: 7 

MAE :  30.996976867232807 
MSE:  10549.452448711254 
RMSE:  102.7105274483159 
R2:  0.20269390333270676
Tempo gasto:  35.57904863357544


Número de árvores: 35

Profundidade: 8 

MAE :  32.59112057022043 
MSE:  10902.771980271636 
RMSE:  104.41633962302852 
R2:  0.1759907338597605
Tempo gasto:  39.76539874076843


Número de árvores: 35

Profundidade: 9 

MAE :  33.44036312037819 
MSE:  11214.867935973209 
RMSE:  105.90027354059671 
R2:  0.1524031581598987
Tempo

MAE :  27.849171688439704 
MSE:  11437.361793700586 
RMSE:  106.94560203066129 
R2:  0.13558752624918913
Tempo gasto:  19.053982257843018


Número de árvores: 40

Profundidade: 4 

MAE :  28.228692089370323 
MSE:  10793.783881457286 
RMSE:  103.89313683519853 
R2:  0.18422783204768345
Tempo gasto:  25.079480409622192


Número de árvores: 40

Profundidade: 5 

MAE :  29.87159780759183 
MSE:  10417.620383573987 
RMSE:  102.06674474859079 
R2:  0.2126575018968221
Tempo gasto:  30.682389736175537


Número de árvores: 40

Profundidade: 6 

MAE :  30.813457247168508 
MSE:  10547.163988204802 
RMSE:  102.69938650354636 
R2:  0.20286686050964542
Tempo gasto:  36.11196327209473


Número de árvores: 40

Profundidade: 7 

MAE :  31.61273246534298 
MSE:  10624.353944107115 
RMSE:  103.07450676140593 
R2:  0.1970330010992536
Tempo gasto:  41.16616702079773


Número de árvores: 40

Profundidade: 8 

MAE :  33.27721898863746 
MSE:  10991.984861564966 
RMSE:  104.84266718070924 
R2:  0.169248206273400

MAE :  26.176659249884633 
MSE:  11636.649924842526 
RMSE:  107.87330496857193 
R2:  0.1205257358173728
Tempo gasto:  14.214525699615479


Número de árvores: 45

Profundidade: 3 

MAE :  27.64678404342441 
MSE:  11384.406928825769 
RMSE:  106.69773628726043 
R2:  0.13958974691591586
Tempo gasto:  21.020196199417114


Número de árvores: 45

Profundidade: 4 

MAE :  27.988197541122986 
MSE:  10726.83354630531 
RMSE:  103.57042795269946 
R2:  0.1892878018091576
Tempo gasto:  31.860252857208252


Número de árvores: 45

Profundidade: 5 

MAE :  29.70219676964681 
MSE:  10378.024713252029 
RMSE:  101.87259058869579 
R2:  0.2156500618901308
Tempo gasto:  36.80227851867676


Número de árvores: 45

Profundidade: 6 

MAE :  30.65908897556508 
MSE:  10518.979021782347 
RMSE:  102.56207399317911 
R2:  0.2049970227784682
Tempo gasto:  41.991474628448486


Número de árvores: 45

Profundidade: 7 

MAE :  31.315928218691663 
MSE:  10559.524299724937 
RMSE:  102.75954602724234 
R2:  0.2019326933782588


### Resultados

In [79]:
print("\nMAE : ", min(mae))
print("\nMSE: ", min(mse))
print("\nRMSE: ", min(rmse))
print("\nR2: ", max(r2))


MAE :  26.174926258920625

MSE:  10187.227455905859

RMSE:  100.93179606004175

R2:  0.23007012940065674


#### Melhores resultados

In [81]:
print("\nNúmero de árvores: 48 \nProfundidade da árvore: 2 \nMAE : ", min(mae))
print('------------------------------------------------------------------')
print("\nNúmero de árvores: 6 \nProfundidade da árvore: 5 \nMSE: ", min(mse))
print('------------------------------------------------------------------')
print("\nNúmero de árvores: 6 \nProfundidade da árvore 5 \nRMSE: ", min(rmse))
print('------------------------------------------------------------------')
print("\nNúmero de árvores: 6 \nProfundidade da árvore: 5 \nR2: ", max(r2))


Número de árvores: 48 
Profundidade da árvore: 2 
MAE :  26.174926258920625
------------------------------------------------------------------

Número de árvores: 6 
Profundidade da árvore: 5 
MSE:  10187.227455905859
------------------------------------------------------------------

Número de árvores: 6 
Profundidade da árvore 5 
RMSE:  100.93179606004175
------------------------------------------------------------------

Número de árvores: 6 
Profundidade da árvore: 5 
R2:  0.23007012940065674


#### Resultado Final

In [85]:
print("\nNúmero de árvores: 6 \nProfundidade da árvore: 5 \n\nMAE : 28.266070289946033")
print("MSE: ", min(mse), "\nRMSE: ", min(rmse), "\nR2: ", max(r2))
print("Tempo: 4.686403036117554" )


Número de árvores: 6 
Profundidade da árvore: 5 

MAE : 28.266070289946033
MSE:  10187.227455905859 
RMSE:  100.93179606004175 
R2:  0.23007012940065674
Tempo: 4.686403036117554
