# Imports
Para a execução e análise do Gradient Boosting, serão utilizadas as bibliotecas:
* Pandas: para manipulação de dataframes;
* Time: para o cálculo do tempo de execução;
* Sklearn Ensemble: para a execução do Gradient Boosting;
* Sklearn Metrics: para o cálculo das métricas.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.ensemble import GradientBoostingRegressor
import time
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

# Leitura de Dados
O dataset de comentários do facebook já possui uma estrutura dividida em arquivos de treino e arquivos de teste. A célula a seguir é responsável por ler tais arquivos e atribuir seus dados a duas variáveis de treino e teste.

In [2]:
train = pd.read_csv('facebook_general_dataset/Dataset/Training/Features_Variant_1.csv', header=None)
test = pd.read_csv('facebook_general_dataset/Dataset/Testing/Features_TestSet.csv', header=None)

In [3]:
train_x = train.drop([53], axis = 1).values
train_y = train.iloc[:, -1].values

test_x = test.drop([53], axis = 1).values
test_y = test.iloc[:, -1].values

## Gradient Boosting Regressor

A seguir são carregados os parâmetros para criação do modelo do Gradient Boosting Regressor, onde:
* n_estimatoors: indica a quantidade de estágios em que o algorítmo irá passar. Este parâmetro ajuda na performance do resultado;
* min_samples_split: indica a quantidade de amostras necessárias para se fazer um nó na árvore;
* random_state: indica o valor de Seed dos valores aleatórios do algoritmo.

In [4]:
gb = GradientBoostingRegressor(n_estimators=100000, min_samples_split=5, random_state=42)

# Execução
O gradient boosting em si é executado na célula a seguir. Os tempos de início e término de sua execução são registrados de forma que o tempo total de execução possa ser calculado. O mesmo é exibido como resultado.

In [5]:
start_time = time.time()
gb.fit(train_x, train_y)
y_pred = gb.predict(test_x)
print("--- %s seconds ---" % (time.time() - start_time))

--- 4969.003474473953 seconds ---


# Métricas
Para avaliar os resultados da utilização da feature reduction com a técnica de gradient boosting, serão utilizadas as métricas de erro médio absoluto (que representa o número médio de comentários estimados errôneamente) e de erro quadrado absoluto. Ambas são apresentadas a seguir.

In [6]:
mae = mean_absolute_error(test_y, y_pred)
mse = mean_squared_error(test_y, y_pred)

print(mae)
print(mse)

34.907910487040766
10043.28401757831
