In [1]:
# coding: utf-8

# # Random Forest e Gradient Boosted Decision Trees
# ### Modelo de Gradient Boosting
# ##### Conjunto de modelos é criado de modo que cada modelo tenta melhorar a performance de um modelo anterior
# ### Modelos baseados nas Árvores de Decisão (Decision Trees)
# ### Árvores de Decisão são interpretáveis
# ##### Sequência de regras "Se-Então"
# ##### Propensas a overfit
# ### Modelos de Gradient Boosting
# ##### Evitam o overfit natural das Árvores de Decisão
# ##### Uso de weak learners (aprendizado lento ou fraco)
# ##### Modelos simples coordenados para construir um modelo complexo
# ### Random Forest
# ##### Utilização de árvores em paralelo
# ### Gradient Boosted Decision Trees
# ##### Utilização de árvores em série

# ### Random Forest
# ##### Paralelização de árvores de decisão
# ##### Divisão do conjunto de dados aleatoriamente em linhas e colunas
# ### Por exemplo, tomar um conjunto de dados com 100 linhas (indivíduos) e 10 colunas (atributos)
# ##### Um exemplo de divisão seriam 2 conjuntos de 100 linhas e 5 colunas
# ##### Outro exemplo de divisão seriam 2 conjuntos de 50 linhas e 10 colunas
# ##### As divisões podem ser totalmente aleatórias
# ### Árvores de Decisão comuns atuavam sobre o conjunto completo dos dados, apresentando regras que dividiam perfeitamente os mesmos, podendo causar overfit
# ### Nas Random Forests, cada árvore é responsável por uma parte do conjunto de dados, sendo impossível que uma árvore divida perfeitamente a totalidade dos mesmos, criando um overfit local, que não influi no cenário total representado pelos dados
# ### O resultado é agregado utilizando um método de votação
# ##### Em um problema de classificação, escolhemos a classe eleita pela maioria das árvores
# ##### Em um problema de regressão, escolhemos a média dos resultados obtidos pelas árvores
# ### Teorema: Se mais da metade das árvores decidem por uma resposta, esta resposta é a correta

from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
X,y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [3]:
rf = RandomForestClassifier(n_estimators=100)

In [4]:
rf.fit(X_train,y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [5]:
rf.score(X_test,y_test)

0.958041958041958

In [6]:
from sklearn.datasets import load_boston

In [7]:
X,y = load_boston(return_X_y=True)

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [9]:
rf = RandomForestRegressor(n_estimators=100)

In [10]:
rf.fit(X_train,y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
                      max_features='auto', max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, n_estimators=100,
                      n_jobs=None, oob_score=False, random_state=None,
                      verbose=0, warm_start=False)

In [11]:
rf.score(X_test,y_test)

0.8785957056032382

In [12]:
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor
from sklearn.datasets import load_boston, load_breast_cancer
from sklearn.model_selection import train_test_split

In [13]:
X,y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [14]:
gb = GradientBoostingClassifier(n_estimators=200,max_depth=3)

In [15]:
gb.fit(X_train,y_train)

GradientBoostingClassifier(criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='deviance', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_impurity_split=None,
                           min_samples_leaf=1, min_samples_split=2,
                           min_weight_fraction_leaf=0.0, n_estimators=200,
                           n_iter_no_change=None, presort='auto',
                           random_state=None, subsample=1.0, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)

In [16]:
gb.score(X_test,y_test)

0.965034965034965

In [17]:
X,y = load_boston(return_X_y=True)

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [19]:
gb = GradientBoostingRegressor(n_estimators=500,max_depth=3)

In [20]:
gb.fit(X_train,y_train)

GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
                          learning_rate=0.1, loss='ls', max_depth=3,
                          max_features=None, max_leaf_nodes=None,
                          min_impurity_decrease=0.0, min_impurity_split=None,
                          min_samples_leaf=1, min_samples_split=2,
                          min_weight_fraction_leaf=0.0, n_estimators=500,
                          n_iter_no_change=None, presort='auto',
                          random_state=None, subsample=1.0, tol=0.0001,
                          validation_fraction=0.1, verbose=0, warm_start=False)

In [21]:
gb.score(X_test,y_test)

# ### Considerações Finais
# ##### Random Forest e Gradient Boosted Decision Trees
# ##### São técnicas baseadas em conjuntos de modelos (weak learners)
# ##### Random Forests atuam bem com dados com outliers
# ##### Gradient Boosted Decision Trees funcionam bem com dados esparsos

0.9261751645931351