# Rodrigo Schulz

## Gradient Boosting Machine

### 1. Cite 5 diferenças entre o Adaboost e o GBM
Adaboost (AdaBoost) e Gradient Boosting Machine (GBM) são dois algoritmos populares de aprendizado de máquina que pertencem à família de algoritmos de boosting. Eles têm algumas semelhanças, mas também apresentam diferenças distintas. Aqui estão cinco diferenças entre o Adaboost e o GBM:

1. **Algoritmo base:**
   - Adaboost: Usa um único algoritmo de aprendizado fraco (geralmente árvores de decisão fracas) e treina várias cópias desse algoritmo, ajustando seus pesos em cada iteração.
   - GBM: Utiliza um algoritmo de aprendizado fraco (também árvores de decisão fracas) e treina iterativamente várias cópias desse algoritmo, ajustando os erros residuais do modelo anterior em cada iteração.

2. **Pesos das instâncias:**
   - Adaboost: Atribui pesos às instâncias de treinamento, aumentando os pesos das instâncias classificadas incorretamente nas iterações anteriores para que recebam mais atenção nas iterações subsequentes.
   - GBM: Não atribui pesos às instâncias, mas ajusta os pesos dos resíduos da iteração anterior para minimizar o erro global.

3. **Abordagem de ajuste:**
   - Adaboost: Ajusta os modelos de forma sequencial, dando maior ênfase aos exemplos difíceis em cada iteração.
   - GBM: Ajusta os modelos de forma aditiva, focando na minimização dos resíduos acumulados do modelo anterior em cada iteração.

4. **Convergência:**
   - Adaboost: Pode sofrer com o problema de overfitting se o número de iterações for muito grande.
   - GBM: Geralmente é menos suscetível ao overfitting, pois ajusta gradualmente os erros residuais.

5. **Paralelismo:**
   - Adaboost: As iterações geralmente ocorrem de forma sequencial, o que pode tornar o algoritmo menos eficiente em ambientes paralelos.
   - GBM: Pode ser paralelizado, tornando possível treinar árvores e estimar os resíduos em paralelo, o que pode acelerar o processo de treinamento.

Em resumo, Adaboost e GBM compartilham o objetivo de combinar vários modelos fracos para criar um modelo forte, mas diferem na forma como atribuem pesos às instâncias de treinamento, na abordagem de ajuste e na paralelização do processo de treinamento. Ambos os algoritmos têm suas aplicações e podem ser úteis para diferentes tipos de problemas de aprendizado de máquina.

### 2. Crie um exemplo de classificação e de regressão utilizando GBM no python

In [31]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# Gerando dados de exemplo para classificação
X, y = make_classification(n_samples=1000, n_features=10, n_classes=2, random_state=42)

# Dividindo o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo GBM para classificação
gbm_classifier = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)

# Treinando o modelo
gbm_classifier.fit(X_train, y_train)

# Realizando previsões no conjunto de teste
y_pred = gbm_classifier.predict(X_test)

# Calculando a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo GBM para classificação: {accuracy:.2f}')


Acurácia do modelo GBM para classificação: 0.90


In [32]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

# Gerando dados de exemplo para regressão
X = np.random.rand(100, 1)  # Uma característica (feature) unidimensional
y = 2 * X[:, 0] + np.random.randn(100)  # Valor alvo (target) com ruído

# Dividindo o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo GBM para regressão
gbm_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)

# Treinando o modelo
gbm_regressor.fit(X_train, y_train)

# Realizando previsões no conjunto de teste
y_pred = gbm_regressor.predict(X_test)

# Calculando o erro médio quadrático do modelo
mse = mean_squared_error(y_test, y_pred)
print(f'Erro Médio Quadrático do modelo GBM para regressão: {mse:.2f}')


Erro Médio Quadrático do modelo GBM para regressão: 2.16


### 3. Cite 5 hiperparametros importantes do GBM

O Gradient Boosting Machine (GBM) é um algoritmo de aprendizado de máquina baseado em árvores de decisão que requer alguns hiperparâmetros para ajustar seu comportamento durante o treinamento. Aqui estão cinco hiperparâmetros importantes do GBM:

1. **Número de estimadores (n_estimators):**
   - Especifica o número de árvores de decisão (estimadores) que serão criadas durante o processo de treinamento. Um número maior de estimadores geralmente resulta em modelos mais complexos e ajustados, mas também pode aumentar o risco de overfitting.

2. **Taxa de aprendizado (learning_rate):**
   - Controla a contribuição de cada árvore de decisão para a correção dos erros residuais dos modelos anteriores. Uma taxa de aprendizado menor implica que cada árvore tem uma correção mais suave, tornando o treinamento mais lento, mas geralmente resulta em melhores modelos.

3. **Profundidade máxima das árvores (max_depth):**
   - Define a profundidade máxima das árvores de decisão. Limitar a profundidade ajuda a evitar overfitting e torna o modelo mais simples. No entanto, uma profundidade muito pequena pode levar a um ajuste insuficiente, resultando em um desempenho pobre.

4. **Número mínimo de amostras para split (min_samples_split):**
   - Especifica o número mínimo de amostras necessárias em um nó para que uma divisão (split) seja realizada. Um valor maior ajuda a evitar divisões que resultem em folhas com poucas amostras, tornando o modelo mais robusto e reduzindo o risco de overfitting.

5. **Número mínimo de amostras em cada folha (min_samples_leaf):**
   - Define o número mínimo de amostras necessárias em uma folha (nó terminal) da árvore de decisão. Um valor maior ajuda a evitar folhas com poucas amostras, reduzindo a complexidade do modelo e evitando overfitting.

Esses são alguns dos hiperparâmetros mais importantes do GBM. É essencial ajustar esses hiperparâmetros adequadamente para obter o melhor desempenho do modelo em diferentes conjuntos de dados e problemas. Geralmente, é realizada a busca em uma grade (grid search) ou otimização bayesiana para encontrar a combinação ideal de hiperparâmetros para um problema específico.

### 4. Utilize o Gridsearch

In [33]:
import patsy
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from datetime import datetime

from scipy.stats import ks_2samp
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

from sklearn.ensemble import GradientBoostingClassifier

In [34]:
df = pd.read_csv('credit_scoring.csv', parse_dates=['data_ref'])

df['tempo_emprego'].fillna(-1, inplace=True)
df.head()

Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda,mau
0,2015-01-01,1,F,True,True,0,Assalariado,Secundário,Casado,Casa,49,8.605479,2.0,1916.54,0
1,2015-01-01,2,M,True,False,0,Empresário,Secundário,União,Casa,60,6.953425,2.0,2967.25,0
2,2015-01-01,3,F,True,False,0,Empresário,Secundário,Casado,Casa,28,0.682192,2.0,340.96,0
3,2015-01-01,4,F,False,True,0,Assalariado,Superior completo,Casado,Casa,60,1.879452,2.0,4903.16,0
4,2015-01-01,5,F,False,False,0,Empresário,Secundário,Casado,Casa,47,8.438356,2.0,3012.6,0


In [35]:
# Selecionar meses de 2016 para validação
df_val = df[df['data_ref'] >= datetime(2016, 1, 1)].copy()

# Selecionar meses de 2015 para treinamento e teste
df = df[df['data_ref'] < datetime(2016, 1, 1)]

df_train, df_test = train_test_split(df, test_size=0.3, random_state=12)

df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)
df_val = df_val.reset_index(drop=True)

print('Quantidade de linhas no treino:    ', df_train.shape[0])
print('Quantidade de linhas no teste:     ', df_test.shape[0])
print('Quantidade de linhas na validação: ', df_val.shape[0])

Quantidade de linhas no treino:     42000
Quantidade de linhas no teste:      18000
Quantidade de linhas na validação:  15000


In [36]:
equacao = '''mau ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao 
            + estado_civil + tipo_residencia + idade + qt_pessoas_residencia + renda'''

y_train, X_train = patsy.dmatrices(equacao, data=df_train)
y_test, X_test = patsy.dmatrices(equacao, data=df_test)
y_val, X_val = patsy.dmatrices(equacao, data=df_val)

In [37]:
# Calcular o Gini
def calcula_gini(RESP, PD):
    #AUC
    auc = roc_auc_score(RESP, PD)

    #Gini
    gini = 2 * auc - 1
    return gini


def print_metricas(dados, PD='PD', CLASSE_PRED='classe_predita', RESP='mau'):

    #Acuracia
    acc = accuracy_score(dados[RESP], dados[CLASSE_PRED])

    #AUC
    auc = roc_auc_score(dados[RESP], dados[PD])

    #Gini
    gini = 2 * auc - 1

    #KS
    ks = ks_2samp(dados.loc[dados[RESP] == 1, PD], dados.loc[dados[RESP] != 1,
                                                             PD]).statistic

    print('KS:       {0:.2f}%'.format(ks * 100))
    print('AUC:      {0:.2f}%'.format(auc * 100))
    print('GINI:     {0:.2f}%'.format(gini * 100))
    print('Acurácia: {0:.2f}%\n'.format(acc * 100))

    return None

In [38]:
%%time
parametros = {
    'n_estimators': 100,
    'max_depth': None,
    'min_samples_leaf': 5,
    'learning_rate': .1,
    'random_state': 22
}

clf = GradientBoostingClassifier(**parametros)\
        .fit(X_train, y_train.ravel())

CPU times: total: 2min 20s
Wall time: 2min 20s


In [39]:
df_train['classe_predita'] = clf.predict(X_train)
df_train['PD'] = clf.predict_proba(X_train)[:, 1]

df_test['classe_predita'] = clf.predict(X_test)
df_test['PD'] = clf.predict_proba(X_test)[:, 1]

df_val['classe_predita'] = clf.predict(X_val)
df_val['PD'] = clf.predict_proba(X_val)[:, 1]

print('Performance do GBM nos dados de treino')
print_metricas(dados=df_train)
print('Performance do GBM nos dados de teste')
print_metricas(dados=df_test)
print('Performance do GBM nos dados de validação')
print_metricas(dados=df_val)

Performance do GBM nos dados de treino
KS:       97.51%
AUC:      99.69%
GINI:     99.39%
Acurácia: 98.03%

Performance do GBM nos dados de teste
KS:       18.73%
AUC:      62.02%
GINI:     24.04%
Acurácia: 91.05%

Performance do GBM nos dados de validação
KS:       19.54%
AUC:      63.43%
GINI:     26.87%
Acurácia: 90.26%



In [None]:
%%time
from sklearn.model_selection import GridSearchCV

gb = GradientBoostingClassifier()

parametros = {
    'n_estimators': [100, 300, 600],
    'min_samples_leaf': [2, 10, 20],
    'learning_rate': [0.04, 0.06, .1]
}

grid = GridSearchCV(estimator=gb,
                    param_grid=parametros,
                    scoring='roc_auc',
                    verbose=False,
                    cv=2)

grid.fit(X_train, y_train.ravel())

### 5. Acessando o artigo de Jerome Friedman (Stochastic) e pensado no nome dado ao Stochastic GBM, qual a maior diferença entre os dois algoritmos?

O termo "Stochastic GBM" refere-se a uma variação estocástica (ou aleatória) do algoritmo Gradient Boosting Machine (GBM). A maior diferença entre o GBM tradicional e o GBM estocástico está na forma como as árvores de decisão são construídas durante o processo de treinamento.

No Gradient Boosting Machine tradicional, cada árvore de decisão é construída usando todo o conjunto de treinamento disponível, o que significa que todas as amostras do conjunto de treinamento são consideradas para cada nó da árvore durante o processo de divisão (split). As amostras não são repetidas e todas têm igual probabilidade de serem selecionadas para a construção da árvore.

Por outro lado, no Stochastic GBM, cada árvore de decisão é construída usando apenas uma amostra aleatória do conjunto de treinamento. Isso significa que, em cada iteração, uma fração do conjunto de treinamento é amostrada aleatoriamente, com substituição, para construir uma árvore. Essa abordagem introduz aleatoriedade no processo de construção das árvores e é especialmente útil quando o conjunto de treinamento é muito grande.
