# __Gradient Boosting para Regressão__
É um método de ensemble que cria um modelo forte a partir da combinação de vários modelos fracos.

A ideia do _Gradient Boosting_ é construir uma série de árvores de decisão, onde cada árvore seguinte tenta corrigir os erros da árvore anterior. Para isso, se baseia no cálculo do erro residual - que é a diferença entre valor real e os valores previstos. Essa correção é feita usando a técnica do gradiente da função de perda.

## __Funcionamento__
- 1) __Inicialização:__ Inicia com uma previsão inicial, que geralmente é a média dos valores da variável alvo no conjunto de treino.
- 2) __Cálculo dos Resíduos:__ Pra cada observação, calcula o erro - que é a diferença entre o valor real e o valor previsto.
- 3) __Correção:__ A árvore seguinte é criada ajustando-se ao erro da árvore anterior. Ou seja, ela aprende a partir do erro da sua antecessora.
- 4) __Atualização das Previsões:__ A previsão final é ajustada ao se somar uma fração da nova árvore aos valores atuais. Essa fração é controlada pelo __learning rate__, que define o peso com que a nova árvore contribui para a correção dos erros anteriores.
- 5) __Iterações:__ Todo esse processo é repetido diversas vezes, construindo um conjunto de árvores, onde cada uma tenta corrigir o erro da árvore anterior.

## __Processamento e Pré-processamento__
- 1) __Pré-processamento:__ Podemos aplicar escalonamento nos dados numéricos para melhorar o desempenho. Geralmente, variáveis categóricas são transformadas em dummies.
- 2) __Função de Perda:__ A função de perda mais comum é o MSE, que é uma função sensível a valores extremos e penaliza grandes erros.
- 3) __Hiperparâmetros:__ Ajustar o número de estimadores, learning rate, profundidade máxima das árvores.

## __Casos de Uso__
Usamos ele quando precisamos encontrar padrões complexos e não-lineares, como mas sem se restringir a:
- Valores do mercado imobiliário;
- Demanda de energia;
- Séries temporais.

## __Vantagens__
Robusto contra outliers e tem bom desempenho quando alimentado com dados complexos.

## __Desvantagens__
Pode acabar em overfitting e demorar para completar seu treinamento.

# __Gradient Boosting para Classificação__
Para problemas de classificação, o funcionamento é similar a quando lidamos com problemas de regressão. Porém, existe uma abordagem diferente na função de perda, que é mais específica para tarefas de classificação.

É criada uma sequência de modelos fracos, onde cada modelo seguinte irá aprender com os erros do modelo anterior. Para as tarefas de classificação, o algoritmo usa a probabilidade de uma observação pertencer a uma determinada classe, ajustando o modelo para melhorar a precisão.

## __Funcionamento__
- 1) __Inicialização:__ O modelo é iniciado com uma previsão básica - que pode ser a classe mais comum do conjunto de treino.
- 2) __Cálculo dos Resíduos:__ O erro é calculado com base na função de perda, como o log loss, que mede a diferença entre a probabilidade prevista e a probabilidade real de cada classe.
- 3) __Correção:__ Em cada nova iteração, uma nova árvore é ajustada para prever os erros. Essa árvore é treinada para melhorar a probabilidade das classes verdadeiras.
- 4) __Atualização das Previsões:__ Similar ao que falamos em regressão, a previsão final é ajustada ao se somar uma fração da nova árvore aos valores atuais. Essa fração é controlada pelo learning rate, que define o peso com que a nova árvore contribui para a correção dos erros anteriores.
- 5) __Iterações:__ Como na regressão, este processo é repetido, de forma a ir ajustando o modelo para melhorar a precisão.

## __Processamento e Pré-processamento__
- 1) __Pré-processamento:__ Podemos aplicar escalonamento e normalização nos dados numéricos para melhorar o desempenho. Geralmente, variáveis categóricas são transformadas em dummies.
- 2) __Função de Perda:__ Na classificação binária, a função de perda mais comum é a __log loss__, que é mais sensível a erros de classificação. Para classificação multiclasse, podemos usar uma versão generalizada da log loss.
- 3) __Hiperparâmetros:__ Podemos trabalhar em cima do número de estimadores, learning rate, profundidade das árvores, etc.

## __Casos de Uso__
Podemos aplicar em situações como, mas sem se restringir a:
- Detecção de fraude;
- Diagnóstico médico;
- Classificação de imagens.

## __Vantagens__
Possui uma alta precisão e bom desempenho em dados não-lineares e complexos.

## __Desvantagens__
Pode acabar em overfitting se não for bem trabalhado. Possui um treinamento mais demorado se comparado a outros algoritmos, como Random Forest.