# Protocolo Básico para a Aplicação das Técnicas de Machine Learning em Economia

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo

* Protocolo básico para a aplicação de técnicas de Machine Learning em Economia

### Referências

* Géron, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2019.
* Athey, S., & Imbens, G. (2017). "The State of Applied Econometrics: Causality and Policy Evaluation." *Journal of Economic Perspectives*.
* Mullainathan, S., & Spiess, J. (2017). "Machine Learning: An Applied Econometric Approach." *Journal of Economic Perspectives*.
* Varian, H. R. (2014). "Big Data: New Tricks for Econometrics." *Journal of Economic Perspectives*.

## Protocolo básico para a aplicação de técnicas de Machine Learning em Economia

Supondo que já temos nossa base de dados (dataframe) pronta para ser utilizada, isto é, todas as variáveis estão no formato adequado e não há valores faltantes, temos em mente as relações entre as variáveis e o problema que queremos resolver, podemos seguir o protocolo básico para a aplicação de técnicas de Machine Learning em Economia.

* **1. Dividir a base de dados em treino e teste**
* **2. Selecionar o modelo**
* **3. Treinar o modelo**
* **4. Avaliar o modelo**
* **5. Ajustar o modelo**
* **6. Fazer previsões**
 
### 1. Dividir a base de dados em treino e teste

**Por que dividir a base de dados em treino e teste?**

A **divisão da base de dados** é uma etapa essencial para garantir que o modelo tenha um desempenho confiável e generalizável. Existem diferentes formas de realizar essa divisão, dependendo do contexto e do objetivo do estudo:

* **Divisão Simples (Hold-Out)**
  * Descrição: A base de dados é dividida em duas partes: treino e teste. Geralmente, usa-se uma proporção de 70-80% para treino e 20-30% para teste.
    * Vantages: É simples e rápido de implementar.
    * Desvantagens: Pode gerar resultados instáveis, dependendo da aleatoriedade da divisão.
* **Validação Cruzada (Cross-Validation)**
  * Descrição: Divide a base em múltiplos "folds". O modelo é treinado em $k-1$ folds e testado no fold restante, repetindo o processo $k$ vezes.
    * Vantages: Fornece uma estimativa mais estável do desempenho do modelo.
    * Desvantagens: Pode ser computacionalmente mais custoso.
* **Validação Cruzada Leave-One-Out**
  * Descrição: Cada observação é usada como conjunto de teste uma vez, enquanto as demais são usadas para treino.
    * Vantages: Fornece uma estimativa mais precisa do desempenho do modelo.
    * Desvantagens: Pode ser computacionalmente custoso para bases de dados grandes.

A divisão simples (hold-out) é mais comum na prática profissional, devido à sua simplicidade e rapidez de implementação.

Já na prática acadêmica, recomenda-se a utilização da **validação cruzada**, em especial a validação cruzada com **10 folds**, para avaliar o desempenho do modelo. Porque a validação cruzada com 10 folds oferece um bom **equilíbrio entre viés (erros sistemáticos) e variância (sensibilidade a diferentes divisões dos dados)**, é eficiente computacionalmente e é adotada na literatura. Além disso, com 10 folds, a base é dividida em partes suficientes para garantir uma avaliação confiável, mas sem aumentar excessivamente o custo computacional, como acontece com Leave-One-Out. Obsevação, com bases grandes, 5 folds podem ser suficientes. Já com bases pequenas, pode-se utilizar 20 folds.


### 2. Selecionar o modelo

**Por que é importante escolher o modelo adequado?**

A escolha do modelo é uma etapa crucial no protocolo de Machine Learning, pois influencia diretamente a capacidade do modelo de capturar as relações entre as variáveis e resolver o problema proposto. Em Economia, a escolha deve considerar tanto o tipo de problema quanto a necessidade de interpretabilidade, recursos computacionais disponíveis e a robustez dos resultados.

**Como selecionar o modelo?** 

A escolha do modelo pode ser guiada por diversos fatores:

* **Tipo de Problema**
  * **Regressão**: Prever um valor contínuo.
    * Regressão Linear
    * Árvores de Decisão e Random Forest
    * Gradient Boosting (XGBoost, LightGBM)
    * Redes Neurais para dados complexos
  * **Classificação**: Prever uma classe ou categoria.
    * Regressão Logística
    * Support Vector Machines (SVM)
    * Árvores de Decisão e Random Forest e Gradient Boosting
    * Redes Neurais para classificações complexas
  * **Agrupamento (Clustering)**: Identificar padrões e grupos nos dados. Identificação de grupos em dados não rotulados (e.g., segmentação de consumidores).
    * K-Means
    * DBSCAN
    * Hierarchical Clustering

* **Interpretabilidade**
  * Modelos simples e interpretáveis:
    * Regressão Linear e Logística.
    * Árvores de Decisão.
  * Modelos complexos e menos interpretáveis:
    * Random Forest, Gradient Boosting.
    * Redes Neurais.

No dia a dia, a maior parte dos problemas são de **regressão** ou **classificação**. Grosso modo, a **Regressão** é utilizada quando queremos prever um valor contínuo de Y (e.g., preço de um imóvel), enquanto a **Classificação** é utilizada quando queremos prever uma classe ou categoria de Y (e.g., aprovação de crédito). 

### 3. Treinar o modelo

**O que significa treinar um modelo?**

Treinar um modelo significa ajustar seus parâmetros internos com base nos dados de treino, a fim de minimizar uma função de erro ou maximizar o desempenho em relação ao objetivo específico (e.g., minimizar o erro quadrático médio em um problema de regressão). Durante o treinamento, o modelo "aprende" padrões e relações entre as variáveis preditoras ($X$) e a variável dependente ($y$).

Etapas no treinamento do modelo
* Preparar os dados para o treinamento
* Selecionar o modelo que será treinado com os dados
* Ajustar o modelo aos dados de treino

#### 4. Avaliar o modelo

Sendo assim, vamos fazer o procedimento de validação cruzada com 10 folds para selecionar o modelo que melhor se ajusta aos nossos dados.



## 