# Feature Engineering
<p style="color:blue;"><strong>Professor Doutor Alexandre Miguel de Carvalho (2024)</strong></p>



---
<p style="color:lightgray;">
Este curso é baseado no livro: <br>
<strong>Feature Engineering Bookcamp</strong> <br>
Autor: Ozdemir, S. (2022). Feature Engineering Bookcamp. Manning Publications.

As figuras também são do mesmo livro a não ser que se indique outras fontes.
</p>


---

## Introdução



Quando vamos resolver um problema de negócios utilizando a tecnologia de Machine Learning ou Aprendizado de Máquina, seguimos os seguintes passos:
* Definição do domínio do problema;
* Obtenção dos Dados e Análise Exploratória;
* Feature Engineering;
* Seleção de Modelos e Treinamento;
* Deployment, Avaliação e Monitoramento.

Como é exemplificado na Figura-1 abaixo:

<figure>
    <img src="ml-pipeline.png" alt="blablabla">
    <figcaption>Figura-1: Machine Learning Pipeline</figcaption>
</figure>



## Feature Engineering

***Feature Engineering*** é a arte de manipular e transformar dados em um formato que represente de maneira ideal o problema subjacente que um algoritmo de ***Machine Learning*** está tentando modelar e mitigar complexidades e vieses inerentes aos dados. 

Por ser mais fácil trabalhar diretamente com os modelos, ***Feature Engineering*** é, geralmente, negligenciada pela maioria dos Cientistas de Dados. Embora seja a fase mais importante de um pipeline de **Machine Learning**.

***Feature Engineering***, quando bem aplicado, possibilita a criação de modelos de ***Machine Learning*** mais leves, rápidos e acertivos.


<figure>
    <img src="model_centric_data_centric.png">
    <figcaption>Figura 2: Foco no Modelo, Foco nos Dados</figcaption>
</figure>



***Feature Engineering*** é dividida em quatro etapas distintas mostradas na Figura-3 a seguir.


<figure>
    <img src="pipeline_features.png">
    <figcaption>Figura-3: Features Pipeline</figcaption>
</figure>

***Feature Engineering*** :

* ***Feature Understanding***: envolve a compreensão e análise das características (ou "features") que estão sendo usadas para treinar o modelo. Isso pode envolver várias atividades, tais como:
    - Análise exploratória de dados para entender a distribuição e as relações entre as características.
    - Verificação da relevância e utilidade das características para a tarefa de previsão.
    - Identificação de características potencialmente problemáticas, como aquelas com muitos valores ausentes, aquelas com ruído ou erros, ou aquelas que podem causar viés no modelo.
    - Criação de novas características a partir das existentes.

    O objetivo da ***Feature Understanding*** é garantir que as características usadas para treinar o modelo são relevantes, úteis e de alta qualidade, para maximizar a performance do modelo de Machine Learning.
---

* ***Feature Structuring***: envolve a organização e transformação de dados brutos em um formato que pode ser usado para treinar modelos de aprendizado de máquina. Isso pode envolver várias atividades, tais como:
    - Limpeza de dados: removendo ou imputando valores ausentes, lidando com outliers, etc.
    - Transformação de dados: Normalização ou padronização de características, codificação de variáveis categóricas, etc.
    - Seleção de características: escolhendo as características mais relevantes para usar no modelo.

    O objetivo do ***Feature Structuring*** é preparar os dados de uma maneira que maximize o desempenho do modelo de ***Machine Learning***.
---


* ***Feature Optimization***: envolve aprimorar a qualidade e eficácia das características (ou "features") usadas para treinar o modelo. Isso pode envolver várias atividades, tais como:

    - Seleção de características: Escolhendo as características mais relevantes para usar no modelo. Isso pode ser feito através de métodos estatísticos, como testes de hipóteses, ou através de métodos de aprendizado de máquina, como algoritmos de seleção de características.

    - Engenharia de características: Criando novas características a partir das existentes que podem ser mais informativas para o modelo. Isso pode envolver a combinação de características existentes, a criação de características polinomiais, a aplicação de transformações logarítmicas ou exponenciais, etc.

    - Otimização de hiperparâmetros: Ajustando os parâmetros do modelo de aprendizado de máquina para maximizar a performance do modelo. Isso pode envolver a otimização de parâmetros relacionados à preparação de características, como o número de bins em uma binarização, o grau de um polinômio em uma característica polinomial, etc.

    O objetivo do Feature Optimization é maximizar a performance do modelo de Machine Learning, melhorando a qualidade e eficácia das características usadas para treinar o modelo.
---

* ***Feature Evaluation***: envolve avaliar a importância e a contribuição das características (ou "features") para a performance do modelo de aprendizado de máquina. Isso pode envolver várias atividades, tais como:

    - Importância de características: Usando métodos estatísticos ou de aprendizado de máquina para avaliar a importância de cada característica para a previsão do modelo. Isso pode ajudar a identificar quais características estão contribuindo mais para o modelo e quais podem ser ignoradas.

    - Avaliação de modelos: Comparando a performance de diferentes modelos que usam diferentes conjuntos de características. Isso pode ajudar a identificar quais características melhoram a performance do modelo e quais não têm impacto ou podem até prejudicar a performance.

    - Validação cruzada: Usando técnicas de validação cruzada para avaliar a robustez e a confiabilidade das características. Isso pode ajudar a identificar características que funcionam bem em uma variedade de diferentes divisões de treinamento e teste.

    O objetivo da ***Feature Evaluation*** é garantir que as características usadas para treinar o modelo são eficazes e contribuem para a performance do modelo.




## Tipos de ***Feature Engineering***

### 1 ***Feature Improvement***
Melhorar a utilidade das **features** disponíveis por meio de transformações matemáticas. Por exemplo, preencher dados de temperatura ausentes com a média das temperaturas disponíveis.

### 2 ***Feature construction***
Aumentar o conjunto de dados criando novas **features** interpretáveis a partir de **features**  existentes. Exemplo: dividir o preço total de um imóvel residencial pelo metro quadrado para criar uma nova **feature** 'preço por metro quadrado' em um conjunto de dados de avaliação residencial.

### 3 ***Feature selection***
Escolher o melhor subconjunto de **features** de um conjunto existente. Exemplo: depois de criar 'preço por metro quadrado', remover 'preço total de um imóvel residencial' e 'preço do metro quadrado'.

### 4 ***Feature extraction***
Utilizar algoritmos que geram novas **features** geralmente não interpretáveis pelo ser humano. Exemplo: utilizar modelos linguisticos como o BERT para mapear texto não estruturado para um texto estruturado e geralmente não interpretativo no espaço vetorial.

### 5 ***Feature learning***
Gerar automaticamente um novo conjunto de **features** geralmente extraindo estruturas e representações de aprendizagem de dados não estruturados brutos como textos, imagens e vídeos, muitas vezes usando aprendizagem profunda (***deep learning***). Exemplo: usar **Generative Adversarial Networks** (GANs) para desconstruir e reconstruir imagens com o propósito de aprender a representação ideal para um dada tarefa.