Tour pelas técnicas de preparação de dados

Projetos de aprendizado de máquina de modelagem preditiva, como classificação e regressão, sempre
envolvem alguma forma de preparação de dados. A preparação de dados específica necessária para um conjunto de dados
depende das especificidades dos dados, como os tipos de variáveis, bem como dos algoritmos que
serão usados para modelá-los que podem impor expectativas ou requisitos aos dados.

No entanto, existe uma coleção de algoritmos padrão de preparação de dados que podem ser
aplicado a dados estruturados (por exemplo, dados que formam uma grande tabela como em uma planilha). Esses
algoritmos de preparação de dados podem ser organizados ou agrupados por tipo em uma estrutura que pode
ser útil ao comparar e selecionar técnicas para um projeto específico. Neste tutorial, você
descobrirá as tarefas comuns de preparação de dados executadas em uma máquina de modelagem preditiva
tarefa de aprendizagem. Depois de concluir este tutorial, você saberá:

- Técnicas como limpeza de dados podem identificar erros ex nos dados, como valores ausentes.
- As transformações de dados podem alterar a escala, o tipo e a distribuição de probabilidade das variáveis em
o conjunto de dados.
- Técnicas como seleção de recursos e redução de dimensionalidade podem reduzir o número
de variáveis de entrada.

Vamos começar.

3.1 Visão geral do tutorial

1. Tarefas comuns de preparação de dados
2. Limpeza de dados
3. Seleção de recursos
4. Transformações de dados
5. Engenharia de recursos
6. Redução de dimensionalidade

3.2 Tarefas comuns de preparação de dados

Podemos definir a preparação de dados como a transformação de dados brutos em um formato que seja mais
adequado para modelagem. No entanto, existem etapas em um projeto de modelagem preditiva antes e
após a etapa de preparação dos dados que são importantes e informam a preparação dos dados que será
realizado. O processo de aprendizado de máquina aplicado consiste em uma sequência de etapas (introduzidas
no Capítulo 1). Podemos alternar entre as etapas de qualquer projeto, mas todas
os projetos seguem as mesmas etapas gerais; eles são:

- Passo 1: Definir o Problema.
- Etapa 2: Preparar os dados.
- Etapa 3: Avaliar modelos.
- Etapa 4: Finalizar o modelo.

Estamos preocupados com a etapa de preparação de dados (Etapa 2), e existem
tarefas que você pode usar ou explorar durante a etapa de preparação de dados em um aprendizado de máquina
projeto. Os tipos de preparação de dados realizados dependem dos seus dados, como seria de esperar.
No entanto, à medida que você trabalha em vários projetos de modelagem preditiva, você vê e exige
os mesmos tipos de tarefas de preparação de dados repetidamente.

Essas tarefas incluem:

- Limpeza de Dados: Identificação e correção de falhas ou erros nos dados.
- Seleção de recursos: identificação das variáveis de entrada que são mais relevantes para a tarefa.
- Transformações de Dados: Alteração da escala ou distribuição de variáveis.
- Engenharia de recursos: derivação de novas variáveis a partir de dados disponíveis.
- Redução de Dimensionalidade: Criando projeções compactas dos dados.

Isso fornece uma estrutura aproximada que podemos usar para pensar e navegar por diferentes dados.
algoritmos de preparação que podemos considerar em um determinado projeto com dados estruturados ou tabulares.

Vamos dar uma olhada em cada um deles.

3.3 Limpeza de Dados

A limpeza de dados envolve corrigir problemas ou erros sistemáticos em dados confusos. Os dados mais úteis
a limpeza envolve profundo conhecimento de domínio e pode envolver a identificação e abordagem de problemas específicos
observações que podem estar incorretas. Há muitos motivos pelos quais os dados podem ter valores incorretos,
como ser digitado incorretamente, corrompido, duplicado e assim por diante. A experiência no domínio pode permitir, obviamente
observações errôneas sejam identificadas, pois são diferentes do que é esperado, como um
altura da pessoa de 200 pés.

Uma vez identificadas observações confusas, barulhentas, corrompidas ou errôneas, elas podem ser resolvidas.
Isso pode envolver a remoção de uma linha ou coluna. Alternativamente, pode envolver a substituição
observações com novos valores. Como tal, existem operações gerais de limpeza de dados que podem ser
realizados, como:

- Usando estatísticas para definir dados normais e identificar valores discrepantes (Capítulo 6.)
- Identificar colunas que possuem o mesmo valor ou nenhuma variação e removê-las (Capítulo
ter 5).
- Identificar linhas duplicadas de dados e removê-las (Capítulo 5).
- Marcação de valores vazios como ausentes (Capítulo 7).
- Imputação de valores faltantes usando estatística ou um modelo aprendido (Capítulos 8, 9 e 10).

A limpeza de dados é uma operação normalmente realizada primeiro, antes de outras etapas de preparação de dados.
operações.

![image.png](attachment:image.png)
Figura 3.1: Visão geral das técnicas de limpeza de dados.

3.4 Feature Selection

Feature selection refers to techniques for selecting a subset of input features that are most
relevant to the target variable that is being predicted. This is important as irrelevant and
redundant input variables can distract or mislead learning algorithms possibly resulting in lower
predictive performance. Additionally, it is desirable to develop models only using the data that
is required to make a prediction, e.g. to favor the simplest possible well performing model.

Feature selection techniques may generally grouped into those that use the target variable
(supervised) and those that do not (unsupervised). Additionally, the supervised techniques
can be further divided into models that automatically select features as part of tting the
model (intrinsic), those that explicitly choose features that result in the best performing model
(wrapper) and those that score each input feature and allow a subset to be selected (lter).

![image.png](attachment:image.png)
Figure 3.2: Overview of Feature Selection Techniques.

Statistical methods, such as correlation, are popular for scoring input features. The features
can then be ranked by their scores and a subset with the largest scores used as input to a model.
The choice of statistical measure depends on the data types of the input variables and a review
of dierent statistical measures that can be used is introduced in Chapter 11. Additionally, there
are dierent common feature selection use cases we may encounter in a predictive modeling
project, such as:

 Categorical inputs for a classication target variable (Chapter 12).
 Numerical inputs for a classication target variable (Chapter 13).
 Numerical inputs for a regression target variable (Chapter 14).

When a mixture of input variable data types is present, dierent lter methods can be
used. Alternately, a wrapper method such as the popular Recursive Feature Elimination (RFE)
method can be used that is agnostic to the input variable type. We will explore using RFE for
feature selection in Chapter 11. The broader eld of scoring the relative importance of input
features is referred to as feature importance and many model-based techniques exist whose
outputs can be used to aide in interpreting the model, interpreting the dataset, or in selecting
features for modeling. We will explore feature importance in Chapter 16.

3.5 Data Transforms

Data transforms are used to change the type or distribution of data variables. This is a large
umbrella of dierent techniques and they may be just as easily applied to input and output
variables. Recall that data may have one of a few types, such as numeric or categorical, with
subtypes for each, such as integer and real-valued 
oating point values for numeric, and nominal,
ordinal, and boolean for categorical.

 Numeric Data Type: Number values.
{ Integer: Integers with no fractional part.
{ Float: Floating point values.
 Categorical Data Type: Label values.
{ Ordinal: Labels with a rank ordering.
{ Nominal: Labels with no rank ordering.
{ Boolean: Values True and False.

![image.png](attachment:image.png)
Figure 3.3: Overview of Data Variable Types.

We may wish to convert a numeric variable to an ordinal variable in a process called
discretization. Alternatively, we may encode a categorical variable as integers or boolean
variables, required on most classication tasks.

 Discretization Transform: Encode a numeric variable as an ordinal variable (Chap-ter 22).
 Ordinal Transform: Encode a categorical variable into an integer variable (Chapter 19).
 One Hot Transform: Encode a categorical variable into binary variables (Chapter 19).

For real-valued numeric variables, the way they are represented in a computer means there
is dramatically more resolution in the range 0-1 than in the broader range of the data type.
As such, it may be desirable to scale variables to this range, called normalization. If the data
has a Gaussian probability distribution, it may be more useful to shift the data to a standard
Gaussian with a mean of zero and a standard deviation of one.

 Normalization Transform: Scale a variable to the range 0 and 1 (Chapters 17 and 18).
 Standardization Transform: Scale a variable to a standard Gaussian (Chapter 17).

The probability distribution for numerical variables can be changed. For example, if the
distribution is nearly Gaussian, but is skewed or shifted, it can be made more Gaussian using
a power transform. Alternatively, quantile transforms can be used to force a probability
distribution, such as a uniform or Gaussian on a variable with an unusual natural distribution.

 Power Transform: Change the distribution of a variable to be more Gaussian (Chap-
ter 20).
 Quantile Transform: Impose a probability distribution such as uniform or Gaussian
(Chapter 21).

An important consideration with data transforms is that the operations are generally
performed separately for each variable. As such, we may want to perform dierent operations
on dierent variable types. We may also want to use the transform on new data in the future.
This can be achieved by saving the transform objects to le along with the nal model trained
on all available data.

![image.png](attachment:image.png)
Figure 3.4: Overview of Data Transform Techniques.

3.6 Feature Engineering

Feature engineering refers to the process of creating new input variables from the available
data. Engineering new features is highly specic to your data and data types. As such, it often
requires the collaboration of a subject matter expert to help identify new features that could
be constructed from the data. This specialization makes it a challenging topic to generalize to
general methods. Nevertheless, there are some techniques that can be reused, such as:

 Adding a boolean 
ag variable for some state.
 Adding a group or global summary statistic, such as a mean.
 Adding new variables for each component of a compound variable, such as a date-time.

A popular approach drawn from statistics is to create copies of numerical input variables
that have been changed with a simple mathematical operation, such as raising them to a power
or multiplied with other input variables, referred to as polynomial features.

 Polynomial Transform: Create copies of numerical input variables that are raised to a
power (Chapter 23).

The theme of feature engineering is to add broader context to a single observation or
decompose a complex variable, both in an eort to provide a more straightforward perspective
on the input data. I like to think of feature engineering as a type of data transform, although it
would be just as reasonable to think of data transforms as a type of feature engineering.

3.7 Dimensionality Reduction

The number of input features for a dataset may be considered the dimensionality of the data.
For example, two input variables together can dene a two-dimensional area where each row
of data denes a point in that space. This idea can then be scaled to any number of input
variables to create large multi-dimensional hyper-volumes. The problem is, the more dimensions
this space has (e.g. the more input variables), the more likely it is that the dataset represents a
very sparse and likely unrepresentative sampling of that space. This is referred to as the curse
of dimensionality.

This motivates feature selection, although an alternative to feature selection is to create a
projection of the data into a lower-dimensional space that still preserves the most important
properties of the original data. This is referred to generally as dimensionality reduction and
provides an alternative to feature selection (Chapter 27). Unlike feature selection, the variables in
the projected data are not directly related to the original input variables, making the projection
dicult to interpret. The most common approach to dimensionality reduction is to use a matrix
factorization technique:

 Principal Component Analysis (Chapter 29).
 Singular Value Decomposition (Chapter 30).

The main impact of these techniques is that they remove linear dependencies between input
variables, e.g. correlated variables. Other approaches exist that discover a lower dimensionality
reduction. We might refer to these as model-based methods such as linear discriminant analysis
and perhaps autoencoders.

 Linear Discriminant Analysis (Chapter 28).
Sometimes manifold learning algorithms can also be used, such as Kohonen self-organizing
maps (SOME) and t-Distributed Stochastic Neighbor Embedding (t-SNE).

![image.png](attachment:image.png)
Figure 3.5: Overview of Dimensionality Reduction Techniques.