## Feature Engineering and the Curse of Dimensionality

Engenharia de Características é um processo crucial em aprendizado de máquina que envolve a seleção, transformação e criação de atributos relevantes a partir dos dados de treinamento. A qualidade das características utilizadas para treinar um modelo pode influenciar significativamente sua precisão e eficácia.

Principais Componentes:
Seleção de Características: Identificação de quais atributos são relevantes e eliminação de características irrelevantes.
Transformação de Características: Modificação de dados brutos (como normalização, escalonamento ou codificação) para torná-los adequados ao modelo.
Tratamento de Dados Ausentes: Estratégias para lidar com lacunas nos dados, que são comuns em cenários do mundo real.
Criação de Novas Características: Combinação ou transformação de características existentes para melhorar a representação dos dados.
Maldição da Dimensionalidade:
O aumento do número de características pode tornar o espaço de solução mais complexo e difícil de navegar, resultando em dados esparsos. Portanto, é importante reduzir a dimensionalidade para facilitar a busca por soluções ideais.

Técnicas:
Análise de Componentes Principais (PCA): Reduz a dimensionalidade enquanto preserva a maior quantidade de informação possível.
Agrupamento K-Means: Uma técnica não supervisionada que condensa características em um conjunto menor baseado em similaridades.

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split

# Criação de um conjunto de dados fictício
data = {
    'idade': [25, 32, 47, 51, 23, 36, 45, 29],
    'altura': [1.75, 1.80, 1.60, 1.70, 1.65, 1.85, 1.78, 1.72],
    'peso': [70, 80, 65, 75, 55, 90, 85, 78],
    'salario': [30000, 45000, 60000, 80000, 25000, 70000, 75000, 50000]
}

df = pd.DataFrame(data)

# Exibir dados originais
print("Dados Originais:")
print(df)

# Seleção de características (remover 'salario' como exemplo)
X = df.drop(columns=['salario'])
y = df['salario']

# Tratamento de dados ausentes (exemplo fictício, não temos dados ausentes aqui)
# X.fillna(X.mean(), inplace=True)

# Transformação: Normalização
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Redução de Dimensionalidade: PCA
pca = PCA(n_components=2)  # Reduzir para 2 dimensões
X_pca = pca.fit_transform(X_scaled)

# Divisão do conjunto de dados
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.2, random_state=42)

# Exibir resultados
print("\nDados após Engenharia de Características:")
print("X_train:", X_train)
print("y_train:", y_train.values)


Dados Originais:
   idade  altura  peso  salario
0     25    1.75    70    30000
1     32    1.80    80    45000
2     47    1.60    65    60000
3     51    1.70    75    80000
4     23    1.65    55    25000
5     36    1.85    90    70000
6     45    1.78    85    75000
7     29    1.72    78    50000

Dados após Engenharia de Características:
X_train: [[-0.32077247 -1.17687822]
 [ 0.01767663 -0.5793409 ]
 [-1.67395832  1.49681774]
 [-2.26785679 -1.10581517]
 [-0.03883413  1.55948711]
 [ 1.26920949  0.75939886]]
y_train: [30000 50000 60000 25000 80000 75000]


Explicação do Código
Criação de um Conjunto de Dados: Um DataFrame é criado com características fictícias como idade, altura, peso e salário.
Seleção de Características: A coluna 'salario' é removida para focar nas características preditivas.
Normalização: As características são normalizadas usando StandardScaler para que todas tenham a mesma escala.
Redução de Dimensionalidade: O PCA é aplicado para reduzir as características a 2 dimensões.
Divisão dos Dados: Os dados são divididos em conjuntos de treinamento e teste.

## Imputation Techniques for Missing Data


Resumo sobre Imputação de Dados Ausentes
A imputação de dados ausentes é uma etapa crucial na engenharia de características, especialmente em cenários do mundo real, onde a falta de dados é comum. Este processo envolve preencher os valores ausentes em um conjunto de dados para que análises e modelos de aprendizado de máquina possam ser aplicados efetivamente.

Estratégias Comuns para Imputação
Substituição pela Média:

Consiste em substituir os valores ausentes pela média da coluna correspondente. É rápida e fácil de implementar, mas tem desvantagens:
Não leva em consideração as correlações entre características.
Pode ser afetada por outliers (valores atípicos).
Não é aplicável a características categóricas.
Substituição pela Mediana:

Uma alternativa à média, mais robusta a outliers. Em conjuntos de dados com valores extremos, a mediana pode fornecer uma imputação mais representativa.
K-Nearest Neighbors (KNN):

Essa técnica usa a média dos valores dos K vizinhos mais próximos para imputar dados ausentes. É mais eficaz para dados numéricos e considera as relações entre características.
Regressão Múltipla:

Modelos de regressão podem ser usados para prever os valores ausentes com base nas características disponíveis.
MICE (Imputação Múltipla por Equações Encadeadas):

Uma abordagem avançada que trata a imputação como um processo de múltiplas fases, levando em conta as incertezas e interações entre variáveis.
Coleta de Mais Dados:

A melhor solução para dados ausentes é, muitas vezes, coletar mais dados de qualidade. Isso ajuda a minimizar as lacunas e melhora a precisão do modelo.
Implementação da Imputação de Dados Ausentes
Abaixo, segue um exemplo em Python utilizando a biblioteca pandas para demonstrar a imputação de dados ausentes usando a substituição pela média e a técnica KNN.

In [2]:
import pandas as pd
from sklearn.impute import SimpleImputer, KNNImputer

# Criação de um conjunto de dados fictício com dados ausentes
data = {
    'idade': [25, 32, None, 51, 23, 36, None, 29],
    'altura': [1.75, 1.80, 1.60, None, 1.65, 1.85, 1.78, 1.72],
    'peso': [70, None, 65, 75, 55, 90, 85, 78]
}

df = pd.DataFrame(data)
print("Dados Originais:")
print(df)

# Imputação pela média
mean_imputer = SimpleImputer(strategy='mean')
df_mean_imputed = pd.DataFrame(mean_imputer.fit_transform(df), columns=df.columns)

print("\nDados após Imputação pela Média:")
print(df_mean_imputed)

# Imputação KNN
knn_imputer = KNNImputer(n_neighbors=3)
df_knn_imputed = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)

print("\nDados após Imputação KNN:")
print(df_knn_imputed)


Dados Originais:
   idade  altura  peso
0   25.0    1.75  70.0
1   32.0    1.80   NaN
2    NaN    1.60  65.0
3   51.0     NaN  75.0
4   23.0    1.65  55.0
5   36.0    1.85  90.0
6    NaN    1.78  85.0
7   29.0    1.72  78.0

Dados após Imputação pela Média:
       idade    altura  peso
0  25.000000  1.750000  70.0
1  32.000000  1.800000  74.0
2  32.666667  1.600000  65.0
3  51.000000  1.735714  75.0
4  23.000000  1.650000  55.0
5  36.000000  1.850000  90.0
6  32.666667  1.780000  85.0
7  29.000000  1.720000  78.0

Dados após Imputação KNN:
       idade    altura  peso
0  25.000000  1.750000  70.0
1  32.000000  1.800000  76.0
2  26.666667  1.600000  65.0
3  51.000000  1.743333  75.0
4  23.000000  1.650000  55.0
5  36.000000  1.850000  90.0
6  32.333333  1.780000  85.0
7  29.000000  1.720000  78.0


## Handling Unbalanced Data: Oversampling, Undersampling, and SMOTE 
Dados Desequilibrados
Definição: Dados desequilibrados ocorrem quando há uma grande discrepância entre as classes em um conjunto de dados, como casos positivos (fraudes) e negativos (não fraudes).
Exemplo: Na detecção de fraudes, a fraudes representam uma pequena fração do total (ex: 0,01%), levando o modelo a prever predominantemente a classe negativa, resultando em alta precisão, mas baixa capacidade de detectar fraudes.
Desafios
Modelos treinados em conjuntos de dados desequilibrados podem aprender a simplesmente prever a classe majoritária, ignorando a classe minoritária.
Isso pode resultar em um desempenho ruim na detecção de fraudes, onde a identificação correta é crítica.
Soluções para Dados Desequilibrados
Sobreamostragem:

Descrição: Consiste em aumentar o número de amostras da classe minoritária (ex: fraudes) replicando-as.
Vantagem: Permite que o modelo tenha mais dados para aprender a identificar fraudes.
Desvantagem: Pode levar a overfitting, pois o modelo aprende padrões apenas de dados duplicados.
Subamostragem:

Descrição: Reduzir o número de amostras da classe majoritária (ex: não fraudes).
Vantagem: Equilibra as classes.
Desvantagem: Pode resultar na perda de informações importantes, comprometendo a precisão do modelo.
SMOTE (Synthetic Minority Oversampling Technique):

Descrição: Gera novas amostras da classe minoritária utilizando técnicas de interpolação entre os vizinhos mais próximos.
Vantagem: Cria dados sintéticos que são representativos e diversificados, melhorando a capacidade do modelo de aprender sobre a classe minoritária.
Desvantagem: Requer mais processamento e pode aumentar o tempo de treinamento.
Ajuste de Limites de Decisão:

Descrição: Modificar o limiar de probabilidade que determina se um caso é classificado como positivo (ex: fraude) ou negativo.
Vantagem: Permite controlar a taxa de falsos positivos e negativos de acordo com as prioridades do negócio (ex: minimizar alarmes falsos).
Desvantagem: Necessita de uma análise cuidadosa sobre o impacto das alterações no limite, já que pode afetar a detecção de fraudes.
Considerações Finais
Análise de Custos: É importante avaliar o custo de falsos positivos (alarmar clientes desnecessariamente) versus falsos negativos (não detectar fraudes reais). A estratégia pode variar dependendo do contexto e do impacto sobre os clientes.
Abordagem Híbrida: Combinar diferentes métodos pode levar a melhores resultados, balanceando o aumento da classe minoritária com técnicas de ajuste de limites.
Importância do Contexto: Cada abordagem deve ser escolhida com base na natureza dos dados, nos objetivos do modelo e nas consequências das decisões erradas.

## Binning, Transforming, Encoding, Scaling, and Shuffling
1. Fiação (Binning)
Definição: O processo de transformar dados numéricos em dados categóricos, agrupando valores em faixas (bins).
Exemplo: Agrupar idades em intervalos, como 20-29, 30-39, etc.
Objetivo: Reduzir a complexidade dos dados e lidar com incertezas nas medições. Facilita o uso de modelos que operam melhor com dados categóricos.
Considerações: Pode resultar em perda de informação, então deve ser usado com cautela, especialmente se os dados originais forem precisos.
2. Quantile Binning
Definição: Uma forma de fiação que distribui as amostras uniformemente entre os bins.
Vantagem: Garante que cada bin tenha o mesmo número de amostras, o que pode ser útil para evitar viés na modelagem.
3. Transformação de Dados
Objetivo: Aplicar funções (ex: logaritmos, potências) para tornar os dados mais adequados para algoritmos de aprendizado de máquina.
Exemplo: Transformar dados exponenciais usando uma transformação logarítmica para linearizar a relação.
Uso: Pode melhorar a capacidade do modelo de capturar padrões não lineares, ajudando a revelar tendências ocultas nos dados.
4. Codificação (Encoding)
Codificação One-Hot: Transforma categorias em colunas binárias, onde cada coluna representa uma categoria específica (0 ou 1).
Exemplo: Para reconhecimento de dígitos (0 a 9), cada número é representado por 10 colunas.
Vantagem: Essencial em redes neurais, onde os dados precisam ser representados de forma binária para ativação dos neurônios.
5. Escalonamento e Normalização
Descrição: Processos para garantir que as características estejam em escalas comparáveis.
Importância: Modelos sensíveis à escala (como SVM, KNN) podem ser afetados se as variáveis têm magnitudes muito diferentes.
Métodos:
Min-Max Scaling: Reduz os dados para uma faixa específica (ex: 0 a 1).
Standardization: Ajusta os dados para que tenham média 0 e desvio padrão 1.
6. Embaralhamento (Shuffling)
Objetivo: Aleatorizar a ordem dos dados de treinamento para eliminar padrões que possam introduzir viés.
Importância: A ordem de coleta dos dados pode afetar os resultados do modelo; embaralhar pode melhorar a qualidade do treinamento.
