# Dimensionality Reduction Using Feature Extraction

## Redução de Dimensionalidade e Extração de Características  

A extração de características visa reduzir a quantidade de atributos enquanto mantém a maior parte da informação. Assim diminuímos o número de variáveis sem comprometer significativamente a capacidade de gerar previsões de qualidade.  

Porém, um problema dessas técnicas é que as novas características geradas não são interpretáveis para humanos, pois aparecem como números aleatórios. Se a interpretabilidade for essencial, a seleção de características pode ser uma alternativa melhor.

## PCA

 O PCA ajuda a resumir essas informações sem perder muito do que é importante. Transformação é linear, maximiza a variância e reduz dimensões. Logo, tenta encontrar novas variáveis que explicam a maior parte da variação nos dados.

In [1]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn import datasets

In [5]:
digits = datasets.load_digits()

digits

{'data': array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
        [ 0.,  0.,  0., ..., 10.,  0.,  0.],
        [ 0.,  0.,  0., ..., 16.,  9.,  0.],
        ...,
        [ 0.,  0.,  1., ...,  6.,  0.,  0.],
        [ 0.,  0.,  2., ..., 12.,  0.,  0.],
        [ 0.,  0., 10., ..., 12.,  1.,  0.]], shape=(1797, 64)),
 'target': array([0, 1, 2, ..., 8, 9, 8], shape=(1797,)),
 'frame': None,
 'feature_names': ['pixel_0_0',
  'pixel_0_1',
  'pixel_0_2',
  'pixel_0_3',
  'pixel_0_4',
  'pixel_0_5',
  'pixel_0_6',
  'pixel_0_7',
  'pixel_1_0',
  'pixel_1_1',
  'pixel_1_2',
  'pixel_1_3',
  'pixel_1_4',
  'pixel_1_5',
  'pixel_1_6',
  'pixel_1_7',
  'pixel_2_0',
  'pixel_2_1',
  'pixel_2_2',
  'pixel_2_3',
  'pixel_2_4',
  'pixel_2_5',
  'pixel_2_6',
  'pixel_2_7',
  'pixel_3_0',
  'pixel_3_1',
  'pixel_3_2',
  'pixel_3_3',
  'pixel_3_4',
  'pixel_3_5',
  'pixel_3_6',
  'pixel_3_7',
  'pixel_4_0',
  'pixel_4_1',
  'pixel_4_2',
  'pixel_4_3',
  'pixel_4_4',
  'pixel_4_5',
  'pixel_4_6',
  'pixel_4_7'

In [None]:
features = StandardScaler().fit_transform(digits.data)

pca = PCA(n_components=0.99, whiten=True) # manter 99% da informação original
features_pca = pca.fit_transform(features)

print("Original number of features:", features.shape[1])
print("Reduced number of features:", features_pca.shape[1])

Original number of features: 64
Reduced number of features: 54


## Kernel PCA

Se os dados não podem ser separados por uma linha reta (ou seja, são **linearmente inseparáveis**), o PCA tradicional não funciona bem. Por isso usamos **Kernel PCA (KPCA)**, uma versão melhorada do PCA que permite separar dados não lineares usando funções chamadas **kernels**.  



In [10]:
from sklearn.decomposition import PCA, KernelPCA
from sklearn.datasets import make_circles

features, _ = make_circles(n_samples=1000, random_state=1, noise=0.1, factor=0.1) # não linear

kpca = KernelPCA(kernel='rbf', gamma=15, n_components=1)
features_kpca = kpca.fit_transform(features)

print("Original number of features:", features.shape[1])
print("Reduced number of features:", features_kpca.shape[1])

Original number of features: 2
Reduced number of features: 1


## Redução de Dimensionalidade com LDA  

Se quer reduzir o número de características do conjunto de dados para melhorar o desempenho de um **classificador** utilizamos a **Análise Discriminante Linear (LDA)**, que projeta os dados em eixos que **maximizam a separação entre as classes**, garantindo que elas fiquem mais distinguíveis.  

### Exemplo  
Imagine um gráfico com dois eixos (**x** e **y**) e duas classes de dados representadas por pontos vermelhos e azuis.  

- Se projetarmos os dados no eixo **y**, as classes podem ficar misturadas.  
- Se projetarmos no eixo **x**, as classes ficam mais separadas.  

O **LDA escolhe a melhor direção para projetar os dados, garantindo que as classes permaneçam bem separadas**  

**Portanto, é bom usar o LDA quando o objetivo for melhorar o desempenho de um classificador**

In [11]:
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

iris = datasets.load_iris()
features = iris.data
target = iris.target

lda = LinearDiscriminantAnalysis(n_components=1)
features_lda = lda.fit(features, target).transform(features)

print("Original number of features:", features.shape[1])
print("Reduced number of features:", features_lda.shape[1])

Original number of features: 4
Reduced number of features: 1


In [12]:
lda.explained_variance_ratio_

array([0.9912126])

Apenas um componente explica 99% da variância, logo podemos reduzir de várias características para apenas uma sem perder muita informação

## Fatoração de Matrizes  

Se tem uma **matriz de características com valores não negativos** (só trabalha com valores positivos) e deseja reduzir sua dimensionalidade utilizamos a **Fatoração de Matrizes Não Negativas (NMF)** para decompor a matriz original em **matrizes menores**, preservando a estrutura dos dados.  

É uma **fatoração de matriz para encontrar padrões ocultos nos dados, não exige que as características sejam independentes ou normalizadas e é útil em aplicações como processamento de imagens e recomendação de produtos.**  


In [13]:
from sklearn.decomposition import NMF
from sklearn import datasets

digits = datasets.load_digits()
features = digits.data

nmf = NMF(n_components=10, random_state=1)
features_nmf = nmf.fit_transform(features)

print("Original number of features:", features.shape[1])
print("Reduced number of features:", features_nmf.shape[1])

Original number of features: 64
Reduced number of features: 10




## TSVD

Se possui uma matriz de características com valores **esparsos** (maioria 0) e deseja reduzir a dimensionalidade, usa-se o **TSVD (Truncated SVD)** que é semelhante ao **PCA**, mas funciona bem para **matrizes esparsas**. Logo, **usa-se TSVD** para **dados esparsos** onde a explicação da variância é útil.  


In [14]:
from sklearn.decomposition import TruncatedSVD
from scipy.sparse import csr_matrix
import numpy as np

digits = datasets.load_digits()
features = StandardScaler().fit_transform(digits.data)

features_sparse = csr_matrix(features)
tsvd = TruncatedSVD(n_components=10)
features_sparse_tsvd = tsvd.fit(features_sparse).transform(features_sparse)

# Show results
print("Original number of features:", features_sparse.shape[1])
print("Reduced number of features:", features_sparse_tsvd.shape[1])

Original number of features: 64
Reduced number of features: 10


In [15]:
tsvd.explained_variance_ratio_[0:3].sum()

np.float64(0.3003938539212949)

-----

## Exemplos

### 1. **PCA (Principal Component Analysis)**
   - **Exemplo do dia a dia**: Reduzir dimensões de dados financeiros, mantendo o máximo de variação.

### 2. **LDA (Linear Discriminant Analysis)**
   - **Exemplo do dia a dia**: Classificar emails como spam ou não, com base em características como palavras-chave

### 3. **Fatoração de Matrizes**
   - **Exemplo do dia a dia**: Sistema de recomendação de filmes, decompõe uma matriz de preferências de usuários e filmes para prever avaliações futuras.

### 4. **TSVD (Truncated Singular Value Decomposition)**
   - **Exemplo do dia a dia**: Reduzir uma grande matriz de palavras-chave de documentos, mantendo as características mais importantes.
