In [1]:
# Importando o pacote necessário
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.linear_model import LinearRegression

## Redução de Dados

Gerenciar e processar dados requer tempo, esforço e recursos, especialmente com grandes volumes de dados de várias fontes e em diferentes formatos. Para enfrentar tais desafios, técnicas de Redução de dados são aplicadas, auxiliando na análise de dados com alta dimensionalidade. Embora essenciais, essas técnicas geralmente são complexas, pois exigem amplo conhecimento para a escolha adequada de qual técnica utilizar. Assim, por simplicidade, essa seção apresenta apenas uma técnica, citando o texto para as demais. 

## Redução de dimensionalidade

É o processo de reduzir o número de dimensões de um conjunto de dados. Existem diferentes algoritmos de redução de dimensionalidade, mas nenhum método é único e ideal para todos os casos. Os diferentes algoritmos de redução de dimensionalidade podem ser divididos em duas categorias principais, Feature Selection e Feature Extraction. Nesta seção, nós exploraremos os principais métodos existentes nas duas categorias.

A Análise de Componentes Principais (PCA) é um dos métodos mais simples e, de longe, o mais comum para a redução da dimensionalidade. PCA é um algoritmo não supervisionado que cria combinações lineares dos atributos originais, classificadas em ordem de sua variância explicada. O próximo exemplo utiliza a biblioteca *scikit-learn* para importar o módulo `sklearn.decomposition` e a classe PCA para extrair os dois componentes principais `(n_components = 2)` do nosso conjunto de dados.

In [5]:
# Padronizando os dados de treino
X = StandardScaler().fit_transform(X)
# Calculando os dois componentes principais
pca_resultado = PCA(n_components=2)
df_pcs = pd.DataFrame(pca_resultado.fit_transform(X), columns=['PC1', 'PC2'])
df_pcs.tail()

Unnamed: 0,PC1,PC2
1279,-1.848746,-1.361856
1280,5.266716,1.026617
1281,0.451366,-1.150981
1282,-0.780667,0.101453
1283,-2.273107,0.817602


O *DataFrame* resultante apresenta os valores dos dois componentes principais para todas as 1283 amostras. O conjunto de dados foi padronizado, utilizando a classe `StandardScaler`; do contrário, os atributos em maior escala dominariam os novos componentes principais. Após a extração dos componentes principais, o método fornece a quantidade de informações ou variação que cada componente principal mantém após projetar os dados em um subespaço de dimensão inferior. O primeiro componente principal detém 17,3% das informações, enquanto o segundo apenas 9% das informações. Ou seja, ao reduzir a dimensionalidade do conjunto de dados para duas dimensões, 73,7% das informações originais foram perdidas, conforme mostrado a seguir.

In [6]:
print('Variação explicada por componentes principais: {}'.format(
    pca_resultado.explained_variance_ratio_))

Variação explicada por componentes principais: [0.17349221 0.08862283]


## Conclusão

Este notebook apresentou como reduzir a dimensionalidade dos dados.

Este foi o fim desta parte do tutorial sobre prepação de dados. A próxima parte ([4.Ciencia.de.Dados](../4.Ciencia.de.Dados/4.1.Analise.Exploratoria.ipynb)) apresentará como fazer analise exploratória dos dados como parte da ciência de dados.

