In [1]:
# Importando o pacote necessário
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA


# Redução de Dados
---

Para finalizar a seção de *Preparação de dados*, nós vamos explorar a <ins>**Redução de dados**</ins>, uma etapa fundamental para lidar com grandes volumes de dados.

De fato, gerenciar e processar dados requer tempo, esforço e recursos quando estamos lidando com muitos dados. 

Para enfrentar tais desafios, técnicas de <ins>**Redução de dados**</ins> são aplicadas, auxiliando na análise de dados com alta dimensionalidade. 

Embora **essenciais**, essas técnicas geralmente são **complexas**, pois exigem amplo conhecimento para a escolha adequada de qual técnica utilizar. 

Assim, para simplificar, essa etapa irá apresentar apenas uma técnica muito utilizada de *Redução de dimensionalidade*.

## Análise de Componentes Principais (PCA)

O PCA, ou Análise de Componentes Principais, é um dos métodos mais simples e, de longe, o mais comum para a *Redução da dimensionalidade*. 

Especificamente, o PCA é um algoritmo não supervisionado que cria **combinações lineares** dos atributos originais, classificadas em ordem de sua variância explicada. 

https://jakevdp.github.io/PythonDataScienceHandbook/05.09-principal-component-analysis.html
http://www.billconnelly.net/?p=697

Normalmente, você coletou tantos dados que nem sabe por onde começar, então realiza o PCA para reduzir os dados a duas dimensões e, em seguida, pode plotá-los e procurar a estrutura.

### EXEMPLO

O próximo exemplo utiliza a biblioteca *scikit-learn* para importar o módulo `sklearn.decomposition` e a classe PCA para extrair os dois componentes principais `(n_components = 2)` do nosso conjunto de dados.

In [6]:
cols = [
    'duration_ms', 'key', 'mode', 'time_signature', 'acousticness',
    'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness',
    'speechiness', 'valence', 'tempo', 'song_type'
]

# Selecionando algumas colunas da tabela Tracks
data = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv', encoding='utf-8', usecols=cols)
data.head(3)

Unnamed: 0,song_type,duration_ms,key,mode,time_signature,acousticness,danceability,energy,instrumentalness,liveness,loudness,speechiness,valence,tempo
0,Solo,159381,10,0,4,0.123,0.784,0.43,0.0,0.0887,-8.756,0.0364,0.236,127.087
1,Solo,188800,9,1,4,0.162,0.775,0.757,0.0,0.148,-4.139,0.175,0.562,142.933
2,Solo,180950,10,0,4,0.113,0.882,0.53,0.479,0.0838,-8.544,0.233,0.171,109.09


In [3]:
# Separando preditores (X) da variável target (y)
y = data.song_type # variável target
X = data.drop('song_type', axis=1) # conjunto de preditores

# Padronizando os dados de treino
X = StandardScaler().fit_transform(X)

# Calculando os dois componentes principais
pca_resultado = PCA(n_components=2)
df_pcs = pd.DataFrame(pca_resultado.fit_transform(X), columns=['PC1', 'PC2'])
df_pcs.tail()

Unnamed: 0,PC1,PC2
1279,-2.048672,-1.284035
1280,4.875108,1.751937
1281,0.104736,-0.615856
1282,-0.67232,-0.010807
1283,-1.882789,0.678059


O *DataFrame* resultante apresenta os valores dos dois componentes principais para todas as 1284 amostras. O conjunto de dados foi padronizado, utilizando a classe `StandardScaler`; do contrário, os atributos em maior escala dominariam os novos componentes principais. 

Após a extração dos componentes principais, o método fornece a quantidade de informações ou variação que cada componente principal mantém após projetar os dados em um subespaço de dimensão inferior. O primeiro componente principal detém 20,5% das informações, enquanto o segundo apenas 10,8% das informações. Ou seja, ao reduzir a dimensionalidade do conjunto de dados para duas dimensões, 79,5% das informações originais foram perdidas, conforme mostrado a seguir.

In [4]:
print('Variação explicada por componentes principais: {}'.format(
    pca_resultado.explained_variance_ratio_))

Variação explicada por componentes principais: [0.20466025 0.10812237]


## Conclusão

Este notebook apresentou como reduzir a dimensionalidade dos dados.

Este foi o fim desta parte do tutorial sobre prepação de dados. A próxima parte ([5.Ciencia.de.Dados](../5.Ciencia.de.Dados/5.1.Analise.Exploratoria.ipynb)) apresentará como fazer analise exploratória dos dados como parte da ciência de dados.

