# At√© agora...
---

O objetivo deste curso √© **apresentar o Jupyter com reprodutibilidade para a realiza√ß√£o de projetos em Ci√™ncia de Dados**. Utilizando dessa ferramenta, estamos passando pelas principais etapas de um projeto de Ci√™ncia de Dados, e at√© agora vimos:

- [Jupyter B√°sico](../2.Basico/2.1.Estrutura.Geral.ipynb)
- [Prepara√ß√£o de Dados para Ci√™ncia](../3.Preparacao/3.1.Importacao.Dados.ipynb)
- [Integra√ß√£o, Transforma√ß√£o, Redu√ß√£o](../4.Transformacao/4.1.Integracao.ipynb)

Se voc√™ ainda est√° com d√∫vida em alguma dessas etapas e/ou algum conceito ainda n√£o est√° muito claro, por favor n√£o deixe de revisitar esses notebooks e, se necess√°rio, consulte o [texto do cap√≠tulo](https://sol.sbc.org.br/livros/index.php/sbc/catalog/view/67/292/544-1).

In [None]:
# Importando o pacote necess√°rio
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA


# Redu√ß√£o de Dados
---

Para finalizar a se√ß√£o de *Prepara√ß√£o de dados*, n√≥s vamos explorar a <ins>**Redu√ß√£o de dados**</ins>, uma etapa fundamental para lidar com grandes volumes de dados. De fato, gerenciar e processar dados requer tempo, esfor√ßo e recursos quando estamos lidando com alta dimensionalidade. 

Para enfrentar tais desafios, t√©cnicas de <ins>**Redu√ß√£o de dados**</ins> s√£o aplicadas. No entanto, embora sejam **essenciais**, essas t√©cnicas geralmente s√£o **complexas**, pois exigem amplo conhecimento para a escolha adequada de qual t√©cnica utilizar. 

Assim, para simplificar, essa etapa ir√° apresentar apenas uma t√©cnica muito utilizada de *Redu√ß√£o de dimensionalidade*.

## An√°lise de Componentes Principais (PCA)

O PCA, ou An√°lise de Componentes Principais, √© um dos m√©todos mais simples e, de longe, o mais comum para a *Redu√ß√£o da dimensionalidade*. 

Existem diversos motivos para aplicar a redu√ß√£o a partir do PCA. Mas, uma raz√£o bem comum √© quando coletamos muitos dados e n√£o sabemos por onde come√ßar nossas an√°lises. Assim, ao aplicar o PCA podemos reduzi-los em poucas dimens√µes e, em seguida, plot√°-los e estudar poss√≠veis padr√µes. 

> **Como ele funciona?** ü§î

Considere a tabela `Tracks` que cont√©m informa√ß√µes sobre os *hits* do Spotify dos √∫ltimos anos. Nesta tabela, n√≥s temos extamente 14 caracter√≠sticas musicais. Ou seja, temos um conjunto de dados de **14 dimens√µes**. Certo?

Imagine agora que voc√™ est√° preocupado que n√£o haja diferen√ßa em qualquer uma dessas caracter√≠sticas que nos ajude a classificar m√∫sicas entre *Solo* e *Colabora√ß√µes*. Portanto, precisamos investigar mais a fundo todas essas caracter√≠sticas.

> **Mas como voc√™ plota dados de 14 dimens√µes?** ü§î

√â exatamente a√≠ que o PCA entra para salvar o dia! üôå

Em resumo, o m√©todo ir√° "espremer" essas 14 dimens√µes em, por exemplo, apenas **2** dimens√µes!!

Ou seja, enquanto antes n√≥s t√≠nhamos cada m√∫sica associada a 14 caracter√≠sticas diferentes; agora, elas ter√£o apenas 2 vari√°veis associadas a elas. 

Assim, podemos plotar esses dois n√∫meros em um gr√°fico de dispers√£o, permitindo analisar se h√° alguma diferen√ßa entre as m√∫sicas *Solo* e *Colabora√ß√µes*.

### EXEMPLO

Especificamente, o PCA √© um algoritmo n√£o supervisionado que busca encontrar um meio de condensar a informa√ß√£o dos atributos originais do conjunto de dados em um conjunto menor de vari√°veis estat√≠sticas (**componentes principais**) com uma perda m√≠nima de informa√ß√£o. 

O n√∫mero de componentes principais se torna o n√∫mero de vari√°veis consideradas na an√°lise, mas geralmente as primeiras componentes s√£o as mais importantes j√° que explicam a maior parte da varia√ß√£o total dos dados.

Para entender melhor como o PCA funciona, vamos utilizar o seguinte exemplo:

#### 1. Criar o *DataFrame*

Para exemplificar, n√≥s vamos utilizar as caracter√≠sticas ac√∫sticas da tabela `Tracks` e verificar se tais caracter√≠sticas podem ser √∫teis para classificar as m√∫sicas de acordo com o tipo delas (i.e., se s√£o m√∫sicas *Solo* ou *Colabora√ß√µes*).

In [None]:
cols = [
    'duration_ms', 'key', 'mode', 'time_signature', 'acousticness',
    'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness',
    'speechiness', 'valence', 'tempo', 'song_type'
]

# Selecionando algumas colunas da tabela Tracks
data = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv', encoding='utf-8', usecols=cols)
data.head()

In [None]:
print(data.shape) # n√∫mero total de observa√ß√µes e atributos

#### 2. Pr√©-processamento dos dados

Com o conjunto de dados criado, realizamos um pr√©-processamento dos dados:

1. Separamos os dados em preditores (X) e vari√°vel *target* (y)

In [None]:
# Separando preditores (X) da vari√°vel target (y)
y = data.song_type # vari√°vel target
X = data.drop('song_type', axis=1) # conjunto de preditores

2. Padronizamos os preditores usando o transformador `StandardScaler` do m√≥dulo `sklearn.preprocessing` da biblioteca `sklearn`

In [None]:
# Padronizando os dados de treino utilizando
X = StandardScaler().fit_transform(X)

‚ö†Ô∏è **OBSERVA√á√ÉO!** Note que n√≥s padronizamos o conjunto de dados para que os atributos em maior escala n√£o dominem os novos componentes principais. 

#### 3. Aplicamos o algoritmo PCA

Agora, podemos aplicar o algoritmo PCA. 

Para isso, iremos utilizar a biblioteca *sklearn* para importar o m√≥dulo `sklearn.decomposition` e a classe `PCA` para extrair os dois componentes principais `(n_components = 2)` do nosso conjunto de dados:

In [None]:
# Calculando os dois componentes principais
pca_resultado = PCA(n_components=2)
componentes = pca_resultado.fit_transform(X) # extraindo os dois componentes

df_pcs = pd.DataFrame(componentes, columns=['PC1', 'PC2',])
df_pcs.head()

O *DataFrame* resultante apresenta os valores dos dois componentes principais para todas as 1284 amostras. 

#### 4. Visualizar as duas dimens√µes

Com a redu√ß√£o de dados realizada, agora podemos usar um gr√°fico de dispers√£o para analisar se h√° alguma diferen√ßa entre as m√∫sicas *Solo* e *Colabora√ß√µes*. Aqui, usaremos as bibliotecas `seaborn` e `matplotlib` que ser√£o abordadas com mais detalhes na se√ß√£o de **Visualiza√ß√£o de dados**. 

In [None]:
df_pcs['song_type'] = data['song_type'] # adicionando a coluna do tipo da m√∫sica

# Visualizando os dois componentes principais resultantes 
sns.lmplot(x="PC1", y="PC2", data=df_pcs, fit_reg=False, hue='song_type', legend=False)
plt.legend(loc='lower right')
plt.show()

Atrav√©s dessa an√°lise visual, podemos ver que, aparentemente, n√£o h√° diferen√ßa significativa entre as m√∫sicas *Solo* e *Colabora√ß√µes* em rela√ß√£o √†s suas caracter√≠sticas ac√∫sticas. Isso, porque os dois grupos demonstram comportamentos bem similares.

#### 5. Vari√¢ncia explicada

Ap√≥s a extra√ß√£o dos componentes principais, podemos verificar a quantidade de informa√ß√µes ou a varia√ß√£o que cada componente principal mant√©m ap√≥s projetar os dados em um subespa√ßo de dimens√£o inferior. Para isso, utilizamos a propriedade `explained_variance_ratio`:

In [None]:
print('Varia√ß√£o explicada por componentes principais: {}'.format(
    pca_resultado.explained_variance_ratio_))

Como resultado, podemos observar que o primeiro componente principal det√©m 20,5% das informa√ß√µes, enquanto o segundo apenas 10,8% das informa√ß√µes. Juntos, os dois componentes cont√™m 30,85% das informa√ß√µes.

Ou seja, ao reduzir a dimensionalidade do conjunto de dados para duas dimens√µes, 69,15% das informa√ß√µes originais foram perdidas. Uma solu√ß√£o para aumentar as informa√ß√µes seria aumentar o n√∫mero de dimens√µes (i.e., componentes principais) ao aplicar o PCA.

Vamos testar com 10 dimens√µes üëÄ

In [None]:
# Calculando os dois componentes principais
pca_resultado = PCA(n_components=10)
componentes = pca_resultado.fit_transform(X) # extraindo os dois componentes

print(f'Varia√ß√£o explicada por componentes principais: {round(sum(pca_resultado.explained_variance_ratio_)*100,1)}%')

Assim, aumentando o n√∫mero de dimens√µes, percebemos que as informa√ß√µes aumentam consideravelmente.

## Conclus√£o

Este notebook apresentou como reduzir a dimensionalidade dos dados utilizando o algoritmo PCA.

üîé **Se interessou?** Para mais t√©cnicas de redu√ß√£o de dados, voc√™ pode dar uma olhada na biblioteca `sklearn`: [Unsupervised dimensionality reduction](https://scikit-learn.org/stable/modules/unsupervised_reduction.html)

---

Este foi o fim desta parte do tutorial sobre prepa√ß√£o de dados. A pr√≥xima parte ([5.Ciencia.de.Dados](../5.Ciencia.de.Dados/5.1.Ciencia.Dados.Basica.ipynb)) apresentar√° como fazer analise explorat√≥ria dos dados como parte da ci√™ncia de dados.