In [1]:
# Importando os pacotes necess√°rios
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.utils import resample

In [2]:
# Comandos auxiliares
from IPython.core.display import display, HTML
pd.set_option('display.max_columns', 10)
pd.options.mode.chained_assignment = None  # default='warn'

def display_side_by_side(dfs: list, captions: list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes(
            "style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

# Transforma√ß√£o de Dados
---

Em geral, ap√≥s um processo de <ins>**Integra√ß√£o de dados**</ins>, colunas com diferentes tipos de dados podem ser geradas. 

Na <ins>**Transforma√ß√£o de dados**</ins>, o principal objetivo √© exatamente **transformar** esses dados de diferentes formatos em um formato suportado pelo processo de pesquisa, e.g., modelos e algoritmos. 

A <ins>**Transforma√ß√£o de dados**</ins> possui algumas etapas em comum com a <ins>**Limpeza de dados**</ins>, incluindo t√©cnicas de remo√ß√£o de ru√≠do e discretiza√ß√£o de dados. 

Portanto, nesta etapa, n√≥s vamos focar nas t√©cnicas que ainda n√£o foram abordadas at√© aqui.

## Dados n√£o padronizados

Dados coletados de diferentes fontes podem reunir dados **heterog√™neos**, **n√£o padronizados** e em **diferentes escalas** que muitas vezes necessitam um pr√©-processamento, i.e., uma etapa de escalonamento. 

O escalonamento de tais dados n√£o √© uma etapa obrigat√≥ria, mas uma boa pr√°tica! 

> **Mas... Por que precisamos dimensionar as vari√°veis em nosso conjunto de dados?** ü§î

> *Muitos algoritmos de Aprendizado de M√°quina apresentam um melhor desempenho quando as vari√°veis num√©ricas de entrada s√£o padronizadas.*

Isso inclui algoritmos que usam uma soma ponderada da entrada como, por exemplo, a regress√£o linhear e algoritmos que usam medidas de dist√¢ncia, como os algoritmos K-means e K-NN.

Existem algumas t√©cnicas de escalonamento que **transformam** caracter√≠sticas para uma escala, magnitude ou intervalo. 

Para descrever e exemplicar cada uma delas, utilizaremos o conjunto de atributos num√©ricos que descrevem as m√∫sicas do Spotify, ou seja, a tabela `Tracks` do nosso conjunto de dados. 

In [3]:
# Lendo os dados
data = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv', encoding='utf-8')
data.head(3)

Unnamed: 0,song_id,song_name,artist_id,artist_name,popularity,...,liveness,loudness,speechiness,valence,tempo
0,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],['Trevor Daniel'],77,...,0.0887,-8.756,0.0364,0.236,127.087
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,['4O15NlyKLIASxsJ0PrXPfz'],['Lil Uzi Vert'],66,...,0.148,-4.139,0.175,0.562,142.933
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,['1aS5tqEs9ci5P9KD9tZWa6'],['Bonez MC'],13,...,0.0838,-8.544,0.233,0.171,109.09


In [4]:
# Selecionando apenas as vari√°veis num√©ricas
df = data.select_dtypes(include=['number'])
# print(df.columns.values) # imprime as colunas restantes

Depois de selecionar as vari√°veis num√©ricas da nossa tabela, ficamos com as seguintes informa√ß√µes:

* `popularity`: *score* de popularidade da track (o valor varia entre 0 e 100, sendo 100 o mais popular)
* `track_number`: n√∫mero da track no √°lbum que ela pertence
* `num_artists`: n√∫mero total de int√©rpretes da track
* `num_available_markets`: n√∫mero total de pa√≠ses nos quais a track pode ser reproduzida
* `duration_ms`: dura√ß√£o da track em milissegundos
* [`key` - `tempo`]: caracter√≠sticas ac√∫sticas da track

Utilizando esses atributos, n√≥s iremos explorar dois tipos de escalonamento: *Normaliza√ß√£o* e *Padroniza√ß√£o*.

### NORMALIZA√á√ÉO

A *Normaliza√ß√£o* √© uma t√©cnica de escalonamento em que os valores s√£o **deslocados** e **redimensionados** para que fiquem entre 0 e 1. Essa t√©cnica tamb√©m √© conhecida como nomarliza√ß√£o *Min-Max* e √© usada para **transformar** dados em uma <ins>escala semelhante</ins>.

A f√≥rmula da *Normaliza√ß√£o* √© dada por:

$$X' = \frac{X - X_{min}}{X_{max} - X_{min}},$$

onde $X_{max}$ e $X_{min}$ s√£o os valores m√°ximo e m√≠nimo do atributo, respectivamente.

**RESUMINDO**
* O valor m√≠nimo da coluna ser√° transformado em 0
* O valor m√°ximo da coluna ser√° transformado em 1
* Os valores que estiverem entre o valor m√≠nimo e m√°ximo, estar√£o entre o intervalo de 0 a 1

#### EXEMPLO
No exemplo a seguir, n√≥s iremos normalizar todas as colunas num√©ricas da tabela `Tracks`.

Isto √©, para cada atributo (i.e., coluna), n√≥s aplicaremos a f√≥rmula da *Normaliza√ß√£o Min-Max*. 

Para isso, n√≥s utilizaremos os m√©todos `min()` e `max()` do *pandas*:

In [5]:
df_norm = df.copy()  # c√≥pia do DataFrame

# Para cada coluna de df_norm,
for coluna in df_norm.columns:
    
    # Normaliza√ß√£o Min-Max
    X = df_norm[[coluna]]
    df_norm[[coluna]] = (X - X.min()) / (X.max() - X.min())

display_side_by_side([df.head(3), df_norm.head(3)], ['Original', 'Normalizado']) # imprime as 3 primeiras linhas

Unnamed: 0,popularity,track_number,num_artists,num_available_markets,duration_ms,key,mode,time_signature,acousticness,danceability,energy,instrumentalness,liveness,loudness,speechiness,valence,tempo
0,77,10,1,177,159381,10,0,4,0.123,0.784,0.43,0.0,0.0887,-8.756,0.0364,0.236,127.087
1,66,14,1,178,188800,9,1,4,0.162,0.775,0.757,0.0,0.148,-4.139,0.175,0.562,142.933
2,13,1,1,0,180950,10,0,4,0.113,0.882,0.53,0.479,0.0838,-8.544,0.233,0.171,109.09

Unnamed: 0,popularity,track_number,num_artists,num_available_markets,duration_ms,key,mode,time_signature,acousticness,danceability,energy,instrumentalness,liveness,loudness,speechiness,valence,tempo
0,0.793814,0.310345,0.0,0.994382,0.284679,0.909091,0.0,0.75,0.123557,0.769231,0.424552,0.0,0.073225,0.615183,0.015335,0.212314,0.506887
1,0.680412,0.448276,0.0,1.0,0.349477,0.818182,1.0,0.75,0.162801,0.757692,0.773018,0.0,0.136156,0.788266,0.176348,0.558386,0.606828
2,0.134021,0.0,0.0,0.0,0.332187,0.909091,0.0,0.75,0.113495,0.894872,0.531117,0.502623,0.068025,0.62313,0.243727,0.143312,0.39338


### PADRONIZA√á√ÉO

A *Padroniza√ß√£o* √© outra t√©cnica de escalonamento em que os valores s√£o **centralizados** em torno da m√©dia. Isso significa que a m√©dia de cada atributo se iguala a 0 e a distribui√ß√£o resultante tem um desvio padr√£o igual a 1.

A f√≥rmula da *Padroniza√ß√£o* √© dada por:

$$X' = \frac{X - \mu}{\sigma},$$

onde $\mu$ e $\sigma$ s√£o a m√©dia e o desvio padr√£o dos valores do atributo, respectivamente.

#### EXEMPLO
No exemplo a seguir, n√≥s iremos padronizar todas as colunas num√©ricas da tabela `Tracks`.

Isto √©, para cada coluna, os valores ser√£o subtra√≠dos pela m√©dia e divididos pelo desvio padr√£o, aplicando a f√≥rmula descrita anteriormente. Para isso, n√≥s utilizaremos os m√©todos `mean()` e `std()` do *pandas*:

In [6]:
df_padron = df.copy()  # c√≥pia do DataFrame

# Para cada coluna de df_padron,
for coluna in df_padron.columns:
    
    # Padroniza√ß√£o
    X = df_padron[[coluna]]
    df_padron[[coluna]] = (X - X.mean()) / (X.std())

display_side_by_side([df.head(3), df_padron.head(3)], ['Original', 'Padronizado']) # imprime as 3 primeiras linhas

Unnamed: 0,popularity,track_number,num_artists,num_available_markets,duration_ms,key,mode,time_signature,acousticness,danceability,energy,instrumentalness,liveness,loudness,speechiness,valence,tempo
0,77,10,1,177,159381,10,0,4,0.123,0.784,0.43,0.0,0.0887,-8.756,0.0364,0.236,127.087
1,66,14,1,178,188800,9,1,4,0.162,0.775,0.757,0.0,0.148,-4.139,0.175,0.562,142.933
2,13,1,1,0,180950,10,0,4,0.113,0.882,0.53,0.479,0.0838,-8.544,0.233,0.171,109.09

Unnamed: 0,popularity,track_number,num_artists,num_available_markets,duration_ms,key,mode,time_signature,acousticness,danceability,energy,instrumentalness,liveness,loudness,speechiness,valence,tempo
0,0.448125,1.007112,-0.644346,0.361651,-0.846963,1.277028,-1.138397,0.106209,-0.483188,0.6211,-1.231196,-0.160381,-0.640537,-0.89619,-0.802165,-1.217354,0.12248
1,-0.164943,1.806576,-0.644346,0.380038,-0.181157,1.003471,0.877744,0.106209,-0.327328,0.55613,0.809644,-0.160381,-0.225699,0.871711,0.462704,0.221431,0.658761
2,-3.118819,-0.791681,-0.644346,-2.892824,-0.358817,1.277028,-1.138397,0.106209,-0.523152,1.32855,-0.607086,6.303556,-0.674816,-0.815013,0.992015,-1.504228,-0.486598


---
## Engenharia de caracter√≠sticas (Feature Engineering)

Al√©m do escalonamento, outra forma de **transformar** os dados √© atrav√©s da **Engenharia de caracter√≠sticas**. Nesta t√©cnica, caracter√≠sticas de um conjunto de dados podem ser criadas ou removidas para melhorar o desempenho de modelos de Aprendizado de M√°quina. 

Muitas t√©cnicas de <ins>**Transforma√ß√£o**</ins> e <ins>**Limpeza de dados**</ins> tamb√©m podem ser consideradas **Engenharia de caracter√≠sticas**, incluindo m√©todos de escalonamento, discretiza√ß√£o e redu√ß√£o de dimensionalidade. 

Portanto, a seguir, n√≥s vamos discutir algumas t√©cnicas que ainda n√£o foram abordadas.

#### EXEMPLO

Para exemplificar, utilizaremos dessa vez as vari√°veis n√£o-num√©ricas da tabela `Tracks`.

In [7]:
# Selecionando apenas vari√°veis n√£o-num√©ricas
df = data.select_dtypes(exclude=['number'])
df = df.drop(columns=['song_id', 'song_name', 'artist_id', 'artist_name']) # removendo colunas desnecess√°rias
# print(df.columns.values) # imprime as colunas restantes

Depois de selecionar as vari√°veis, ficamos com os seguintes dados:

* `explicit`: *flag* indicando se a track cont√©m conte√∫do expl√≠cito
* `song_type`: se a track √© do tipo *Solo* ou *Collaboration*
* `release_date`: data de lan√ßamento da track

Utilizando esses atributos, n√≥s iremos explorar duas formas de **Engenharia de caracter√≠sticas**: 

1. Converter vari√°veis categ√≥ricas em num√©ricas
2. Criar novos atributos a partir de vari√°veis de data

### CONVERTER DADOS CATEG√ìRICOS

Vari√°veis categ√≥ricas s√£o atributos que s√≥ podem assumir um n√∫mero **limitado** e, geralmente, **fixo** de valores poss√≠veis. 

Por exemplo, as m√∫sicas do Spotify cont√™m dados categ√≥ricos para informar se as m√∫sicas s√£o expl√≠citas ou n√£o (`explicit`). 

In [8]:
df[['explicit']].head(3)

Unnamed: 0,explicit
0,False
1,True
2,False


Ou seja, cada unidade de observa√ß√£o (i.e., m√∫sica) √© atribu√≠da a um determinado grupo ou categoria nominal (i.e. [`False` ou `True`]). 

No entanto, muitos algoritmos e modelos de Aprendizado de M√°quina t√™m dificuldades em processar dados categ√≥ricos, necessitando alguma forma de **transformar** tais atributos em vari√°veis num√©ricas. 

Uma das abordagens mais simples e comuns √© converter vari√°veis categ√≥ricas em *dummies* ou indicadores, utilizando a fun√ß√£o `get_dummies()` do *pandas*, conforme o exemplo a seguir. 

In [9]:
# Selecionando os atributos categ√≥ricos
df = data[['explicit', 'song_type']].astype('category')

# Convertendo em dummies
df_dummies = pd.get_dummies(df)

display_side_by_side([df.head(3), df_dummies.head(3)], ['Original', 'Transformado']) # imprime as 3 primeiras linhas

Unnamed: 0,explicit,song_type
0,False,Solo
1,True,Solo
2,False,Solo

Unnamed: 0,explicit_False,explicit_True,song_type_Collaboration,song_type_Solo
0,1,0,0,1
1,0,1,0,1
2,1,0,0,1


O m√©todo `get_dummies()` cria uma nova coluna contendo 0s e 1s para cada categoria poss√≠vel do atributo, onde:

* `0`: indica que o dado n√£o √© daquela categoria
* `1`: indica que o dado √© daquela categoria 

Como os dois atributos t√™m apenas duas categorias poss√≠veis, o m√©todo criou duas colunas para cada atributo.


> Bom, agora que vimos como converter **dados categ√≥ricos** em dados **num√©ricos**, vamos ver como criar novos atributos a partir de vari√°veis de **data**! üòâ

### VARI√ÅVEIS DE DATA

Datas e hor√°rios s√£o fontes valiosas de informa√ß√µes que podem ser usadas em projetos de Ci√™ncia de Dados.

Por exemplo, em um modelo de predi√ß√£o de sucesso musical, pode ser √∫til considerar a data de lan√ßamento das m√∫sicas. De fato, existem casos onde o per√≠odo de lan√ßamento influencia diretamente no sucesso musical.
**Exemplos:** m√∫sicas de Carnaval, m√∫sicas natalinas, m√∫sicas da Copa, etc.
 
No entanto, tecnicamente, as vari√°veis de data requerem alguma **Engenharia de caracter√≠sticas** para **transform√°-las** em dados num√©ricos antes de serem usadas pelos algoritmos de Aprendizado de M√°quina. 

#### EXEMPLO

Para exemplificar, utilizaremos a data de lan√ßamento das m√∫sicas do Spotify (`release_date`) convertendo em formatos mais amig√°veis, extraindo recursos e criando novas vari√°veis que podem ser usadas na an√°lise de algum modelo. 

In [10]:
# Selecionando o id, nome e a data de lan√ßamento das tracks
df = data[['song_id', 'song_name', 'release_date']]
df.head()

Unnamed: 0,song_id,song_name,release_date
0,2rRJrJEo19S2J82BDsQ3F7,Falling,2020-03-26
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,2020-03-06
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,2020-07-30
3,75pQqzwgCjUOSSy5CpmAjy,Pero Ya No,2020-02-28
4,7kDUspsoYfLkWnZR7qwHZl,my ex's best friend (with blackbear),2020-09-25


O primeiro passo do processamento de datas √© verificar se as vari√°veis est√£o em formato `datetime`.
Para isso, podemos utilizar o `dtypes` para verificar o tipo de cada coluna do nosso *DataFrame*: 

In [11]:
df.dtypes # verificando o tipo das colunas de df

song_id         object
song_name       object
release_date    object
dtype: object

Como podemos notar, o tipo da vari√°vel `release_date` √© `object` e n√£o `datetime`. Portanto, precisamos convert√™-la antes de passar para a **Engenharia de caracter√≠sticas**. Para isso, usaremos o m√©todo `to_datetime()` do *pandas*:

In [12]:
df['release_date'] = pd.to_datetime(df['release_date']) # convertendo a data de lan√ßamento em 'datetime'

In [13]:
df.dtypes # verificando o tipo das colunas de df

song_id                 object
song_name               object
release_date    datetime64[ns]
dtype: object

**Deu certo!** üòÉ

A biblioteca *pandas* disponibiliza diversas propriedades para vari√°veis `datetime`, incluindo:

* `year`: o ano da `datetime`
* `month`: o m√™s da `datetime`, onde `January=1` e `December=12`
* `day`: o dia da `datetime`

Ent√£o, depois de converter nossa vari√°vel para o tipo `datetime`, n√≥s podemos quebrar a data de lan√ßamento das m√∫sicas utilizando essas tr√™s propriedades:

In [14]:
# Extraindo propriedades b√°sicas de uma vari√°vel datetime
df['day'] = df['release_date'].dt.day  # dia
df['month'] = df['release_date'].dt.month  # m√™s
df['year'] = df['release_date'].dt.year  # ano
df.head(3)

Unnamed: 0,song_id,song_name,release_date,day,month,year
0,2rRJrJEo19S2J82BDsQ3F7,Falling,2020-03-26,26,3,2020
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,2020-03-06,6,3,2020
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,2020-07-30,30,7,2020


Al√©m dessas propriedades b√°sicas, existem outras informa√ß√µes que podemos extrair da nossa vari√°vel `datetime`.

Por exemplo, a semana do ano, o dia da semana e o trimestre:

In [16]:
# Extraindo propriedades extras de uma vari√°vel datetime
df['week'] = df['release_date'].dt.isocalendar().week  # semana do ano
df['dayofweek_index'] = df['release_date'].dt.dayofweek  # dia da semana (√≠ndice)
df['dayofweek_name'] = df['release_date'].dt.day_name() # dia da semana (nome)
df['quarter'] = df['release_date'].dt.quarter # trimestre
df.head(3)

Unnamed: 0,song_id,song_name,release_date,day,month,year,week,dayofweek_index,dayofweek_name,quarter
0,2rRJrJEo19S2J82BDsQ3F7,Falling,2020-03-26,26,3,2020,13,3,Thursday,1
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,2020-03-06,6,3,2020,10,4,Friday,1
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,2020-07-30,30,7,2020,31,3,Thursday,3


## Conclus√£o

Este notebook apresentou como fazer a transforma√ß√£o de dados de diferentes formatos a partir de diversas abordagens.

üîé **Se interessou?** 

* Para mais propriedades de vari√°veis `datetime`, veja a documenta√ß√£o do *pandas*: [DatetimeIndex](https://pandas.pydata.org/docs/reference/api/pandas.DatetimeIndex.html)

---

O pr√≥ximo notebook ([2.3.Ciencia.Dados.Basica.ipynb](2.3.Ciencia.Dados.Basica.ipynb)) apresenta m√©todos para realiar a An√°lise de Explora√ß√£o de Dados.