In [None]:
# Importando os pacotes necess√°rios
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.utils import resample
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [None]:
# Comandos auxiliares
from IPython.core.display import display, HTML
pd.set_option('display.max_columns', 10)
pd.options.mode.chained_assignment = None  # default='warn'

def display_side_by_side(dfs: list, captions: list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes(
            "style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

# Transforma√ß√£o de Dados
---

Em geral, ap√≥s um processo de <ins>**Integra√ß√£o de dados**</ins>, colunas com diferentes tipos de dados podem ser geradas. 

Na <ins>**Transforma√ß√£o de dados**</ins>, o principal objetivo √© exatamente **transformar** esses dados de diferentes formatos em um formato suportado pelo processo de pesquisa, e.g., modelos e algoritmos. 

A <ins>**Transforma√ß√£o de dados**</ins> possui algumas etapas em comum com a <ins>**Limpeza de dados**</ins>, incluindo t√©cnicas de remo√ß√£o de ru√≠do e discretiza√ß√£o de dados. 

Portanto, nesta etapa, n√≥s vamos focar nas t√©cnicas que ainda n√£o foram abordadas at√© aqui.

## Dados n√£o padronizados

Dados coletados de diferentes fontes podem reunir dados **heterog√™neos**, **n√£o padronizados** e em **diferentes escalas** que muitas vezes necessitam um pr√©-processamento, i.e., uma etapa de escalonamento. 

O escalonamento de tais dados n√£o √© uma etapa obrigat√≥ria, mas uma boa pr√°tica! 

> **Mas... Por que precisamos dimensionar as vari√°veis em nosso conjunto de dados?** ü§î

> *Muitos algoritmos de Aprendizado de M√°quina apresentam um melhor desempenho quando as vari√°veis num√©ricas de entrada s√£o padronizadas.*

Isso inclui algoritmos que usam uma soma ponderada da entrada como, por exemplo, a regress√£o linhear e algoritmos que usam medidas de dist√¢ncia, como os algoritmos K-means e K-NN.

Existem algumas t√©cnicas de escalonamento que **transformam** caracter√≠sticas para uma escala, magnitude ou intervalo. 

Para descrever e exemplicar cada uma delas, utilizaremos o conjunto de atributos num√©ricos que descrevem as m√∫sicas do Spotify. Ou seja, vamos utilizar a tabela `Tracks` do nosso conjunto de dados. 

In [None]:
# Lendo os dados
data = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv', encoding='utf-8')
data.head(3)

In [None]:
# Selecionando apenas as vari√°veis num√©ricas
df = data.select_dtypes(include=['number'])
# print(df.columns.values) # imprime as colunas restantes

Depois de selecionar as vari√°veis num√©ricas da nossa tabela, ficamos com as seguintes informa√ß√µes:

* `popularity`: *score* de popularidade da track (o valor varia entre 0 e 100, sendo 100 o mais popular)
* `track_number`: n√∫mero da track no um √°lbum que ela pertence
* `num_artists`: n√∫mero total de int√©rpretes da track
* `num_available_markets`: n√∫mero total de pa√≠ses nos quais a track pode ser reproduzida
* `duration_ms`: dura√ß√£o da track em milissegundos
* [`key` - `tempo`]: caracter√≠sticas ac√∫sticas da track

Utilizando esses atributos, n√≥s iremos explorar dois tipos de escalonamento: *Normaliza√ß√£o* e *Padroniza√ß√£o*.

### NORMALIZA√á√ÉO

A *Normaliza√ß√£o* √© uma t√©cnica de escalonamento em que os valores s√£o **deslocados** e **redimensionados** para que fiquem entre 0 e 1. Essa t√©cnica tamb√©m √© conhecida como nomarliza√ß√£o *Min-Max* e √© usada para **transformar** dados em uma <ins>escala semelhante</ins>.

A f√≥rmula da *Normaliza√ß√£o* √© dada por:

$$X' = \frac{X - X_{min}}{X_{max} - X_{min}},$$

onde $X_{max}$ e $X_{min}$ s√£o os valores m√°ximo e m√≠nimo do atributo, respectivamente.

**RESUMINDO**
* O valor m√≠nimo da coluna ser√° transformado em 0
* O valor m√°ximo da coluna ser√° transformado em 1
* Os valores que estiverem entre o valor m√≠nimo e m√°ximo, estar√£o entre o intervalo de 0 a 1

#### EXEMPLO
No exemplo a seguir, n√≥s iremos normalizar todas as colunas num√©ricas da tabela `Tracks`.

Isto √©, para cada atributo (i.e., coluna), n√≥s aplicaremos a f√≥rmula da *Normaliza√ß√£o Min-Max*. 

Para isso, n√≥s utilizaremos os m√©todos `min()` e `max()` do *pandas*:

In [None]:
df_norm = df.copy()  # c√≥pia do DataFrame

# Para cada coluna de df_norm,
for coluna in df_norm.columns:
    
    # Normaliza√ß√£o Min-Max
    X = df_norm[[coluna]]
    df_norm[[coluna]] = (X - X.min()) / (X.max() - X.min())

display_side_by_side([df.head(3), df_norm.head(3)], ['Original', 'Normalizado']) # imprime as 3 primeiras linhas

#### ‚ö†Ô∏è OBSERVA√á√ïES

Note que n√≥s utilizamos `df_norm[[coluna]]` para selecionar as entradas de uma determinada coluna do nosso *DataFrame*, ao inv√©s de apenas `df_norm[coluna]`.

> **Qual a diferen√ßa?** ü§î

Utilizando o m√©todo `type()` n√≥s conseguimos verificar o tipo de classe do argumento passado como par√¢metro:

In [None]:
type(df['popularity'])

In [None]:
type(df[['popularity']])

Portanto, quando utilizamos `[[]]`, √© retornado um *DataFrame* formado apenas pelas colunas passadas por par√¢metro. J√° quando utilizamos `[]`, uma *Series* √© retornada. Neste √∫ltimo caso, apenas uma coluna pode ser passada como par√¢metro. Caso contr√°rio, o seguinte erro ser√° retornado:

In [None]:
df['popularity','track_number'].head(3)

In [None]:
df[['popularity','track_number']].head(3)

#### EXEMPLO AVAN√áADO

Uma outra forma de aplicar a *Normaliza√ß√£o Min-Max* √© utilizando o m√≥dulo `sklearn.preprocessing` e a classe `MinMaxScaler()` da biblioteca *sklearn*:

In [None]:
df_norm_2 = df.copy()  # c√≥pia do DataFrame
min_max_scaler = MinMaxScaler() # inicializa o transformador

# Para cada coluna de df_norm_2,
for coluna in df_norm_2.columns:
    
    # Normaliza√ß√£o Min-Max
    df_norm_2[[coluna]] = min_max_scaler.fit_transform(df_norm_2[[coluna]])

display_side_by_side([df_norm.head(3), df_norm_2.head(3)], ['Normaliza√ß√£o com pandas', 'Normaliza√ß√£o com sklearn']) # imprime as 3 primeiras linhas

### PADRONIZA√á√ÉO

A *Padroniza√ß√£o* √© outra t√©cnica de escalonamento em que os valores s√£o **centralizados** em torno da m√©dia. Isso significa que a m√©dia de cada atributo se iguala a 0 e a distribui√ß√£o resultante tem um desvio padr√£o igual a 1.

A f√≥rmula da *Padroniza√ß√£o* √© dada por:

$$X' = \frac{X - \mu}{\sigma},$$

onde $\mu$ e $\sigma$ s√£o a m√©dia e o desvio padr√£o dos valores do atributo, respectivamente.

#### EXEMPLO
No exemplo a seguir, n√≥s iremos padronizar todas as colunas num√©ricas da tabela `Tracks`.

Isto √©, para cada coluna, os valores ser√£o subtra√≠dos pela m√©dia e divididos pelo desvio padr√£o, aplicando a f√≥rmula descrita anteriormente. Para isso, n√≥s utilizaremos os m√©todos `mean()` e `std()` do *pandas*:

In [None]:
df_padron = df.copy()  # c√≥pia do DataFrame

# Para cada coluna de df_padron,
for coluna in df_padron.columns:
    
    # Padroniza√ß√£o
    X = df_padron[[coluna]]
    df_padron[[coluna]] = (X - X.mean()) / (X.std())

display_side_by_side([df.head(3), df_padron.head(3)], ['Original', 'Padronizado']) # imprime as 3 primeiras linhas

#### EXEMPLO AVAN√áADO

Uma outra forma de aplicar a *Padroniza√ß√£o* √© utilizando o m√≥dulo `sklearn.preprocessing` e a classe `StandardScaler()` da biblioteca *sklearn*:

In [None]:
df_padron_2 = df.copy()  # c√≥pia do DataFrame
standard_scaler = StandardScaler() # inicializa o transformador

# Para cada coluna de df_padron_2,
for coluna in df_padron_2.columns:
    
    # Padroniza√ß√£o
    df_padron_2[[coluna]] = standard_scaler.fit_transform(df_padron_2[[coluna]])

display_side_by_side([df_padron.head(3), df_padron_2.head(3)], ['Padroniza√ß√£o com pandas', 'Padroniza√ß√£o com sklearn']) # imprime as 3 primeiras linhas

---
## Engenharia de caracter√≠sticas (Feature Engineering)

Outra forma de **transformar** os dados √© atrav√©s da **Engenharia de caracter√≠sticas**. Nesta t√©cnica, caracter√≠sticas de um conjunto de dados podem ser criadas ou removidas para melhorar o desempenho de modelos de Aprendizado de M√°quina. 

Muitas t√©cnicas de <ins>**Transforma√ß√£o**</ins> e <ins>**Limpeza de dados**</ins> tamb√©m podem ser consideradas **Engenharia de caracter√≠sticas**, incluindo m√©todos de escalonamento, discretiza√ß√£o e redu√ß√£o de dimensionalidade. 

Portanto, a seguir, n√≥s vamos discutir algumas t√©cnicas que ainda n√£o foram abordadas.

#### EXEMPLO

Para exemplificar, utilizaremos dessa vez as vari√°veis n√£o-num√©ricas da tabela `Tracks`.

In [None]:
# Selecionando apenas vari√°veis n√£o-num√©ricas
df = data.select_dtypes(exclude=['number'])
df = df.drop(columns=['song_id', 'song_name', 'artist_id', 'artist_name']) # removendo colunas desnecess√°rias
# print(df.columns.values) # imprime as colunas restantes

Depois de selecionar as vari√°veis n√£o-num√©ricas da nossa tabela e de remover colunas desnecess√°rias (i.e., ids e nomes), ficamos com os seguintes dados:

* `explicit`: *flag* indicando se a track cont√©m conte√∫do expl√≠cito
* `song_type`: se a track √© do tipo *Solo* ou *Collaboration*
* `release_date`: data de lan√ßamento da track

Utilizando esses atributos, n√≥s iremos explorar duas formas de **Engenharia de caracter√≠sticas**: 

1. Converter vari√°veis categ√≥ricas em num√©ricas
2. Criar novos atributos a partir de vari√°veis de data

### DADOS CATEG√ìRICOS

Vari√°veis categ√≥ricas s√£o atributos que s√≥ podem assumir um n√∫mero limitado e, geralmente, fixo de valores poss√≠veis. 

Por exemplo, as m√∫sicas do Spotify cont√™m dados categ√≥ricos para informar se as m√∫sicas s√£o expl√≠citas ou n√£o (`explicit`). 

Ou seja, cada unidade de observa√ß√£o (i.e., m√∫sica) √© atribu√≠da a um determinado grupo ou categoria nominal (i.e. [`False` ou `True`]). 

In [None]:
df[['explicit']].head(3)

Muitos algoritmos e modelos de Aprendizado de M√°quina t√™m dificuldades em processar dados categ√≥ricos, necessitando alguma forma de **transformar** tais atributos em vari√°veis num√©ricas. 

Uma das abordagens mais simples e comuns √© converter vari√°veis categ√≥ricas em *dummies* ou indicadores, utilizando a fun√ß√£o `get_dummies()` do *pandas*, conforme o exemplo a seguir. 

In [None]:
# Selecionando os atributos categ√≥ricos
df = data[['explicit', 'song_type']].astype('category')

# Convertendo em dummies
df_dummies = pd.get_dummies(df)

display_side_by_side([df.head(3), df_dummies.head(3)], ['Original', 'Transformado']) # imprime as 3 primeiras linhas

O m√©todo `get_dummies()` cria uma nova coluna contendo 0s e 1s para cada categoria poss√≠vel do atributo, onde:

* `0`: indica que o dado n√£o √© daquela categoria
* `1`: indica que o dado √© daquela categoria 

Como os dois atributos t√™m apenas duas categorias poss√≠veis, o m√©todo criou duas colunas para cada atributo.

### VARI√ÅVEIS DE DATA

Datas e hor√°rios s√£o fontes valiosas de informa√ß√µes que podem ser usadas em projetos de Ci√™ncia de Dados.

Por exemplo, em um modelo de predi√ß√£o de sucesso musical, pode ser √∫til considerar a data de lan√ßamento das m√∫sicas. De fato, existem casos onde o per√≠odo de lan√ßamento influencia diretamente no sucesso musical.
**Exemplos:** m√∫sicas de Carnaval, m√∫sicas natalinas, m√∫sicas da Copa, etc.
 
No entanto, tecnicamente, as vari√°veis de data requerem alguma **Engenharia de caracter√≠sticas** para **transform√°-las** em dados num√©ricos antes de serem usadas pelos algoritmos de Aprendizado de M√°quina. 

#### EXEMPLO

Para exemplificar, utilizaremos a data de lan√ßamento das m√∫sicas do Spotify (`release_date`) convertendo em formatos mais amig√°veis, extraindo recursos e criando novas vari√°veis que podem ser usadas na an√°lise de algum modelo. 

In [None]:
# Selecionando o id, nome e a data de lan√ßamento das tracks
df = data[['song_id', 'song_name', 'release_date']]
df.head()

O primeiro passo do processamento de datas √© verificar se as vari√°veis est√£o em formato `datetime`.
Para isso, podemos utilizar o `dtypes` para verificar o tipo de cada coluna do nosso *DataFrame*: 

In [None]:
df.dtypes # verificando o tipo das colunas de df

Como podemos notar, o tipo da vari√°vel `release_date` √© `object` e n√£o `datetime`. Portanto, precisamos convert√™-la antes de passar para a **Engenharia de caracter√≠sticas**. Para isso, usaremos o m√©todo `to_datetime()` do *pandas*:

In [None]:
df['release_date'] = pd.to_datetime(df['release_date']) # convertendo a data de lan√ßamento em 'datetime'
df.dtypes # verificando o tipo das colunas de df

A biblioteca *pandas* disponibiliza diversas propriedades de vari√°veis `datetime`, incluindo:

* `year`: o ano da `datetime`
* `month`: o m√™s da `datetime`, onde `January=1` e `December=12`
* `day`: o dia da `datetime`

Ent√£o, depois de converter nossa vari√°vel para o tipo `datetime`, utilizando essas propriedades n√≥s podemos quebrar a data de lan√ßamento das m√∫sicas em dia, m√™s e ano: 

In [None]:
df['day'] = df['release_date'].dt.day  # dia
df['month'] = df['release_date'].dt.month  # m√™s
df['year'] = df['release_date'].dt.year  # ano
df.head(3)

Al√©m dessas propriedades b√°sicas, existem outras informa√ß√µes que podemos extrair da nossa vari√°vel `datetime`.

Por exemplo, a semana do ano, o dia da semana e o trimestre:

In [None]:
df['week'] = df['release_date'].dt.week  # semana do ano
df['dayofweek_index'] = df['release_date'].dt.dayofweek  # dia da semana (√≠ndice)
df['dayofweek_name'] = df['release_date'].dt.day_name() # dia da semana (nome)
df['quarter'] = df['release_date'].dt.quarter # trimestre
df.head(3)

Existem ainda diversas outras propriedades poss√≠veis de se obter que voc√™ pode encontrar atrav√©s da documenta√ß√£o do *pandas*: [DatetimeIndex](https://pandas.pydata.org/docs/reference/api/pandas.DatetimeIndex.html)

---
## Dados desbalanceados

A √∫ltima t√©cnica de <ins>**Transforma√ß√£o de dados**</ins> que vamos analisar √© a o **Balanceamento de dados**.  

Especificamente, n√≥s podemos dizer que os dados est√£o desbalanceados quando existe uma **despropor√ß√£o** de observa√ß√µes de cada classe do nosso modelo. Os impactos do desbalanceamento s√£o impl√≠citos, ou seja, n√£o geram um erro imediato ao construir e executar um modelo. 

‚ö†Ô∏è Por√©m, os resultados podem ser **ilus√≥rios**. 

Se o sinal da classe *majorit√°ria* for **bem maior** do que o sinal da classe *minorit√°ria*, o classificador pode gerar uma alta precis√£o geral, uma vez que o modelo provavelmente ir√° prever a maioria das amostras pertencentes √† classe majorit√°ria. O que n√£o quer dizer que o modelo teve um bom desempenho no geral. 

Por exemplo, em um problema de duas classes com uma distribui√ß√£o de classe de `90:10`, o desempenho ao classificar as classes *majorit√°rias* ser√° **nove** vezes maior do que o desempenho em exemplos de classes *minorit√°rias*.

> **Achou confuso?** Vamos para um exemplo ent√£o! üòâ

### EXEMPLO

Para exemplificar, suponha que voc√™ tenha um modelo de classifica√ß√£o onde voc√™ precisa prever se uma m√∫sica ser√° uma colabora√ß√£o ou n√£o, com base em suas caracter√≠sticas ac√∫sticas. 

Resumindo, voc√™ teria um modelo de classifica√ß√£o bin√°ria com duas classes: 

* `Collaboration`
* `Solo`

Para come√ßar, ent√£o, vamos selecionar apenas as colunas referentes aos nossos preditores (i.e., as caracter√≠sticas ac√∫sticas das m√∫sicas) e a nossa vari√°vel *target*, i.e., `song_type`:

In [None]:
cols = [
    'duration_ms', 'key', 'mode', 'time_signature', 'acousticness',
    'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness',
    'speechiness', 'valence', 'tempo', 'song_type'
]

# Selecionando algumas colunas da tabela Tracks
data = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv', encoding='utf-8', usecols=cols)
data.head(3)

‚ö†Ô∏è Note que a vari√°vel *target* `song_type` est√° em formato n√£o-num√©rico. Como vimos anteriormente, n√≥s **precisar√≠amos** transform√°-la em uma vari√°vel num√©rica caso esta vari√°vel fosse usada em algum algoritmo de Aprendizado de M√°quina. 

No entanto, neste caso, tal vari√°vel corresponde ao que queremos prever (i.e., vari√°vel *target*). Portanto, n√£o precisamos aplicar nenhum tratamento aqui.

Podemos, ent√£o, seguir para a verifica√ß√£o do balanceamento das classes (`Solo` e `Collaboration`). 
Para isso, usamos a fun√ß√£o `value_counts()` que computa os valores √∫nicos de cada categoria:

In [None]:
c = data['song_type'].value_counts() # quantidade de cada classe
p = data['song_type'].value_counts(normalize=True) # porcentagem de cada classe
pd.concat([c,round(p*100)], axis=1, keys=['counts', '%'])

Podemos observar que cerca de 41% das observa√ß√µes (i.e., 532 m√∫sicas) s√£o colabora√ß√µes. 

Portanto, se tiv√©ssemos que prever sempre m√∫sicas `Solo` obter√≠amos uma precis√£o de 59%.

A seguir, iremos testar esse cen√°rio criando um modelo linear de regress√£o log√≠stica, usando o m√≥dulo `sklearn.linear_model` e a classe `LogisticRegression`. Para isso, n√≥s seguimos os seguintes passos:

1. Separamos o conjunto de predidores (X) da nossa vari√°vel *target* (y);
2. Treinamos o modelo de regress√£o log√≠stica com os dois conjuntos X e y;
3. Realizamos a predi√ß√£o utilizando o mesmo conjunto de preditores X; e, por fim, 
4. Imprimimos os resultados.

In [None]:
# primeiro passo
y = data.song_type # vari√°vel target
X = data.drop('song_type', axis=1) # conjunto de preditores

# segundo passo
logr = LogisticRegression().fit(X, y) # treinando o modelo de regress√£o log√≠stica

# terceiro passo
pred_y_0 = logr.predict(X)
accuracy = round(accuracy_score(pred_y_0, y)*100)

# imprimindo os resultados
print(f'{accuracy}%') # acur√°cia do modelo
print(np.unique(pred_y_0)) # classes previstas pelo modelo

Como podemos ver pelo resultado, nosso modelo apresentou uma precis√£o geral de 59%; ou seja, como consequ√™ncia dos dados desbalanceados, o modelo prev√™ apenas uma classe. 

Em outras palavras, ele **ignora** a classe minorit√°ria (i.e., `Collaborations`) em favor da classe majorit√°ria (i.e., `Solo`). 

> **Ent√£o, como solucionar este problema?** ü§î

Uma t√©cnica amplamente adotada para lidar com conjuntos de dados desbalanceados √© a **Reamostragem**. 

#### REAMOSTRAGEM DE CLASSES

Esta t√©cnica pode ser dividida em duas abordagens diferentes: 

* **Downsampling:** consiste em **remover** amostras da classe *majorit√°ria* 
* **Oversampling:** consiste em **adicionar** mais exemplos da classe *minorit√°ria*  

<img src="figure6.png" alt="schema" style="width: 700px;" class="center"/>

A seguir, vamos aplicar as duas t√©cnicas no nosso exemplo de predi√ß√£o de colabora√ß√µes.

---

**1. Downsampling** 

Come√ßamos aplicando a t√©cnica de *Downsampling*, que remove aleatoriamente observa√ß√µes da classe majorit√°ria para evitar que seu sinal domine o algoritmo de aprendizagem. Para isso, seguimos alguns passos:

1. Separamos as observa√ß√µes de cada classe em diferentes *DataFrames*;
2. Realizamos uma amostragem da classe majorit√°ria sem substitui√ß√£o para corresponder ao n√∫mero total da classe minorit√°ria; e, por fim,  
3. Concatenamos o *DataFrame* da classe minorit√°ria com o *DataFrame* resultante.

In [None]:
# primeiro passo
df_majority = data[data.song_type == 'Solo'] # classe majorit√°ria
df_minority = data[data.song_type == 'Collaboration'] # classe minorit√°ria

# segundo passo
df_majority_downsampled = resample(
    df_majority, replace=False,  # amostra sem substitui√ß√£o
    n_samples=len(df_minority),  # para corresponder √† classe minorit√°ria
    random_state=123)  # garantindo reprodutibilidade

# terceiro passo
df_downsampled = pd.concat([df_majority_downsampled, df_minority])
df_downsampled.song_type.value_counts()

In [None]:
print(df_downsampled.shape[0], data.shape[0]) # comparando o tamanho dos DataFrames

‚ö†Ô∏è Note que, apesar do novo *DataFrame* ter menos observa√ß√µes do que o original, a propor√ß√£o das duas classes est√° **balanceada**. 

Agora, podemos treinar novamente o modelo de regress√£o log√≠stica! 

In [None]:
# primeiro passo
y = df_downsampled.song_type # vari√°vel target
X = df_downsampled.drop('song_type', axis=1) # conjunto de preditores

# segundo passo
logr = LogisticRegression().fit(X, y) # treinando o modelo de regress√£o log√≠stica

# terceiro passo
pred_y_1 = logr.predict(X)
accuracy = round(accuracy_score(pred_y_1, y)*100)

# imprimindo os resultados
print(f'{accuracy}%') # acur√°cia do modelo
print(np.unique(pred_y_1)) # classes previstas pelo modelo

Obeserve que, ap√≥s o balanceamento, o modelo consegue prever as duas classes e, apesar de apresentar uma menor precis√£o (49%), o modelo apresenta uma m√©trica de avalia√ß√£o mais significativa. 

**2. Oversampling** 

Vamos, agora, aplicar a t√©cnica de *Oversampling*, que replica aleatoriamente observa√ß√µes da classe minorit√°ria. Para isso, seguimos alguns passos:

1. Separamos as observa√ß√µes de cada classe em diferentes *DataFrames*;
2. Realizamos a replica√ß√£o da classe minorit√°ria para corresponder ao n√∫mero total da classe majorit√°ria; e, por fim,  
3. Concatenamos o *DataFrame* da classe majorit√°ria com o *DataFrame* resultante.

In [None]:
# primeiro passo
df_majority = data[data.song_type == 'Solo'] # classe majorit√°ria
df_minority = data[data.song_type == 'Collaboration'] # classe minorit√°ria

# segundo passo
df_minority_oversampled = resample(
    df_minority, # replica√ß√£o aleat√≥ria
    n_samples=len(df_majority),  # para corresponder √† classe majorit√°ria
    random_state=123)  # garantindo reprodutibilidade

# terceiro passo
df_oversampled = pd.concat([df_minority_oversampled, df_majority])
df_oversampled.song_type.value_counts()

In [None]:
print(df_oversampled.shape[0], data.shape[0]) # comparando o tamanho dos DataFrames

Observe que, desta vez, o novo *DataFrame* possui menos observa√ß√µes do que o original ap√≥s a replica√ß√£o das classes minorit√°rias.

Agora, podemos treinar novamente o modelo de regress√£o log√≠stica!

In [None]:
# primeiro passo
y = df_oversampled.song_type # vari√°vel target
X = df_oversampled.drop('song_type', axis=1) # conjunto de preditores

# segundo passo
logr = LogisticRegression().fit(X, y) # treinando o modelo de regress√£o log√≠stica

# terceiro passo
pred_y_1 = logr.predict(X)
accuracy = round(accuracy_score(pred_y_1, y)*100)

# imprimindo os resultados
print(f'{accuracy}%') # acur√°cia do modelo
print(np.unique(pred_y_1)) # classes previstas pelo modelo

Mais uma vez, ap√≥s o balanceamento, o modelo conseguiu prever as duas classes apresentando uma m√©trica de precis√£o mais significativa. 

## Conclus√£o

Este notebook apresentou como fazer a transforma√ß√£o de dados de diferentes formatos a partir de diversas abordagens.

üîé **Se interessou?** D√™ uma olhada na documenta√ß√£o da biblioteca *sklearn* para informa√ß√µes extras sobre transforma√ß√£o de dados:
[Dataset transformations](https://scikit-learn.org/stable/data_transforms.html)

---

O pr√≥ximo notebook ([4.3.Reducao.ipynb](4.3.Reducao.ipynb)) apresenta como aplicar t√©cnicas de redu√ß√£o de dados para auxiliar a an√°lise de dados com alta dimensionalidade.