In [None]:
# Importando os pacotes necess√°rios
import pandas as pd

In [None]:
# Comandos auxiliares
from IPython.core.display import display, HTML
pd.set_option('display.max_columns', 6)

def display_side_by_side(dfs: list, captions: list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes(
            "style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

# Integra√ß√£o de Dados

---

At√© agora, n√≥s realizamos a **limpeza** do nosso conjunto de dados, garantindo a remo√ß√£o de poss√≠veis impurezas. 

Agora, a pr√≥xima etapa da *Prepara√ß√£o* √© **combinar dados** de diferentes fontes para obter uma estrutura unificada com informa√ß√µes mais significativas. 

De fato, √© bastante comum em aplica√ß√µes da vida real a necessidade de extrair informa√ß√£o a partir de dados de diferentes fontes. 

Por exemplo, imagine que voc√™ precise analisar a popularidade de uma lista de m√∫sicas. No entanto, voc√™ possui apenas uma tabela separada listando informa√ß√µes b√°sicas de todas as m√∫sicas presentes nos *Charts* do Spotify, incluindo o nome e identificador das m√∫sicas e de seus artistas. 

Portanto, para obter as informa√ß√µes de popularidade musical, voc√™ decide coletar informa√ß√µes extras dos *Charts*, onde voc√™ obt√©m uma tabela contendo o *score* da popularidade e a data de lan√ßamento das m√∫sicas. 

Por√©m, nesta tabela, a √∫nica informa√ß√£o de identifica√ß√£o da m√∫sica √© o seu **id**. 
Consequentemente, apesar de ter as informa√ß√µes que voc√™ precisava, sem o nome seria dif√≠cil dizer qual m√∫sica voc√™ est√° analisando. 

> **O que fazer ent√£o?** ü§î

Se quisermos fazer uma an√°lise completa sobre a popularidade das m√∫sicas coletadas, precisamos reunir os dados das duas tabelas em um √∫nico lugar. 

‚û°Ô∏è **Esse processo √© denominado <ins>Integra√ß√£o de dados</ins>**

Nesta se√ß√£o, n√≥s iremos explorar um recurso essencial oferecido pelo *pandas* para realizar **integra√ß√£o de dados**: a fun√ß√£o `merge()`.

## `merge()`
---

Muito utilizada para fazer opera√ß√µes de jun√ß√£o comumente aplicadas em banco de dados.
Especificamente, quando voc√™ deseja combinar objetos de dados com base em uma ou mais **colunas-chave** de maneira semelhante a um banco de dados relacional, `merge()` √© a ferramenta ideal. 

Essa fun√ß√£o implementa v√°rios tipos de associa√ß√µes: 

- um-para-um (1:1)
- um-para-muitos (1:N) 
- muitos-para-muitos (N:N)

O tipo de associa√ß√£o realizada depende **essencialmente** da organiza√ß√£o dos conjuntos de dados de entrada. 

Aqui, n√≥s mostraremos exemplos simples destes tr√™s tipos de associa√ß√£o e discutiremos op√ß√µes detalhadas mais adiante.

### EXEMPLO

Inicialmente, para exemplificar, n√≥s iremos **integrar** informa√ß√µes sobre as m√∫sicas do nosso conjunto de dados a partir de diferentes tabelas. 

Para isso, n√≥s dividimos a tabela `Tracks` em dois *DataFrames*, `df1` e `df2`.  

### `df1`
- identificador da m√∫sica: `song_id`
- t√≠tulo da m√∫sica: `song_name`
- identificador do(s) artista(s): `artist_id`
- nome do(s) artista(s): `artist_name`

### `df2`
- identificador da m√∫sica: `song_id`
- popularidade da m√∫sica: `popularity`
- data de lan√ßamento: `release_date`

**ATEN√á√ÉO** ‚ö†Ô∏è
> Ambas as tabelas possuem a coluna `song_id` para identificar cada uma das m√∫sicas.

In [None]:
# Lendo os dados e criando os dois DataFrames
df1 = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv',
    usecols=['song_id', 'song_name', 'artist_id', 'artist_name'], # seleciona campos espec√≠ficos
    encoding='utf-8')
df2 = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv',
    usecols=['song_id', 'popularity', 'release_date'], # seleciona campos espec√≠ficos
    encoding='utf-8')

display_side_by_side([df1.head(3), df2.head(3)], ['df1', 'df2']) # imprime as 3 primeiras linhas

### Um-para-um (1:1) 

A associa√ß√£o **um-para-um** √© talvez o tipo mais simples de fus√£o, muito semelhante √† concatena√ß√£o de colunas. 

Neste tipo de relacionamento, cada registro na primeira tabela pode ter **somente um** registro correspondente na segunda tabela, e cada registro na segunda tabela pode ter **somente um** registro correspondente na primeira tabela (como mostrado na figura a seguir).


<img src="figure1.png" alt="Jun√ß√£o 1:1" style="width: 500px;" class="center"/>

Neste exemplo, n√≥s unimos as tabelas `df1` e `df2` para reunir informa√ß√µes de popularidade das m√∫sicas do Spotify usando a fun√ß√£o `merge()`.

Ao usar `merge()`, voc√™ fornecer√° dois argumentos obrigat√≥rios:

* `left`: *DataFrame* esquerdo
* `right`: *DataFrame* direito

No nosso caso, n√≥s passamos as tabelas `df1`e `df2`.

Depois disso, voc√™ pode fornecer v√°rios argumentos opcionais para definir como as tabelas ser√£o mescladas. 
Neste primeiro exemplo, o √∫nico par√¢metro que precisamos setar √©:

* `on`: informa quais colunas ou √≠ndices (i.e., **colunas-chave** ou **√≠ndices-chave**) voc√™ deseja unir
    
No nosso caso, passaremos a coluna `song_id`, que est√° presente em ambas as tabelas, como vimos anteriormente.

In [None]:
# Associa√ß√£o um-para-um
df3 = pd.merge(left=df1, right=df2, on='song_id')
df3.head(3)

<img src="figure1_result.png" alt="Jun√ß√£o 1:1" style="width: 700px;" class="center"/>

O resultado da jun√ß√£o √© um √∫nico *DataFrame* que combina as informa√ß√µes das duas entradas, baseado nos valores comuns presentes na coluna `song_id` de ambos os *DataFrames* originais.

### OBSERVA√á√ïES

* Lembre-se que se voc√™ usar o par√¢metro `on`, a coluna ou √≠ndice especificado deve estar presente nas duas tabelas.

* Se voc√™ n√£o especificar o par√¢metro `on`, as colunas que compartilham o mesmo nome nos dois *DataFrames* ser√£o usadas como **colunas-chave** na jun√ß√£o. 

> **Vamos testar?** üòÉ

In [None]:
# Associa√ß√£o um-para-um
df3 = pd.merge(left=df1, right=df2) # SEM ESPECIFICAR A COLUNA-CHAVE
df3.head(3)

### Um-para-muitos (1:N)

A associa√ß√£o **um-para-muitos** √© usada quando uma das duas **colunas-chave** cont√©m mais de uma entrada por registro (como mostrado na figura a seguir).

<img src="figure2.png" alt="Jun√ß√£o 1:N" style="width: 500px;" class="center"/>

Para exemplificar, vamos realizar a jun√ß√£o da tabela resultante do exemplo anterior (i.e., *DataFrame* `df3`) com os sucessos do Spotify na tabela `Charts` (i.e., *DataFrame* `df4`). 

In [None]:
# Lendo os dados
df4 = pd.read_table('../dataset/spotify_charts_complete.tsv',
    usecols=['chart_week', 'song_id', 'position'], # seleciona campos espec√≠ficos
    encoding='utf-8')
df4 = df4.sort_values(by=['song_id']) # ordena o DataFrame pelo id da m√∫sica

display_side_by_side([df3.head(3), df4.head(3)], ['df3', 'df4']) # imprime as 3 primeiras linhas

‚ö†Ô∏è **Note que, nesta tabela, uma m√∫sica pode aparecer em qualquer semana dos *Charts* do Spotify.** Ou seja, elas podem repetir!

Portanto, para **qualquer** m√∫sica representada na tabela `df3`, pode haver **mais de uma** ocorr√™ncia na tabela `df4`. 

Neste caso, a associa√ß√£o entre a tabela `df3` e a tabela `df4` √© uma rela√ß√£o **um-para-muitos**.

> **Vamos integr√°-las?**

Assim como no exemplo anterior, n√≥s passaremos os dois *DataFrames* para a fun√ß√£o `merge()`, bem como a **coluna-chave** `song_id` presente em ambas as tabelas:

In [None]:
# Associa√ß√£o um-para-muitos de dois DataFrames
df5 = pd.merge(left=df3, right=df4, on='song_id') 
df5.head(3)

<img src="figure2_result.png" alt="Jun√ß√£o 1:N" style="width: 800px;" class="center"/>

O resultado da jun√ß√£o √© um √∫nico *DataFrame* que combina as informa√ß√µes das duas entradas; **por√©m**, ao contr√°rio do exemplo anterior, as informa√ß√µes originais (i.e., do *DataFrame* `df3`) se repetem conforme exigido pelas entradas do *DataFrame* `df4`.

### Muitos-para-muitos (N:N)

Um relacionamento **muitos-para-muitos** ocorre quando v√°rios registros em uma tabela s√£o associados a v√°rios registros em outra tabela (como mostrado na figura a seguir). 

<img src="figure3.png" alt="Jun√ß√£o N:N" style="width: 500px;" class="center"/>

Para exemplificar, suponha que voc√™ precisa integrar as v√°rias m√∫sicas da tabela resultante anterior (i.e., *DataFrame* `df5`) com outra tabela contendo o n√∫mero total de *streams* que cada m√∫sica atingiu nas semanas dos *Charts* (i.e., *DataFrame* `df6`). 

‚ö†Ô∏è **Observe** que em ambas as tabelas a **coluna-chave** `song_id` possui entradas repetidas. 

Quando isso acontece, ou seja, se a **coluna-chave** das duas tabelas incluir entradas duplicadas, o resultado √© uma fus√£o **muitos-para-muitos**. 

In [None]:
# Lendo os dados
df6 = pd.read_table('../dataset/spotify_charts_complete.tsv',
    usecols=['chart_week', 'song_id', 'streams'], # seleciona campos espec√≠ficos
    encoding='utf-8')
df6 = df6.sort_values(by=['song_id']) # ordena o DataFrame pelo id da m√∫sica

display_side_by_side([df5.head(3), df6.head(3)], ['df5', 'df6']) # imprime as 3 primeiras linhas

Antes de prosseguirmos com a jun√ß√£o, note que as duas tabelas possuem em comum, al√©m da coluna `song_id`, a coluna `chart_week`. Ou seja, neste exemplo, teremos duas **colunas-chave** para realizar a jun√ß√£o. 

In [None]:
# Associa√ß√£o muitos-para-muitos de dois DataFrames
df7 = pd.merge(left=df5, right=df6, on=['song_id', 'chart_week'])
df7.head(3)

<img src="figure3_result.png" alt="Jun√ß√£o N:N" style="width: 800px;" class="center"/>

Ap√≥s a jun√ß√£o **muitos-para-muitos**, a **coluna-chave** do *DataFrame* resultante ser√° a combina√ß√£o das **colunas-chave** de cada tabela. 

---
## VERIFICA√á√ÉO

Al√©m dos par√¢metros vistos anteriormente, a fun√ß√£o `merge()` possui o argumento `validate` para verificar se a jun√ß√£o realizada √© do tipo especificado. Os tipos dispon√≠veis s√£o:

* `one_to_one` ou `1:1`: verifica se as **chaves** s√£o exclusivas nos conjuntos de dados esquerdo e direito.
* `one_to_many` ou `1:m`: verifica se as **chaves** s√£o exclusivas no conjunto de dados esquerdo.
* `many_to_one` ou `m:1`: verifica se as **chaves** s√£o exclusivas no conjunto de dados correto.
* `many_to_many` ou `m:m`: permitido, mas n√£o resulta em verifica√ß√µes.

> **Vamos verificar se as integra√ß√µes realizadas anteriormente est√£o corretas!** üëÄ

In [None]:
# Associa√ß√£o um-para-um
df3 = pd.merge(left=df1, right=df2, on='song_id', validate='one_to_one') # verificando
df3.head(3)

In [None]:
# Associa√ß√£o um-para-muitos
df5 = pd.merge(left=df3, right=df4, on='song_id', validate='one_to_many') # verificando
df5.head(3)

In [None]:
# Associa√ß√£o muitos-para-muitos
df7 = pd.merge(left=df5, right=df6, on=['song_id','chart_week'], validate='many_to_many') # verificando
df7.head(3)

**SIM!** Est√° tudo correto! ‚úîÔ∏è

Se o tipo das associa√ß√µes das jun√ß√µes anteriores estivessem incorretas, ou seja, se a valida√ß√£o falhasse, a fun√ß√£o geraria um `MergeError`.

> **Vamos fazer um exemplo teste?**

Vamos tentar unir as tabelas `df4` e `df5`, que possuem **chaves** duplicadas da **coluna-chave** `song_id`, utilizando a associa√ß√£o **um-para-muitos**.

In [None]:
# Testando uma valida√ß√£o incorreta
pd.merge(left=df4, right=df5, on='song_id', validate='one_to_many') # verificando

Como esperado, a fun√ß√£o lan√ßou um `MergeError` indicando que o *DataFrame* da esquerda possui **chaves** duplicadas, o que n√£o √© aceit√°vel em uma associa√ß√£o do tipo **um-para-muitos**.

---
## TIPOS DE JUN√á√ïES

Al√©m das associa√ß√µes, a fun√ß√£o `merge()` disponibiliza quatro tipos de jun√ß√µes:

* `inner`: o tipo de jun√ß√£o *default* da fun√ß√£o `merge()`, e se baseia na **interse√ß√£o** de **chaves** de ambos os *DataFrames*
* `outer`: se baseia na **uni√£o** de **chaves** do *DataFrame* esquerdo e os registros correspondentes do *DataFrame* direito
* `left`: usa apenas as **chaves** do *DataFrame* esquerdo
* `right`: usa apenas as **chaves** do *DataFrame* direito

<br>
<img src="figure4.png" alt="tipos de jun√ß√£o" style="width: 700px;" class="center"/>
<br>

### EXEMPLO

Para entendermos melhor cada tipo de jun√ß√£o, vamos utilizar duas tabelas do nosso conjunto de dados nos exemplos a seguir.

In [None]:
# Lendo os dados
charts = pd.read_table('../dataset/spotify_charts_complete.tsv',
    usecols=['song_id', 'streams', 'position'], # seleciona campos espec√≠ficos
    encoding='utf-8')
tracks = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv',
    usecols=['song_id', 'song_name', 'artist_id', 'popularity', 'song_type'], # seleciona campos espec√≠ficos
    encoding='utf-8')

display_side_by_side([charts.head(3), tracks.head(3)], ['Charts', 'Tracks'])

#### `inner`

Neste exemplo, vamos realizar um `inner join` entre a tabela `Tracks` e a tabela que armazena as m√∫sicas **#1** dos *Charts* do Spotify utilizando a fun√ß√£o `merge()` com seus argumentos *default*.

Para isso, vamos criar a segunda tabela primeiro:

In [None]:
# Criando a tabela #1 Hits
top_one_hits = charts[charts['position'] == 1] # selecionando apenas as m√∫sicas com posi√ß√£o 1
top_one_hits.head()

Agora, podemos prosseguir para a jun√ß√£o:

In [None]:
# inner join, utilizando os par√¢metros default
inner_merged = pd.merge(tracks, top_one_hits) 
inner_merged.head()

Como resultado, a jun√ß√£o mant√©m apenas as linhas que est√£o presentes na **coluna-chave** dos dois *DataFrames*.

Para verificar se a jun√ß√£o deu certo, dado que todas as m√∫sicas da tabela `Tracks` est√£o presentes da tabela `Charts`, n√≥s podemos comparar o n√∫mero total de linhas do *DataFrame* resultante (`inner_merged`) com o n√∫mero total de linhas do menor *DataFrame* da jun√ß√£o. 

In [None]:
# Calculando o tamanho das tabelas usadas na jun√ß√£o
print(len(tracks))
print(len(top_one_hits))

No nosso caso, a tabela `top_one_hits` √© a menor. Portanto, o *DataFrame* resultante precisa ter o mesmo n√∫mero de linhas:

In [None]:
# Verificando se o tamanho das tabelas s√£o iguais
if (len(inner_merged) == len(top_one_hits)):
    print("‚úîÔ∏è")
else:
    print("‚ùå")

#### `outer`

Neste exemplo, vamos realizar um `outer join` entre a tabela `Charts` e a tabela `top_one_hits` utilizando a fun√ß√£o `merge()` com o par√¢metro `how`:

In [None]:
# Visualizando as duas tabelas
display_side_by_side([charts.head(3), top_one_hits.head(3)], ['Charts', '#1 Hits'])

In [None]:
# outer join
outer_merged = pd.merge(charts, top_one_hits, how="outer")
outer_merged.head()

‚ö†Ô∏è **OBSERVA√á√ÉO!** Como foi mostrado na figura anterior, em um `outer join`, todas as linhas de ambos os *DataFrames* estar√£o presentes no *DataFrame* final. Portanto, neste exemplo, ap√≥s a jun√ß√£o, ter√≠amos que ter exatamente as mesmas linhas da tabela `Charts`, j√° que a tabela `top_one_hits` √© um subconjunto da mesma.

Utilizando a fun√ß√£o `equals` do *pandas*, podemos verificar se os dois *DataFrames* cont√™m os mesmos elementos:

In [None]:
# Verificando se dois objetos cont√™m os mesmos elementos
if (charts.equals(outer_merged)):
    print("‚úîÔ∏è")
else:
    print("‚ùå")

#### `left` / `right`

Neste exemplo, vamos realizar apenas um `left join`, dado que um `right join` seguiria os mesmo passos, por√©m considerando o *DataFrame da direita*.

Aqui, n√≥s vamos realizar a jun√ß√£o entre a tabela `top_one_hits` e a tabela `Tracks` utilizando a fun√ß√£o `merge()` com o par√¢metro `how`:

In [None]:
# Visualizando as duas tabelas
display_side_by_side([top_one_hits.head(3), tracks.head(3)], ['#1 Hits', 'Tracks'])

In [None]:
# left join
left_merged = pd.merge(top_one_hits, tracks, how="left")
left_merged.head()

O resultado da jun√ß√£o √© um *DataFrame* contendo todos os **#1** *hits* dos *Charts* do Spotify e suas informa√ß√µes b√°sicas.

A partir desse resultado, poder√≠amos, por exemplo, verificar o intervalo do *score* de popularidade de tais m√∫sicas:

In [None]:
left_merged.popularity.value_counts() # verificando os scores de popularidade √∫nicos

In [None]:
left_merged.popularity.mean() # verificando a m√©dia das popularidades

Podemos ver que, no geral, a popularidade de tais m√∫sicas √© bem alta, com uma m√©dia de 82! 

### Conclus√£o

Este notebook apresentou como fazer a integra√ß√£o de dados de diferentes fontes aplicando a fun√ß√£o `merge()` da biblioteca *pandas*. 

üîé **Se interessou?** D√™ uma olhada na documenta√ß√£o do *pandas* para informa√ß√µes extras sobre integra√ß√£o de dados:
[Merging with *pandas*](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

---

O pr√≥ximo notebook ([4.2.Transformacao.ipynb](4.2.Transformacao.ipynb)) apresenta como transformar dados de diferentes formatos em formatos mais amig√°veis para modelos e algoritmos de Aprendizado de M√°quina.