# Integração de Dados

Até aqui, nós realizamos a limpeza do nosso conjunto de dados selecionado, garantindo a remoção de possíveis impurezas. Agora, a próxima etapa do Pré-processamento é combinar dados de diferentes fontes para obter uma estrutura unificada com informações mais significativas e valiosas. Na vida real, geralmente é necessário a extração de dados a partir várias fontes. Por exemplo, suponha que informações básicas das músicas de sucesso estão localizados em uma tabela, enquanto informações mais detalhadas de tais músicas se encontram em uma outra tabela. Portanto, se quisermos fazer uma análise mais robusta sobre as músicas populares, precisamos reunir todos os dados possíveis referentes ao objeto de pesquisa em um único lugar. Esse processo de reunir dados em um só lugar é chamado de Integração de dados.

Nesta seção, nós iremos integrar as informações referentes às músicas a partir de diferentes fontes de dados, ou seja, diferentes tabelas. Utilizando o \textit{Pandas}, nós podemos mesclar e juntar múltiplas tabelas utilizando operações de junção. Para exemplificar, nós dividimos a tabela \textit{Hits} em dois \textit{DataFrames}, `df1` e `df2`. O primeiro contém os atributos: título da música, e o identificador e nome do(s) artista(s). Já o segundo, contém apenas a popularidade e a data de lançamento das músicas. Em ambas as tabelas, a coluna \textit{song\_id} está presente, para identificar cada uma das músicas.

In [1]:
# Importando os pacotes necessários
import pandas as pd
from IPython.core.display import display, HTML
pd.set_option('display.max_columns', 6)

In [2]:


def display_side_by_side(dfs:list, captions:list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

In [3]:
# Lendo os dados
df1 = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv',
    usecols=['song_id', 'song_name', 'artist_id', 'artist_name'], # seleciona campos específicos
    encoding='utf-8')
df2 = pd.read_table('../dataset/spotify_hits_dataset_complete.tsv',
    usecols=['song_id', 'popularity', 'release_date'], # seleciona campos específicos
    encoding='utf-8')

In [4]:
display_side_by_side([df1.head(3), df2.head(3)], ['df1', 'df2'])

Unnamed: 0,song_id,song_name,artist_id,artist_name
0,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],['Trevor Daniel']
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,['4O15NlyKLIASxsJ0PrXPfz'],['Lil Uzi Vert']
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,['1aS5tqEs9ci5P9KD9tZWa6'],['Bonez MC']

Unnamed: 0,song_id,popularity,release_date
0,2rRJrJEo19S2J82BDsQ3F7,77,2020-03-26
1,3BYIzNZ3t9lRQCACXSMLrT,66,2020-03-06
2,1g3J9W88hTG173ySZR6E9S,13,2020-07-30


A primeira operação que iremos explorar é a `merge()`. A função implementa vários tipos de junções: um-para-um (1:1), um-para-muitos (1:N) e muitos-para-muitos (N:N). O tipo de junção realizada depende essencialmente da organização dos conjuntos de dados de entrada. Aqui, mostraremos exemplos simples dos três tipos de fusão.

## Junções um-para-um (1:1) 

A junção um-para-um é talvez o tipo mais simples de fusão, muito semelhante à concatenação de colunas. Como um exemplo concreto, considere os seguintes dois *DataFrames* que contêm informações diversas sobre músicas:

In [5]:
# Junção um-para-um
df3 = pd.merge(
    df1, df2, on='song_id')
df3.head(3)

Unnamed: 0,song_id,song_name,artist_id,artist_name,popularity,release_date
0,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],['Trevor Daniel'],77,2020-03-26
1,3BYIzNZ3t9lRQCACXSMLrT,Venetia,['4O15NlyKLIASxsJ0PrXPfz'],['Lil Uzi Vert'],66,2020-03-06
2,1g3J9W88hTG173ySZR6E9S,Tilidin Weg,['1aS5tqEs9ci5P9KD9tZWa6'],['Bonez MC'],13,2020-07-30


O resultado da junção é um único *DataFrame* que combina as informações das duas entradas, baseado nos valores comuns presentes na coluna `song_id` de ambos os *DataFrames* originais. Observe que a ordem das entradas em cada coluna não é necessariamente mantida. Nesse caso, a ordem da coluna `song_id` difere entre as duas tabelas, e a função `merge()` considera isso corretamente. 

## Junções  um-para-muitos (1:N)

As junções um-para-muitos são usadas quando uma das duas colunas-chave contém mais de uma entrada para cada registro. Nesse caso, o *DataFrame* resultante preservará essas entradas duplicadas conforme apropriado. Considere o exemplo onde procuramos unir o resultado anterior com informações das paradas de sucesso do Spotify, presentes na tabela `Charts`. No entanto, nesta tabela, os identificadores das músicas podem aparecem mais de uma vez. Vamos então analisar esse caso claro de junção um-para-muitos. Especificamente, queremos unir as informações básicas das músicas com as semanas e as posições de cada música nos charts do Spotify:

In [6]:
# Lendo os dados
df4 = pd.read_table('../dataset/spotify_charts_complete.tsv',
    usecols=['chart_week', 'song_id', 'position'], # seleciona campos específicos
    encoding='utf-8')

In [7]:
df4.head(3)

Unnamed: 0,chart_week,position,song_id
0,2020-01-02,1,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,7k4t7uLgtOxPwTpFmtJNTY


In [8]:
# Junção um-para-muitos de dois DataFrames
df5 = pd.merge(df3, df4, on='song_id') 
df5.head(3)

Unnamed: 0,song_id,song_name,artist_id,...,release_date,chart_week,position
0,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-03-26,2020-03-26,11
1,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-03-26,2020-04-02,13
2,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-03-26,2020-04-09,12


O resultado da junção é um único *DataFrame* que combina as informações das duas entradas, porém, ao contrário do exemplo anterior, as informações originais (i.e., do *DataFrame* `df3`) se repetem conforme exigido pelas entradas do *DataFrame* `df4`.

## Junções  muitos-para-muitos (N:N)

Na junção muitos-para-muitos, se a coluna-chave das duas tabelas incluir entradas duplicadas, o resultado será uma fusão muitos-para-muitos. Isso ficará talvez mais claro com um exemplo concreto. Considere que queremos criar um relacionamento muitos-para-muitos entre a tabela anterior e uma nova tabela contendo o número total de streams que cada música atingiu nas semanas dos charts. Neste exemplo, a coluna-chave do *DataFrame* resultante será a combinação das colunas-chave de cada tabela. Ao contrário dos exemplos anteriores, neste cenário, as duas tabelas terão duas colunas-chave: `song_id` e `chart_week`. Após a junção muitos-para-muitos, a coluna-chave do *DataFrame* resultante será expressa pela combinação dos valores de `song_id` e `chart_week` das tabelas `df5` e `df6`:

In [9]:
# Lendo os dados
df6 = pd.read_table('../dataset/spotify_charts_complete.tsv',
    usecols=['chart_week', 'song_id', 'streams'], # seleciona campos específicos
    encoding='utf-8')

In [10]:
df6.head(3)

Unnamed: 0,chart_week,streams,song_id
0,2020-01-02,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,29349573,7k4t7uLgtOxPwTpFmtJNTY


In [11]:
# Junção muitos-para-muitos de dois DataFrames
df7 = pd.merge(df5, df6, on=['song_id', 'chart_week'])
df7.head(3)

Unnamed: 0,song_id,song_name,artist_id,...,chart_week,position,streams
0,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-03-26,11,21964590
1,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-04-02,13,21724066
2,2rRJrJEo19S2J82BDsQ3F7,Falling,['7uaIm6Pw7xplS8Dy06V6pT'],...,2020-04-09,12,21126685


## Conclusão

Este notebook apresentou como fazer a integração de dados de diferentes fontes.

O próximo notebook ([3.3.Transformacao.ipynb](3.3.Transformacao.ipynb)) apresenta como transformar dados de diferentes formatos em um formato suportado pelo processo de pesquisa.