#### Combining DataFrames

[Doc Combining Dataframes](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

[Aula Combining Dataframes](https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/17773032#content)

Frequentemente, os dados de que precisamos existem em duas ou mais fontes separadas e assim precisamos combina-las para obter o resultado esperado.

##### Concat

[Doc Concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat)

Há muitas formar de realizar estas combinaçoes, a mais simples delas é, se as duas fontes ja estiverem no mesmo formato, entao podemos simplesmente fazer uma concatenaçao. A concatenaçao é, figurativamente, "colar" os dois frames de dados desde que as linhas de cada um dos frames se alinhem, sendo assim é só juntá-los. Isso poderá ser aplicado tanto em linhas quanto em colunas.

In [1]:
import numpy as np
import pandas as pd

In [2]:
data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']}

In [3]:
data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}

In [6]:
one = pd.DataFrame(data_one)
one

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [7]:
two = pd.DataFrame(data_two)
two

Unnamed: 0,C,D
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [9]:
#nossos dois DataFrames possuem as mesmas chaves 0, 1, 2, 3 - caso mais simple
#o que faremos é concatenar informando uma lista de DF e se sera por colunas ou por linhas.
#neste caso, serao colunas.

pd.concat([one, two], axis = 1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [10]:
#vamos concatenar por linhas e ver o que acontece.

pd.concat([one, two], axis = 0)

#Note que foi automaticamente preenchido com valores nulos alguns campos e
#os indices se duplicaram.

Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
2,A2,B2,,
3,A3,B3,,
0,,,C0,D0
1,,,C1,D1
2,,,C2,D2
3,,,C3,D3


In [11]:
#Mas se mesmo assim, quisermos fazer por linha e evitar os valores NaN, devemos renomear as colunas do DF two
#com os mesmos nomes do DF one, sendo assim, nao teremos problemas em concatena-los

two.columns = one.columns
pd.concat([one, two], axis = 0)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [14]:
#mas ainda nao resolvemos a questao de duplicacao dos indices
my_df = pd.concat([one, two], axis = 0)
my_df.index = range(len(my_df))
my_df
#tcharam!!!!

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,C0,D0
5,C1,D1
6,C2,D2
7,C3,D3


##### Merge

[Doc Pandas Merge](https://pandas.pydata.org/docs/reference/api/pandas.merge.html)

Diferente do exemplo anterior, muitas vezes os frames não se encontrarão na mesma ordem ou formato. O que significa que não será possível pura e simplesmente concatená-los. Então para estes casos, onde podem haver colunas presentes em um quadro mas ausentes em outro, nossa opção será mesclá-los(merge).

Existem tres formas principais de mesclar tabelas, baseando-se em seus argumentos e cada uma delas possuem significados semelhantes aos tipos de Join's em SQL:

- **Inner**: usa a interseção de chaves de ambos os quadros, semelhante a uma junção interna do SQL, preservar a ordem das teclas esquerdas.
[Aula Merge-Inner](https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/22972426#content)

- **Outer**: usa a união de chaves de ambos os quadros, semelhante a uma junção externa completa do SQL, ordena as chaves lexicograficamente.
[Aula Merge-Outer](https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/22972450#content )

- **Left or Right**: usa apenas as chaves do quadro esquerdo ou direito, semelhante a uma junção externa esquerda do SQL; preserva a ordem das chaves.
[Aula Merge-Left or Right](https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/22972442#content)

<div>
    <h6 style='color:red'>Signature:</h6>
     <p>pd.merge(<br>
        left: 'DataFrame | Series',<br>
        right: 'DataFrame | Series',<br>
        how: 'str' = 'inner',<br>
        on: 'IndexLabel | None' = None,<br>
        left_on: 'IndexLabel | None' = None,<br>
        right_on: 'IndexLabel | None' = None,<br>
        left_index: 'bool' = False,<br>
        right_index: 'bool' = False,<br>
        sort: 'bool' = False,<br>
        suffixes: 'Suffixes' = ('_x', '_y'),<br>
        copy: 'bool' = True,<br>
        indicator: 'bool' = False,<br>
        validate: 'str | None' = None,<br>
         ) -> 'DataFrame'</p>
    <h6 style='color:red'>Docstring:</h6>
    <p>Merge DataFrame or named Series objects with a database-style join.</p>
</div>

Vamos ver cada uma delas.

In [41]:
registrations = pd.DataFrame({'reg_id':[1,2,3,4],'name':['Andrew','Bob','Claire','David']})
logins = pd.DataFrame({'log_id':[1,2,3,4],'name':['Xavier','Andrew','Yolanda','Bob']})
registrations

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bob
2,3,Claire
3,4,David


In [42]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bob


In [43]:
pd.merge(registrations, logins, how= 'inner', on='name')

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2
1,2,Bob,4


In [44]:
#podemos ver a assinatura tambem com help(pd.merge)
pd.merge(registrations, logins, how= 'left', on='name')

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2.0
1,2,Bob,4.0
2,3,Claire,
3,4,David,


In [45]:
pd.merge(registrations, logins, how= 'right', on='name')

Unnamed: 0,reg_id,name,log_id
0,,Xavier,1
1,1.0,Andrew,2
2,,Yolanda,3
3,2.0,Bob,4


In [46]:
#outer === full(SQL)

pd.merge(registrations, logins, how= 'outer', on='name')

Unnamed: 0,reg_id,name,log_id
0,1.0,Andrew,2.0
1,2.0,Bob,4.0
2,3.0,Claire,
3,4.0,David,
4,,Xavier,1.0
5,,Yolanda,3.0


In [49]:
registrations = registrations.set_index("name")
registrations

Unnamed: 0_level_0,reg_id
name,Unnamed: 1_level_1
Andrew,1
Bob,2
Claire,3
David,4


In [50]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bob


In [51]:
pd.merge(registrations,logins,left_index=True,right_on='name')

Unnamed: 0,reg_id,log_id,name
1,1,2,Andrew
3,2,4,Bob


In [52]:
pd.merge(logins,registrations,right_index=True,left_on='name')

Unnamed: 0,log_id,name,reg_id
1,2,Andrew,1
3,4,Bob,2


In [53]:
registrations = registrations.reset_index()
registrations

Unnamed: 0,name,reg_id
0,Andrew,1
1,Bob,2
2,Claire,3
3,David,4


In [54]:
registrations.columns = ['reg_name','reg_id']
registrations

Unnamed: 0,reg_name,reg_id
0,Andrew,1
1,Bob,2
2,Claire,3
3,David,4


In [55]:
# se tentarmos fazer um merge dessa forma, acusará um error:

pd.merge(registrations, logins)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [58]:
#forma de fazer um merge de duas tabelas em que as chaves sao referencias entre si, porem possuem nomes diferentes.

result_merge = pd.merge(registrations,logins,left_on='reg_name',right_on='name')
result_merge

Unnamed: 0,reg_name,reg_id,log_id,name
0,Andrew,1,2,Andrew
1,Bob,2,4,Bob


In [59]:
#para nao apresentar as chaves repetidas, de reg_name e name que se referem ao mesmo dado

result_merge.drop('reg_name',axis=1)

Unnamed: 0,reg_id,log_id,name
0,1,2,Andrew
1,2,4,Bob


In [60]:
#Quando ha uma duplicacao de nomes de colunas o pandas fara uma identificacao de forma automatica

registrations.columns = ['name','id']
registrations

Unnamed: 0,name,id
0,Andrew,1
1,Bob,2
2,Claire,3
3,David,4


In [61]:
logins.columns = ['id','name']
logins

Unnamed: 0,id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bob


In [63]:
pd.merge(registrations,logins,on='name')

#Note a identificacao dada pelo pandas: X - refere-se a left table - registrations
#enquanto Y - refere-se a right table - logins

Unnamed: 0,name,id_x,id_y
0,Andrew,1,2
1,Bob,2,4


In [64]:
#Que complicado para entender, tem como ficar mais declarativo?
#sim, podemos usar o suffixes e definir, em uma tupla, como virá após o _

pd.merge(registrations,logins,on='name', suffixes=('_reg', '_log'))
#tcharam!!!

Unnamed: 0,name,id_reg,id_log
0,Andrew,1,2
1,Bob,2,4
