# Combining & Merging Datasets in Pandas

Hi Guys, Welcome to [Tirendaz Academy](https://youtube.com/c/tirendazacademy) 😀
</br>
In this notebook, I'm going to show combining & merging datasets in Pandas.
</br>
Happy Learning 🐱‍🏍 

In [1]:
import pandas as pd
import numpy as np

## Joining DataFrame

In [3]:
d1=pd.DataFrame(
    {"key":["a","b","c","c","d","e"],
     "num1":range(6)})
d2=pd.DataFrame(
    {"key":["b","c","e","f"],
     "num2":range(4)})

In [4]:
print(d1)
print(d2)

  key  num1
0   a     0
1   b     1
2   c     2
3   c     3
4   d     4
5   e     5
  key  num2
0   b     0
1   c     1
2   e     2
3   f     3


In [9]:
# Por defeito o merge default <=> a um inner join das base dados 
# Uma inner join retorna apenas as linhas onde existe correspondência de valores em ambas as chaves de junção.
pd.merge(d1, d2)

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,e,5,2


In [7]:
pd.merge(d1, d2, on='key')

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,e,5,2


In [8]:
d3=pd.DataFrame(
    {"key1":["a","b","c","c","d","e"],
     "num1":range(6)})
d4=pd.DataFrame(
    {"key2":["b","c","e","f"],
     "num2":range(4)})

In [11]:
#  A função irá procurar valores que são comuns em d3['key1'] e d4['key2'] (i.e. faz inner join entre coluna key1 e key2)
pd.merge(
    d3,d4,left_on="key1",right_on="key2"
)

Unnamed: 0,key1,num1,key2,num2
0,b,1,b,0
1,c,2,c,1
2,c,3,c,1
3,e,5,e,2


In [13]:
# outer join 
# O resultado inclui todos os registos que correspondem (interseção) 
# mais os registos que só existem em d1 (diferença à esquerda) e os
# registos que só existem em d2 (diferença à direita).
pd.merge(d1,d2,how="outer")

Unnamed: 0,key,num1,num2
0,a,0.0,
1,b,1.0,0.0
2,c,2.0,1.0
3,c,3.0,1.0
4,d,4.0,
5,e,5.0,2.0
6,f,,3.0


In [14]:
# Left join
# O resultado incluirá todas as linhas do DataFrame da esquerda (d1).
# Se for encontrada uma correspondência, os valores correspondentes de d2 são adicionados à linha de d1.
# Se não for , é prenchido com NaN
pd.merge(d1,d2,how="left")

Unnamed: 0,key,num1,num2
0,a,0,
1,b,1,0.0
2,c,2,1.0
3,c,3,1.0
4,d,4,
5,e,5,2.0


In [15]:
# Right join 
# O resultado incluirá todas as linhas do DataFrame da direita (d2).
# Se for encontrada uma correspondência, os valores correspondentes de d1 são adicionados à linha de d2.
# Se não for , é prenchido com NaN
pd.merge(d1,d2,how="right")

Unnamed: 0,key,num1,num2
0,b,1.0,0
1,c,2.0,1
2,c,3.0,1
3,e,5.0,2
4,f,,3


In [17]:
# inner join (default)
pd.merge(d1, d2, how='inner')

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,e,5,2


In [20]:
df1=pd.DataFrame(
    {"key":["a","b","c","c","d","e"],
     "num1":range(6),
     "count":["one","three","two",
              "one","one","two"]})
df2=pd.DataFrame(
    {"key":["b","c","e","f"],
     "num2":range(4),
     "count":["one","two","two","two"]})
print(df1)
print(df2)

  key  num1  count
0   a     0    one
1   b     1  three
2   c     2    two
3   c     3    one
4   d     4    one
5   e     5    two
  key  num2 count
0   b     0   one
1   c     1   two
2   e     2   two
3   f     3   two


In [21]:
# Aqui faz outer join, e especifica as colunas que vai usar para fazer o join
pd.merge(df1, df2, on=['key', 'count'], 
         how='outer')

Unnamed: 0,key,num1,count,num2
0,a,0.0,one,
1,b,,one,0.0
2,b,1.0,three,
3,c,3.0,one,
4,c,2.0,two,1.0
5,d,4.0,one,
6,e,5.0,two,2.0
7,f,,two,3.0


In [22]:
pd.merge(df1, df2, on="key", how='outer')

Unnamed: 0,key,num1,count_x,num2,count_y
0,a,0.0,one,,
1,b,1.0,three,0.0,one
2,c,2.0,two,1.0,two
3,c,3.0,one,1.0,two
4,d,4.0,one,,
5,e,5.0,two,2.0,two
6,f,,,3.0,two


In [23]:
# Os sufixos são usados para renomear colunas 
# que têm o mesmo nome em df1 e df2 (exceto a coluna key, que é a chave de junção).
pd.merge(df1, df2, 
         on='key', 
         suffixes=('_data1', '_data2'))

Unnamed: 0,key,num1,count_data1,num2,count_data2
0,b,1,three,0,one
1,c,2,two,1,two
2,c,3,one,1,two
3,e,5,two,2,two


## Merging on index

In [24]:
df1=pd.DataFrame(
    {"letter":["a","a","b",
               "b","a","c"],
     "num":range(6)}) 
df2=pd.DataFrame(
    {"value":[3,5,7]},
    index=["a","b","e"])

In [25]:
print(df1)
print(df2)

  letter  num
0      a    0
1      a    1
2      b    2
3      b    3
4      a    4
5      c    5
   value
a      3
b      5
e      7


In [27]:
# df1:  A chave de junção é a coluna "letter" de df1.
# df2 : A chave de junção é o índice de df2 (devido a right_index=True).
pd.merge(df1,df2,
         left_on="letter",
         right_index=True)

Unnamed: 0,letter,num,value
0,a,0,3
1,a,1,3
2,b,2,5
3,b,3,5
4,a,4,3


In [29]:
right=pd.DataFrame(
    [[1,2],[3,4],[5,6]],
    index=["a","c","d"],
    columns=["Tom","Tim"])
left=pd.DataFrame(
    [[7,8],[9,10],[11,12],[13,14]],
    index=["a","b","e","f"],
    columns=["Sam","Kim"])
print(left)
print(right)

   Sam  Kim
a    7    8
b    9   10
e   11   12
f   13   14
   Tom  Tim
a    1    2
c    3    4
d    5    6


In [20]:
pd.merge(right,left, 
         right_index=True, 
         left_index=True, 
         how="outer")

Unnamed: 0,Tom,Tim,Sam,Kim
a,1.0,2.0,7.0,8.0
b,,,9.0,10.0
c,3.0,4.0,,
d,5.0,6.0,,
e,,,11.0,12.0
f,,,13.0,14.0


In [31]:

# O método .join() é essencialmente uma forma mais 
# conveniente de usar o pd.merge(), mas é otimizado
# e configurado por defeito para realizar a junção pelos índices dos DataFrames.
left.join(right)

Unnamed: 0,Sam,Kim,Tom,Tim
a,7,8,1.0,2.0
b,9,10,,
e,11,12,,
f,13,14,,


In [32]:
left.join(right,how="outer")

Unnamed: 0,Sam,Kim,Tom,Tim
a,7.0,8.0,1.0,2.0
b,9.0,10.0,,
c,,,3.0,4.0
d,,,5.0,6.0
e,11.0,12.0,,
f,13.0,14.0,,


In [35]:
data=pd.DataFrame([[1,3],[5,7],[9,11]],            
                  index=["a","b","f"],      
                  columns=["Alex","Keta"])
# A instrução aplica o método .join() ao DataFrame 
# left  e tenta juntá-lo com múltiplos DataFrames: right e data.

left.join([right,data])

Unnamed: 0,Sam,Kim,Tom,Tim,Alex,Keta
a,7.0,8.0,1.0,2.0,1.0,3.0
b,9.0,10.0,,,5.0,7.0
e,11.0,12.0,,,,
f,13.0,14.0,,,9.0,11.0


## Concatenating Along an Axis

In [38]:
seq= np.arange(20).reshape((4, 5))
print(seq)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [39]:
# concatena por coluna
np.concatenate([seq,seq], axis=1)

array([[ 0,  1,  2,  3,  4,  0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 15, 16, 17, 18, 19]])

In [40]:
# Concatena por linha
np.concatenate([seq, seq], axis=0)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [45]:
data1 = pd.Series(
    [0, 1], index=['a', 'b'])
data2 = pd.Series(
    [2,3,4], index=['c','d','e'])
data3 = pd.Series(
    [5, 6], index=['f', 'g'])

In [47]:
pd.concat([data1,data2,data3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [29]:
pd.concat([data1, data2, data3], axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [50]:
data4= pd.Series([10,11,12], 
                 index=['a','b',"c"])
# O resultado é um novo DataFrame que combina
# todas as colunas de data1 e data4, mas apenas para as linhas cujos índices de linha são comuns aos dois objetos.
pd.concat([data1,data4],axis=1,join="inner")

Unnamed: 0,0,1
a,0,10
b,1,11


In [51]:
# por defautl concatena pela coluna
x=pd.concat([data1, data2, data4], 
            keys=['one', 'two','three'])
x

one    a     0
       b     1
two    c     2
       d     3
       e     4
three  a    10
       b    11
       c    12
dtype: int64

In [53]:
# Concatena por linha
x=pd.concat([data1, data2, data4], 
            axis=1,
            keys=['one', 'two', 'three'])
x

Unnamed: 0,one,two,three
a,0.0,,10.0
b,1.0,,11.0
c,,2.0,12.0
d,,3.0,
e,,4.0,


In [57]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['one', 'two'])
df2 = pd.DataFrame(
    10+np.arange(4).reshape(2,2),
    index=['a', 'c'],
    columns=['three', 'four'])
print(df1)
print(df2)

   one  two
a    0    1
b    2    3
c    4    5
   three  four
a     10    11
c     12    13


In [56]:
pd.concat([df1, df2], axis=1, 
          keys=['s1', 's2'],
          sort=False)

Unnamed: 0_level_0,s1,s1,s2,s2
Unnamed: 0_level_1,one,two,three,four
a,0,1,10.0,11.0
b,2,3,,
c,4,5,12.0,13.0


In [60]:
data1 = pd.DataFrame(
    np.random.randn(3, 4),
    columns=['a','b','c','d'])
data2 = pd.DataFrame(
    np.random.randn(2, 3),
    columns=['b','d','a'])
print(data1)
print(date)

          a         b         c         d
0 -0.409076 -0.187580  0.756365  0.837083
1  0.383995 -1.133122 -0.650657 -0.865742
2 -1.171480 -0.966271 -1.010367 -1.412280
          b         d         a
0  1.515149 -0.476297 -0.263631
1  0.654730  1.008281  0.576300


In [61]:
# descarta os índices originais e cria um novo índice numérico sequencial para o resultado final, começando em 0 até N−1 
pd.concat([data1, data2], ignore_index=True)

Unnamed: 0,a,b,c,d
0,-0.409076,-0.18758,0.756365,0.837083
1,0.383995,-1.133122,-0.650657,-0.865742
2,-1.17148,-0.966271,-1.010367,-1.41228
3,-0.263631,1.515149,,-0.476297
4,0.5763,0.65473,,1.008281


In [62]:
pd.concat([data1, data2])

Unnamed: 0,a,b,c,d
0,-0.409076,-0.18758,0.756365,0.837083
1,0.383995,-1.133122,-0.650657,-0.865742
2,-1.17148,-0.966271,-1.010367,-1.41228
0,-0.263631,1.515149,,-0.476297
1,0.5763,0.65473,,1.008281


Don't forget to follow us on [YouTube](http://youtube.com/tirendazacademy) | [Medium](http://tirendazacademy.medium.com) | [Twitter](http://twitter.com/tirendazacademy) | [GitHub](http://github.com/tirendazacademy) | [Linkedin](https://www.linkedin.com/in/tirendaz-academy) | [Kaggle](https://www.kaggle.com/tirendazacademy) 😎