In [1]:
import numpy as np
import pandas as pd

In [None]:
"""
Documentação de suporte: 

https://pandas.pydata.org/pandas-docs/stable/merging.html
"""

In [15]:
df = pd.DataFrame(
    {'key':['A','B','C','B','A','A'],
    'data_set_1': np.arange(6)
    }
)

df2 = pd.DataFrame(
    {'key':['D','F','G'],
    'data_set_2': np.arange(3)
    }
)

In [17]:
"""
Merge chamado por si só, resulta em perda de dados caso os dataframes
nao dividam informações iguais. 

df e df2 nao têm 'key's iguais, logo nosso merge ficou vazio.

"""

pd.merge(df,df2)

Unnamed: 0,data_set_1,key,data_set_2


In [19]:
"""
Merge aceita diversos argumentos. Podemos indicar sobre quais colunas 
queremos realizar o merge.

Para isso fazemos:
"""

df = pd.DataFrame(
    {'key':['A','B','C','B','A','A'],
    'data_set_1': np.arange(6)
    }
)

df2 = pd.DataFrame(
    {'key':['A','B','G'],
    'data_set_2': np.arange(3)
    }
)

pd.merge(df,df2, on="key")

Unnamed: 0,data_set_1,key,data_set_2
0,0,A,0
1,4,A,0
2,5,A,0
3,1,B,1
4,3,B,1


In [27]:
"""
o argumento 'how' realiza o merge utilizando conceitos de Conjuntos.

Left, inner, right, etc. Dessa maneira, podemos evitar a perda de dados 
como aconteceu acima.

Realizamos o merge do df2 no df usando o how='left', isso fez com que os 
campos que faltavam em df2 ('C') ficassem como NaN

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html
"""

pd.merge(df,df2,on='key',how='outer')

Unnamed: 0,data_set_1,key,data_set_2
0,0.0,A,0.0
1,4.0,A,0.0
2,5.0,A,0.0
3,1.0,B,1.0
4,3.0,B,1.0
5,2.0,C,
6,,G,2.0


In [49]:
df3 = pd.DataFrame(
    {'key':['A','A','B','C','B','A','A'],
     'cities':['DF','DF','SP','SP','ES','GO','GO'],
    'data_set_3': range(7)
    }
)

df4 = pd.DataFrame(
    {'key':['A','B','B','B'],
     'cities':['DF','DF','SP','GO'],
    'data_set_4': np.arange(4)
    }
)

df3

Unnamed: 0,cities,data_set_3,key
0,DF,0,A
1,DF,1,A
2,SP,2,B
3,SP,3,C
4,ES,4,B
5,GO,5,A
6,GO,6,A


In [50]:
df4

Unnamed: 0,cities,data_set_4,key
0,DF,0,A
1,DF,1,B
2,SP,2,B
3,GO,3,B


In [51]:
pd.merge(df3,df4,on=['key','cities'],how='outer')

Unnamed: 0,cities,data_set_3,key,data_set_4
0,DF,0.0,A,0.0
1,DF,1.0,A,0.0
2,SP,2.0,B,2.0
3,SP,3.0,C,
4,ES,4.0,B,
5,GO,5.0,A,
6,GO,6.0,A,
7,DF,,B,1.0
8,GO,,B,3.0


In [58]:
"""
Concatenate

np.concatenate por receber axis=0 para adicionar mais linhas. 

0 = linhas,
1 = colunas.
"""

arr1 = np.arange(9).reshape(3,3)

np.concatenate([arr1,arr1],axis=1)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8]])

In [66]:
"""
Concatenate com pandas

pd.concat(x), onde x é uma lista.
"""

ser1 = pd.Series([0,1,2],index=['A','B','C'])
ser2 = pd.Series([9,10,11],index=['X','Y','Z'])


"""
axis=0 concatena as linhas.

axis=1 produz um DataFrame. 
As colunas desse DataFrame serão geradas automaticamente.
"""
pd.concat([ser1,ser2],axis=1)

Unnamed: 0,0,1
A,0.0,
B,1.0,
C,2.0,
X,,9.0
Y,,10.0
Z,,11.0


In [68]:
"""
Pode-se criar indices hierarquicos ao indicar o parametro 'keys'
"""

pd.concat([ser1,ser2],keys=['cat1','cat2'])

cat1  A     0
      B     1
      C     2
cat2  X     9
      Y    10
      Z    11
dtype: int64

In [72]:

df = pd.DataFrame(np.random.randn(4,3),columns=['X','Y','Z'])
df2 = pd.DataFrame(np.random.randn(3,3),columns=['X','Y','C'])

df

Unnamed: 0,X,Y,Z
0,-0.95612,0.586142,-0.448216
1,-1.382448,2.121735,0.940601
2,0.324239,0.593373,-2.397799
3,0.399247,-0.604035,2.194131


In [73]:
df2

Unnamed: 0,X,Y,C
0,-0.189854,2.127877,-0.710518
1,1.044277,-0.135578,2.487971
2,-1.758728,-0.794795,-0.490463


In [76]:
"""
Resultado de concat com 2 DataFrames.

Os dados contidos em df e df2 são mantidos!
como o df não possuia a coluna 'C' os valores ficaram NaN, 
a mesma coisa para a coluna 'Z' em df2
"""

pd.concat([df,df2])

Unnamed: 0,C,X,Y,Z
0,,-0.95612,0.586142,-0.448216
1,,-1.382448,2.121735,0.940601
2,,0.324239,0.593373,-2.397799
3,,0.399247,-0.604035,2.194131
0,-0.710518,-0.189854,2.127877,
1,2.487971,1.044277,-0.135578,
2,-0.490463,-1.758728,-0.794795,


In [77]:
"""
O Df resultante de pd.concat tem indices estranhos, 
pois o concat nao ignorou os indices de df e df2. 

Para que os indices ficassem continuos, ex: 0,1,2,3,4,5,6. 
passamos o argumento 'ignore_index'
"""

pd.concat([df,df2], ignore_index=True)

Unnamed: 0,C,X,Y,Z
0,,-0.95612,0.586142,-0.448216
1,,-1.382448,2.121735,0.940601
2,,0.324239,0.593373,-2.397799
3,,0.399247,-0.604035,2.194131
4,-0.710518,-0.189854,2.127877,
5,2.487971,1.044277,-0.135578,
6,-0.490463,-1.758728,-0.794795,
