In [2]:
import pandas as pd

In [3]:
A = pd.DataFrame({
    'X1': [1,2,3],
    'X2': [4,5,6]
}, index=['R1', 'R2', 'R3'])
B = pd.DataFrame({
    'X3': [1,2,3,10],
    'X4': [4,5,6,11]
}, index=['R1', 'R2', 'R3', 'R4'])
C = pd.DataFrame({
    'X1': ['Sylvain', 'Jean', 'Gabriel', 'Marchienne'],
    'X2': ['Astings', 'Colmans', 'Enface', 'Riven']
}, index=['N1', 'N2', 'N3', 'N4'])

# Merge, join

In [54]:
# Jointure colonne sur l'égalité de colonnes DEUX A DEUX (X1 == X3 & X2 == X4)
pd.merge(A, B, left_on=['X1', 'X2'], right_on=['X3', 'X4'])

Unnamed: 0,X1,X2,X3,X4
0,1,4,1,4
1,2,5,2,5
2,3,6,3,6


In [55]:
# Jointure colonne sur l'égalité des INDEX
pd.merge(A, B, left_index=True, right_index=True, how='right')

Unnamed: 0,X1,X2,X3,X4
R1,1.0,4.0,1,4
R2,2.0,5.0,2,5
R3,3.0,6.0,3,6
R4,,,10,11


In [56]:
# Autre façon plus courte de faire la même chose
# évite d'écrire left_index=True, right_index=True
A.join(B, how='right')

Unnamed: 0,X1,X2,X3,X4
R1,1.0,4.0,1,4
R2,2.0,5.0,2,5
R3,3.0,6.0,3,6
R4,,,10,11


# Concat, append

In [71]:
# Ajouter des lignes à la suite
# cas n°1 : les index des df sont différents MAIS les colonnes sont les mêmes
pd.concat([A, C])

Unnamed: 0,X1,X2
R1,1,4
R2,2,5
R3,3,6
N1,Sylvain,Astings
N2,Jean,Colmans
N3,Gabriel,Enface
N4,Marchienne,Riven


In [72]:
# cas n°2 : les index des df sont différents ET les colonnes ne sont pas les mêmes
pd.concat([A, B])

Unnamed: 0,X1,X2,X3,X4
R1,1.0,4.0,,
R2,2.0,5.0,,
R3,3.0,6.0,,
R1,,,1.0,4.0
R2,,,2.0,5.0
R3,,,3.0,6.0
R4,,,10.0,11.0


In [74]:
# Ajouter des colonnes à la suite
# cas n°1 : les index sont différents ET les colonnes sont les mêmes
# il n'y pas de merge même si les noms de colonnes sont les mêmes
pd.concat([A, C], axis=1)

Unnamed: 0,X1,X2,X1.1,X2.1
N1,,,Sylvain,Astings
N2,,,Jean,Colmans
N3,,,Gabriel,Enface
N4,,,Marchienne,Riven
R1,1.0,4.0,,
R2,2.0,5.0,,
R3,3.0,6.0,,


In [76]:
# cas n°2 : les index sont égaux (sauf un) ET les colonnes ne sont pas les mêmes
pd.concat([A, B], axis=1)

Unnamed: 0,X1,X2,X3,X4
R1,1.0,4.0,1,4
R2,2.0,5.0,2,5
R3,3.0,6.0,3,6
R4,,,10,11


## Append

In [96]:
# sert à ajouter des lignes à la suite (pas des colonnes)
# ignore_index=True retire les index dans le résultat
# si des colonnes sont différentes, elles sont concat
A.append(C, ignore_index=False)

Unnamed: 0,X1,X2
R1,1,4
R2,2,5
R3,3,6
N1,Sylvain,Astings
N2,Jean,Colmans
N3,Gabriel,Enface
N4,Marchienne,Riven


In [5]:
# Dans le cas où l'on ajoute un dict ou une pd.Series avec append, il faut forcément ignore_index=True
A.append({
    'X1': '10',
    'X2': '90'
}, ignore_index=True)

Unnamed: 0,X1,X2
0,1,4
1,2,5
2,3,6
3,10,90


## Différence entre concat et append

In [121]:
# concat est plus rapide que append avec des df vides
# http://stackoverflow.com/questions/15819050/pandas-dataframe-concat-vs-append
# Conclusion: toujours préférer concat à append
empty_df = pd.DataFrame()
empty_df.append(C, ignore_index=False)

Unnamed: 0,X1,X2
N1,Sylvain,Astings
N2,Jean,Colmans
N3,Gabriel,Enface
N4,Marchienne,Riven


In [118]:
%timeit empty_df.append(C, ignore_index=False)

1000 loops, best of 3: 370 µs per loop


In [119]:
# déjà légèrement plus rapide ici alors qu'on a très peu de données
%timeit res = pd.concat([empty_df, C])

1000 loops, best of 3: 348 µs per loop
