# Comparer deux dataframes avec `datacompy`

**`datacompy`** est un module python qui permet de comparaer deux dataframes. Il prend en entrée deux dataframe et ressort un rapport sur les similitudes et les dissimilarités entre les deux dataframes. 

Ce modèle peut être utile pour identifier où les mises à jour qui ont été effectués dans les données (ajout/suppression de lignes, update des informations, ajout/supression de colonnes). 

In [2]:
# Settings pour l'affichage du notebook
from IPython.display import display, HTML
display(HTML("<style>.container {width:75% !important; }</style>"))
display(HTML("<style type='text/css'>.CodeMirror{font-family: consolas; font-size: 14.4px;</style>"))

## Installation

In [13]:
# !pip install datacompy  # Jupyter notebook
# pip install datacompy  # console ou conda prompt

## Création des jeux de données

In [65]:
# packages
from io import StringIO
import pandas as pd
import datacompy
import logging

In [70]:
logging.basicConfig(format='%(asctime)s %(message)s')

In [44]:
# Création des dataframes   
data_old = \
"""
client_id; Nom; Prénom; Annee_naissance; Statut; Département;Email
1;Lelievre;Florentine;1995;Marié;93;b2o@gmail.com
2;Pitard;Alexandro;;Marié;92;b2o@gmail.com
3;Marcheix;Wandrille;1999;Divorcé;93;b2o@gmail.com
4;Martigny;Stefan;2000;Célibataire;91;b2o@gmail.com
5;Assailly;Rosanna;1993;Marié;93;b2o@gmail.com
6;Grillon;Antton;1996;Divorcé;93;kkgk@gmail.com
7;Duboue;Musa;1990;Divorcé;92;
8;Vayssie;Ilyasse;;Divorcé;93;
9;Landon;Daoud;1997;Célibataire;95;b2o@gmail.com
10;Couder;Idris;1991;Marié;91;b2o@gmail.com
"""
   
data_new = \
"""
client_id; Nom; Prénom; Annee_naissance; Statut; Département;téléphone
1;Lelievre;Florentine;1995;Marié;92;777777777
2;Pitard;Alexandro;2000;Marié;92;777777777
3;Marcheix;Wandrille;1999;Marié;93;777777777
4;Martigny;Stefan;2000;Marié;94;777777777
5;Assailly;Rosanna;1993;Divorcé;93;777777777
11;Montillet;Deborah;1994;Marié;94;777777777
12;Furet;Cheikh;1996;Divorcé;92;777777777
13;Faur;Aleksandar;;Célibataire;94;777777777
14;Sagne;Camillia;1992;Célibataire;93;777777777
"""
   
df_old = pd.read_csv(StringIO(data_old), sep=";")
df_new = pd.read_csv(StringIO(data_new), sep=";")
 

In [45]:
df_old

Unnamed: 0,client_id,Nom,Prénom,Annee_naissance,Statut,Département,email
0,1,Lelievre,Florentine,1995.0,Marié,93,b2o@gmail.com
1,2,Pitard,Alexandro,,Marié,92,b2o@gmail.com
2,3,Marcheix,Wandrille,1999.0,Divorcé,93,b2o@gmail.com
3,4,Martigny,Stefan,2000.0,Célibataire,91,b2o@gmail.com
4,5,Assailly,Rosanna,1993.0,Marié,93,b2o@gmail.com
5,6,Grillon,Antton,1996.0,Divorcé,93,kkgk@gmail.com
6,7,Duboue,Musa,1990.0,Divorcé,92,
7,8,Vayssie,Ilyasse,,Divorcé,93,
8,9,Landon,Daoud,1997.0,Célibataire,95,b2o@gmail.com
9,10,Couder,Idris,1991.0,Marié,91,b2o@gmail.com


In [46]:
df_new

Unnamed: 0,client_id,Nom,Prénom,Annee_naissance,Statut,Département,téléphone
0,1,Lelievre,Florentine,1995.0,Marié,92,777777777
1,2,Pitard,Alexandro,2000.0,Marié,92,777777777
2,3,Marcheix,Wandrille,1999.0,Marié,93,777777777
3,4,Martigny,Stefan,2000.0,Marié,94,777777777
4,5,Assailly,Rosanna,1993.0,Divorcé,93,777777777
5,11,Montillet,Deborah,1994.0,Marié,94,777777777
6,12,Furet,Cheikh,1996.0,Divorcé,92,777777777
7,13,Faur,Aleksandar,,Célibataire,94,777777777
8,14,Sagne,Camillia,1992.0,Célibataire,93,777777777


## Comparaison

In [71]:
compare = datacompy.Compare(
    
    # dataframes
    df1=df_old,
    df2=df_new,

    # colonnes de jointure (Nom de colonne ou liste de noms de colonnes)
    join_columns='client_id',

    # Si True, les index seront utilisés comme clés de jointures. il ne peut être utilisé au même moment que join_columns
    on_index=False,

    # Optionnel : Nom du premier dataframe, 'df1' par défaut
    df1_name='_old',

    # Optionnel : Nom du deuxième dataframe, 'df2' par défaut
    df2_name='_new',
    
    # Indique si les noms de colonnes vont être converties en minuscule, True par défaut
    cast_column_names_lower=False,

    # Optionnel : Supprimer les espaces au début et à la fin des colonnes textes
    ignore_spaces=False,

    # Optionnel : Ignorer la casse des colonnes textes
    ignore_case=False,

    # Optionnel : Tolérence absolue entre deux valeurs
    abs_tol=0,

    # Optionnel : Tolérence relative entre deux valeurs
    rel_tol=0
)

## Affichage du rapport

In [63]:
# Les deux dataframes sont-ils égaux ? 
compare.matches(ignore_extra_columns = True)   

True

In [64]:
?datacompy.Compare.matches

In [49]:
# Afficher les différences
print(compare.report())

DataComPy Comparison
--------------------

DataFrame Summary
-----------------

  DataFrame  Columns  Rows
0      _old        7    10
1      _new        7     9

Column Summary
--------------

Number of columns in common: 6
Number of columns in _old but not in _new: 1
Number of columns in _new but not in _old: 1

Row Summary
-----------

Matched on: client_id
Any duplicates on match values: No
Absolute Tolerance: 0
Relative Tolerance: 0
Number of rows in common: 5
Number of rows in _old but not in _new: 5
Number of rows in _new but not in _old: 4

Number of rows with some compared columns unequal: 5
Number of rows with all compared columns equal: 0

Column Comparison
-----------------

Number of columns compared with some values unequal: 3
Number of columns compared with all values equal: 3
Total number of values which compare unequal: 6

Columns with Unequal Values or Types
------------------------------------

             Column _old dtype _new dtype  # Unequal  Max Diff  # Null Dif

## Lignes uniques de chaque dataframe

In [58]:
print("\nColonnes présentes dans les deux Dataframes : ", compare.intersect_columns())

# Données uniquements dans _old
df_old_unique_rows = compare.df1_unq_rows
display(df_old_unique_rows)
print("Colonnes présentes uniquements dans _old : ", df_old_unique_columns)

# Données uniquements dans _new
df_new_unique_rows = compare.df2_unq_rows
display(df_new_unique_rows)
print("Colonnes présentes uniquements dans _new : ", compare.df2_unq_columns())


Colonnes présentes dans les deux Dataframes :  OrderedSet(['client_id', ' Nom', ' Prénom', ' Annee_naissance', ' Statut', ' Département'])


Unnamed: 0,client_id,Nom,Prénom,Annee_naissance,Statut,Département,email
5,6,Grillon,Antton,1996.0,Divorcé,93.0,kkgk@gmail.com
6,7,Duboue,Musa,1990.0,Divorcé,92.0,
7,8,Vayssie,Ilyasse,,Divorcé,93.0,
8,9,Landon,Daoud,1997.0,Célibataire,95.0,b2o@gmail.com
9,10,Couder,Idris,1991.0,Marié,91.0,b2o@gmail.com


Colonnes présentes uniquements dans _old :  OrderedSet(['email'])


Unnamed: 0,client_id,Nom,Prénom,Annee_naissance,Statut,Département,téléphone
10,11,Montillet,Deborah,1994.0,Marié,94.0,777777777.0
11,12,Furet,Cheikh,1996.0,Divorcé,92.0,777777777.0
12,13,Faur,Aleksandar,,Célibataire,94.0,777777777.0
13,14,Sagne,Camillia,1992.0,Célibataire,93.0,777777777.0


Colonnes présentes uniquements dans _old :  OrderedSet(['téléphone'])


## Modification de données

In [77]:
# Données différentes
compare.all_mismatch()

Unnamed: 0,client_id,Nom_df1,Nom_df2,Prénom_df1,Prénom_df2,Annee_naissance_df1,Annee_naissance_df2,Statut_df1,Statut_df2,Département_df1,Département_df2
0,1,Lelievre,Lelievre,Florentine,Florentine,1995.0,1995.0,Marié,Marié,93.0,92.0
1,2,Pitard,Pitard,Alexandro,Alexandro,,2000.0,Marié,Marié,92.0,92.0
2,3,Marcheix,Marcheix,Wandrille,Wandrille,1999.0,1999.0,Divorcé,Marié,93.0,93.0
3,4,Martigny,Martigny,Stefan,Stefan,2000.0,2000.0,Célibataire,Marié,91.0,94.0
4,5,Assailly,Assailly,Rosanna,Rosanna,1993.0,1993.0,Marié,Divorcé,93.0,93.0
