## We aim in this notebook to identify duplicates in a CSV containing information about restaurants

In [None]:
!pip3 install nltk

In [None]:
import pandas as pd
import nltk
import time
import numpy as np

In [None]:
df_restaurants = pd.read_csv("./restaurants.csv")

In [None]:
df_restaurants.head(5)

The dataframe contains duplicates records that represent to the same 'real-world' restanrants. The column 'unique_id' was added for this purpose. Two records that are associated with the same attribute value for unique_id represents the same restaurant.

In [None]:
df_restaurants[df_restaurants.unique_id == '23']

In the above example, the two records share the same value for attributes 'name' and 'address'. However, they have slightly different values for the columns 'city' and 'cuisine'

In [None]:
df_restaurants[df_restaurants.unique_id == '22']

In the above example, on the other hand, the two records are associated with different names, cities and cuisiones.

This file represents a simple example of datasets, on which we can experiment with th etechniques presented in the course to try identify duplicates, without using (that is relying on the values of) the column "unique_id".

In [None]:
# We start by adding a new column to identify the records (lines) in our dataframe
df_restaurants.insert(0,'record_ID', range(0, len(df_restaurants)))

In [None]:
df_restaurants.head(5)

Exhaustive comparisons: every record is compared with every other record

We start by applying an exhaustive strategy whereby every record in the CSV file, is compared with every other record. 

The code below does this for us. In doing so, it uses the following rule:

For two records to match, i.e. refer to the same restaurant in the real world:
* The edit distance between the attribute name values of the two records needs to be smaller or equal to 3, and 
* they need to have the same value for the cuisine attribute.

In [None]:
df_restaurants[df_restaurants.record_ID.isin([43, 622])]

In [None]:
num_records = len(df_restaurants)
matches = []
matchescomplet = []

number_of_matches = 0
tokens1=[]
tokens2=[]
start = time.process_time()
for i in range(0,num_records):
    
    # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, pour la ligne i
    tokens1name = nltk.word_tokenize(df_restaurants.iloc[i,1]) 
    ng1_tokensname = set(nltk.ngrams(tokens1name, n=1))
    
    # Après tokenization , calcul du ngrams (n=1) pour l'adresse qui servira pour la Jaccard distance,, pour la ligne i
    tokens1adr = nltk.word_tokenize(df_restaurants.iloc[i,2]) 
    ng1_tokensadr = set(nltk.ngrams(tokens1adr, n=1))
    
    
    for j in range(i+1,num_records):
        
        # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, , pour la ligne j
        tokens2name = nltk.word_tokenize( df_restaurants.iloc[j,1]) 
        ng2_tokensname = set(nltk.ngrams(tokens2name, n=1))
        
        # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, , pour la ligne j
        tokens2adr = nltk.word_tokenize( df_restaurants.iloc[j,2]) 
        ng2_tokensadr = set(nltk.ngrams(tokens2adr, n=1))
       
        # calcul de la Jaccard distance pour le name entre la ligne i et la ligne j ("item based" avec ngrams (n=1)) 
        jd_ng1_ng2_name = nltk.jaccard_distance(ng1_tokensname, ng2_tokensname)  # jaccard distance entre les ngram=1 des names
        
        # calcul de la Jaccard distance pour l'adresse entre la ligne i et la ligne j ("item based" avec ngrams (n=1)) 
        jd_ng1_ng2_adr = nltk.jaccard_distance(ng1_tokensadr, ng2_tokensadr)  # jaccard distance entre les ngram=1 des adresses
    
        # Rule for matching: 
        # disjonction entre une similarité entre les names (name_score<=1) 
        # et une similarité conjugée entre les adresses et les noms (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6)
        name_score = nltk.edit_distance(df_restaurants.iloc[i,1], df_restaurants.iloc[j,1])
        
        # Rule for matching: Distance between names is smaller or equal to 3 and the cuisine is the same 
        if (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or name_score<=1 :
            number_of_matches = number_of_matches +1 
            # matchescomplet.append((df_restaurants.iloc[i,0],df_restaurants.iloc[i,1], df_restaurants.iloc[i,2],df_restaurants.iloc[i,5], df_restaurants.iloc[j,0],df_restaurants.iloc[j,1], df_restaurants.iloc[j,2],df_restaurants.iloc[j,5]))
            matches.append((df_restaurants.iloc[i,0],df_restaurants.iloc[j,0]))

end = time.process_time()

print("Number of matches: {}".format(number_of_matches))
print("Processing time: {}".format(end - start))
for _ in matchescomplet:
     print(_)

In [None]:
# quelques tests pour ajuster les critères de notre algorithme
name_score = nltk.edit_distance(df_restaurants.iloc[73,1], df_restaurants.iloc[763,1])
name_score   # 11
# comme on le voit ci-dessous, la différence est le mot "restaurant", l'edit distance est très importante (11), 
# on ne peut pas se baser dessus pour dire que c le même resto, il faut qu'on ajoute un critère "item based" 
# en plus du critère edit_distance name_score<=1

In [None]:
# qq tests pour ajuster les critères de notre alogorithme
df_restaurants[df_restaurants.record_ID.isin([73, 763])]

In [None]:
# name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])
#print(name_score)
tokens1 = nltk.word_tokenize(df_restaurants.iloc[73,1]) 
tokens2 = nltk.word_tokenize( df_restaurants.iloc[763,1]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)
# jd_ng1_ng2_adr <= 0.6,ce seuil de 0.6 suffira dire que les lignes 32 et 759 sont le même restaurant

In [None]:
# adresse
#print(name_score)
tokens1 = nltk.word_tokenize(df_restaurants.iloc[73,2]) 
tokens2 = nltk.word_tokenize( df_restaurants.iloc[763,2]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)
# ça ne passe pas , mais c pas grave car mettre le seuil à 0.67 va nous rajouter beaucoup de faux positifs 
# on a testé ce seuil plus élevé de 0.67

In [None]:
name_score = nltk.edit_distance(df_restaurants.iloc[6,1], df_restaurants.iloc[754,1])
name_score

In [None]:
# name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])
#print(name_score)
tokens1 = nltk.word_tokenize(df_restaurants.iloc[6,1]) 
tokens2 = nltk.word_tokenize( df_restaurants.iloc[754,1]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)

In [None]:
name_score = nltk.edit_distance(df_restaurants.iloc[6,1], df_restaurants.iloc[754,1])
name_score

In [None]:
# name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])
#print(name_score)
tokens1 = nltk.word_tokenize(df_restaurants.iloc[32,1]) 
tokens2 = nltk.word_tokenize( df_restaurants.iloc[759,1]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)

In [None]:
# Display results
for match in matches:
    print("The following records {} and {} match".format(match[0],match[1]))
    print("The restaurants with the following names {} and {} match.".format(df_restaurants.iloc[match[0],1],df_restaurants.iloc[match[1],1]))
    print("The restaurants with the following addresses {} and {} match.".format(df_restaurants.iloc[match[0],2],df_restaurants.iloc[match[1],2]))
    print("\n")

Note that the rule applied in the above code is not great. You may want to try other kind of distances, other thresholds, and other rules to identify matches.

# Assessing the quality of the results

To do so, we first need to compute the ground truth (that is the list of correct matches) considering the attribute unique_id.

In [None]:
ground_truth_matches = pd.read_csv("./restaurants.csv")

In [None]:
ground_truth_matches.insert(0, 'record_ID', range(0, len(ground_truth_matches)))

In [None]:
ground_truth_matches.head(5)

In [None]:
ground_truth_matches = pd.merge(ground_truth_matches,
                                ground_truth_matches,
                                on = 'unique_id')

In [None]:
ground_truth_matches.head(5)

In [None]:
len(ground_truth_matches)

In [None]:
ground_truth_matches = ground_truth_matches.query('record_ID_x < record_ID_y')

In [None]:
ground_truth_matches.head(20)

In [None]:
ground_truth_matches = ground_truth_matches[['record_ID_x','record_ID_y']]

In [None]:
print(ground_truth_matches)

In [None]:
print(len(ground_truth_matches))

In [None]:
print(len(matches))


In [None]:
matches_df = pd.DataFrame(matches)
matches_df.head(5)

In [None]:
matches_df = pd.DataFrame(matches)
matches_df.columns= ['record_ID_x','record_ID_y']

In [None]:
# on s'assure que les couples record_ID_x et record_ID_y sont dans le bons sens (record_ID_x < record_ID_y)
# comme dans ground_truth
matches_df[matches_df['record_ID_x'] >= matches_df['record_ID_y'] ]
# 0 lignes trouvées , donc c OK.


In [None]:
matches_df.head()

In [None]:
diff_df = pd.merge(ground_truth_matches, matches_df, how='outer', indicator='Exist')

In [None]:
diff_df.head(5)

In [None]:
true_positives = diff_df[diff_df.Exist=='both']
false_positives = diff_df[diff_df.Exist=='right_only']
false_negatives = diff_df[diff_df.Exist=='left_only']

In [None]:
# les vrais duplicats que notre algo a pu détecter
true_positives.head()

In [None]:
#Example of a true positive
df_restaurants[df_restaurants.record_ID.isin(['6','754'])]

In [None]:
# notre algo les a sortis comme restos en double mais c pas vrai
false_positives.head()

In [None]:
# notre critère de duplicate :
# (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or (name_score<=1 and jd_ng1_ng2_adr <= 0.6) 
# eliminer grace jd_ng1_ng2_adr = 0.6666
df_restaurants[df_restaurants.record_ID.isin(['55','56'])]
# le name est le même donc l'algo dit que ce le même restaurant alors que ce n'est pas vrai.

In [None]:
# pareil c pas le même resto alors que l'algo les a retenu comme duplicate
# car les names diffèrent d'un seul caractère.
df_restaurants[df_restaurants.record_ID.isin(['87','88'])]

In [None]:
# name_score<=1
name_score = nltk.edit_distance(df_restaurants.iloc[87,1], df_restaurants.iloc[88,1])
name_score

In [None]:
# les vrais duplicates que l'algo n'a pas détecté
false_negatives.head()

In [None]:
df_restaurants[df_restaurants.record_ID.isin(['32','759'])]

In [None]:
# faux négatif
# pour l'algo le 32 et le 759 c'est pas le même restaurant, pourtant c le même
# en effet les names diffèrents en lettres et en mots : 
# name_score > 1 et jd_ng1_ng2_name > 0.6 (ça suffit pour l'algo pour l'éliminer ) et en plus jd_ng1_ng2_adr > 0.6
name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])
name_score

In [None]:
 # (jd_ng1_ng2_adr <= 0.6) and jd_ng1_ng2_name <= 0.6) or (name_score<=1)
    
# name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])

tokens1 = nltk.word_tokenize(df_restaurants.iloc[32,1])   # name
tokens2 = nltk.word_tokenize( df_restaurants.iloc[759,1]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)

In [None]:
 # (jd_ng1_ng2_adr <= 0.6) and (name_score<=2 or jd_ng1_ng2_name <= 0.67)
    
# name_score = nltk.edit_distance(df_restaurants.iloc[32,1], df_restaurants.iloc[759,1])
#print(name_score)
tokens1 = nltk.word_tokenize(df_restaurants.iloc[73,2])   # adresse 
tokens2 = nltk.word_tokenize( df_restaurants.iloc[763,2]) 
print(tokens1)
print(tokens2)
ng1_tokens = set(nltk.ngrams(tokens1, n=1))
ng2_tokens = set(nltk.ngrams(tokens2, n=1))
print(ng1_tokens)
print(ng2_tokens)

jd_sent_1_2 = nltk.jaccard_distance(ng1_tokens, ng2_tokens)
print(jd_sent_1_2)

In [None]:
print(len(ground_truth_matches))
print(len(matches_df))
print(len(true_positives) , 'true_positives')
print(len(false_positives) ,'false_positives')
print(len(false_negatives)  , 'false_negatives')

# len(true_positives)  +  len(false_negatives) = len(ground_truth_matches)

# len(matches_df)) - len(false_positif) + len(false_negatives)     = ground_truth_matches

In [None]:
precision = len(true_positives)/(len(true_positives)+ len(false_positives))
print(precision)

Note that if you are using pyton 2.7 (instead of Python 3), you would need to convert integers to float prior to performing the division

In [None]:
recall = len(true_positives)/(len(true_positives)+ len(false_negatives))
print(recall)

In [None]:
f_measure = 2*(precision*recall)/(precision+recall)
print(f_measure)

# Windowing (SNM) method

In [None]:
df_restaurants.head()

In [None]:
# 841 842
# qq tests pour choisir sur quel champ on va faire le sort 
# le sorted name parait intéressant
df_restaurants.sort_values(by=['name']).head(20)

### Le tri est fait dans ce qui suit selon le champ "name"

In [None]:
window = 50   # 

# tri par name car c ce qui permet d'avoir des resto en double les plus proches possibles 

df_restaurants= df_restaurants.sort_values(by=['name'])  

number_of_matchesw = 0
num_records = len(df_restaurants)
matchesw = []
matchescompletw = []

start = time.process_time()
for i in range(0,min(window,len(df_restaurants))):
    
    tokens1name = nltk.word_tokenize(df_restaurants.iloc[i,1]) 
    ng1_tokensname = set(nltk.ngrams(tokens1name, n=1))
    
    tokens1adr = nltk.word_tokenize(df_restaurants.iloc[i,2]) 
    ng1_tokensadr = set(nltk.ngrams(tokens1adr, n=1))
    
    
    for j in range(i+1,min(window,len(df_restaurants))):
        tokens2name = nltk.word_tokenize( df_restaurants.iloc[j,1]) 
        ng2_tokensname = set(nltk.ngrams(tokens2name, n=1))
        
        
        tokens2adr = nltk.word_tokenize( df_restaurants.iloc[j,2]) 
        ng2_tokensadr = set(nltk.ngrams(tokens2adr, n=1))
#         print(tokens1)
#         print(tokens2)       
        jd_ng1_ng2_name = nltk.jaccard_distance(ng1_tokensname, ng2_tokensname)  # jaccard distance entre les ngram=1 des names
        jd_ng1_ng2_adr = nltk.jaccard_distance(ng1_tokensadr, ng2_tokensadr)  # jaccard distance entre les ngram=1 des adresses
    
        name_score = nltk.edit_distance(df_restaurants.iloc[i,1], df_restaurants.iloc[j,1])
        
        # Rule for matching: Distance between names is smaller or equal to 3 and the cuisine is the same 
        if (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or name_score<=1 :
            number_of_matchesw = number_of_matchesw +1 
            # matchescomplet.append((df_restaurants.iloc[i,0],df_restaurants.iloc[i,1], df_restaurants.iloc[i,2],df_restaurants.iloc[i,5], df_restaurants.iloc[j,0],df_restaurants.iloc[j,1], df_restaurants.iloc[j,2],df_restaurants.iloc[j,5]))
            matchesw.append((df_restaurants.iloc[i,0],df_restaurants.iloc[j,0]))
            matchescompletw.append((df_restaurants.iloc[i,0],df_restaurants.iloc[i,1], df_restaurants.iloc[i,2],df_restaurants.iloc[i,5], df_restaurants.iloc[j,0],df_restaurants.iloc[j,1], df_restaurants.iloc[j,2],df_restaurants.iloc[j,5]))
                     
            
            
for i in range(window,len(df_restaurants)):
    
    tokens1name = nltk.word_tokenize(df_restaurants.iloc[i,1]) 
    ng1_tokensname = set(nltk.ngrams(tokens1name, n=1))
    
    tokens1adr = nltk.word_tokenize(df_restaurants.iloc[i,2]) 
    ng1_tokensadr = set(nltk.ngrams(tokens1adr, n=1))
    
    
    for j in range(i-window+1,i):
        tokens2name = nltk.word_tokenize( df_restaurants.iloc[j,1]) 
        ng2_tokensname = set(nltk.ngrams(tokens2name, n=1))
        
        
        tokens2adr = nltk.word_tokenize( df_restaurants.iloc[j,2]) 
        ng2_tokensadr = set(nltk.ngrams(tokens2adr, n=1))
     
        jd_ng1_ng2_name = nltk.jaccard_distance(ng1_tokensname, ng2_tokensname)  # jaccard distance entre les ngram=1 des names
        jd_ng1_ng2_adr = nltk.jaccard_distance(ng1_tokensadr, ng2_tokensadr)  # jaccard distance entre les ngram=1 des adresses
    
        name_score = nltk.edit_distance(df_restaurants.iloc[i,1], df_restaurants.iloc[j,1])
        
        # Rule for matching: Distance between names is smaller or equal to 3 and the cuisine is the same 
        if (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or name_score<=1 :
            number_of_matchesw = number_of_matchesw +1 
            # matchescomplet.append((df_restaurants.iloc[i,0],df_restaurants.iloc[i,1], df_restaurants.iloc[i,2],df_restaurants.iloc[i,5], df_restaurants.iloc[j,0],df_restaurants.iloc[j,1], df_restaurants.iloc[j,2],df_restaurants.iloc[j,5]))
            matchesw.append((df_restaurants.iloc[i,0],df_restaurants.iloc[j,0]))
            matchescompletw.append((df_restaurants.iloc[i,0],df_restaurants.iloc[i,1], df_restaurants.iloc[i,2],df_restaurants.iloc[i,5], df_restaurants.iloc[j,0],df_restaurants.iloc[j,1], df_restaurants.iloc[j,2],df_restaurants.iloc[j,5]))
            
end = time.process_time()

print("Number of matches: {}".format(number_of_matchesw))
print("Processing time: {}".format(end - start))            
for _ in matchescompletw:
     print(_)  
# for _ in matches:
#      print(_)          

In [None]:
# Display results
for match in matchesw:
    print("The following records {} and {} match".format(match[0],match[1]))
    print("The restaurants with the following names {} and {} match.".format(df_restaurants.iloc[match[0],1],df_restaurants.iloc[match[1],1]))
    print("The restaurants with the following addresses {} and {} match.".format(df_restaurants.iloc[match[0],2],df_restaurants.iloc[match[1],2]))
    print("\n")

In [None]:
matchesw_df = pd.DataFrame(matchesw)
matchesw_df.columns= ['record_ID_x','record_ID_y']

matchesw_df['MIN'] = matchesw_df[['record_ID_x','record_ID_y']].min(axis=1)
matchesw_df['MAX'] = matchesw_df[['record_ID_x','record_ID_y']].max(axis=1)
matchesw_df=matchesw_df[['MIN','MAX']]
matchesw_df.columns=['record_ID_x','record_ID_y']
matchesw_df


diffw_df = pd.merge(ground_truth_matches, matchesw_df, how='outer', indicator='Exist')
true_positivesw = diffw_df[diffw_df.Exist=='both']
false_positivesw = diffw_df[diffw_df.Exist=='right_only']
false_negativesw = diffw_df[diffw_df.Exist=='left_only']
precisionw = len(true_positivesw)/(len(true_positivesw)+ len(false_positivesw))
print(precisionw)
recallw = len(true_positivesw)/(len(true_positivesw)+ len(false_negativesw))
print(recallw)
f_measurew = 2*(precisionw*recallw)/(precisionw+recallw)
print(f_measurew)

In [None]:
print(len(ground_truth_matches))
print(len(matchesw_df))
print(len(true_positivesw))
print(len(false_positivesw))
print(len(false_negativesw))  
# len(true_positives)  +  len(false_negatives) = len(ground_truth_matches)
# len(matches_df)) - len(false_positif) + len(false_negatives)     = ground_truth_matches

It is worth noting that in the above code, we do not implement the SNM algorithm in its entirety. In particular, we do not implement the last phase of inferring matches using transitivity

# Blocking method

In [None]:
df_restaurants = pd.read_csv("./restaurants.csv")

In [None]:
len(df_restaurants)

In [None]:
df_restaurants.head()

In [None]:
# We start by adding a new column to identify the records (lines) in our dataframe
df_restaurants.insert(0,'record_ID', range(0, len(df_restaurants)))

In [None]:
# The blocks correspond to resturants that are located in the same citydf_restaurants.loc[df_restaurants['city']==' atlanta']
df_restaurants.loc[df_restaurants['city']==' atlanta']

In [None]:
df_restaurants.loc[df_restaurants['city'].str.strip()=='atlanta']

In [None]:
# on va créer un dict "df_restov" des restaurants de chaque ville
# pour une clé= ville, la valeur du dict serait égale à un dataframe représentant les restos de cette ville
df_restov= {}
for ville in df_restaurants['city'].unique():
    
    df_restov[ville]   = df_restaurants.loc[df_restaurants['city']==ville]
    num_records = len(df_restov[ville])
    print(ville)   # on affiche la ville
    print(num_records) # on affiche le nombre de restos par ville



In [None]:
# on vérifie  pour atlanta que ça marche bien, on a bien le dataframe qu'on voudrait.
print(type(df_restov[" atlanta"]))
print(df_restov[" atlanta"])


In [None]:
df_restov[" atlanta"].head()

In [None]:
# on testel'algo précédent sur juste un dataframe celui des restos de " atlanta"  (avec un espace devant)
num_records = len(df_restov[" atlanta"])
amatches = []
amatchescomplet = []

anumber_of_matches = 0
tokens1=[]
tokens2=[]
start = time.process_time()
for i in range(0,num_records):
    
    # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, pour la ligne i
    tokens1name = nltk.word_tokenize(df_restov[" atlanta"].iloc[i,1]) 
    ng1_tokensname = set(nltk.ngrams(tokens1name, n=1))
    
    # Après tokenization , calcul du ngrams (n=1) pour l'adresse qui servira pour la Jaccard distance,, pour la ligne i
    tokens1adr = nltk.word_tokenize(df_restov[" atlanta"].iloc[i,2]) 
    ng1_tokensadr = set(nltk.ngrams(tokens1adr, n=1))
    
    
    for j in range(i+1,num_records):
        
        # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, , pour la ligne j
        tokens2name = nltk.word_tokenize( df_restov[" atlanta"].iloc[j,1]) 
        ng2_tokensname = set(nltk.ngrams(tokens2name, n=1))
        
        # Après tokenization , calcul du ngrams (n=1) pour le name qui servira pour la Jaccard distance, , pour la ligne j
        tokens2adr = nltk.word_tokenize( df_restov[" atlanta"].iloc[j,2]) 
        ng2_tokensadr = set(nltk.ngrams(tokens2adr, n=1))
     
        # calcul de la Jaccard distance pour le name entre la ligne i et la ligne j ("item based" avec ngrams (n=1)) 
        jd_ng1_ng2_name = nltk.jaccard_distance(ng1_tokensname, ng2_tokensname)
        
        # calcul de la Jaccard distance pour l'adresse entre la ligne i et la ligne j ("item based" avec ngrams (n=1)) 
        jd_ng1_ng2_adr = nltk.jaccard_distance(ng1_tokensadr, ng2_tokensadr)  
    
        name_score = nltk.edit_distance(df_restov[" atlanta"].iloc[i,1], df_restov[" atlanta"].iloc[j,1])
        
        # Rule for matching: 
        # disjonction entre une similarité entre les names (name_score<=1) 
        # et une similarité conjugée entre les adresses et les noms (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6)
        if (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or name_score<=1 :
            anumber_of_matches = anumber_of_matches +1 
            matchescomplet.append((df_restov[" atlanta"].iloc[i,0],df_restov[" atlanta"].iloc[i,1], \
            df_restov[" atlanta"].iloc[i,2],df_restov[" atlanta"].iloc[i,3], df_restov[" atlanta"].iloc[i,5], \
            df_restov[" atlanta"].iloc[j,0],df_restov[" atlanta"].iloc[j,1], df_restov[" atlanta"].iloc[j,2], \
            df_restov[" atlanta"].iloc[j,3],df_restov[" atlanta"].iloc[j,5]))
            amatches.append((df_restov[" atlanta"].iloc[i,0],df_restov[" atlanta"].iloc[j,0]))

end = time.process_time()

print("Number of matches: {}".format(anumber_of_matches))
print("Processing time: {}".format(end - start))
for _ in amatchescomplet:
     print(_)

In [None]:
# nous allons refaire le dict mais en éliminant les espaces saisis avant et après chaque ville
# par précaution pour éviter des villes en double
# et nous allons imprimer le nombre de restos par ville.

df_restov={}
cumul= 0
# il faut enlever les espaces au début et à la fin de chaque ville dans le dataframe, 
# sinon on va rater des restos en double car ils ne seront pas dans le même block.

for ville in df_restaurants['city'].str.strip().unique():   
     print(ville)
     df_restov[ville]   = df_restaurants.loc[df_restaurants['city'].str.strip()==ville]
     print(len(df_restov[ville]))
     cumul += len(df_restov[ville])

print(cumul)
# on vérifie qu'on retrouve bien un total de 865 restaurants.

In [None]:
# Généralisation de la BLOCKING METHOD à toutes les villes 
bmatches = []
bmatchescomplet = []
bnumber_of_matches = 0
start = time.process_time()
    
for ville in df_restaurants['city'].str.strip().unique():
        # affichage de la ville et du nombre de restos par ville
        # pour les matcher entre eux
        print(ville)  
        num_records = len(df_restov[ville])
        print(num_records)
        
        tokens1=[]
        tokens2=[]
       
        for i in range(0,num_records):

            tokens1name = nltk.word_tokenize(df_restov[ville].iloc[i,1]) 
            ng1_tokensname = set(nltk.ngrams(tokens1name, n=1))

            tokens1adr = nltk.word_tokenize(df_restov[ville].iloc[i,2]) 
            ng1_tokensadr = set(nltk.ngrams(tokens1adr, n=1))


            for j in range(i+1,num_records):

                tokens2name = nltk.word_tokenize( df_restov[ville].iloc[j,1]) 
                ng2_tokensname = set(nltk.ngrams(tokens2name, n=1))


                tokens2adr = nltk.word_tokenize( df_restov[ville].iloc[j,2]) 
                ng2_tokensadr = set(nltk.ngrams(tokens2adr, n=1))

                jd_ng1_ng2_name = nltk.jaccard_distance(ng1_tokensname, ng2_tokensname)  # jaccard distance entre les ngram=1 des names
                jd_ng1_ng2_adr = nltk.jaccard_distance(ng1_tokensadr, ng2_tokensadr)  # jaccard distance entre les ngram=1 des adresses

                name_score = nltk.edit_distance(df_restov[ville].iloc[i,1], df_restov[ville].iloc[j,1])

                # Rule for matching: Item based Jaccard Distance with ngram=1 between adresses and between names or edit distance between names 
                if (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) or name_score<=1 :
                    bnumber_of_matches = bnumber_of_matches +1 
                    bmatchescomplet.append((df_restov[ville].iloc[i,0],df_restov[ville].iloc[i,1], \
                    df_restov[ville].iloc[i,2],df_restov[ville].iloc[i,3], df_restov[ville].iloc[i,5], \
                    df_restov[ville].iloc[j,0],df_restov[ville].iloc[j,1], df_restov[ville].iloc[j,2], \
                    df_restov[ville].iloc[j,3],df_restov[ville].iloc[j,5]))
                    bmatches.append((df_restov[ville].iloc[i,0],df_restov[ville].iloc[j,0]))

end = time.process_time()

print("Number of matches: {}".format(bnumber_of_matches))
print("Processing time: {}".format(end - start))
# for _ in matchescomplet:
#        print(_)
   

#### Rappel des résultats de l'algo original sans blocking:
####  Number of matches: 127
#### Processing time: 167.984375

#### les infos de l'algo avec  blocking ci-dessus
#### Number of matches: 67
#### Processing time: 25.6875



In [None]:
import pandas as pd
ground_truth_matches = pd.read_csv("./restaurants.csv")
len(ground_truth_matches)

In [None]:
ground_truth_matches.insert(0, 'record_ID', range(0, len(ground_truth_matches)))

In [None]:
ground_truth_matches = pd.merge(ground_truth_matches,
                                ground_truth_matches,
                                on = 'unique_id')

In [None]:
ground_truth_matches.head(5)

In [None]:
ground_truth_matches = ground_truth_matches.query('record_ID_x < record_ID_y')
len(ground_truth_matches)

In [None]:
ground_truth_matches = ground_truth_matches[['record_ID_x','record_ID_y']]

In [None]:
bmatches_df = pd.DataFrame(bmatches)
bmatches_df.columns= ['record_ID_x','record_ID_y']
bmatches_df.head()

In [None]:
# on s'assure que les couples record_ID_x et record_ID_y sont dans le bons sens (record_ID_x < record_ID_y)
bmatches_df[bmatches_df['record_ID_x'] >= bmatches_df['record_ID_y'] ]
# 0 lignes trouvées , donc c OK.

In [None]:
diff_df = pd.merge(ground_truth_matches, bmatches_df, how='outer', indicator='Exist')
diff_df.head()

In [None]:
btrue_positives = diff_df[diff_df.Exist=='both']
bfalse_positives = diff_df[diff_df.Exist=='right_only']
bfalse_negatives = diff_df[diff_df.Exist=='left_only']


In [None]:
true_positives.head()

In [None]:
# un vrai positif: c un vrai couple de restos en double qui a été détecté par notre algo sous forme de blocking method.
# en effet il vérifie le critère de name (edit_distance=0) et en plus les 2 restos se trouve dans la même ville d'atlanta.
df_restaurants[df_restaurants.record_ID.isin(['6','754'])]

In [None]:
# les couples détectés par notre algo comme des doubles mais à tort, ce ne sont pas des doubles.
false_positives.head()

In [None]:
df_restaurants[df_restaurants.record_ID.isin(['96','196'])]
# ce couple n'est pas dans le ground_truth car unique_id différent
# mais il est dans le bmatches_df , (jd_ng1_ng2_adr <= 0.6 and jd_ng1_ng2_name <= 0.6) 
# cad les names sont proches pour la jaccard distance item based
# et les adresses sont proches pour la jaccard distance item based.
# et en plus ils se trouvent dans la même ville atlanta (blocking method)

In [None]:
# les couples de restos en double mais qui ne sont pas détectés par notre algo comme des doubles.
false_negatives.head()

In [None]:
df_restaurants[df_restaurants.record_ID.isin(['2','753'])]
# ce couple est dans le ground_truth car même unique_id 
# mais il n'est pas dans le matches_df, malgré qu' ils ont le même name et la  même adresse (dans l'algo les détecte bien)
# mais le Blocking method ne permet pas à l'algo de les matcher car ils sont considérés ayant des villes différentes :
# 'new york' et 'new york city'  , à cause d'une mauvaise saisie de la ville.

In [None]:
len(bfalse_negatives) # y a beaucoup de false_ngatives par rapport à l'algo dans Blocking method (on avait 13)

In [None]:
# false negative
df_restaurants[df_restaurants.record_ID.isin(['26','756'])]
# du au blocking method : new yor et new york city

In [None]:
# false negative
df_restaurants[df_restaurants.record_ID.isin(['32','759'])]
# dû aux matching imprécis de l'algo 

In [None]:
# false negative
df_restaurants[df_restaurants.record_ID.isin(['36','760'])]
# du au blocking method : new yor et new york city

In [None]:
print(len(ground_truth_matches))
print(len(bmatches_df))
print(len(btrue_positives) , 'true_positives')
print(len(bfalse_positives) ,'false_positives')
print(len(bfalse_negatives)  , 'false_negatives')

# len(true_positives)  +  len(false_negatives) = len(ground_truth_matches)

# len(matches_df)) - len(false_positif) + len(false_negatives)     = ground_truth_matches

In [None]:
bprecision = len(btrue_positives)/(len(btrue_positives)+ len(bfalse_positives))
print(bprecision)

In [None]:
brecall = len(btrue_positives)/(len(btrue_positives)+ len(bfalse_negatives))
print(brecall)
# recall faible car y a beaucoup de false negatives
# y a des duplicates que l'algo avec Blocking method n'a pas détecté car saisie à tort dans des villes différentes
# surtout new york et new york city 

In [None]:
bf_measure = 2*(bprecision*brecall)/(bprecision+brecall)
print(bf_measure)

### chiffres de l'algo original sans blocking method
### precision: 0.7795

### recall : 0.8839

### f_measure :0.82845