# Book Linkage Tasks

**Date:** 15/1/2019

**Author:** Michael Falk

The aim of this notebook is to close out one of the major record linkage tasks for *Mapping Print, Charting Enlightenment*. There are three sets of book data that need to be more thoroughly joined to the rest of the database:

* **The 'List of banned books' (BNF Ms Fr 21928-9):** This lists banned titles and was used by book inspectors in eighteenth-century France to police the trade. Each item on the list must be assigned a `super_book_code`.
* **The 'Bastille Register' (BNF Arsenal MS 10305):** This lists books found in the Bastille after it was stormed during the revolution. In principle it records information about particular editions, so each book in the list should be assigned a `book_code`.
* **The MMF-2 database:** This is a bibliographic database of French fiction from the eighteenth century. It records every known edition of every French novel from the period 1700-1800. Each record in the database should therefore assigned a `book_code` in the wider *MPCE* architecture.

The data has all be drawn from the databases and preprocessed in R, transforming a record linkage task into a deduplication task. For each of the three tasks above, a csv has been prepared. A model will be trained to detect which rows refer to the same book, based on as much of the available information as possible.

In [1]:
# Import main libraries
import dedupe as dd
import pandas as pd
import os as os
import time
import numpy as np
import random
from dedupe_helper_functions import dedupe_initialise, run_deduper, save_clusters
import json

## Section 1: The List of Banned Books

In [None]:
# Cell 1.1 Set main paths

# Root folder for banned books data
bbr = "banned_books_list/"

# Set paths
bb_input = bbr + "banned_books_list_dddata.csv"
bb_output = bbr + "banned_books_deduped.csv"
bb_settings = bbr + "banned_books_learned_settings"
bb_training = bbr + "banned_books_training.json"

In [None]:
# Cell 1.2 Import data

bb_df = pd.read_csv(bb_input, encoding = "utf-8")

print(f'bb_df has {bb_df.shape[0]} rows and {bb_df.shape[1]} columns:\n{", ".join(list(bb_df))}\n')
print(f'{len(bb_df[pd.isnull(bb_df.super_book_code)])} books require super_book_codes.')

In [None]:
# Cell 1.3 Initialise deduper

# Define the fields that the model will examine
bb_fields = [
    {'field':'super_book_title', 'type': 'String'},
    {'field':'author_name', 'type': 'String', 'has missing':True}
]

# Create Dedupe object
bb_model = dedupe_initialise(bb_df, bb_fields, training_file = bb_training)

In [None]:
# Cell 1.4 Label training pairs
dd.consoleLabel(bb_model)

In [None]:
# Cell 1.5 Run the Deduper

bb_model, matches = run_deduper(bb_model, bb_df, bb_settings, bb_training, recall_weight = 1.5)

In [None]:
# Save the results
_ = save_clusters(matches, bb_df, bb_output)

In [None]:
bb_df[pd.notnull(bb_df.cluster) & pd.notnull(bb_df.ID)]

## Section 2: The Bastille Register

In [None]:
# Cell 2.1 Paths and data

# Root folder for banned books data
basr = "bastille_register/"

# Paths
bas_input = basr + "bastille_register_dddata.csv"
bas_output = basr + "bas_reg_deduped.csv"
bas_settings = basr + "bas_reg_learned_settings"
bas_training = basr + "bas_reg_training.json"

# Data
bas_df = pd.read_csv(bas_input, encoding = "utf-8")
print(f'bas_df has {bas_df.shape[0]} rows and {bas_df.shape[1]} columns:\n{", ".join(list(bas_df))}\n')
print(f'{len(bas_df[pd.isnull(bas_df.book_code)])} books require book_codes.')

In [None]:
# Cell 2.2 Initialise Deduper

# Fields that the model will examine
bas_fields = [
    {'field':'full_book_title', 'type': 'String'},
    {'field':'author_name', 'type': 'String', 'has missing':True},
    {'field':'stated_publication_years', 'type':'DateTime', 'has missing':True},
    {'field':'stated_publication_places', 'type': 'String', 'has missing':True},
]

# Create Dedupe object
bas_model = dedupe_initialise(bas_df, bas_fields, training_file = bas_training)

In [None]:
# Cell 2.3 Label tranining examples
dd.consoleLabel(bas_model)

The labelling in this instance was rough and difficult. There are so many editions, and so little information about them, that it is impossible to quickly establish a 'ground truth'. Indeed, it is impossible in many cases to establish a ground truth at all.

In [None]:
_, matches = run_deduper(bas_model, bas_df, bas_settings, bas_training, recall_weight = 2)

In [None]:
_ = save_clusters(matches, bas_df, bas_output)

## Section 3: The Big One (MMF-2)

This section is only provisional, because at the time of writing I do not have Angus Martin's latest version of the MMF-2 database. But since he is largely working on books to 1720, it is unlikely that too many new editions from our other FBTEE datasets will be missing.

In [2]:
# Cell 3.1 Paths and data

# Root folder for banned books data
mmfr = "mmf_2/"

# Paths
mmf_input = mmfr + "mmf_2_dddata.csv"
mmf_output = mmfr + "mmf_deduped.csv"
mmf_settings = mmfr + "mmf_settings"
mmf_training = mmfr + "mmf_training.json"

# Data
mmf_df = pd.read_csv(mmf_input, encoding = "utf-8")
print(f'bas_df has {mmf_df.shape[0]} rows and {mmf_df.shape[1]} columns:\n{", ".join(list(mmf_df))}\n')
print(f'{len(mmf_df[pd.isnull(mmf_df.book_code)])} books require book_codes.')

bas_df has 10134 rows and 7 columns:
ID, long_title, date, place, publisher, author_name, book_code

9139 books require book_codes.


In [3]:
# Cell 2.2 Initialise Deduper

# Need to do some light preprocessing on the date column
mmf_df['date'] = mmf_df.date.astype(str).str.replace("\.0", "")

# Fields that the model will examine
mmf_fields = [
    {'field':'long_title', 'type':'String'},
    {'field':'publisher', 'type':'String', 'has missing':True},
    {'field':'place', 'type':'String', 'has missing':True},
    {'field':'date', 'type':'DateTime', 'has missing':True},
    {'field':'author_name', 'type':'String', 'has missing':True}
]

# Create Dedupe object
mmf_model = dedupe_initialise(mmf_df, mmf_fields)

Initialising model for active learning.


INFO:dedupe.canopy_index:Removing stop word de
INFO:dedupe.canopy_index:Removing stop word ou
INFO:dedupe.canopy_index:Removing stop word par
INFO:dedupe.canopy_index:Removing stop word et
INFO:dedupe.canopy_index:Removing stop word des
INFO:dedupe.canopy_index:Removing stop word du
INFO:dedupe.canopy_index:Removing stop word  d
INFO:dedupe.canopy_index:Removing stop word a 
INFO:dedupe.canopy_index:Removing stop word ce
INFO:dedupe.canopy_index:Removing stop word e 
INFO:dedupe.canopy_index:Removing stop word il
INFO:dedupe.canopy_index:Removing stop word lo
INFO:dedupe.canopy_index:Removing stop word ne
INFO:dedupe.canopy_index:Removing stop word ri
INFO:dedupe.canopy_index:Removing stop word ss
INFO:dedupe.canopy_index:Removing stop word  t
INFO:dedupe.canopy_index:Removing stop word am
INFO:dedupe.canopy_index:Removing stop word ie
INFO:dedupe.canopy_index:Removing stop word mi
INFO:dedupe.canopy_index:Removing stop word ti
INFO:dedupe.canopy_index:Removing stop word  l
INFO:dedupe

Model initialised without training data.


In [4]:
# Cell 2.3 Label tranining examples
dd.consoleLabel(mmf_model)

long_title : None
publisher : aux dépens de la Compagnie
place : Mayence & Francfort
date : 1766
author_name : NA, NA

long_title : Clary
publisher : aux dpens de la Compagnie
place : Francfort
date : 1768
author_name : NA, NA

0/10 positive, 0/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished


n


long_title : Memoires d'un honnête-homme, revûs, corrigés, augmentés d'un second volume et imprimés sur un nouveau manuscrit de l'auteur, publié par M. de M***
publisher : Georg Conrad Walther
place : Dresde
date : 1753
author_name : Prévost, abbé Antoine-François

long_title : Lettres angloises
publisher : George Conrad WALTHER
place : Dresde
date : 1764
author_name : Richardson, Samuel

0/10 positive, 1/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Contes nouveaux en prose
publisher : None
place : S. l.
date : 1785
author_name : Imbert, Barthélemy  Charles-Joseph de MAYER et dautres

long_title : Daira, histoire orientale
publisher : None
place : None
date : nan
author_name : Le Riche de la Pouplinière, Alexandre Jean Joseph

0/10 positive, 2/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Dialogue entre le diable boiteux et le diable borgne, par M. Le Noble
publisher : Pierre RIBOU
place : Paris
date : 1707
author_name : Lenoble, Eustache

long_title : Histoire de Gil Blas de Santillane, nouvelle édition revue et corrigée
publisher : C. NOURSE
place : Londres
date : 1788
author_name : Lesage, Alain-René

0/10 positive, 3/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Histoire de Gil Blas de Santillane, par M. Le Sage, quatrième edition
publisher : la veuve RIBOU
place : Paris
date : 1732
author_name : Lesage, Alain-René

long_title : Nouvelle (la) Académie des dames, ou histoire de Mlle B*** D. C. D. L.
publisher : None
place : n.pl.
date : nan
author_name : None

0/10 positive, 4/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Tableaux de la bonne compagnie ou traits caractéristiques, anecdotes secretes, politiques, morales & littéraires, recueillies dans les sociétés du bon ton pendant les années 1786 & 1787, édition accompagnée de planches par Moreau le jeune
publisher : None
place : Paris
date : 1787
author_name : Ligne, Charles-Joseph  7e Prince de

long_title : Tableaux de la bonne compagnie, ou Traits caractéristiques, anecdotes secrètes, politiques, morales et littéraires, recueillies dans les sociétés du bon ton, pendant les années 1786 et 1787
publisher : None
place : n.pl.
date : nan
author_name : Restif de la Bretonne, Nicolas-Edmé

0/10 positive, 5/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : La fidélité couronnée ou l'histoire de Parmenide prince de Macedoine
publisher : Antoine CLAUDINOT
place : Bruxelles
date : 1707
author_name : LE COQ-MADELEINE, NA

long_title : Lettres à myladi * ** et autres oeuvres mêlées tant en prose qu'en vers par M. de La Place
publisher : J. L. de BOUBERS
place : Bruxelles
date : 1773
author_name : La place, Pierre-Antoine de

0/10 positive, 6/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Œuvres diverses de M. de Fontenelle de l'Academie fran çoise, qui contient Les nouveaux dialogues des morts, le Jugement de Pluton sur les deux parties des dialogues des morts
publisher : Pierre MORTIER
place : Amsterdam
date : 1701
author_name : Fontenelle, Bernard Le Bouyer de

long_title : Les contes des génies
publisher : Marc Michel REY
place : Amsterdam
date : 1786
author_name : NA, NA

0/10 positive, 7/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Numa Pompilius
publisher : Didot
place : Paris
date : 1786
author_name : NA, NA

long_title : Mémoires d'une femme de chambre, trad. de l'anglois
publisher : None
place : n.pl.
date : 1786
author_name : None

0/10 positive, 8/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les moeurs du jour
publisher : Changuion
place : Amsterdam
date : 1785
author_name : NA, NA

long_title : Belisaire par M. Marmontel de l’academie francoise; non miror si quando impetum capit (deus) spectandi magnos viros, colluctantes cum aliqua clamitate Senec. de Prov:
publisher : None
place : Neuchâtel
date : 1667
author_name : Marmontel, Jean-François

0/10 positive, 9/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Lettres de deux amans habitans d'une Petite ville au pied des alpes par J. J. Rousseau
publisher : Marc Michel Rey
place : Amsterdam
date : 1776
author_name : Rousseau, Jean Jacques

long_title : Lettres de deux amans habitans d'une Petite ville au pied des alpes par J. J. Rousseau nouvelle edition augmentée avec figures
publisher : Marc Michel Rey
place : Amsterdam
date : nan
author_name : Rousseau, Jean Jacques

0/10 positive, 10/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Annales de la cour et de Paris pour les années 1697 et 1698
publisher : Pierre MARTEAU
place : Cologne
date : 1701
author_name : Sandras de courtilz, Gatien de

long_title : Répertoire anglois ou recueil de littérature, d'histoires et d'anecdotes angloises
publisher : Knapen, #VEUVE DELAGUETTE
place : Paris
date : 1789
author_name : Chomel de saint-ange, Antoine-Angélique

0/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Isène et Isménias, roman grec
publisher : imprimerie de DIDOT AINÉ
place : Paris
date : 1790
author_name : EUSTATHE MACREMBOLITE, NA

long_title : Voyage du jeune Anacharsis en Grèce
publisher : None
place : n.pl.
date : nan
author_name : Barthélemy, Jean-Jacques

0/10 positive, 12/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : La vie de Chimene Spinelli, histoire veritable par M. le chevalier de Mouhy
publisher : Ribou
place : Paris
date : 1738
author_name : Mouhy, Charles de Fieux  chevalier de

long_title : Dévotions (les) Mme Betzhamooth et les pieuses facéties de M. de St. Oignon
publisher : None
place : n.pl.
date : nan
author_name : Duvernet, Théophile-Imarigeon

0/10 positive, 13/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les partisans démasquez, nouvelle plus que galante, divisé en quatre parties
publisher : Adrien L'ENCLUME, GENDRE DE PIERRE 
place : Cologne
date : 1707
author_name : NA, NA

long_title : Voyage philosophiqueau Japon
publisher : dans les jardins de M. LEbahi
place : Pressure
date : 1788
author_name : NA, NA

0/10 positive, 14/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Memoires de Wuillame-Nortingham ou le faux lord Kington
publisher : Pierre GOSSE
place : La Haye
date : 1741
author_name : Bourdot de richebourg, Claude-Étienne

long_title : Tanzai et Néadarné, histoire japonoise
publisher : None
place : None
date : nan
author_name : Crébillon, Claude Prosper Jolyot de

0/10 positive, 15/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les cent nouvelles nouvelles, suivent les cent nouvelles contenant les cent histoires nouveaux [sic] qui sont moult plaisans à raconter en toutes bonnes compagnies par manière de joyeuseté, avec d'excellentes figures en taille-douce, gravées sur les desseins du fameux Mr. Romain de Hoog
publisher : Pierre GAILLARD
place : Cologne
date : 1701
author_name : NA, NA

long_title : La vie de Frédéric, baron de Trenck
publisher : C. LAMORT, & PARIS, BELIN
place : Metz
date : 1787
author_name : NA, NA

0/10 positive, 16/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mémoires du comte de Rantzow ou les heures de récréation à l'usage de la noblesse de l'Europe
publisher : Pierre MORTIER
place : Amsterdam
date : 1741
author_name : Rantzau, Graf Jo%%rgen Ludvig Albrecht ? IF RANTZAU IS BOTH AUTHOR AND HERO THE TEXT SHOULD NOT BE

long_title : Voyage sentimental par M. Sterne sous le nom d'Yorick traduit de l'anglois par M. Frenois
publisher : S. Fauche
place : Neuchâtel
date : nan
author_name : Sterne, Laurence

0/10 positive, 17/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les métamorphoses d'Ovide, avec des exmplications à la fin de chaque fable, traduction nouvelle par M. l'abbé de Bellegarde
publisher : Michel DAVID
place : Paris
date : 1701
author_name : OVIDE, NA

long_title : L'anneau ou Jemima Gusman, nouvelle par une jeune dame, traduction libre de l'anglois
publisher : Letellier
place : Paris
date : 1789
author_name : ?, NA

0/10 positive, 18/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Hiacynte ou le marquis de Celtas Dirorgo, nouvelle espagnole, ouvrage rempli d'événemens singuliers, curieux et remarquables
publisher : BIENVENU
place : Paris
date : 1732
author_name : NA, NA

long_title : Anne Bell
publisher : Le Jay
place : Paris
date : 1788
author_name : NA, NA

0/10 positive, 19/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Aristide, par M.l'abbé Duval-Pyrau, conseiller de la cour de S. A. S. Monseigneur le landgrave & prince de Hesse-Hombourg & membre de plusieurs académies & sociétés littéraires
publisher : imprimerie de la Société littér.& typog.
place : Yverdon
date : 1777
author_name : Duval-pyrau, l'abbé

long_title : Tom Jones, ou l'enfant trouvé  imitation de l'anglais de M. Fielding, par M. de La Place
publisher : None
place : Londres
date : 1777
author_name : Fielding, Henry

0/10 positive, 20/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Le Jésuite misopogon séraphique ou l'ennemi de la barbe des Capucins par l'alguasil Dom-Diego Balayas y Caramuera
publisher : None
place : Naples
date : 1762
author_name : Taupin d'orval, Jean-Louis-Claude

long_title : Heureux (les) orphelins, imité de l'anglais
publisher : None
place : None
date : nan
author_name : Crébillon, Claude Prosper Jolyot de

0/10 positive, 21/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Angélique ou la religieuse selon le coeur de Dieu, par le R. P. Michel-Ange Marin, de l'ordre des Minimes
publisher : J.J. NIEL
place : Avignon
date : 1766
author_name : Marin, le père Michel-Ange

long_title : Esprit (l') de Julie, ou Extrait de "La Nouvelle Héloïse", ouvrage utile à la société et particulièrement à la jeunesse, par M. Formey
publisher : J. Jasperd
place : Berlin
date : nan
author_name : Formey, Jean Henri Samuel

0/10 positive, 22/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Contes moraux
publisher : Schneider
place : Nürnberg
date : 1789
author_name : NA, NA

long_title : Contes moraux
publisher : Bonducci & Lyon, FRÈRES PÉRISSE
place : Florence
date : 1789
author_name : NA, NA

0/10 positive, 23/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : L'heureux chanoine de Rome, nouvelle galante, ou la resurrection prédestinée, contenant diverses avantures agréables et divertissantes arrivées du tems du ministere de Mr. Fouquet, sur-intendant des finances de France, dedié a son Altesse roiale, madame la duchesse de Lorraine
publisher : Michel BRUNET
place : Paris
date : 1707
author_name : NA, NA

long_title : Les amours de milord Bomston ds La nouvelle H[loise, 6
publisher : None
place : Genève
date : 1783
author_name : NA, NA

0/10 positive, 24/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Histoire du chevalier Des Grieux et de Manon Lescaut
publisher : aux dépens de la COMPAGNIE
place : Amsterdam
date : 1753
author_name : Prévost, abbé Antoine-François

long_title : Eloge (l') de la folie, traduit du latin d'Erasme
publisher : None
place : None
date : 1771
author_name : Erasmus, Desiderius

0/10 positive, 25/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Memoires et avantures d'un homme de qualité qui s'est retiré du monde
publisher : M. G. Merville; J. Vander Kloot
place : La Haye
date : 1778
author_name : Prévost, Antoine François

long_title : Memoires et avantures d'un homme de qualité qui s'est retiré du monde
publisher : None
place : None
date : nan
author_name : Prévost, Antoine François

0/10 positive, 26/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Contes moraux
publisher : None
place : Amsterdam
date : 1780
author_name : NA, NA

long_title : Contes moraux, ou les hommes comme il y en a peu
publisher : None
place : n.pl.
date : nan
author_name : None

0/10 positive, 27/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Magazin des enfans ou dialogues entre uje sage gouvernante et plusieurs de ses élèves de la premiére distinction
publisher : chez H. CHAMBERLAINE
place : Dublin
date : 1788
author_name : NA, NA

long_title : Léonard et Gertrude, ou les moeurs villageoises telles qu'on les retrouve à la ville et à la cour
publisher : G. Gabriel Décombaz
place : Lausanne
date : nan
author_name : Pestalozzi, Henri

0/10 positive, 28/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mon bonnet de nuit
publisher : None
place : Amsterdam
date : 1784
author_name : NA, NA

long_title : Mon bonnet de nuit
publisher : None
place : Neuchatel
date : 1784
author_name : NA, NA

0/10 positive, 29/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Contes moraux  /.../, avec une Apologie du théâtre 
publisher : J. MERLIN
place : Paris
date : 1781
author_name : Marmontel, Jean-François 

long_title : Félicia, ou Mes fredaines
publisher : None
place : Paris
date : nan
author_name : Andréa de Nerciat, André-Robert

0/10 positive, 30/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mémoires et avantures d'un homme de qualité qui s'est retiré du monde
publisher : None
place : n.pl.
date : nan
author_name : Prévost, Antoine François

long_title : Memoires et avantures d'un homme de qualité qui s'est retiré du monde
publisher : None
place : None
date : nan
author_name : Prévost, Antoine François

0/10 positive, 31/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Les sacrifices de lamour
publisher : Delalain
place : Paris
date : 1783
author_name : NA, NA

long_title : Aventures de Lazarille de Tormes
publisher : None
place : n.pl.
date : nan
author_name : None

1/10 positive, 31/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


INFO:dedupe.training:Final predicate set:
INFO:dedupe.training:(SimplePredicate: (doubleMetaphone, long_title), SimplePredicate: (wholeFieldPredicate, date))
long_title : Les Incas
publisher : Lacombe
place : Paris
date : 1777
author_name : NA, NA

long_title : Les Incas
publisher : E. van Harrevelt
place : Amsterdam
date : 1777
author_name : NA, NA

1/10 positive, 32/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les conversations d'Emilie|
publisher : François Lacombe
place : Lausanne
date : 1784
author_name : NA, NA

long_title : Les conversations d'Emilie|
publisher : None
place : Paris & Maestricht
date : 1784
author_name : NA, NA

1/10 positive, 33/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Estelle ds Oeuvres
publisher : None
place : Genève
date : 1788
author_name : NA, NA

long_title : Estelle ds OEuvres
publisher : None
place : Genève
date : 1788
author_name : NA, NA

1/10 positive, 34/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Lettres de deux amans, habitans d'une petite ville au pied des Alpes, recueillies et publiées par J.-J. Rousseau, nouvelle édition augmentée, avec figures
publisher : Marc Michel Rey
place : Amsterdam
date : 1765
author_name : Rousseau, Jean-Jacques

long_title : Lettres de deux amans, habitans d'une petite ville au pied des Alpes, recueillies et publiées par J.-J. Rousseau, seconde édition augmentée, revue et corrigée par l'editeur
publisher : Marc Michel Rey
place : Amsterdam
date : 1765
author_name : Rousseau, Jean-Jacques

2/10 positive, 34/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Les Helviennes
publisher : None
place : Amsterdam & Paris, Moutard (
date : 1785
author_name : NA, NA

long_title : Les Helviennes
publisher : Moutard
place : Amsterdam & Paris
date : 1784
author_name : NA, NA

3/10 positive, 34/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Le comte de Valmont
publisher : Moutard
place : Paris
date : 1775
author_name : NA, NA

long_title : Le comte de Valmont / short title suffices?/ troisième édition revue et augmentée
publisher : Moutard
place : Paris
date : 1776
author_name : NA, NA

3/10 positive, 35/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Lettres de quelques juifs portugais et allemands
publisher : Moutard
place : Paris
date : 1772
author_name : NA, NA

long_title : Le mentor moderne
publisher : Claude HÉRISSANT
place : Paris
date : 1772
author_name : NA, NA

3/10 positive, 36/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : L'homme aux quarante écus
publisher : None
place : S. l.
date : 1768
author_name : Voltaire, François-Marie Arouet de#

long_title : Lhomme aux quarante écus
publisher : None
place : Genève
date : 1768
author_name : NA, NA

3/10 positive, 37/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les conquestes du grand Charlemagne, roi de France et d'Espagne, avec les faits héroïques des douze pairs de France et du grand Fierabras et le combat fait par lui contre le petit Olivier qui le vainquit et des trois frères qui firent les neuf épées dont Fierabras en avoit trois pour combattre contre ses ennemis, comme vous verrez ci-après
publisher : Jean-Ant. GARNIER
place : Troyes
date : 1738
author_name : Baignon, Jean

long_title : Conquestes du grand Charlemagne, roi de France, avec les faits héroïques
publisher : Jean-Ant. GARNIER
place : Troyes
date : 1738
author_name : Baignon, Jean

3/10 positive, 38/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Contes moraux par mde Le Prince de Beaumont
publisher : chez les héritiers de Weidmann et Reich
place : Leipsick
date : 1774
author_name : NA, NA

long_title : Contes moraux, par Mde Le Prince de Beaumont
publisher : J.-E. Dufour
place : Maestricht
date : 1774
author_name : Le Prince de Beaumont, Marie

4/10 positive, 38/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


INFO:dedupe.training:Final predicate set:
INFO:dedupe.training:(SimplePredicate: (doubleMetaphone, long_title), SimplePredicate: (wholeFieldPredicate, date))
INFO:dedupe.training:(SimplePredicate: (wholeFieldPredicate, publisher), TfidfTextCanopyPredicate: (0.2, long_title))
long_title : Lettres dEmerance
publisher : J.-F. BASSOMPIERRE
place : Lyon & Liège
date : 1766
author_name : NA, NA

long_title : Lettres dEmerance
publisher : J-.F. BASSOMPIERRE
place : Lyon & Liège
date : 1776
author_name : NA, NA

4/10 positive, 39/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : La vie et les avantures surprenantes de Robinson Crusoé
publisher : Z. CHATELAIN ET FILS
place : Amsterdam
date : 1772
author_name : Defoe, Daniel

long_title : La vie et les avantures surprenantes de Robinson Crusoé
publisher : Z. CHATELAIN ET FILS
place : Amsterdam
date : 1782
author_name : Defoe, Daniel

4/10 positive, 40/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Lettres persanes par M. de Montesquieu, nouvelle édition augmentée de douze lettres qui ne se trouvent point dans les précedentes** et d'une table des matieres
publisher : s.n.
place : Amsterdam
date : 1781
author_name : Montesquieu, Charles-Louis de Secondat  baron de la Brède et de

long_title : Lettres persanes par M. de Montesquieu, nouvelle édition augmentée de douze lettres qui ne se trouvent point dans les précédentes et d'une table des matieres
publisher : s.n.
place : Amsterdam
date : 1789
author_name : Montesquieu, Charles-Louis de Secondat  baron de la Brède et de

4/10 positive, 41/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : La princesse de Babilone
publisher : None
place : S. l.
date : 1768
author_name : Voltaire, François-Marie Arouet de

long_title : La princesse de Babilone
publisher : None
place : Londres
date : 1768
author_name : NA, NA

4/10 positive, 42/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Dictionnaire d'anecdotes, de traits singuliers et caractéristiques, historiettes, bons mots, naïvetés, saillies, reparties ingénieuses, &c. &c., nouvelle edition augmentée
publisher : La Combe
place : Paris
date : 1768
author_name : Lacombe de prezel, Honoré

long_title : Dictionnaire d'anecdotes, de traits singuliers et caractéristiques, historiettes, bons mots, naïvetés, saillies, reparties ingénieuses, &c. &c., nouvelle edition augmentée
publisher : La Combe
place : Paris
date : 1769
author_name : Lacombe de prezel, Honoré

4/10 positive, 43/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les égaremens d'un philosophe ou la vie du chevalier de Saint-Albin, par M. de Saint=Clair
publisher : Regnault
place : Genève & Paris
date : 1787
author_name : NA, NA

long_title : Les égaremens dun philosophe ou la vie du chevalier de Saint-Albin
publisher : Regnault
place : Genève & Paris
date : 1789
author_name : NA, NA

4/10 positive, 44/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Histoire de Gil Blas de Santillane, par M. Le Sage, nouvelle édition
publisher : Compagnie des libraires
place : Paris
date : 1771
author_name : Lesage, Alain-René

long_title : Histoire de Gil Blas de Santillane, par M. Le Sage, nouvelle édition
publisher : Humblot
place : Paris
date : 1771
author_name : Lesage, Alain-René

4/10 positive, 45/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Julie collection complète des oeuvres, 2-4
publisher : None
place : Genève
date : 1780
author_name : NA, NA

long_title : Les amours de milord Bomston ds Collection complète des oeuvres de J. J. Rousseau, 3
publisher : None
place : Genève
date : 1780
author_name : NA, NA

4/10 positive, 46/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : La sympathie des ames
publisher : H.-C. DE HANSY LE JEUNE
place : Paris
date : 1768
author_name : Wieland, Christoph Martin

long_title : La sympathie des ames
publisher : de Hansy
place : Paris
date : 1768
author_name : NA, NA

4/10 positive, 47/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Les conversations d'Emilie|
publisher : Plomteux
place : Paris & Liège
date : 1784
author_name : NA, NA

long_title : Les conversations d'Emilie|
publisher : Dufour et Roux
place : Paris & Maestricht
date : 1784
author_name : NA, NA

5/10 positive, 47/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les veillées du chateau
publisher : libraires associés
place : Paris
date : 1784
author_name : NA, NA

long_title : Les veillées du château
publisher : libraires associés
place : Paris
date : 1785
author_name : NA, NA

5/10 positive, 48/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Histoire du chevalier Des Grieux
publisher : s.n.
place : Londres
date : 1782
author_name : Prévost, abbé Antoine-François

long_title : Amusemens des eaux de Spa, ouvrage utile à ceux qui vont boire ces eaux minérales sur les lieux et agréable pour tous les lecteurs
publisher : s.n.
place : Londres
date : 1782
author_name : Po~llnitz, Karl Ludwig  Freiherr von

5/10 positive, 49/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Le comte de Valmont
publisher : Moutard
place : Paris
date : 1776
author_name : NA, NA

long_title : Le comte de Valmont
publisher : Moutard
place : Paris
date : 1778
author_name : NA, NA

5/10 positive, 50/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Histoire de Jenni ds Oeuvres, 45
publisher : Imprimerie de Jean-Jacques TOURNEISEN
place : Basle
date : 1784
author_name : NA, NA

long_title : Histoire de Jenni ds Oeuvres, 45
publisher : None
place : S. l. [Kehl], Imprimerie de la Société littéraire-typographique
date : 1784
author_name : NA, NA

5/10 positive, 51/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mon bonnet de nuit
publisher : Société typographique et se vend à Versailles, Poinçot
place : Neuchatel
date : 1784
author_name : NA, NA

long_title : Mon bonnet de nuit
publisher : mprimerie de la Société typographique
place : Neuchtel
date : 1784
author_name : NA, NA

5/10 positive, 52/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Lingénu
publisher : None
place : Utrecht
date : 1767
author_name : NA, NA

long_title : Lingénu
publisher : None
place : Utrecht
date : 1767
author_name : NA, NA

6/10 positive, 52/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Lettres cabalistiques, ou Correspondance philosophique, historique et critique entre deux cabalistes, divers esprits élémentaires et le seigneur Astaroth
publisher : P. Paupie
place : La Haye
date : 1769
author_name : Argens, Jean-Baptiste de Boyer [marquis d']

long_title : Lettres cabalistiques, ou Correspondance philosophique, historique et critique entre deux cabalistes, divers esprits élémentaires et le seigneur Astaroth
publisher : P. Paupie
place : La Haye
date : 1741
author_name : Argens, Jean-Baptiste de Boyer [marquis d']

7/10 positive, 52/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Lettres
publisher : chez Marc-Michel REY
place : Amsterdam
date : 1761
author_name : NA, NA

long_title : Lettres
publisher : None
place : Genève
date : 1761
author_name : NA, NA

7/10 positive, 53/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mémoires et aventures d'une dame de qualité qui s'est retirée du monde
publisher : Pierre ERIALED
place : Amsterdam
date : 1772
author_name : Lambert, abbé Claude-François

long_title : Mémoires et aventures d'une dame de qualité qui s'est retirée du monde
publisher : Pierre ERIALED
place : Amsterdam
date : 1773
author_name : Lambert, abbé Claude-François

7/10 positive, 54/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title :  
publisher : Louis GUERIN
place : 
date : 1755
author_name : , Louis de 

long_title :  
publisher : Neaulme
place : 
date : 1755
author_name : , NA

7/10 positive, 55/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


u


long_title : Le Momus français
publisher : Pierre MARTEAU
place : Cologne
date : 1768
author_name : Le roy, Antoine  sieur de

long_title : Le Momus français
publisher : Pierre MARTEAU
place : Cologne
date : 1772
author_name : Le roy, Antoine  sieur de

7/10 positive, 55/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Lhomme aux quarante écus
publisher : None
place : Londres
date : 1768
author_name : NA, NA

long_title : Lhomme aux quarante écus
publisher : None
place : Genève
date : 1768
author_name : NA, NA

7/10 positive, 56/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les liaisons dangéreuses
publisher : Durand neveu
place : Amsterdam et se trouve à Paris
date : 1782
author_name : NA, NA

long_title : Les Liaisons dangéreuses
publisher : Durand neuveu
place : Amsterdam & Paris
date : 1782
author_name : NA, NA

7/10 positive, 57/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : L'Arrétin moderne
publisher : aux dépens de la CONGRÉGATION DE L'INDEX
place : Rome
date : 1776
author_name : NA, NA

long_title : L'Arrétin moderne
publisher : aux dépens de la CONGRÉGATION DE L'INDEX
place : Rome
date : 1780
author_name : NA, NA

8/10 positive, 57/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : L'Arrétin moderne
publisher : aux dépens de la CONGRÉGATION DE L'INDEX
place : Rome
date : 1773
author_name : NA, NA

long_title : L'Arrétin moderne
publisher : aux dépens de la CONGRÉGATION DE L'INDEX
place : Rome
date : 1776
author_name : NA, NA

8/10 positive, 58/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Nouvelles espagnoles
publisher : veuve Duchesne
place : Paris
date : 1776
author_name : NA, NA

long_title : Nouvelles espagnoles de Michel de Cervantès, traduction nouvelle avec des notes, ornée de figures en taille-douce, par m. Le Febvre de Villebrune, Le jaloux d'Estrémadure, nouvelle quatrième
publisher : veuve Duchesne
place : Paris
date : 1776
author_name : Cervantes saavedra, Miguel de

8/10 positive, 59/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Les Incas
publisher : Lacombe
place : Paris
date : 1777
author_name : NA, NA

long_title : Les Incas
publisher : Himbourg
place : Berlin
date : 1777
author_name : NA, NA

9/10 positive, 59/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


INFO:dedupe.training:Final predicate set:
INFO:dedupe.training:(SimplePredicate: (doubleMetaphone, long_title), SimplePredicate: (wholeFieldPredicate, date))
INFO:dedupe.training:(SimplePredicate: (wholeFieldPredicate, publisher), SimplePredicate: (yearPredicate, date))
long_title : Julie
publisher : None
place : Genève
date : 1780
author_name : NA, NA

long_title : La nouvelle Héloïse ou lettres de deux amans, habitans d'une petite ville au pied des Alpes, recueillies et publiées par J.J. Rousseau
publisher : s.n.
place : Genève
date : 1780
author_name : Rousseau, Jean-Jacques

9/10 positive, 60/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Louise ou la chaumière dans les marais
publisher : None
place : Londres & Paris
date : 1788
author_name : NA, NA

long_title : Louise ou la chaumière dans les marais
publisher : B. Le Francq
place : Londres & Bruxelles
date : 1788
author_name : NA, NA

9/10 positive, 61/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title :  
publisher : None
place : 
date : 1754
author_name : , Philippe-Auguste de Sainte-Foix  chevalier d' 

long_title :  
publisher : s.n.
place : 
date : 1754
author_name : , Michel 

9/10 positive, 62/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les folies sentimentales ou l'égarement de l'esprit par le cœur
publisher : Royez
place : Paris
date : 1787
author_name : NA, NA

long_title : Lettres de Charlotte à Caroline, son amie
publisher : Royez
place : Londres & Paris
date : 1787
author_name : NA, NA

9/10 positive, 63/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Mélise et Marcia
publisher : Maradan
place : Londres & Paris
date : 1788
author_name : NA, NA

long_title : Mélise et Marcia ou les deux soeurs, traduit de l'anglois
publisher : Maradan
place : London; Paris
date : 1788
author_name : Hervey, Elizabeth

9/10 positive, 64/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : Miss Courtenay ou les épreuves du malheur, traduction de l'anglois
publisher : Maradan
place : Paris
date : 1789
author_name : Lennox, Charlotte

long_title : Le mariage platonique, imité de l'anglais par madame la baronne de Vasse
publisher : Maradan
place : Amsterdam & Paris
date : 1789
author_name : Cartwrlght, Mrs H.

10/10 positive, 64/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Les Saisons
publisher : None
place : Londres
date : 1782
author_name : NA, NA

long_title : Les Saisons
publisher : Cazin
place : Londres
date : 1782
author_name : NA, NA

10/10 positive, 65/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


long_title : L'école de l'amitié  
publisher : Knoch et Eslinger
place : Francfort & Leipsic
date : 1758
author_name : Thibouville, Henri de Lambert d'Herbigny  marquis de 

long_title : L'école de l'amitié  
publisher : J.F. BASSOMPIERRE, LIBRAIRE À LIÈGE ET, J. Vanden BERGHEN, LIBRAIRE À BRUXELLES
place : Francfort, en Foire
date : 1758
author_name : Thibouville, Henri de Lambert d'Herbigny  marquis de 

11/10 positive, 65/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


long_title : Correspondance d'un jeune militaire
publisher : libraires associés, (t. 2), de limprimerie de la Société typographjque
place : En Suisse (t.
date : 1779
author_name : NA, NA

long_title : Correspondance d'un jeune militaire
publisher : chez lauteur
place : Paris
date : 1779
author_name : NA, NA

11/10 positive, 66/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


f


Finished labeling


In [6]:
_, mmf_matches = run_deduper(mmf_model, mmf_df, mmf_settings, mmf_training, recall_weight = 1.5)

INFO:rlr.crossvalidation:using cross validation to find optimum alpha...


Active Dedupe object found. Now training model...


INFO:rlr.crossvalidation:optimum alpha: 0.010000, score 0.6927012425965802
INFO:dedupe.training:Final predicate set:
INFO:dedupe.training:(SimplePredicate: (doubleMetaphone, long_title), SimplePredicate: (wholeFieldPredicate, date))
INFO:dedupe.training:(SimplePredicate: (wholeFieldPredicate, publisher), SimplePredicate: (yearPredicate, date))


Training complete. It took 5.611 seconds.
Saving training data and trained parameters...
Training data written to mmf_2/mmf_training.json.
Trained parameters written to mmf_2/mmf_settings.
Computing threshold based on a recall weighting of 1.5.


INFO:dedupe.blocking:10000, 1.2428082 seconds
INFO:dedupe.api:Maximum expected recall and precision
INFO:dedupe.api:recall: 0.936
INFO:dedupe.api:precision: 0.768
INFO:dedupe.api:With threshold: 0.270


Computation complete. Threshold = 0.2700316905975342. It took 7.195 seconds.
Clustering...


INFO:dedupe.blocking:10000, 0.8430582 seconds


Clustering complete. 1556 clusters found. It took 6.893 seconds.


In [7]:
_ = save_clusters(mmf_matches, mmf_df, mmf_output)

Writing clustered data to mmf_2/mmf_deduped.csv...
Done!
