# Détection automatique d'erreurs d'OCR

## Imports

In [3]:
import nltk
from thefuzz import fuzz
from thefuzz import process
from Levenshtein import distance

Nous allons d'abord utiliser la distance de Levenshtein, selon sa formule originale (1965)

In [4]:
distance("bulletin", "ballotins")

3

Nous allons ensuite faire appel à la librairie TheFuzz (anciennement fuzzywuzzy) qui repose sur python-Levenshtein (https://github.com/seatgeek/thefuzz).
Celle-ci permet de normaliser le résultat en calculant un ratio (pourcentage) de similarité entre deux chaînes de caractères :

In [18]:
fuzz.ratio("bulletin", "ballotins")

71

La fonction  `partial_ratio` se focalise sur la sous-chaîne (substring) la plus similaire : 

In [19]:
fuzz.partial_ratio("Grand", "Grand-Place")

100

La fonction `token_sort_ratio` ignore l'ordre des mots :

In [20]:
fuzz.token_sort_ratio("archives de la ville de Bruxelles", "de Bruxelles la ville de archives")

100

La fonction `token_set_ratio` ignore les répétitions de mots :

In [21]:
fuzz.token_set_ratio("plus jamais ça !", "plus jamais Jamais JAMAIS ça !!!")

100

Chargeons à présent le fichier `all.txt` (tronqué) : 

In [5]:
data_path = "../tp4/all/all_clean.txt"
LIMIT = 50000000
text = open(data_path).read()[:LIMIT]

tokens = nltk.wordpunct_tokenize(text)
print(f"{len(tokens)} words (tokens) found")

vocab = set(tokens)
print(f"{len(vocab)} different word forms")

4548279 words (tokens) found
457599 different word forms


Nous pouvons identifier les variantes d'un mot par ordre décroissant de similarité : 

In [9]:
word = "lunaire"
process.extract(word, vocab, limit=30)

[('LUNAIRE', 100),
 ('LUNNAIRE', 93),
 ('LUNAIREG', 93),
 ('LUNAIRES', 93),
 ('ÔUNAIRE', 92),
 ('LUNARE', 92),
 ('LUNAIRÉ', 92),
 ('IÉR', 90),
 ('ÉAÙ', 90),
 ('AÛI', 90),
 ('ÏIÏ', 90),
 ('ÏUÏ', 90),
 ('IÔR', 90),
 ('ÏIRE', 90),
 ('ÛÈRE', 90),
 ('ÜÎN', 90),
 ('ÎÊA', 90),
 ('LÙË', 90),
 ('CUMLUNAIRES', 90),
 ('ÜÉR', 90),
 ('REÇÜ', 90),
 ('ÎNÉ', 90),
 ('ÉRÎEÎ', 90),
 ('LÎÜ', 90),
 ('LUNA', 90),
 ('NAI', 90),
 ('ÈRE', 90),
 ('UNAI', 90),
 ('IRÀ', 90),
 ('ÂIÏR', 90)]

Les caractères accentués ne sont pas pris en compte pour le calcul du score, mais cela reste une bonne base pour récupérer les occurrences mal OCRisées d'un mot.