# üêô Tutoriel pour l'utilisation de **Kami** (Kraken Model Inspector) 
<br>

Ce tutoriel a √©t√© √©labor√© par **Lucas Terriel** (Inria - ALMAnaCH) et **Alix Chagu√©** (Inria - ALMAnaCH) et publi√© sur le d√©p√¥t du projet [Kami](https://gitlab.inria.fr/dh-projects/kami/kami-lib)  ([pour citer le projet](https://gitlab.inria.fr/dh-projects/kami/kami-lib/-/blob/master/CITATION.CFF)).

Nous en avons simplifi√© l'√©criture pour une utilisation exclusivement locale (le [tutoriel original](https://cutt.ly/WT3Ahx1) est publi√© sur Google Collab).

Date de la version utilis√©e : 24/08/2021.


## Introduction

Ce notebook vise √† pr√©senter l'utilisation du *package* Python **Kami** √† travers l'exemple d'une cha√Æne de traitement compl√®te : import des donn√©es => r√©sultats du mod√®le HTR/OCR => export des r√©sultats en CSV 



## √âtape pr√©liminaire : Installation du *package* Python Kami
üöÄ Lancer la cellule et attendre la fin de l'ex√©cution. (Cela peut prendre un certain temps)

‚ö†Ô∏è **N.B.** : *Ignorer les erreurs relatives √† l'installation des packages scikit-learn, torch et torchtext, √† la fin de l'√©xecution de la cellule. (erreurs inh√©rentes √† google colab, relancer la cellule les erreurs disparaissent)*

In [1]:
# v√©rification de la version Python utilis√© 
!python --version
# installation des packages n√©c√©ssaires
!pip install kamilib
#!pip install -i https://test.pypi.org/simple/ kamilib
# lister vos d√©pendances en d√©-commentant la ligne qui suit
!pip freeze

Python 3.8.10
You should consider upgrading via the '/home/sbiay/dhi/venv/bin/python -m pip install --upgrade pip' command.[0m[33m
[0mabsl-py==1.0.0
aiohttp==3.8.1
aiosignal==1.2.0
albumentations==1.1.0
argon2-cffi==21.3.0
argon2-cffi-bindings==21.2.0
asttokens==2.0.5
async-timeout==4.0.2
attrs==21.4.0
backcall==0.2.0
beautifulsoup4==4.11.1
bleach==5.0.0
blis==0.7.7
bs4==0.0.1
cachetools==5.0.0
catalogue==2.0.7
certifi==2021.10.8
cffi==1.15.0
charset-normalizer==2.0.12
click==8.1.2
commonmark==0.9.1
coremltools==5.2.0
cymem==2.0.6
Cython==0.29.28
debugpy==1.6.0
decorator==5.1.1
defusedxml==0.7.1
entrypoints==0.4
executing==0.8.3
fastjsonschema==2.15.3
fr-core-news-sm @ https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.2.0/fr_core_news_sm-3.2.0-py3-none-any.whl
frozenlist==1.3.0
fsspec==2022.3.0
google-auth==2.6.6
google-auth-oauthlib==0.4.6
grpcio==1.44.0
htrvx==0.0.9
idna==3.3
imageio==2.18.0
importlib-metadata==4.11.3
importlib-resources==5.7.1
inexacts

## √âtape 1 : Importer les *packages* Python pour la cha√Æne de traitement

üöÄ Lancer la cellule.

‚ö†Ô∏è **N.B** : *Ignorer les warnings de d√©pr√©ciations ... (relancer la cellule pour les faire dispara√Ætre)*

In [2]:
import csv
from datetime import datetime
import io
import pprint

import pandas as pd

from kami.Kami import Kami



## √âtape 2 : Tester le *package* Kami

üöÄ Lancer la cellule.

‚úîÔ∏è **N.B** : *Si le code s'ex√©cute avec succ√®s, vous pouvez passer √† la suite du notebook.*

In [3]:
# deux phrases d'exemples
ground_truth = "1: J'aime Python comme langage de programmation !!"
hypothesis = "2: J'adore python comme langage de d√©veloppement web ?"

# Appel de la classe
k = Kami([ground_truth, hypothesis], verbosity=False, truncate=True, percent=True, round_digits='0.01')

# Affichage des phrases d'exemples
reference = k.reference
prediction = k.prediction


print("--------------------")
print(reference)
print("--------------------")
print(prediction)
print("--------------------")

pprint.pprint(k.scores.board)

--------------------
1: J'aime Python comme langage de programmation !!
--------------------
2: J'adore python comme langage de d√©veloppement web ?
--------------------
{'cer': 42.0,
 'cil': 59.66,
 'cip': 40.33,
 'deletions': 0,
 'hamming_distance': '√ò',
 'hits': 33,
 'insertions': 4,
 'levensthein_distance_char': 21,
 'levensthein_distance_words': 6,
 'mer': 38.88,
 'substitutions': 17,
 'wacc': 25.0,
 'wer': 75.0,
 'wer_hunt': 68.75}


## √âtape 3 : Importer les donn√©es (image, v√©rit√© terrain, et mod√®le HTR/OCR Kraken)

‚ö†Ô∏è Attention, si vous red√©mar√© le noyau du notebook, vos donn√©es disparaissent, il est n√©c√©ssaire de les importer √† nouveau.


On indiquer le chemin vers les donn√©es :

In [19]:
# ground_truth est un chemin vers un fichier de test (√©viter un fichier d'entra√Ænement)
ground_truth = "./entrainements/mainCdS02_Konv002_03/test/CdS02_Konv002-01_0005.xml"
main = ground_truth.split('/')[2]
# image est le chemin vers l'image associ√©e au pr√©c√©dent fichier
image = "./entrainements/mainCdS02_Konv002_03/test/CdS02_Konv002-01_0005.jpg"

model = "./modeles-rec/cds_lectcm_04_mains_01.mlmodel"

mainCdS02_Konv002_03


## √âtape 4 : Configuration des param√®tres d'√©valuation (optionnelle)

Vous pouvez ignorer cette √©tape en utilisant les param√®tres par d√©faut ci-dessous en √©x√©cutant la cellule.

‚öíÔ∏è Options disponibles
-------------------

* **transforms** : Permet d'appliquer des transformations au texte (*pre-processing*) afin de faire varier les scores en sortie, vous pouvez combiner ces options ex. transforms="DLP" (attention l'ordre peut avoir un impact). 
  - **D** : Supprime l'ensemble des chiffres et nombres;
  - **U** : Majusculise le texte;
  - **L** : Minusculise le texte;
  - **P** : Supprime la ponctuation;
  - **X** : Supprime les signes diacritiques;

* **verbosity** : Permet de r√©cup√©rer des logs d'√©x√©cution pour suivre le processus.

* **truncate** : Option √† utiliser pour tronquer le r√©sultat final.

* **percent** : Option pour afficher un r√©sultat en pourcentage.

* **round_digits** : Option pour r√©gler les chiffres apr√®s la virgule.

In [9]:
transforms="XP"
verbosity=False
truncate=True
percent=True
round_digits='0.01'

## √âtape 5 : Cr√©ation de l'objet Kami pour op√©rer les scores 


üöÄ Lancer la cellule. En cas d'erreur v√©rifier bien que vous avez lancer la cellule pr√©c√©dente.

Si vous utilisez du XML en v√©rit√© terrain, l'erreur : `Recognizers with segmentation types set() will be applied to segmentation of type baselines. This will likely result in severely degraded performace` apparait. Vous pouvez ignorer ces avertissements et passer √† la suite.

In [10]:
kevaluator = Kami(ground_truth,  
         model=model, 
         image=image,  
         apply_transforms=transforms,
         verbosity=verbosity, 
         truncate=truncate, 
         percent=True,  
         round_digits=round_digits) 

## √âtape 6 : Visualiser les formes de textes (optionnelle)

üöÄ Lancer la cellule pour visualiser le texte de v√©rit√© terrain et le texte pr√©dit, avec ou sans transformations selon les options pr√©c√©d√©mment choisies.

‚ö†Ô∏è Il se peut que la taille de votre texte soit trop grande dans ce cas s√©lectionner des parties du texte via l'index pour afficher des extraits.

In [11]:
print("GROUND TRUTH TEXT : \n")
print(kevaluator.reference)

# via l'index (en cas de texte trop long) :
# print(kevaluator.reference[0:50])

print(f"\n{'-' * 20}\n")

print("PREDICTION TEXT : \n")
print(kevaluator.prediction)

print(f"\n{'=' * 20}\n")

print("GROUND TRUTH TEXT (with transforms) : \n")
print(kevaluator.reference_preprocess)

print(f"\n{'*' * 20}\n")

print("PREDICTION TEXT (with transforms) : \n")
print(kevaluator.prediction_preprocess)

print(f"\n{'*' * 20}\n")

GROUND TRUTH TEXT : 

Correspondance intime
Les lettres qui forment cette Correspondance sont celles
de mon mari et les miennes ; elles forment aussi une section en-
ti√®rement s√©par√©e. (1)
Je me propose d'en faire un choix et de les copier moi-m√™me
plus tard. Presque toutes ayant √©t√© crites dans les troubles de mon
1er. m√©nage, elles me rappeleront une foule de Souvenirs n√©cessaires
√† la redaction de cette partie de mes M√©moires.
Correspondance d'affaires.
Toutes ces lettres sont relatives √† la fortune, √† des proc√®s,
√† des circonstances quelconques de ce genre dont il peut √™tre n√©ces-
saire de garder des souvenirs ou des preuves, surtout comme venant
√† l'appui des M√©moires. J'ai gard√© les brouillons d'une partie
de celles que j'ai √©critures lorsqu'elles √©taient relatives √† des
circonstances essentielles. Il en sera fait un choix, ainsi que
des r√©ponses ou lettres de quelques avocats c√©l√®bres et elles seront
copi√©s sous ce titre : Choix de lettres d'affaires fa

## √âtape 7 : Visualiser les r√©sultats obtenus dans un tableau


üöÄ Lancer la cellule pour afficher les r√©sultats.

Pr√©cisions sur les m√©triques 
----------------------------

Op√©rations (utilis√©s pour la distance) : 

* **hits** : nombre de caract√®res similaires entre la v√©rit√© terrain et la pr√©diction; 
* **substitutions** : nombre de substitutions op√©r√©es entre la v√©rit√© terrain et la pr√©diction; 	
* **deletions** : nombre de suppressions op√©r√©es entre la v√©rit√© terrain et la pr√©diction; 	
* **insertions** : nombre d'insertions op√©r√©es entre la v√©rit√© terrain et la pr√©diction; 	

Distance d'√©dition :

* **levensthein_distance_char** : distance de Levenshtein calcul√©e sur les caract√®res;
* **levensthein_distance_words** : distance de Levenshtein calcul√©e sur les mots;
* **hamming_distance** : distance de Hamming (√ò si les cha√Ænes ne font pas exactement la m√™me longueur, nombre si les cha√Ænes font la m√™me longueur mais que certains caract√®res divergent).

Scores g√©n√©raux HTR/OCR :

* **wer** : *word error rate* ou taux d'erreur par mots. Le $WER$ est calcul√© sur la base des mots de la v√©rit√© terrain par rapport √† la pr√©diction r√©alis√©e par le mod√®le. Il est g√©n√©ralement compris entre $[0, 1.0]$, plus il est proche de 0 plus la reconnaissance est bonne. En revanche, il n'est pas born√© : une mauvaise reconnaissance peut entrainer un $WER > 1.0$. 
Il est calcul√©
\begin{align}
\frac{S + D + I}{N}
\end{align}
o√π $S$ est le nombre de substitions de mots, $D$ le nombre de mots surpprim√©s, et $I$ le nombre de mots ins√©r√©s; $N$ correspond au nombre total de mots dans la cha√Æne de r√©f√©rence; cela correspond √©galement √†
\begin{align}
\frac{distance \, de \, Levenshtein \, sur \, les \, mots}{N}
\end{align}

* **cer** : *character error rate* ou taux d'erreur par caract√®res. Le $CER$ est calcul√© sur la base des caract√®res de la v√©rit√© terrain par rapport √† la pr√©diction r√©alis√©e par le mod√®le. Il est g√©n√©ralement compris entre $[0, 1.0]$, plus il est proche de 0 plus la reconnaissance est bonne. En revanche, il n'est pas born√© : une mauvaise reconnaissance peut entrainer un $CER > 1.0$.
Il est calcul√©
\begin{align}
\frac{S + D + I}{N}
\end{align}
o√π $S$ est le nombre de substitions de caract√®res, $D$ le nombre de caract√®res surpprim√©s, et $I$ le nombre de caract√®res ins√©r√©s; $N$ correspond au nombre total de caract√®res dans la cha√Æne de r√©f√©rence; cela correspond √©galement √†
\begin{align}
\frac{distance \, de \, Levenshtein \, sur \, les \, caract√®res}{N}
\end{align}

* **wacc** 	: *word accuracy* ou taux de reconnaissance par mots calcul√© 
\begin{align}
1- WER 
\end{align}
En cas de tr√®s mauvaise reconnaissance ce taux peut-√™tre n√©gatif.

Scores de pr√©cision (emprunt√© √† l'√©valuation de la reconnaissance de la parole - syst√®me ASR) : 

* **mer** : *match error rate*
* **cil** : *character information lost*
* **cip** : *charcter information preserve*

 Voir :

 - [Morris, A. et al. ‚ÄúFrom WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition.‚Äù INTERSPEECH (2004).](https://www.semanticscholar.org/paper/From-WER-and-RIL-to-MER-and-WIL%3A-improved-measures-Morris-Maier/8516531ff3bd874b66b811f0bd4e21a2d6b10e54?p2df)

 - [Errattahi, R. et al. "Automatic Speech Recognition Errors Detection and Correction: A Review". Procedia Computer Science. (2018).](https://www.researchgate.net/publication/324427003_Automatic_Speech_Recognition_Errors_Detection_and_Correction_A_Review)





In [12]:
metadatas = {}
metrics = {}

now = datetime.now()
metadatas['DATETIME'] = now.strftime("%d_%m_%Y_%H:%M:%S")
metadatas['IMAGE'] = image
metadatas['GROUND_TRUTH'] = ground_truth
metadatas['MODEL'] = model

for key, value in kevaluator.scores.board.items():
  if type(value) != dict and key not in ['levensthein_distance_char', 
                                           'levensthein_distance_words',
                                           'hamming_distance', 
                                           'wer', 
                                           'cer', 
                                           'wacc', 
                                           'mer', 
                                           'cil', 
                                           'cip', 
                                           'hits', 
                                           'substitutions', 
                                           'deletions', 
                                           'insertions']:
    metadatas[key] = value
  else:
    metrics[key] = value

print(f"************* EVALUATION HTR/OCR REPORT FROM KAMI - {metadatas['DATETIME']} / MODEL : {metadatas['MODEL']} *************\n")

for key, value in metadatas.items():
  print(f"- {key} : {value}")

print("\n")

try:
  df_metrics = pd.DataFrame.from_dict(metrics)
except:
  df_metrics = pd.DataFrame.from_dict(metrics, orient='index')

df_metrics

************* EVALUATION HTR/OCR REPORT FROM KAMI - 02_06_2022_11:38:48 / MODEL : ./modeles-rec/cds_lectcm_04_mains_01.mlmodel *************

- DATETIME : 02_06_2022_11:38:48
- IMAGE : ./entrainements/mainCdS02_Konv002_03/test/CdS02_Konv002-01_0005.jpg
- GROUND_TRUTH : ./entrainements/mainCdS02_Konv002_03/test/CdS02_Konv002-01_0005.xml
- MODEL : ./modeles-rec/cds_lectcm_04_mains_01.mlmodel
- Total_char_removed_from_reference : 89
- Total_char_removed_from_prediction : 80
- Total_diacritics_removed_from_reference : 74
- Total_diacritics_removed_from_prediction : 77
- Length_reference : 2656
- Length_prediction : 2651
- Length_reference_transformed : 2567
- Length_prediction_transformed : 2571




Unnamed: 0,default,remove_punctuation,remove_diacritics,all_transforms
levensthein_distance_char,90,75,80,65
levensthein_distance_words,67,60,60,52
hamming_distance,√ò,√ò,√ò,√ò
wer,15.19,13.69,13.6,11.87
cer,3.38,2.92,3.01,2.53
wacc,84.8,86.3,86.39,88.12
wer_hunt,14.17,12.67,12.58,10.84
mer,3.37,2.9,2.99,2.51
cil,5.53,4.92,4.8,4.15
cip,94.46,95.07,95.19,95.84


## √âtape 8 : Exporter les r√©sultats en CSV

üöÄ Lancer la cellule.

In [22]:
name_csv = f"rapport-kami-{main}.csv"

with open(f"./mains/{name_csv}", 'w')  as csv_file:
  writer = csv.writer(csv_file, 
                      delimiter=',',
                      quotechar='|', 
                      quoting=csv.QUOTE_MINIMAL)
  for key, value in metadatas.items():
    row = []
    row.append(key)
    row.append(value)
    writer.writerow(row)

df_metrics.to_csv(f"./mains/{name_csv}", mode='a', header=True)

print(f"Le rapport a √©t√© correctement √©crit dans le fichier ./mains/{name_csv}")

Le rapport a √©t√© correctement √©crit dans le fichier ./mains/rapport-kami-mainCdS02_Konv002_03.csv
