FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link

L'objectif de ce projet est d'explorer l'extraction et l'interprétation des features issues d'un classificateur CNN de deux classes de manuscrits médiévaux différents : fortement abrégés et non-abrégés. Pour cela, l'équipe s'est inspirée du cadre DeepScript de Mike Kestemont : https://github.com/mikekestemont/DeepScript où ils ont observé des signes d'abréviation apparaissant dans la feature map.

La première étape du projet consiste à choisir et construire un ensemble de données pour notre expérience. Nous avons décidé de travailler avec des jeux de données en latin et en français ancien qui sont bien documentés : CREMMA-fro: https://github.com/HTR-United/cremma-medieval CREMMa-lat: https://github.com/HTR-United/CREMMA-Medieval-LAT Gallocorpora_15: https://github.com/Gallicorpora/HTR-MSS-15e-Siecle ECMEN: https://github.com/oriflamms/ECMEN Données de Margueritte Vernet

La question la plus importante est de définir les deux classes de manière à ce qu'elles soient symptomatiques de ce que nous considérons comme des pages de manuscrits "fortement abrégées" et "non abrégées". Les ensembles de données choisies ont l'avantage d'être accompagnés de transcriptions et d'une segmentation au niveau de la zone, ce qui permet de réduire le bruit provenant de l'arrière-plan et des initiales/figures.

Afin de diviser les images de l'ensemble de données en deux catégories de manière non subjective, nous avons eu l'idée d'exploiter les transcriptions et de calculer le pourcentage total de signes abréviatifs par page. Le seuil a été fixé à <1 pour les manuscrits à peine abrégés et à >6,5 pour les manuscrits fortement abrégés. Les observations sur les seuils proviennent d'un article récent sur les modèles de transcription HTR : https://hal.science/hal-03828353/ et sont indicatives, donc susceptibles d'être ajustées et affinées en fonction des résultats.

TODO:

Final clean of the data and balancing of classes (Matenia)
Adaptation of https://github.com/mikekestemont/DeepScript code for our purposes - couldn't do - problems of package compatibility
Interpretation of the extracted features - impossible
train a ResNet50
train a homemade model
extract them features

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link

Files

README.md

Latest commit

History

README.md

File metadata and controls

FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link