FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link

L'objectif de ce projet est d'explorer l'extraction et l'interprétation des features issues d'un classificateur CNN de deux classes de manuscrits médiévaux différents : fortement abrégés et non-abrégés. Pour cela, l'équipe s'est inspirée du cadre DeepScript de Mike Kestemont : https://github.com/mikekestemont/DeepScript où ils ont observé des signes d'abréviation apparaissant dans la feature map.

La première étape du projet consiste à choisir et construire un ensemble de données pour notre expérience. Nous avons décidé de travailler avec des jeux de données en latin et en français ancien qui sont bien documentés : CREMMA-fro: https://github.com/HTR-United/cremma-medieval CREMMa-lat: https://github.com/HTR-United/CREMMA-Medieval-LAT Gallocorpora_15: https://github.com/Gallicorpora/HTR-MSS-15e-Siecle ECMEN: https://github.com/oriflamms/ECMEN Données de Margueritte Vernet

La question la plus importante est de définir les deux classes de manière à ce qu'elles soient symptomatiques de ce que nous considérons comme des pages de manuscrits "fortement abrégées" et "non abrégées". Les ensembles de données choisies ont l'avantage d'être accompagnés de transcriptions et d'une segmentation au niveau de la zone, ce qui permet de réduire le bruit provenant de l'arrière-plan et des initiales/figures.

Afin de diviser les images de l'ensemble de données en deux catégories de manière non subjective, nous avons eu l'idée d'exploiter les transcriptions et de calculer le pourcentage total de signes abréviatifs par page. Le seuil a été fixé à <1 pour les manuscrits à peine abrégés et à >6,5 pour les manuscrits fortement abrégés. Les observations sur les seuils proviennent d'un article récent sur les modèles de transcription HTR : https://hal.science/hal-03828353/ et sont indicatives, donc susceptibles d'être ajustées et affinées en fonction des résultats.

TODO:

Final clean of the data and balancing of classes (Matenia)
Adaptation of https://github.com/mikekestemont/DeepScript code for our purposes - couldn't do - problems of package compatibility
Interpretation of the extracted features - impossible
train a ResNet50
train a homemade model
extract them features

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data		data
filters		filters
transformed_data		transformed_data
FeatureExtractions_compterendu.pdf		FeatureExtractions_compterendu.pdf
README.md		README.md
data_augmentation_train_viz_filters.ipynb		data_augmentation_train_viz_filters.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

filters

filters

transformed_data

transformed_data

FeatureExtractions_compterendu.pdf

FeatureExtractions_compterendu.pdf

README.md

README.md

data_augmentation_train_viz_filters.ipynb

data_augmentation_train_viz_filters.ipynb

Repository files navigation

FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link

About

Releases

Packages

Languages

malamatenia/FeatureExtractionProject

Folders and files

Latest commit

History

Repository files navigation

FeatureExtractionProject

Link to models and weights : https://drive.google.com/drive/folders/1KMNZ3roDhKn93ovfJK4Bl2TD5FWmWBhj?usp=share_link

About

Topics

Resources

Stars

Watchers

Forks

Languages