Documents utiles à l'utilisation d'une méthodologie d'étude (humanités numériques) de manuels.
Les manuels utilisés pour cette étude sont des manuels de dessin et de peinture publiés à Londres dans la deuxième moitié du XVIIIe siècle. L'axe d'étude se rapport au lien qu'il peut être fait entre les consignes et les images les accompagnant, ce qui permet de caractériser les ouvrages tout en s'intéressant à la fois aux textes mais aussi aux images.
La base de données :
-
Définition des critères de sélection des sources
-
Recherche des sources et récupération des manuels (.pdf et .txt)
-
Création d’un fichier de données avec les métadonnées et attributions de numéros d’identification
-
Définition de sous-corpus
-
Étude quantitative des métadonnées (codicologie quantitative)
Préparation des données :
-
Océrisation des manuels :
-
Création de fichiers .txt
-
Calcul du taux d’erreurs (au niveau des caractères ou des mots)
-
Nettoyage, normalisation, tokenisation et lemmatisation des textes
Lecture distante :
-
Calcul des mots les plus fréquents
-
Calcul du taux de similitudes entre les manuels (si pertinent)
-
Modélisation de sujets
Étude des images :
-
Transformation des fichiers .pdf en .jpeg
-
Tri images / textes (automatique si possible)
-
Tag des sujets des images (si le corpus le permet : reconnaissance automatique, classement automatique grâce à des réseaux de neurones)
-
Étude quantitative du contenu des illustrations
-
Modélisation informatique des instructions