Incunables du 15e siècle

Données

Les données se trouvent au chemin ‘./data//.xml‘. Elles sont au format alto (v.4) et suivent les normes de segmentation SegmOnto (https://segmonto.github.io). Toutes les données sont cataloguées sur HTR-United (https://htr-united.github.io).

Financeur

Ce projet est financé par le dataLab de la BnF (https://www.bnf.fr/fr/bnf-datalab).

Projet

Gallicorpora propose de consolider et d'appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires. Au delà de la simple extraction de texte en masse, nous améliorerons les jeux de données d'entraînement pour l'apprentissage machine, les outils et les modèles déjà existants pour l'extraction, l'annotation et la diffusion de données richement annotées provenant des collections de la Bibliothèque nationale de France (BnF).

Citer le projet

Gallic(orpor)a: extraction, annotation et diffusion de l'information textuelle et visuelle en diachronie longue, Benoît Sagot, Laurent Romary, Rachel Bawden, Pedro Javier Ortiz Suárez, Simon Gabay, Ariane Pinche, and Jean-Baptiste Camps.

Infrastructure

Il est produit sur l'infrastructure du projet CREMMA (https://www.dim-map.fr/projets-soutenus/cremma/). Les données pour l'HTR sont produites à l'aide de l'interface eScriptorium (https://gitlab.com/scripta/escriptorium). Les données de lemmatisation sont produites à l'aide de l'interface Pyrrha (https://dh.chartes.psl.eu/pyrrha/).

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
.github/workflows		.github/workflows
alto2tei		alto2tei
badges		badges
data		data
.gitignore		.gitignore
CITATION.cff		CITATION.cff
LICENSE		LICENSE
README.md		README.md
config.yml		config.yml
htr-united.yml		htr-united.yml
table.csv		table.csv
text-extraction.py		text-extraction.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.github/workflows

.github/workflows

alto2tei

alto2tei

badges

badges

data

data

.gitignore

.gitignore

CITATION.cff

CITATION.cff

LICENSE

LICENSE

README.md

README.md

config.yml

config.yml

htr-united.yml

htr-united.yml

table.csv

table.csv

text-extraction.py

text-extraction.py

Repository files navigation

Incunables du 15e siècle

Données

Financeur

Projet

Citer le projet

Infrastructure

About

Releases 28

Packages

Contributors 4

Languages

License

Gallicorpora/HTR-incunable-15e-siecle

Folders and files

Latest commit

History

Repository files navigation

Incunables du 15e siècle

Données

Financeur

Projet

Citer le projet

Infrastructure

About

Resources

License

Stars

Watchers

Forks

Languages