Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Choix export et nommage des fichiers de transcription #4

Closed
FannyLbr opened this issue Dec 8, 2021 · 15 comments
Closed

Choix export et nommage des fichiers de transcription #4

FannyLbr opened this issue Dec 8, 2021 · 15 comments
Labels
documentation Improvements or additions to documentation organisation

Comments

@FannyLbr
Copy link
Collaborator

FannyLbr commented Dec 8, 2021

Il faudrait que nous nous mettions d'accord sur deux points :

  • le format d'export des fichiers d'eScriptorium : je vous proprose d'exporter les fichiers à la fois en format text et en format alto. Comme nous ne savons pas quelle utilité nous en aurons après, il est préférable de l'avoir sous deux formats différents. Nous pourrons affiner cela par la suite en fonction de nos besoins.

  • le nommage de ces fichiers: je vous propose de nommer nos fichiers de transcription de façon uniforme. Que pensez-vous de : "Lettre ID - date - transcription" ?

@FannyLbr FannyLbr added documentation Improvements or additions to documentation organisation labels Dec 8, 2021
@Lienceard
Copy link
Collaborator

J'approuve ta proposition.

@SjdkC
Copy link
Collaborator

SjdkC commented Dec 8, 2021

D'accord, cela me semble bien !

@Lienceard
Copy link
Collaborator

il faudrait également ajouter le numéro des images dans le nommage des fichiers afin de savoir laquelle image on a transcrit.
Lettre-ID-date-transcription-numéro d'image

@SjdkC SjdkC reopened this Dec 8, 2021
@SjdkC
Copy link
Collaborator

SjdkC commented Dec 8, 2021

Après réflexion, peut-être vaut-il mieux faire des exports en format texte brut pour le moment, afin de faciliter la relecture et l'entraide sur les transcriptions. Je ne pense pas que le format XML ALTO soit nécessairement utile à ce stade, même s'il serait bon de l'inclure en fin de projet (étant donné qu'il conserve le lien entre le texte et l'image).

@FannyLbr
Copy link
Collaborator Author

FannyLbr commented Dec 8, 2021

Oui effectivement c'est mieux. On fait comme cela alors.

@Lienceard
Copy link
Collaborator

le nommage des fichiers est un peu ambiguë car nous ne savons pas si "transcription" fait référence à la transcription d'eScriptorium non corrigée ou bien à celle corrigée par nos propres soins selon les normes de transcription qu'on aura définies.

@SjdkC
Copy link
Collaborator

SjdkC commented Dec 15, 2021

En effet ! De manière plus globale, je propose que nous adoptions des conventions / une même organisation pour les dossiers également, afin de mieux nous y retrouver. Je propose cette organisation :

  • Pour chaque lettre, un dossier nommé : “Lettre ID - date”.
  • Dans ce dossier, les transcriptions terminées au format .txt nommée : “Lettre ID-date-transcription-numéro d'image”.
  • Les images de la lettre, réunies dans un fichier unique nommé : “Lettre ID - date”.
  • Un sous dossier nommé “Transcriptions brutes” avec dedans les transcriptions brutes d’eScriptorium (afin de rendre compte du travail de transcription réalisé, ainsi que de l’efficacité initiale du modèle utilisé).

Et, une fois la transcription définitivement terminée et corrigée :

  • Les transcriptions au format ALTO nommées “Lettre ID - date - ALTO - numéro d'image”.

Qu'en pensez-vous ?

@Lienceard
Copy link
Collaborator

Lienceard commented Dec 15, 2021

Je suis d'accord pour les conventions de nommage.
Toutefois, il faudrait préciser davantage la manière d'écrire la date.
Par exemple pour nommer le fichier contenant les images de la lettre datant du 4 novembre 1823, on pourrait faire la chose suivante: Lettre-1-04-11-1823

@FannyLbr
Copy link
Collaborator Author

Cela est parfait pour moi Cécile. Juste, en ce qui concerne les fichiers de transcription brute d'eScriptorium, comment on les nomme ? Est-ce que cela irait : "Lettre-ID-date-transcriptionBrute-numéro d'image" ?
Aussi, je pense que nous devrions utiliser les underscore plutôt que les tirets, cela serait plus clair. Qu'en pensez-vous ?

@FannyLbr
Copy link
Collaborator Author

Ok ça me va Lien pour la convention des dates.

@Lienceard
Copy link
Collaborator

oui je suis d'accord avec toi Fanny

@SjdkC
Copy link
Collaborator

SjdkC commented Dec 15, 2021

D'accord avec toi pour les fichiers de transcription brute, j'avais en effet oublié de l'indiquer.

Le format de date me semble bien (nous nous adressons avant tout à des francophones). Je propose du coup d'incorporer les tirets du bas (et de supprimer l'espace entre Lettre et l'ID, si cela vous va ?) mais de peut-être garder les tirets du milieu à l'intérieur des dates.

Ce qui donnerait par exemple : LettreID_JJ-MM-AAAA_transcriptionBrute_numéroDImage

@Lienceard
Copy link
Collaborator

oui c'est mieux. Cela permet de différencier l'ID de la lettre et sa date.

@FannyLbr
Copy link
Collaborator Author

Parfait pour moi !

@SjdkC
Copy link
Collaborator

SjdkC commented Dec 15, 2021

Très bien, nous allons pouvoir formaliser tout cela dans un compte-rendu !

@SjdkC SjdkC closed this as completed Dec 15, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
documentation Improvements or additions to documentation organisation
Projects
None yet
Development

No branches or pull requests

3 participants