-
Notifications
You must be signed in to change notification settings - Fork 9
Premier essai de prétraitement avec l'Ecole des femmes
L'Ecole des femmes (1662), récupéré sur le site du projet Gutenberg (HTML: http://www.gutenberg.org/files/43535/43535-h/43535-h.htm#ch3, texte brut: http://www.gutenberg.org/files/43535/43535-0.txt).
Suppression des appels de notes
Tab-delimited, 7 colonnes (piece, acte, scene, replique, personnage, texte, didascalie) et 551 lignes, p.ex.:
l_ecole_des_femmes I II 67 Georgette <l>Je suis votre servante.</l><l>C'est moi.</l> en entrant.
Remarques:
-
les vers successifs formant une réplique sont inclus dans des balises <l> (afin d'éviter de compromettre le format tab-delimited avec des retours à la ligne)
-
les didascalies apparaissant dans la 7è colonne sont celles qui sont indiquées à côté de l'entête indiquant le personnage dans le texte; celles qui sont directement insérées dans les répliques sont balisées <didascalie>, p.ex.:
l_ecole_des_femmes II V 168 Arnolphe <l>Venez, Agnès.</l><didascalie>A Alain et à Georgette.</didascalie><l>Rentrez.</l>
Tab-delimited, nb de colonnes >4 (piece, acte, scene, replique, plus une par personnage) et 551 lignes, p.ex.:
l_ecole_des_femmes II V 168 0 1 0 0 0 0 0 0 0
Remarques:
- La liste des personnages associés à chaque réplique est basée, dans cette première version, sur la liste des personnages qui prennent la parole dans chaque scène. L'exemple ci-dessus montre bien que ça ne suffit pas (seul Arnolphe parle dans cette scène, mais 3 autres personnages sont présents). Il faudrait sans doute modifier le traitement pour se baser sur la liste des personnages énumérés au début de chaque scène.
- Aucun traitement n'est fait à ce stade pour prendre en compte les didascalies (type "à part"), entrées-sorties de personnages, etc. A vue de nez, un ajustement manuel serait probablement la solution la plus simple dans un premier temps.