Skip to content

Premier essai de prétraitement avec l'Ecole des femmes

axanthos edited this page Mar 13, 2015 · 1 revision

Source

L'Ecole des femmes (1662), récupéré sur le site du projet Gutenberg (HTML: http://www.gutenberg.org/files/43535/43535-h/43535-h.htm#ch3, texte brut: http://www.gutenberg.org/files/43535/43535-0.txt).

Prétraitement

Suppression des appels de notes

Format des fichiers

a) Fichier *_texte.tab

Tab-delimited, 7 colonnes (piece, acte, scene, replique, personnage, texte, didascalie) et 551 lignes, p.ex.:

l_ecole_des_femmes	I	II	67	Georgette	<l>Je suis votre servante.</l><l>C'est moi.</l>	en entrant.

Remarques:

  • les vers successifs formant une réplique sont inclus dans des balises <l> (afin d'éviter de compromettre le format tab-delimited avec des retours à la ligne)

  • les didascalies apparaissant dans la 7è colonne sont celles qui sont indiquées à côté de l'entête indiquant le personnage dans le texte; celles qui sont directement insérées dans les répliques sont balisées <didascalie>, p.ex.:

      l_ecole_des_femmes	II	V	168	Arnolphe	<l>Venez, Agnès.</l><didascalie>A Alain et à Georgette.</didascalie><l>Rentrez.</l>
    

b) Fichier *_personnages.tab

Tab-delimited, nb de colonnes >4 (piece, acte, scene, replique, plus une par personnage) et 551 lignes, p.ex.:

l_ecole_des_femmes	II	V	168	0	1	0	0	0	0	0	0	0

Remarques:

  • La liste des personnages associés à chaque réplique est basée, dans cette première version, sur la liste des personnages qui prennent la parole dans chaque scène. L'exemple ci-dessus montre bien que ça ne suffit pas (seul Arnolphe parle dans cette scène, mais 3 autres personnages sont présents). Il faudrait sans doute modifier le traitement pour se baser sur la liste des personnages énumérés au début de chaque scène.
  • Aucun traitement n'est fait à ce stade pour prendre en compte les didascalies (type "à part"), entrées-sorties de personnages, etc. A vue de nez, un ajustement manuel serait probablement la solution la plus simple dans un premier temps.