{ORIG_ORTH;}_CORR_ORTH
Notes :
- Il y a une phrase par ligne. Les phrases sont découpées selon les ponctuations fortes.
- Dans
CORR_ORTH
on retrouve aussi bien les mots corrigés que les étiquettes. - S'il n'y a pas de point final, il y aura une espace après le dernier mot de la dernière ligne.
Exemples :
{c;}c'est {ke;}que {c;}c'est rigolo a {fair;}faire {jv;}j'y {jv;}vais .
Pi égale {3,14;}_NOMBRE
=> Le groupe 5 a une requête... Vous identifiez les étiquettes avec des regex, non ? Si oui, est-ce que vous pourriez fournir un .txt avec colonne1_regex "\t" colonne2_étiquette (pour faire les substitutions dans le trainset) ? Ca serait génial ! Merci...
Est-ce que le fichier
01_etiq_token_debruit/regex_etiquettes.txt
convient ? OUI :) (439 remplacements sur mon TRAINCORP)
Le groupe 3 (enfin, un des binomes) a une petite remarque de formatage : c'est pas plus cohérent de suivre l'input/output du prof sur toute la chaîne ? En l'occurrence une phrase par ligne et chaque token formaté en {annotations}forme
. En l'occurrence ça pourrait ressembler à quelque chose comme {SMS='koi'}quoi
ou {NE_NAME='toto@github.com'}_EMAIL
. Tu en penses quoi ?
C'est fait.
Les mots étiquetés prendrons typiquement cette forme : {TMP_TAG='TAG1,TAG2';}word
Si un mot étiqueté était déjà précédé par des accolades, TMP_TAG='TAG1,TAG2';
sera concaténé au contenu de ces accolades, sans espace. On part du principe que ce contenu se finit déjà par un point-virgule.
Note : s'il y a plusieurs attributs, ils seront separes par un point-virgule (;
).
{ORIG_ORTH=token_with_error}corrected_token
EX: {ORIG_ORTH='chein'}chien
{ORIG_SEG=[token,token];ORIG_ATTR_N='...';...}compound_word
EX: {TAG='N'}pomme {TAG='P'}de {TAG='N'}terre
-> {ORIG_SEG=['pomme','de','terre'];TAG_1='N';TAG_2='P';TAG_3='N'}pomme_de_terre__N
{AML='original_token'}split_token {AML='original_token'}split_token
Ex: {AML='du'}de {AML='du'}le
Exemple complet:
echo "{TAG='A'}bien {TAG='A'}sûr duquel {TMP_TAG='a'}entropie visuellemnt {TMP_TAG='xsa'}carbonne {TMP_TAG='N'}quztre cinq" | ./group3.py
{TAG_0='A';TAG_1='A';ORIG_SEG=["bien","sûr"]}bien_sûr {AML="duquel"}de {AML="duquel"}lequel {ORIG_ORTH="entropie";TMP_TAG='a'}entrions visuellemnt {ORIG_ORTH="carbonne";TMP_TAG='xsa'}carbone {ORIG_ORTH="quztre";TMP_TAG='N'}quatre cinq
Alors, si j'ai bien tout compris (oui, je sais, avec des si pareils, on mettrait Paris en bouteille...). Je dois envoyer au parser un truc de ce format là : Le _unknown_N part de le principe que PERS est à le PLACE . Tout en gardant en mémoire : Le shtroumpf paart du principe que Chomsky esst au Paradis.