Skip to content

jingshu-liu/M2LI-AnaSynt

 
 

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

{ORIG_ORTH;}_CORR_ORTH

Notes :

  • Il y a une phrase par ligne. Les phrases sont découpées selon les ponctuations fortes.
  • Dans CORR_ORTH on retrouve aussi bien les mots corrigés que les étiquettes.
  • S'il n'y a pas de point final, il y aura une espace après le dernier mot de la dernière ligne.

Exemples :

{c;}c'est {ke;}que {c;}c'est rigolo a {fair;}faire {jv;}j'y {jv;}vais .
Pi égale {3,14;}_NOMBRE
=> Le groupe 5 a une requête... Vous identifiez les étiquettes avec des regex, non ? Si oui, est-ce que vous pourriez fournir un .txt avec colonne1_regex "\t" colonne2_étiquette (pour faire les substitutions dans le trainset) ? Ca serait génial ! Merci...

Est-ce que le fichier 01_etiq_token_debruit/regex_etiquettes.txt convient ? OUI :) (439 remplacements sur mon TRAINCORP)

Le groupe 3 (enfin, un des binomes) a une petite remarque de formatage : c'est pas plus cohérent de suivre l'input/output du prof sur toute la chaîne ? En l'occurrence une phrase par ligne et chaque token formaté en {annotations}forme. En l'occurrence ça pourrait ressembler à quelque chose comme {SMS='koi'}quoi ou {NE_NAME='toto@github.com'}_EMAIL. Tu en penses quoi ?

C'est fait.

OUTPUT GROUPE 2

Les mots étiquetés prendrons typiquement cette forme : {TMP_TAG='TAG1,TAG2';}word Si un mot étiqueté était déjà précédé par des accolades, TMP_TAG='TAG1,TAG2'; sera concaténé au contenu de ces accolades, sans espace. On part du principe que ce contenu se finit déjà par un point-virgule.

OUTPUT GROUPE 3

Note : s'il y a plusieurs attributs, ils seront separes par un point-virgule (;).

{ORIG_ORTH=token_with_error}corrected_token

EX: {ORIG_ORTH='chein'}chien

{ORIG_SEG=[token,token];ORIG_ATTR_N='...';...}compound_word

EX: {TAG='N'}pomme {TAG='P'}de {TAG='N'}terre
-> {ORIG_SEG=['pomme','de','terre'];TAG_1='N';TAG_2='P';TAG_3='N'}pomme_de_terre__N

{AML='original_token'}split_token {AML='original_token'}split_token

Ex: {AML='du'}de {AML='du'}le

Exemple complet:

echo "{TAG='A'}bien {TAG='A'}sûr duquel {TMP_TAG='a'}entropie visuellemnt {TMP_TAG='xsa'}carbonne {TMP_TAG='N'}quztre cinq" | ./group3.py
{TAG_0='A';TAG_1='A';ORIG_SEG=["bien","sûr"]}bien_sûr {AML="duquel"}de {AML="duquel"}lequel {ORIG_ORTH="entropie";TMP_TAG='a'}entrions visuellemnt {ORIG_ORTH="carbonne";TMP_TAG='xsa'}carbone {ORIG_ORTH="quztre";TMP_TAG='N'}quatre cinq

OUTPUT GROUPE 4

OUTPUT GROUPE 5

Alors, si j'ai bien tout compris (oui, je sais, avec des si pareils, on mettrait Paris en bouteille...). Je dois envoyer au parser un truc de ce format là : Le _unknown_N part de le principe que PERS est à le PLACE . Tout en gardant en mémoire : Le shtroumpf paart du principe que Chomsky esst au Paradis.

About

Syntactic analysis project of the 2016 M2 LI

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • OpenEdge ABL 96.3%
  • Python 3.7%