M2 LI Syntactic Analysis Project

Le script run.sh a maintenant un mode debug qui sort les outputs de chaque étape dans un fichier séparé.

Exécuter ./run.sh -d sortira les fichiers out_01.txt, out_02.txt, out_03.txt et out_04.txt.

OUTPUT GROUPE 1

{ORIG_ORTH;}_CORR_ORTH

Notes :

Il y a une phrase par ligne. Les phrases sont découpées selon les ponctuations fortes.
Dans CORR_ORTH on retrouve aussi bien les mots corrigés que les étiquettes.
S'il n'y a pas de point final, il y aura une espace après le dernier mot de la dernière ligne.

Exemples :

{ORIG_ORTH='c';}c' {ORIG_ORTH='c';}est {ORIG_ORTH='ke';}que {ORIG_ORTH='c';}c' {ORIG_ORTH='c';}est rigolo a {ORIG_ORTH='fair';}faire {ORIG_ORTH='jv';}j' {ORIG_ORTH='jv';}y {ORIG_ORTH='jv';}vais .
Pi égale {ORIG_ORTH='3,14';}_NOMBRE

=> Le groupe 5 a une requête... Vous identifiez les étiquettes avec des regex, non ? Si oui, est-ce que vous pourriez fournir un .txt avec colonne1_regex "\t" colonne2_étiquette (pour faire les substitutions dans le trainset) ? Ca serait génial ! Merci...

Est-ce que le fichier 01_etiq_token_debruit/regex_etiquettes.txt convient ? OUI :) (439 remplacements sur mon TRAINCORP)

Le groupe 3 (enfin, un des binomes) a une petite remarque de formatage : c'est pas plus cohérent de suivre l'input/output du prof sur toute la chaîne ? En l'occurrence une phrase par ligne et chaque token formaté en {annotations}forme. En l'occurrence ça pourrait ressembler à quelque chose comme {SMS='koi'}quoi ou {NE_NAME='toto@github.com'}_EMAIL. Tu en penses quoi ?

C'est fait.

OUTPUT GROUPE 2

Les mots étiquetés prendrons typiquement cette forme : {TMP_TAG='TAG1,TAG2';}word Si un mot étiqueté était déjà précédé par des accolades, TMP_TAG='TAG1,TAG2'; sera concaténé au contenu de ces accolades, sans espace. On part du principe que ce contenu se finit déjà par un point-virgule.

OUTPUT GROUPE 3

Note : s'il y a plusieurs attributs, ils seront separes par un point-virgule (;).

{ORIG_ORTH=token_with_error}corrected_token

EX: {ORIG_ORTH='chein'}chien

{ORIG_SEG=[token,token];ORIG_ATTR_N='...';...}compound_word

EX: {TAG='N'}pomme {TAG='P'}de {TAG='N'}terre
-> {ORIG_SEG=['pomme','de','terre'];TAG_1='N';TAG_2='P';TAG_3='N'}pomme_de_terre__N

{AML='original_token'}split_token {AML='original_token'}split_token

Ex: {AML='du'}de {AML='du'}le

Exemple complet:

echo "{TAG='A'}bien {TAG='A'}sûr duquel {TMP_TAG='a'}entropie visuellemnt {TMP_TAG='xsa'}carbonne {TMP_TAG='N'}quztre cinq" | ./group3.py
{TAG_0='A';TAG_1='A';ORIG_SEG=['bien','sûr']}bien_sûr {AML='duquel'}de {AML='duquel'}lequel {ORIG_ORTH='entropie';TMP_TAG='a'}entrions visuellemnt {ORIG_ORTH='carbonne';TMP_TAG='xsa'}carbone {ORIG_ORTH='quztre';TMP_TAG='N'}quatre cinq

OUTPUT GROUPE 4

in: en provenance d' un {ORIG_ORTH='fjord';TMP_TAG='NC,ADJ'}flore {AML='du'}de {AML='du'}le {TMP_TAG='NPP,ET'}Groenland .

out: en provenance d' un {ORIG_ORTH='fjord';TMP_TAG='NC,ADJ'}flore {AML='du'}de {AML='du'}le {TMP_TAG='NPP,ET';ORIG='Groenland';LIEN='https://fr.wikipedia.org/wiki/Groenland'}_LOC .

OUTPUT GROUPE 5

Alors, si j'ai bien tout compris (oui, je sais, avec des si pareils, on mettrait Paris en bouteille...). Je dois envoyer au parser un truc de ce format là : Le _unknown_N part de le principe que PERS est à le PLACE . Tout en gardant en mémoire : Le shtroumpf paart du principe que Chomsky esst au Paradis.

Name		Name	Last commit message	Last commit date
Latest commit History 174 Commits
01_etiq_token_debruit		01_etiq_token_debruit
02_morpho		02_morpho
03_spellcheck_compounds		03_spellcheck_compounds
04_namedEntity		04_namedEntity
05_pcfg		05_pcfg
.gitignore		.gitignore
README.md		README.md
in.txt		in.txt
run.sh		run.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

OUTPUT GROUPE 2

OUTPUT GROUPE 3

OUTPUT GROUPE 4

OUTPUT GROUPE 5

About

Releases

Packages

Contributors 6

Languages

LrsNate/M2LI-AnaSynt

Folders and files

Latest commit

History

Repository files navigation

M2 LI Syntactic Analysis Project

OUTPUT GROUPE 1

OUTPUT GROUPE 2

OUTPUT GROUPE 3

OUTPUT GROUPE 4

OUTPUT GROUPE 5

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 6

Languages

Packages