Skip to content

Latest commit

 

History

History
68 lines (50 loc) · 3.74 KB

File metadata and controls

68 lines (50 loc) · 3.74 KB

Manuel du lexique FROLEX v. 3.0

Serge Heiden (slh AT ens-lyon.fr)
Alexei Lavrentiev (alexei.lavrentev AT ens-lyon.fr)
janvier 2020

(Ce document est publié sous licence Creative Commons « Paternité-Pas d’Utilisation Commerciale-Partage des Conditions Initiales à l’Identique 3.0 France.)

Nouveautés de la version 3.0

  • ajout de la table de correspondance entre lemmes clfrolex-3.0
  • suppression des lignes doublons dans frolex (lorsque la forme correspond à deux lemmes provenant de deux sources différentes, mais l'équivalence entre eux est établie par la table clfrolex). 40 484 entrées (doublons) ont été supprimées (sur les 1 109 992 entrées de frolex-2.0)

Lexique FROLEX

Le lexique FROLEX est une compilation réalisée en 2016 de ressources provenant :

Titres des colonnes

  • Colonne A (form) : forme
  • Colonne B (F_bfm) : fréquence de la forme dans la BFM
  • Colonne C (F_dmf) : fréquence de la forme dans le DMF (d'après LGeRM)
  • Colonne D (msd_afrlex) : étiquette morphosyntaxique du NCA
  • Colonne E (msd_bfm) : étiquette morphosyntaxique Cattex2009 provenant des textes étiquetés de la BFM (textes vérifiés) ; <nopos> pour les formes provenant des textes non étiquetés
  • Colonne F (msd_dmf) : étiquette morphosyntaxique du DMF
  • Colonne G (msd_cattex_conv1) : traduction des étiquettes du NCA et de la BFM vers une version du jeu Cattex2009 compatible avec les deux sources (par suppression des distinctions absentes dans l’un des deux corpus)
  • Colonne H (msd_cattex_conv2) : traduction des étiquettes du NCA, de la BFM et du DMF vers une version du jeu Cattex2009 compatible avec les trois sources (par suppression des distinctions absentes dans l’une des trois ressources)
  • Colonne I (lemma) : forme du lemme
  • Colonne J (lemma_src) : source(s) du lemme

Liste des sources

  • AND : Anglo-Norman Dictionary
  • BFM : Base de français médiéval
  • DECT : Dictionnaire électronique de Chrétien de Troyes
  • DMF : Dictionnaire du moyen français
  • FEW : Französisches Etymologisches Wörterbuch (Dictionnaire étymologique et historique du galloroman)
  • GDF : dictionnaire de Godefroy
  • LFA : indexes des textes du LFA (Laboratoire de français ancien, U. d'Ottawa)
  • LGeRM : Lemmatiseur LGeRM
  • LMG : liste de morphèmes grammaticaux dressée manuellement par Pierre Kunstmann et Achim Stein
  • PKAS : répertoire de formes étiquetées manuellement par Pierre Kunstmann et Achim Stein
  • PVR : formes extraites des "Chartes de l'Aube" (Piet van Reenen, corpus disponbile sur le site du Nouveau Corpus d'Amsterdam)
  • TL : dictionnaire de Tobler/Lommatzsch
  • VFM : formes verbales compilées par R. Martin

Table de correspondance entre lemmes clfrolex-3.0

Cette table permet notamment :

  • de convertir les lemmes d'un corpus vers ceux d'une autre source
  • améliorer le travail de dédoublonnage

Titres des colonnes

  • Colonne A (msd_cattex_conv2) : traduction des étiquettes du NCA, de la BFM et du DMF vers une version du jeu Cattex2009 compatible avec les trois sources (par suppression des distinctions absentes dans l’une des trois ressources)
  • Colonne B (lemma) : forme normalisée du lemme (sans chiffre distinguant les entrées homographiques des dictionnaires)
  • Colonne C (lemma_src) : source du lemme (voir la liste ci-dessus).
  • Colonnes D à R : formes correspondantes éventuelles du lemme dans les différentes sources (le titre de la colonne indique la source).