Skip to content

boudinfl/taln-archives

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 
 
 
 
 
 
 

taln-archives

TALN Archives est une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue. Elle contient actuellement les actes des conférences RECITAL et TALN de 1997 à 2015.

Une version html est disponible ici.

Un fichier XML contenant les méta-données a été créé pour chaque édition des conférences, ce dernier contient :

  • Méta-données de la conférence

    • Titre de la conférence, acronyme, ville, pays
    • Dates de début et de fin de la conférence
    • Noms des présidents du comité de programme
    • Formats des articles publiés (e.g.~court, long)
    • URL du site web de la conférence
  • Méta-données pour chaque article

    • Identifiant unique (e.g.~taln-2008-long-001)
    • Noms des auteurs, emails, affiliations
    • Titre, résumé et mots clés (français et anglais si disponible)
    • Format de l'article
    • Numéros des pages
    • Nom de la session dans le programme

Les fichiers bibtex de tous les articles ont été générés automatiquement à partir du fichier de méta-données avec la commande :

cd tools/
./generate_bibtex_files.sh

Les fichiers au format texte des articles ont été extraits avec l'outil pdftotext au format texte ou OCRisés avec l'outil tesseract-ocr.

cd tools/
./extract_text_from_pdfs.sh

Les méta-données des fichiers pdfs ont été modifiés avec l'outil pdftk avec la commande :

cd tools/
./update_pdf_metadata.sh

Une version web de l'archive peut être créée avec la commande :

cd tools/
python generate_html.py

Si vous utilisez cet ensemble de données, veuillez citer l'article :

  • Florian Boudin, TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue, Traitement Automatique des Langues Naturelles (TALN), 2013.

Mises à jour

  • 19/06/2015, ajout des actes de TALN-RECITAL 2015 et des ateliers, restructuration du dépot avec l'ajout des répertoires conferences et ateliers.
  • 18/11/2014, ajout des titres en anglais pour TALN 2014, RECITAL 2014 et TALN-2011.
  • 09/07/2014, ajout des actes de TALN-RECITAL 2014.
  • 28/06/2014, corrections meta-donnés.
  • 06/05/2015, bug-fixes, ajout des prénoms/noms dans les fichiers de méta-données, modification des bibtex (maintenant en UTF-8), transfert des informations sur les meilleurs papiers et les taux de sélection.
  • 07/04/2014, ajout des actes de TALN 1997 et 1998.
  • 02/04/2014, ajout des actes de TALN-RECITAL 1999 et 2000.
  • 28/03/2014, ajout des actes de TALN-RECITAL 2006.
  • 06/02/2014, suppression des fichiers parscit/html/txt et conversion des articles avec pdftotext + nettoyage des header/footer.
  • 03/02/2014, ajout de l'extraction des citations avec ParsCit.
  • 02/02/2014, ajout des actes de RECITAL 2001.
  • 31/01/2014, ajout des actes des conférences TALN-RECITAL 2002 et TALN 2001, modifications des scripts.
  • 29/01/2014, modification du script de conversion pdf->txt et ajout des fichiers txt, html et ocr.
  • 27/01/2014, ajout des actes de TALN/RECITAL 2003, correction de problèmes de case des noms d'auteurs, correction de problèmes de fichiers corrompus (recital-2008-long-010), correction de problèmes de fichiers protégés (taln-2010-long-037), modification globale des méta-données des fichiers pdfs à l'aide de pdftk.
  • 24/01/2014, ajout des actes de RECITAL 2004.
  • 23/01/2014, ajout des actes de TALN 2004 et modification des scripts pour la génération du site web.
  • 21/01/2014, ajout de méta-données pour TALN et RECITAL 2005 (résumé, mots clés) et modification des pdfs.
  • 15/01/2014, corrections de méta-données.
  • 08/01/2014, ajout des actes des conférences TALN 2005 et RECITAL 2005, ajout des noms des sessions dans TALN 2009.
  • 26/07/2013, ajout des fichiers textes, extraits à partir du contenu des articles au format pdf.
  • 18/07/2013, ajout des fichiers de génération de bibtex et du site web.
  • 25/06/2013, ajout des actes des conférences TALN 2013 et RECITAL 2013.

Remerciements

  • José Moreno
  • Thierry Hamon
  • Patrick Paroubek
  • Gil Francopoulo
  • Amir Hazem
  • Anne Vilnat
  • Cédrick Fairon
  • Pierre Zweigenbaum

About

TALN Archives is a digital archive of French research articles in Natural Language Processing

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published