Skip to content

Corpus FENEC (FrEnch Named-entity Evaluation Corpus), un corpus à échantillons équilibrés contenant six genres et annoté en entités nommées selon le schéma fin Quæro.

alicemillour/FENEC

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

FENEC : un corpus à échantillons équilibrés pour l'évaluation des entités nommées en français

FENEC (FrEnch Named-entity Evaluation Corpus) est un corpus à échantillons équilibrés contenant six genres, annoté en entités nommées selon le schéma fin Quæro.

Contenu du corpus annoté

# Document Source Période Genre Nb. phrases (Nb. tokens) Licence
1 prose01-Voltaire Traité sur la Tolérance, Voltaire (id : 42131-0) XVIIIe prose 40 (1 020) Project Gutenberg
2 prose02-Zola Le Ventre de Paris, Émile Zola (id : pg6470) XIXe prose 51 (1 002) Project Gutenberg
3 prose03-Giono L'Homme qui plantait des arbres, Jean Giono XXe prose 53 (1 013) Public Domain
4 poetry01-Baudelaire Les Fleurs du Mal, Baudelaire (id : pg6099) XIXe poésie 30 (1 014) Project Gutenberg
5 poetry02-Rimbaud OEuvres d'Arthur Rimbaud - Vers et proses (id : 56708-0) XIXe poésie 52 (1 027) Project Gutenberg
6 multi01-UDFrenchGSD UD French GSD XXIe multisources 35 (1 021) CC BY-SA 4.0
7 multi02-Sequoia Sequoia XXIe multisources 44 (1 002) Licence LGPL-LR
8 multi03-FQB French Question Bank XXIe multisources 102 (1 006) Licence LGPL-LR
9 information01-APIL APIL (office du tourisme Othe-Armance) XXIe informations 29 (1 002) Licence LGPL-LR
10 information02-Wikinews Wikinews XXIe informations 46 (1 024) CC BY 2.5
11 information03-LEstRepublicain L'Est Républicain XXIe informations 40 (1,000) CC BY-SA 2.0
12 encyclopedia01-WikiNER WikiNER français XXIe encyclopédie 36 (1 003) CC BY 4.0
13 spoken01-Rhapsodie Spoken (Rhapsodie) XXIe parole 70 (1 028) CC BY-SA 4.0
14 spoken02-Rhapsodie Spoken (Rhapsodie) XXIe parole 78 (1 014) CC BY-SA 4.0
15 spoken03-Rhapsodie Spoken (Rhapsodie) XXIe parole 65 (1 019) CC BY-SA 4.0

Citer FENEC

Alice Millour, Yoann Dupont, Alexane Jouglar, and Karën Fort. 2022. FENEC : un corpus équilibré pour l’évaluation des entités nommées en français (FENEC : a balanced sample corpus for French named entity recognition ). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 82–94, Avignon, France. ATALA.

https://aclanthology.org/2022.jeptalnrecital-taln.8/

About

Corpus FENEC (FrEnch Named-entity Evaluation Corpus), un corpus à échantillons équilibrés contenant six genres et annoté en entités nommées selon le schéma fin Quæro.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published