Skip to content

autorite/sedar-bitext

Repository files navigation

For English, please see below

==================================================================

SEDAR: Corpus français - anglais pour le domaine financier

==================================================================

Ce référentiel contient des informations sur le corpus "bitext" de SEDAR. Plus d'informations sur ce dernier sont disponibles sur la publication scientifique (lien (en anglais))

Abbas Ghaddar and Philippe Langlais 
SEDAR: Large Scale French-English Financial Domain Parallel Corpus
In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) 
Or arxiv

Demande pour obtenir les données

L'Autorité des Marchés Financiers (Québec) met à disposition ce corpus pour la communauté académique. Pour obtenir l'accès, merci de remplir ce formulaire et de le renvoyer à fintech@lautorite.qc.ca. Nous étudierons votre demande et, si acceptée, nous vous enverrons le lien pour l'obtention du corpus.

Format des données

Pour un aperçu du contenu des données, merci de voir les "notebooks" de démonstration (lien).

Version Date de publication Période couverte Nombre de paires de phrases
0 2020\01\01 1997\01\01 - 2018\10\01 12 millions

Citation

Merci de citer le papier suivant lors de l'utilisation du corpus:

@inproceedings{ghaddar-langlais-2020-sedar,
    title = "{SEDAR}: a Large Scale {F}rench-{E}nglish Financial Domain Parallel Corpus",
    author = "Ghaddar, Abbas  and
      Langlais, Phillippe",
    booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://www.aclweb.org/anthology/2020.lrec-1.442",
    pages = "3595--3602",
    language = "English",
}
 or arxiv citation

Contacts

Pour plus d'informations, merci de contacter fintech@lautorite.qc.ca

==================================================================

SEDAR: Large Scale French-English Financial Domain Parallel Corpus

==================================================================

This repository contains information on the release of SEDAR bitext cropus, which is presented in the following research publication (link)

Abbas Ghaddar and Philippe Langlais 
SEDAR: Large Scale French-English Financial Domain Parallel Corpus
In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) 
Or arxiv

Request Data

We are pleased to now make SEDAR available to the community for academic research purposes. To access the corpus, please fill the following form and to send it to fintech@lautorite.qc.ca. We will do a review of your proposal and, if acceptable, we will release the corpus to you.

Data Format and Release

For an overview of the content of SEDAR and how files are structured see this notebook.

Version Release date Data date range Total sentence pairs
0 2020\01\01 1997\01\01 - 2018\10\01 12 millions

Citation

Please cite the following paper when using our corpus:

@inproceedings{ghaddar-langlais-2020-sedar,
    title = "{SEDAR}: a Large Scale {F}rench-{E}nglish Financial Domain Parallel Corpus",
    author = "Ghaddar, Abbas  and
      Langlais, Phillippe",
    booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://www.aclweb.org/anthology/2020.lrec-1.442",
    pages = "3595--3602",
    language = "English",
}
 or arxiv citation

Contact

For more information, contact fintech@lautorite.qc.ca

About

Large scale French-English Financial Domain Parallel Corpus extracted from http://sedar.com

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published