Entrainement avec OSCAR #3

luc-leonard · 2021-02-10T09:11:19Z

Bonjour,

Tout d'abord un grand merci pour le travail, c'est génial d'avoir un GPT en francais

Un autre modèle français, CamemBert (https://camembert-model.fr/), existe. Il est basé sur BERT de Facebook, mais ça n'est pas un vrai langage model (voir https://datascience.stackexchange.com/questions/74115/is-bert-a-language-model https://ai.stackexchange.com/questions/9141/can-bert-be-used-for-sentence-generating-tasks), il ne peut donc pas générer du texte par exemple.

Je porte ceci a ton attention car je me dis que le dataset utilisé pour entraîner CamemBERT pourrait peut-être être utilisé pour améliorer belgpt2. Il s'agit d'OSCAR, un dataset multilingue, trouvable ici https://oscar-corpus.com/.

La version francaise contient 282Go de texte.
Je peux aider a préparer le dataset, si besoin

En te remerciant encore pour ton travail :)

ant-louis self-assigned this Feb 22, 2021

ant-louis added the enhancement New feature or request label Feb 22, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Entrainement avec OSCAR #3

Entrainement avec OSCAR #3

luc-leonard commented Feb 10, 2021

Entrainement avec OSCAR #3

Entrainement avec OSCAR #3

Comments

luc-leonard commented Feb 10, 2021