Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Entrainement avec OSCAR #3

Open
luc-leonard opened this issue Feb 10, 2021 · 0 comments
Open

Entrainement avec OSCAR #3

luc-leonard opened this issue Feb 10, 2021 · 0 comments
Assignees
Labels
enhancement New feature or request

Comments

@luc-leonard
Copy link

Bonjour,

Tout d'abord un grand merci pour le travail, c'est génial d'avoir un GPT en francais

Un autre modèle français, CamemBert (https://camembert-model.fr/), existe. Il est basé sur BERT de Facebook, mais ça n'est pas un vrai langage model (voir https://datascience.stackexchange.com/questions/74115/is-bert-a-language-model https://ai.stackexchange.com/questions/9141/can-bert-be-used-for-sentence-generating-tasks), il ne peut donc pas générer du texte par exemple.

Je porte ceci a ton attention car je me dis que le dataset utilisé pour entraîner CamemBERT pourrait peut-être être utilisé pour améliorer belgpt2. Il s'agit d'OSCAR, un dataset multilingue, trouvable ici https://oscar-corpus.com/.

La version francaise contient 282Go de texte.
Je peux aider a préparer le dataset, si besoin

En te remerciant encore pour ton travail :)

@ant-louis ant-louis self-assigned this Feb 22, 2021
@ant-louis ant-louis added the enhancement New feature or request label Feb 22, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants