Filling masks #33

xiaoouwang · 2021-02-15T21:21:42Z

Bonjour bonjour ! Merci d'avoir partagé le modèle !

Dans Camembert il est assez facile de deviner un mot à partir du contexte, y a-t-il un working example dans Flaubert ?

Merci d'avance !

from fairseq.models.roberta import CamembertModel
camembert = CamembertModel.from_pretrained('./camembert-base/')
camembert.eval()
masked_line = 'Le camembert est <mask> :)'
camembert.fill_mask(masked_line, topk=3)
# [('Le camembert est délicieux :)', 0.4909118115901947, ' délicieux'),
]#  ('Le camembert est excellent :)', 0.10556942224502563, ' excellent'),
#  ('Le camembert est succulent :)', 0.03453322499990463, ' succulent')]

formiel · 2021-02-18T22:17:19Z

Bonjour,

Merci pour votre intérêt à Flaubert ! Et désolé pour le retard.

Vous pouvez utiliser transformers pour cette tâche comme suivant :

from transformers import pipeline
nlp_fill = pipeline('fill-mask', model="flaubert/flaubert_base_cased", topk=3)
nlp_fill("Paris est la <special1> de la France.")

Résultat :

[{'sequence': '<s>Paris est la capitale de la France. </s>', 'score': 0.38478967547416687, 'token': 1720, 'token_str': 'capitale</w>'}, 
{'sequence': '<s>Paris est la propriété de la France. </s>', 'score': 0.021579978987574577, 'token': 2068, 'token_str': 'propriété</w>'}, 
{'sequence': '<s>Paris est la politique de la France. </s>', 'score': 0.016734756529331207, 'token': 223, 'token_str': 'politique</w>'}]

xiaoouwang · 2021-02-18T23:14:26Z

Bonjour,

Merci pour votre intérêt à Flaubert ! Et désolé pour le retard.

Vous pouvez utiliser transformers pour cette tâche comme suivant :

from transformers import pipeline
nlp_fill = pipeline('fill-mask', model="flaubert/flaubert_base_cased", topk=3)
nlp_fill("Paris est la <special1> de la France.")

Résultat :

[{'sequence': '<s>Paris est la capitale de la France. </s>', 'score': 0.38478967547416687, 'token': 1720, 'token_str': 'capitale</w>'}, 
{'sequence': '<s>Paris est la propriété de la France. </s>', 'score': 0.021579978987574577, 'token': 2068, 'token_str': 'propriété</w>'}, 
{'sequence': '<s>Paris est la politique de la France. </s>', 'score': 0.016734756529331207, 'token': 223, 'token_str': 'politique</w>'}]

Merci de votre réponse ! Je clos le issue :D

xiaoouwang · 2021-03-29T15:06:40Z

Juste par précaution s'il y a d'autres personnes qui tombent sur cet issue, l'option topk est maintenant top_k

schwabdidier · 2021-03-29T15:44:04Z

Bonne idée de le préciser. Merci

xiaoouwang closed this as completed Feb 18, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Filling masks #33

Filling masks #33

xiaoouwang commented Feb 15, 2021 •

edited

formiel commented Feb 18, 2021

xiaoouwang commented Feb 18, 2021

xiaoouwang commented Mar 29, 2021

schwabdidier commented Mar 29, 2021

Filling masks #33

Filling masks #33

Comments

xiaoouwang commented Feb 15, 2021 • edited

formiel commented Feb 18, 2021

xiaoouwang commented Feb 18, 2021

xiaoouwang commented Mar 29, 2021

schwabdidier commented Mar 29, 2021

xiaoouwang commented Feb 15, 2021 •

edited