In [3]:
from transformers import pipeline, set_seed, AutoTokenizer, AutoModelForMaskedLM
from sentence_transformers import SentenceTransformer, util
import torch

# Chargement des pipelines
mlm_pipe = pipeline("fill-mask", model="distilroberta-base")
clm_pipe = pipeline("text-generation", model="gpt2")

# Modèle pour validation
sentence_model = SentenceTransformer('all-MiniLM-L6-v2')

# Phrase d'origine
original_text = "Après votre séance d’entraînement, pensez à maintenir un bon équilibre hydrique."

# 1. Génération avec MLM
masked_text = "Après votre séance d’entraînement, pensez à <mask> un bon équilibre hydrique."
mlm_results = [result['sequence'] for result in mlm_pipe(masked_text)]

# 2. Génération avec CLM
set_seed(42)  # Pour des résultats reproductibles
clm_results = clm_pipe(original_text, max_length=50, num_return_sequences=5)

# Combiner les résultats
generated_texts = mlm_results + [res['generated_text'] for res in clm_results]

# 3. Validation des similarités
original_embedding = sentence_model.encode(original_text, convert_to_tensor=True)
generated_embeddings = sentence_model.encode(generated_texts, convert_to_tensor=True)

# Calcul de la similarité cosinus
similarities = util.pytorch_cos_sim(original_embedding, generated_embeddings)

# Résultats
for i, (text, score) in enumerate(zip(generated_texts, similarities[0])):
    print(f"Reformulation {i+1}: {text} (Similarité: {score.item():.4f})")


model.safetensors:  70%|######9   | 231M/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Reformulation 1: Après votre séance d’entraînement, pensez à faire un bon équilibre hydrique. (Similarité: 0.9536)
Reformulation 2: Après votre séance d’entraînement, pensez à plus un bon équilibre hydrique. (Similarité: 0.9638)
Reformulation 3: Après votre séance d’entraînement, pensez à travers un bon équilibre hydrique. (Similarité: 0.9516)
Reformulation 4: Après votre séance d’entraînement, pensez à « un bon équilibre hydrique. (Similarité: 0.9463)
Reformulation 5: Après votre séance d’entraînement, pensez à ce un bon équilibre hydrique. (Similarité: 0.9638)
Reformulation 6: Après votre séance d’entraînement, pensez à maintenir un bon équilibre hydrique. (Similarité: 1.0000)
Reformulation 7: Après votre séance d’entraînement, pensez à maintenir un bon équilibre hydrique.

Les césapiens qui m'héneriés pas ré (Similarité: 0.9417)
Reformulation 8: Après votre séance d’entraînement, pensez à maintenir un bon équilibre hydrique.

Félément les léoches à bien sur la c (Similarité: 0.9037)

In [4]:
# Nouvelle phrase d'origine (changer ici)
original_text = "La gestion des déchets est un enjeu crucial pour la durabilité des villes."

masked_text = "La gestion des déchets est un enjeu crucial pour <mask> durabilité des villes."
mlm_results = [result['sequence'] for result in mlm_pipe(masked_text)]

set_seed(42)  # Pour des résultats reproductibles
clm_results = clm_pipe(original_text, max_length=50, num_return_sequences=5)

generated_texts = mlm_results + [res['generated_text'] for res in clm_results]

original_embedding = sentence_model.encode(original_text, convert_to_tensor=True)
generated_embeddings = sentence_model.encode(generated_texts, convert_to_tensor=True)

similarities = util.pytorch_cos_sim(original_embedding, generated_embeddings)

# Résultats
for i, (text, score) in enumerate(zip(generated_texts, similarities[0])):
    print(f"Reformulation {i+1}: {text} (Similarité: {score.item():.4f})")


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Reformulation 1: La gestion des déchets est un enjeu crucial pour la durabilité des villes. (Similarité: 1.0000)
Reformulation 2: La gestion des déchets est un enjeu crucial pour une durabilité des villes. (Similarité: 0.9924)
Reformulation 3: La gestion des déchets est un enjeu crucial pour le durabilité des villes. (Similarité: 0.9941)
Reformulation 4: La gestion des déchets est un enjeu crucial pour faire durabilité des villes. (Similarité: 0.9510)
Reformulation 5: La gestion des déchets est un enjeu crucial pour les durabilité des villes. (Similarité: 0.9885)
Reformulation 6: La gestion des déchets est un enjeu crucial pour la durabilité des villes. (Similarité: 1.0000)
Reformulation 7: La gestion des déchets est un enjeu crucial pour la durabilité des villes.

Les cinégs qui m'aingon avec la révierté.

Un serait de (Similarité: 0.8958)
Reformulation 8: La gestion des déchets est un enjeu crucial pour la durabilité des villes.

Il septembre la malaise à la monde, c'est étaient pour