#Synthèse de l’étude **STYLEMC**

## **Contexte de l’étude**
L’objectif de **STYLEMC** est de produire un texte qui respecte les contraintes suivantes :
1. **Style spécifique** : générer du texte conforme au style démontré dans un exemple donné, souvent tiré des écrits d’un auteur.
2. **Préservation sémantique** : garantir que le texte généré conserve la signification du texte original (dans le cas du transfert de style).
3. **Modification minimale** (dans certaines tâches) : minimiser les changements nécessaires entre un texte source et un texte généré.

Pour atteindre ces objectifs, deux approches principales sont explorées : **Style-controlled generation** et **Controlled text revision**.

---

## **Approche 1 : Style-controlled generation**
Dans cette approche, le texte est généré à partir d’un modèle d’auto-régression (comme GPT) adapté au style de l’auteur, en intégrant deux experts :
- **Expert \( E_1 \)** : Ce modèle évalue la probabilité des séquences générées \( x \) dans un style donné \( f(x) \). Il s’agit d’un modèle de langage spécifiquement finetuné sur les écrits de l’auteur pour attribuer des scores plus élevés aux séquences stylistiquement conformes.
- **Expert \( E_2 \)** : Il mesure la **similarité stylistique** entre \( f(x) \) (le vecteur de style du texte généré) et \( f(y) \) (le vecteur de style cible). Cela garantit que la séquence générée adhère bien au style souhaité.

### **Processus** :
1. Un ensemble de séquences candidates est généré par un modèle de langage (GPT ou un modèle adapté).
2. Les experts \( E_1 \) (probabilité stylistique) et \( E_2 \) (similarité stylistique) attribuent des scores aux séquences.
3. Les séquences sont classées en fonction d’un score combiné. Seules celles qui maximisent ces critères sont sélectionnées.

### **Avantage de l’approche** :
- Flexible : permet de générer du texte dans des styles variés.
- Direct : utilise un modèle d’auto-régression pour explorer l’espace des séquences possibles.

### **Limitation** :
- Pas toujours adapté si une forte préservation sémantique est nécessaire, car l’approche ne se concentre que sur le style.

---

## **Approche 2 : Controlled text revision**
Dans cette méthode, le but est de modifier un texte existant \( x_0 \) pour l’adapter à un style cible \( f(y) \), tout en préservant son sens. Cette approche introduit deux experts supplémentaires :

- **Expert \( E_3 \)** : Évalue la similarité sémantique entre le texte généré \( x \) et le texte source \( x_0 \). Ceci garantit que la signification d’origine est respectée.
- **Expert \( E_4 \)** : Mesure la **distance entre le texte source \( x_0 \) et le texte généré \( x \)**, souvent en utilisant des métriques comme la distance de Levenshtein ou la distance de Hamming. Ceci impose que les modifications soient minimales.
  - Les distances comme Levenshtein ou Hamming travaillent au niveau des caractères ou des chaînes de mots, et non au niveau des idées exprimées. Par exemple :

    Texte source : "La pluie tombe."
Texte généré : "Il pleut."
Distance de Levenshtein = 8 (8 opérations nécessaires pour transformer l'un en l'autre).
Pourtant, ces deux phrases sont sémantiquement identiques.

### **Processus** :
1. Un texte initial \( x_0 \) est fourni.
2. Le modèle génère une version révisée \( x \), en prenant en compte les contraintes stylistiques et sémantiques.
3. Les experts \( E_1 \), \( E_2 \), \( E_3 \), et \( E_4 \) attribuent des scores, et une combinaison des scores est utilisée pour sélectionner la meilleure séquence révisée.

### **Avantage de l’approche** :
- Idéal pour le transfert de style, où le texte source doit être transformé tout en conservant sa signification.

### **Limitation** :
- Peut nécessiter des ajustements subtils pour équilibrer les différentes contraintes (style, sémantique, modifications minimales).

---

## **Les experts en détail**

1. **\( E_1 \) (Probabilité stylistique)** :
   - Évalue la probabilité des séquences générées dans un style donné à l’aide d’un modèle préalablement finetuné.
   - **Analogie** : Imaginez un expert qui connaît parfaitement un écrivain célèbre et qui peut vous dire si une phrase donnée aurait pu être écrite par cet écrivain, simplement en se basant sur ses caractéristiques stylistiques globales.

2. **\( E_2 \) (Similarité stylistique)** :
   - Compare directement les vecteurs de style \( f(x) \) (texte généré) et \( f(y) \) (texte cible). Il utilise une mesure comme la similarité angulaire ou la distance entre les vecteurs pour évaluer si les deux styles correspondent.
   - **Analogie** : Cet expert fonctionne comme un miroir : il prend deux textes et se demande dans quelle mesure leurs styles se reflètent l’un dans l’autre.

3. **\( E_3 \) (Similarité sémantique)** :
   - Compare les embeddings sémantiques des textes générés \( x \) et du texte source \( x_0 \).
   - Utilise des modèles comme **SBERT** et la similarité cosinus pour mesurer la préservation du sens.

4. **\( E_4 \) (Distance de révision)** :
   - Mesure la distance entre le texte source \( x_0 \) et le texte généré \( x \).
   - Assure que les modifications sont minimales. Peut utiliser des distances comme Hamming ou Levenshtein.

---

## **Exemple concret des experts**
Prenons une phrase source :

> "Ce matin, il pleuvait si fort que les trottoirs ressemblaient à des miroirs brisés."

- **\( E_1 \)** (sémantique) vérifierait que le texte généré exprime la même idée :
  - Exemple :
    > "Il pleuvait tellement ce matin que l’eau sur le trottoir brillait comme du verre cassé."

- **\( E_2 \)** (stylistique) s’assurerait que le style (poétique, métaphorique) est respecté, même si le contenu change légèrement :
  - Exemple :
    > "Sous la pluie battante de ce matin, les trottoirs luisaient comme des éclats de miroir."

En combinant les deux, on s’assure que le texte est à la fois :
1. **Fidèle à l’idée d’origine** grâce à \( E_1 \).
2. **Écrit dans le style souhaité** grâce à \( E_2 \).

---

## **Synthèse : Différences entre les deux approches**

| **Aspect**                  | **Style-controlled generation**                          | **Controlled text revision**                           |
|-----------------------------|--------------------------------------------------------|-------------------------------------------------------|
| **Entrée principale**        | Pas de texte initial, uniquement un style cible \( y \). | Texte initial \( x_0 \) et style cible \( y \).       |
| **Experts impliqués**        | \( E_1, E_2 \)                                         | \( E_1, E_2, E_3, E_4 \)                              |
| **Focus**                   | Générer un texte conforme au style.                    | Adapter un texte existant au style cible.             |
| **Avantage principal**       | Génération libre et créative.                          | Garantit la préservation sémantique et des modifications minimales. |
| **Limitation principale**    | Moins adapté pour préserver le sens.                  | Moins adapté pour créer un texte entièrement nouveau. |

---

## **Applications concrètes**
- **Style-controlled generation** : Créer des articles, des histoires, ou des posts dans un style précis.
- **Controlled text revision** : Modifier des documents existants pour s’adapter à un ton, une voix ou un style particulier.

---

### Synthèse des modèles LUAR-CRUD et LUAR-MUD

1. **LUAR-CRUD** :
   - **Objectif** : Reproduire fidèlement le style d’un auteur donné.
   - **Usage principal** : Générer des textes stylistiquement cohérents avec des exemples d’écriture spécifiques.
   - **Point fort** : Excellente précision pour imiter un style particulier.

2. **LUAR-MUD** :
   - **Objectif** : Mélanger plusieurs styles ou produire des textes dans un style neutre/diversifié.
   - **Usage principal** : Génération de textes anonymisés ou avec des caractéristiques stylistiques moins distinctes.
   - **Point fort** : Flexibilité pour adapter ou neutraliser le style d’un texte.

#### **Résumé des applications** :
- Utilisez **LUAR-CRUD** si vous voulez imiter ou reproduire un style spécifique (par exemple, pour émuler un auteur précis).
- Utilisez **LUAR-MUD** pour générer des textes anonymisés, stylistiquement neutres, ou diversifiés.


---

## **Conclusion**
Les deux approches permettent de générer du texte contrôlé, mais elles diffèrent par leur application. **STYLEMC** montre que l’utilisation d’experts (EBM) est essentielle pour équilibrer les contraintes de style et de sémantique, et que ces experts peuvent être ajustés selon les besoins pour produire du texte à la fois fluide, stylistiquement conforme, et sémantiquement pertinent.


# Code


## 1. Chargement du texte à modifier



In [None]:
# Chargement d'un texte normal à modifier
input_text = """
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods. Packed with an array of essential nutrients, chlorella is a powerhouse of vitamins, minerals, antioxidants, and proteins that support overall health and wellness. This vibrant green algae is particularly celebrated for its high chlorophyll content, which aids in detoxifying the body by removing heavy metals and other toxins. Additionally, chlorella is a rich source of vitamin B12, making it a valuable supplement for those following plant-based diets.
"""

print(input_text)


Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods. Packed with an array of essential nutrients, chlorella is a powerhouse of vitamins, minerals, antioxidants, and proteins that support overall health and wellness. This vibrant green algae is particularly celebrated for its high chlorophyll content, which aids in detoxifying the body by removing heavy metals and other toxins. Additionally, chlorella is a rich source of vitamin B12, making it a valuable supplement for those following plant-based diets.



## 2. Chargement du style cible

In [None]:
# Charger le texte cible représentant le style souhaité
target_style_text = """
I'm glad that Disney Animation is doing movies for the Tangled/Frozen/princess set,
and movies that are a little more out-there like Wreck-It Ralph and Big Hero 6. It's nice
that Disney isn't limiting itself to one genre. That being said, I wish they still did
hand-drawn animation (I'm an animator, got interested in animation because of Disney's
hand-drawn films), but Wreck-It Ralph had some amazing character animation performances
and based on the trailers I'm looking forward to seeing the performances in Big Hero 6.
Looks like a pretty great ensemble of varied and fun characters.
"""


##3. Génération des séquences

# Synthèse : Génération de Séquences pour le Transfert de Style

## Modèles Utilisés
- **OPT** (e.g., OPT-6.7B) et **MPT** (e.g., MPT-7B) sont utilisés pour générer les séquences.
- Les modèles sont utilisés **en parallèle**, et l'**EBM** sélectionne la meilleure séquence parmi celles générées.

## Processus Inspiré de Patel et al.
- La méthode s'inspire des travaux de **Patel et al.**, où un processus en deux étapes est utilisé :
  1. **Paraphrase dans un style neutre** pour éliminer les biais stylistiques.
  2. **Réécriture dans le style cible** pour transformer le texte en accord avec les caractéristiques stylistiques souhaitées.
- Ces travaux explorent également des prompts complexes et des variations en "few-shot prompting" pour guider la génération.

---

## Processus en Deux Étapes
1. **Paraphrase en style neutre** :
   - Nettoie le texte des caractéristiques stylistiques originales.
   - Exemple de prompt :
     ```
     Paraphrase the following text into a neutral style:

     Input Text:
     {texte_source}

     Paraphrased Text:
     ```

2. **Réécriture dans le style cible** :
   - Génère une version du texte alignée avec le style cible.
   - Exemple de prompt :
     ```
     Rewrite the following text to match the target style:

     Input Text:
     {texte_paraphrasé}

     Target Style:
     {description_du_style_cible}

     Rewritten Text:
     ```

---

## Méthodologie
1. **Génération simultanée** :
   - Les deux modèles (OPT et MPT) génèrent des séquences basées sur le texte source et les prompts fournis.
   - Chaque modèle produit plusieurs séquences candidates.

2. **Filtrage avec EBM** :
   - L'Energy-Based Model (EBM) évalue les séquences générées selon des critères :
     - **Similarité sémantique** avec le texte source.
     - **Alignement stylistique** avec le style cible.
   - La séquence avec le score EBM le plus élevé est sélectionnée comme résultat final.




In [None]:
# Étape 1 : Connexion à Hugging Face
hf_token = "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"  # Remplacez par votre token personnel
login(hf_token)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Charger le modèle et le tokenizer OPT
model_name = "facebook/opt-6.7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")

# Définir le prompt pour le transfert de style
# Exemple de prompt inspiré de l'étude
input_text = """
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods.
"""
target_style_text = """
Write in a conversational tone with engaging language. Use simple sentences and avoid technical jargon.
"""

prompt = (
    f"Rewrite the following text in the target style.\n\n"
    f"Text: {input_text}\n\n"
    f"Target Style: {target_style_text}\n\n"
    f"Rewritten Text:"
)

# Encoder le prompt
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

# Générer les séquences
outputs = model.generate(

    input_ids=input_ids,
    max_length=200,  # Longueur maximale de la génération
    num_return_sequences=3,  # Générer plusieurs séquences
    num_beams=5,  # Beam search pour des résultats optimaux
    early_stopping=True,  # Arrêter dès que la fin est atteinte
)

# Décoder et afficher les séquences générées
sequences = tokenizer.batch_decode(outputs, skip_special_tokens=True)
for i, seq in enumerate(sequences, 1):
    print(f"Sequence {i}:\n{seq}\n")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/685 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/651 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/441 [00:00<?, ?B/s]



pytorch_model.bin.index.json:   0%|          | 0.00/41.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

pytorch_model-00001-of-00002.bin:   0%|          | 0.00/9.96G [00:00<?, ?B/s]

pytorch_model-00002-of-00002.bin:   0%|          | 0.00/3.36G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]



Sequence 1:
Rewrite the following text in the target style.

Text: 
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods.


Target Style: 
Write in a conversational tone with engaging language. Use simple sentences and avoid technical jargon.


Rewritten Text: 
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods.

Rewrite the following text in the target style.

Text: 
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one of nature's most potent superfoods.


Target Style: 
Write in a conversational tone with engaging language. Use simple sentences and avoid technical jargon.


Rewritten Text: 
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as one

Sequence 2:
Rewrite the following text in the target style.

Text: 
Chlorella, a nutrient-dense freshwater algae, is quickly gaining recognition as on

In [None]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

input_ids = tokenizer("translate English to French: The house is wonderful.", return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Sequence 1:
to match the target style. Target Style: Write in a conversational and engaging tone. Rewritten Text: Input: Chlorella is one of nature's most potent superfoods. Rewrite the following text to match the target style. Input: Chlorella is one of nature's most potent superfoods. Input: Target Style:. Rewrite:.re:...:,

Sequence 2:
to match the target style. Input: Chlorella is one of nature's most potent superfoods. Rewrite the following text to match the target style. Target Style: Write in a conversational and engaging tone. Input: Chlorella is quickly becoming recognized as one of nature's potent superfoods. Input: Target Style.. Rewrite::re:...::

Sequence 3:
to match the target style. Target Style: Write in a conversational and engaging tone. Rewritten Text: Input: Chlorella is one of nature's most potent superfoods. Rewrite the following text to match the target style. Input: Chlorella is one of nature's most potent superfoods. Input: Target Style:. Rewrite:.re:.:.:,



## 3. Extraction des matrices de styles du target style


In [None]:
from transformers import AutoModel, AutoTokenizer
from huggingface_hub import snapshot_download
import torch

# Assurez-vous que `target_style_text` est une chaîne unique
if isinstance(target_style_text, list):
    target_style_text = " ".join(target_style_text)  # Combinez les phrases en une seule chaîne

# Divisez le texte en sous-séquences pour respecter le format attendu par LUAR-CRUD
max_episode_length = 32  # Nombre maximum de tokens par séquence
tokenized_sentences = tokenizer_crud(
    target_style_text.split(". "),  # Diviser en phrases approximatives
    max_length=max_episode_length,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)

# Restructurer pour LUAR-CRUD
batch_size = 1
episode_length = tokenized_sentences["input_ids"].size(0)
tokenized_text_crud = {
    "input_ids": tokenized_sentences["input_ids"].reshape(batch_size, episode_length, -1),
    "attention_mask": tokenized_sentences["attention_mask"].reshape(batch_size, episode_length, -1),
}

# Vérification avec le modèle
with torch.no_grad():
    out_crud = model_crud(**tokenized_text_crud)
    print("Sortie brute LUAR-CRUD :", out_crud)
    print("Dimensions de sortie LUAR-CRUD :", out_crud[0].size() if isinstance(out_crud, tuple) else out_crud.size())


Sortie brute LUAR-CRUD : tensor([[ 1.2340e-01, -1.4106e-01,  9.2694e-02, -2.1999e-01, -1.4700e-01,
          8.1366e-01, -1.2332e-01, -1.3767e-01, -2.2923e-01, -3.9851e-01,
         -1.4796e-01, -9.1101e-01, -1.6229e-01, -3.6095e-01,  2.4092e-01,
          2.3500e-01, -2.3908e-01, -4.3460e-01, -4.5418e-01, -1.3597e-01,
          1.2831e-01,  2.5635e-02,  1.1581e-01,  1.9168e-01,  2.1781e-01,
          2.4260e-01, -1.7578e-01,  2.7207e-01,  4.3497e-01, -1.1129e-01,
          1.4240e-01, -1.0884e-01, -1.0100e-01,  1.8521e-02,  3.1803e-01,
         -7.7998e-02,  3.7201e-02,  2.1705e-01,  1.2726e-01,  3.7283e-01,
         -1.9133e-01,  1.8468e-01, -2.2661e-01,  6.6565e-01,  1.5392e-02,
          3.8630e-01,  2.0063e-01,  8.9355e-01, -1.0992e-01,  1.9212e-01,
          3.5995e-01, -1.7430e-01,  5.4651e-02, -1.7264e-01, -1.8540e-01,
          2.9559e-01,  4.9155e-01,  2.0775e-01, -4.9528e-02, -3.6050e-01,
         -1.5931e-02,  2.0180e-01,  1.8733e-01, -1.3648e-01, -4.7497e-01,
         -3.9

## 4. Génération des séquences cibles

### Modèles utilisés
- T5-3B :

 - Un modèle encoder-decoder bien connu, pré-entraîné sur une tâche d'in-filling (complétion) et capable de générer des séquences cohérentes.
 - Utilisé dans l'étude pour proposer des séquences initiales conformes à un style cible.

- OPT-1.3B :

 - Un modèle decoder-only développé par Meta AI, conçu comme une alternative ouverte à GPT-3.
 - Employé ici pour les révisions des séquences en tenant compte des contraintes stylistiques.
- 82M :
 - Représente probablement un modèle beaucoup plus petit utilisé pour des tâches spécifiques, comme l'estimation fine de certains aspects stylistiques.

### Languages models
- Our proposed methods operate on a frozen underlying LM; we do not perform any fine-tuning. Across all experiments we
use variants of OPT and MPT-7B to generate text
(Zhang et al., 2022; Team, 2023).
- For EBMs, we use T5-3B as our proposal distribution.

### Future Regressor

- **Rôle :**
  - Le Future Regressor est un outil de **re-scoring** des séquences générées, conçu pour améliorer leur pertinence stylistique selon les spécificités d’un auteur.
- **Objectif principal :**
  - Capturer les nuances stylistiques propres à un auteur et ajuster les scores des séquences en conséquence.
- **Fonctionnement :**
  - Utilise un modèle comme **OPT-1.3B** pour générer des séquences initiales.
  - Le Future Regressor est entraîné sur des exemples spécifiques à l’auteur pour prédire des scores stylistiques.
  - Ces scores sont ensuite combinés avec les scores initiaux du modèle générateur pour re-classer les séquences.

In [None]:
# Penser a calculer les embeddings de style de GPT 4 et voir si on arrive a en avoir d'autres après les few shots. Si j'arrive a finetuner un agent qui produit des texte semantiquements equivalents avec un autre style , ça peut etre très efficace

##Expert ( E_1) : Probabilité stylistique

##Expert ( E_2 ) : Similarité stylistique (LUAR-CRUD / AnnaWegmann)

In [None]:
from transformers import AutoModel, AutoTokenizer
from huggingface_hub import snapshot_download
import torch

# Téléchargement et chargement des modèles et tokenizers
snapshot_download(repo_id="rrivera1849/LUAR-CRUD", local_dir="/tmp/LUAR-CRUD", cache_dir="/tmp/LUAR-CRUD", revision="main")
tokenizer_crud = AutoTokenizer.from_pretrained("/tmp/LUAR-CRUD", use_fast=False)
model_crud = AutoModel.from_pretrained("/tmp/LUAR-CRUD", trust_remote_code=True)

snapshot_download(repo_id="AnnaWegmann/Style-Embedding", local_dir="/tmp/Style-Embedding", cache_dir="/tmp/Style-Embedding", revision="main")
tokenizer_style = AutoTokenizer.from_pretrained("/tmp/Style-Embedding", use_fast=False)
model_style = AutoModel.from_pretrained("/tmp/Style-Embedding", trust_remote_code=True)

# Commentaires de l'auteur "originalcondition"
input_text = [
    "I'm glad that Disney Animation is doing movies for the Tangled/Frozen/princess set, and movies that are a little more out-there like Wreck-It Ralph and Big Hero 6. It's nice that Disney isn't limiting itself to one genre. That being said, I wish they still did hand-drawn animation (I'm an animator, got interested in animation because of Disney's hand-drawn films), but Wreck-It Ralph had some amazing character animation performances and based on the trailers I'm looking forward to seeing the performances in Big Hero 6. Looks like a pretty great ensemble of varied and fun characters.",
    "Add an extra continent to the map; maybe with an X through it?",
    "This was one of the things I loved most about the movie—the people looked and dressed like real people, especially the students. Even the “hot” students like Summer and Trisha and the popular guy weren’t really Hollywood-hot, they had just enough weirdness about them that they felt like real middle-America attempts at Hollywood hotness. I know Summer was played by Hilary Duff’s sister, but the filmmakers resisted the urge to give her Hollywood-level hair/makeup/costumes.",
    "I know a bunch of people have reaffirmed that you should break up but I just wanted to point out what a dick he's being by using that phrasing. He's trying to make you feel like it's your fault that he won't come over, he's not taking responsibility for his own actions or even his own feelings. All else aside, he's being at best immature and at worst a manipulative jerk if he's saying stuff like that.",
    "Honestly for kids that young I don’t know if the question is, “what if they’re gay?” but rather something like, “What if their personal aesthetic preferences just don’t fit our current gender stereotypes?” Male children can like pink/purple/glitter/etc and still grow up to be straight. Same with female children who like cars and robots and dinosaurs. Kids also like all kinds of aesthetic stuff that they grow out of later, etc etc., and it has no bearing on their sexuality once it develops.",
    "The Nahua (Aztec) year was 365 days long, with 18 months that were 20 days long and an additional 5 'hollow' days which were considered a time of cosmic instability. Leap years were accounted for by official calendar-keepers who would choose when to add the extra day.",
    "Ep 8 should have paired up Finn and Poe on a mission of some kind, ideally something that made more sense than either the casino planet or the 'I'm acting irrationally because I'm not being given crucial info' subplot."
]

# Aplatir le texte pour le tokenizer
text = comments

# Tokenisation avec LUAR-CRUD
tokenized_text_crud = tokenizer_crud(
    text,
    max_length=32,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)
tokenized_text_crud["input_ids"] = tokenized_text_crud["input_ids"].reshape(1, len(text), -1)
tokenized_text_crud["attention_mask"] = tokenized_text_crud["attention_mask"].reshape(1, len(text), -1)

# Tokenisation avec Style-Embedding (sans remodeler les dimensions)
tokenized_text_style = tokenizer_style(
    text,
    max_length=32,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)

# Vérifier directement la sortie pour comprendre sa structure
with torch.no_grad():
    # Embeddings LUAR-CRUD
    out_crud = model_crud(**tokenized_text_crud)
    print("Sortie brute LUAR-CRUD :", out_crud)
    print("Dimensions de sortie LUAR-CRUD :", out_crud[0].size() if isinstance(out_crud, tuple) else out_crud.size())

    # Embeddings Style-Embedding
    out_style = model_style(**tokenized_text_style)
    print("\nSortie brute Style-Embedding :", out_style)

    # Extraction de pooler_output ou last_hidden_state pour Style-Embedding
    if hasattr(out_style, "pooler_output"):
        style_embeddings = out_style.pooler_output
        print("Dimensions de pooler_output Style-Embedding :", style_embeddings.size())
    else:
        style_embeddings = out_style.last_hidden_state.mean(dim=1)  # Moyenne des embeddings si pas de pooler_output
        print("Dimensions de last_hidden_state moyennées Style-Embedding :", style_embeddings.size())

# Afficher les embeddings de style pour les deux modèles
print("\nEmbeddings de style LUAR-CRUD :")
print(out_crud[0] if isinstance(out_crud, tuple) else out_crud)

print("\nEmbeddings de style Style-Embedding :")
print(style_embeddings)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Fetching 12 files:   0%|          | 0/12 [00:00<?, ?it/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.38k [00:00<?, ?B/s]

config.py:   0%|          | 0.00/535 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/335 [00:00<?, ?B/s]

.gitattributes:   0%|          | 0.00/1.52k [00:00<?, ?B/s]

model.py:   0%|          | 0.00/8.33k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/330M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/330M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.25k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.56M [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/718 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/328M [00:00<?, ?B/s]

Fetching 14 files:   0%|          | 0/14 [00:00<?, ?it/s]

README.md:   0%|          | 0.00/5.78k [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/718 [00:00<?, ?B/s]

.gitattributes:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/117 [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

eval/triplet_evaluation_results.csv:   0%|          | 0.00/659 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/499M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/354 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]



Sortie brute LUAR-CRUD : tensor([[-6.1919e-02,  1.9527e-01,  1.6834e-01,  3.4075e-01, -1.6553e-01,
          5.6093e-02, -4.6103e-01, -1.0731e-01, -3.3503e-01, -1.5201e-01,
          1.2912e-01, -2.4290e-01, -1.2807e-01, -4.5425e-01, -7.3087e-02,
          1.2531e-01, -2.6304e-01, -7.7302e-02,  1.6942e-01, -3.1814e-01,
          1.6260e-02, -6.0377e-02,  2.8117e-01,  1.2496e-01,  2.2574e-01,
         -2.4154e-01, -1.0556e-01,  2.5943e-01,  4.3662e-01, -4.9145e-01,
         -2.0259e-01, -1.7640e-01,  5.9566e-01,  7.4059e-02,  2.7170e-01,
          1.5841e-01,  2.4323e-01,  1.6206e-01,  2.5249e-01, -8.0693e-02,
         -8.9630e-02, -2.4976e-02, -2.0677e-01,  4.8594e-01, -1.7538e-01,
         -3.1971e-03, -1.6402e-01,  1.7629e-01, -2.1471e-01,  5.6349e-01,
         -2.0331e-02, -4.3099e-01,  2.7756e-01, -3.2636e-01,  8.8934e-02,
          1.1959e-01,  1.9535e-01,  6.9365e-02, -1.3776e-01, -3.0770e-01,
         -2.9805e-01, -1.7303e-02, -1.8222e-02, -4.5234e-02, -1.3928e-01,
          1.3

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

# Charger le modèle et tokenizer GPT-2
tokenizer_gen = GPT2Tokenizer.from_pretrained("gpt2")
model_gen = GPT2LMHeadModel.from_pretrained("gpt2")

# Entrée initiale pour guider le modèle (le début de la phrase par exemple)
prompt_text = "The author's style reflects an insightful perspective on"
input_ids = tokenizer_gen(prompt_text, return_tensors="pt").input_ids

# Ajout des embeddings de style
# On va combiner les embeddings de style avec l'entrée initiale
style_embedding_crud = out_crud  # Embedding de LUAR-CRUD
style_embedding_style = style_embeddings.mean(dim=0)  # Moyenne des embeddings de Style-Embedding pour l'ensemble des phrases

# Génération avec intégration du style
with torch.no_grad():
    output = model_gen.generate(
        input_ids,
        max_length=100,  # Longueur de texte générée
        num_return_sequences=1,
        pad_token_id=tokenizer_gen.eos_token_id
    )

# Affichage du texte généré
generated_text = tokenizer_gen.decode(output[0], skip_special_tokens=True)
print("Texte généré dans le style de l'auteur :", generated_text)


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Texte généré dans le style de l'auteur : The author's style reflects an insightful perspective on the world of the author.

The author's style reflects an insightful perspective on the world of the author.

The author's style reflects an insightful perspective on the world of the author.

The author's style reflects an insightful perspective on the world of the author.

The author's style reflects an insightful perspective on the world of the author.

The author's style reflects an insightful perspective on the world of the author.


In [None]:
!pip install -U sentence-transformers


Collecting sentence-transformers
  Downloading sentence_transformers-3.3.1-py3-none-any.whl.metadata (10 kB)
Downloading sentence_transformers-3.3.1-py3-none-any.whl (268 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentence-transformers
Successfully installed sentence-transformers-3.3.1


# Expert ( E_3 ) : Similarité sémantique SBERT/GTR


In [None]:
from sentence_transformers import SentenceTransformer, util
from transformers import AutoTokenizer, AutoModel
import torch
from sklearn.metrics.pairwise import cosine_similarity

# Charger SBERT (déjà dans votre code)
semantic_model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Charger GTR-Large
gtr_tokenizer = AutoTokenizer.from_pretrained('google/mt5-large')
gtr_model = AutoModel.from_pretrained('google/mt5-large')

# Exemples de texte source et généré
texte_source = "This is the original text to maintain meaning."
texte_genere = "This text is original and should keep the meaning."

### Fonction pour GTR
def compute_gtr_similarity(text1, text2, tokenizer, model):
    # Tokeniser et convertir en tenseur
    inputs1 = tokenizer(text1, return_tensors="pt", padding=True, truncation=True, max_length=512)
    inputs2 = tokenizer(text2, return_tensors="pt", padding=True, truncation=True, max_length=512)

    # Obtenir les embeddings pour chaque texte (encodeur uniquement, pas besoin du décodeur)
    with torch.no_grad():
        embedding1 = model.encoder(input_ids=inputs1['input_ids'], attention_mask=inputs1['attention_mask']).last_hidden_state
        embedding2 = model.encoder(input_ids=inputs2['input_ids'], attention_mask=inputs2['attention_mask']).last_hidden_state

    # Moyenne sur la séquence pour obtenir une représentation vectorielle unique
    embedding1 = embedding1.mean(dim=1).numpy()
    embedding2 = embedding2.mean(dim=1).numpy()

    # Calculer la similarité cosinus
    similarity = cosine_similarity(
        embedding1.reshape(1, -1),
        embedding2.reshape(1, -1)
    )[0][0]
    return similarity


# Encodez les textes avec SBERT
embedding_source = semantic_model.encode(texte_source, convert_to_tensor=True)
embedding_genere = semantic_model.encode(texte_genere, convert_to_tensor=True)

# Calculez la similarité cosinus pour SBERT
similarite_sbert = util.pytorch_cos_sim(embedding_source, embedding_genere)
print(f"SBERT Similarité cosinus : {similarite_sbert.item()}")

# Calculez la similarité cosinus pour GTR
similarite_gtr = compute_gtr_similarity(texte_source, texte_genere, gtr_tokenizer, gtr_model)
print(f"GTR Similarité cosinus : {similarite_gtr}")


SBERT Similarité cosinus : 0.8276597857475281
GTR Similarité cosinus : 0.8369420170783997


##Expert E_4 : Distance de révision (Hamming ou Levenshtein)

In [None]:
# Installer la bibliothèque Levenshtein
!pip install python-Levenshtein

# Importer le module Levenshtein
import Levenshtein

# Définir une fonction pour calculer la similarité normalisée
def levenshtein_similarity(source, genere):
    distance = Levenshtein.distance(source, genere)
    max_len = max(len(source), len(genere))
    # La similarité est normalisée entre 0 et 1 en divisant la distance par la longueur maximale des deux textes
    similarity = 1 - (distance / max_len)
    return similarity

# Textes source et généré
texte_source = "This is the original text to maintain meaning."
texte_genere = "This text is original and should keep the meaning."

# Calcul de la distance de Levenshtein
distance = Levenshtein.distance(texte_source, texte_genere)
print(f"Distance de Levenshtein : {distance}")

# Calcul de la similarité normalisée
similarity = levenshtein_similarity(texte_source, texte_genere)
print(f"Similarité normalisée (Levenshtein) : {similarity:.2f}")


Distance de Levenshtein : 23
Similarité normalisée (Levenshtein) : 0.54


## Code pour EBM


In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from sentence_transformers import SentenceTransformer, util
import torch

# Charger le modèle de génération (T5) et son tokenizer
tokenizer = AutoTokenizer.from_pretrained("google/t5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-large")

# Charger le modèle pour la similarité sémantique (SBERT)
semantic_model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Textes source et style cible
texte_source = "This is the original text to maintain meaning."
style_reference = "We'd rather focus on the matter, not the details."

# Génération initiale avec T5
def generate_text_with_t5(input_text, model, tokenizer, max_length=64):
    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
    outputs = model.generate(inputs["input_ids"], max_length=max_length, num_beams=5, early_stopping=True)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Évaluer l'énergie de style
def style_energy(generated_text, style_reference, semantic_model):
    embedding_gen = semantic_model.encode(generated_text, convert_to_tensor=True)
    embedding_ref = semantic_model.encode(style_reference, convert_to_tensor=True)
    # Mesurer la similarité cosinus comme un proxy de l'énergie
    similarity = util.pytorch_cos_sim(embedding_gen, embedding_ref)
    return 1 - similarity.item()  # L'énergie est inversement proportionnelle à la similarité

# Évaluer l'énergie sémantique
def semantic_energy(generated_text, source_text, semantic_model):
    embedding_gen = semantic_model.encode(generated_text, convert_to_tensor=True)
    embedding_src = semantic_model.encode(source_text, convert_to_tensor=True)
    # Mesurer la similarité cosinus comme un proxy de l'énergie
    similarity = util.pytorch_cos_sim(embedding_gen, embedding_src)
    return 1 - similarity.item()  # L'énergie est inversement proportionnelle à la similarité

# Génération guidée avec EBM
def energy_based_generation(input_text, style_reference, source_text, model, tokenizer, semantic_model, max_steps=5):
    current_text = generate_text_with_t5(input_text, model, tokenizer)  # Génération initiale
    best_text = current_text
    best_energy = float("inf")  # On veut minimiser l'énergie

    for _ in range(max_steps):
        # Calcule l'énergie totale comme la somme des énergies de style et sémantique
        style_score = style_energy(current_text, style_reference, semantic_model)
        semantic_score = semantic_energy(current_text, source_text, semantic_model)
        total_energy = style_score + semantic_score

        if total_energy < best_energy:
            best_text = current_text
            best_energy = total_energy

        # Générer une nouvelle tentative (éventuellement en changeant légèrement le contexte)
        current_text = generate_text_with_t5(input_text, model, tokenizer)

    return best_text, best_energy

# Génération guidée
generated_text, energy = energy_based_generation(
    texte_source, style_reference, texte_source, model, tokenizer, semantic_model
)

# Afficher le résultat
print(f"Texte généré guidé : {generated_text}")
print(f"Énergie totale : {energy}")


OSError: google/t5-large is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`

# Finetuning d'un modèle sur le contenu de Koray

# Données d'entrée

## Structure des données
- Les modèles de génération de texte sont **moins adaptés aux données structurées** comme les tableaux ou les mises en page complexes (puces, formats spécifiques).  
- **Recommandation :** Transformez ces données en texte linéaire simplifié pour obtenir de meilleurs résultats lors du fine-tuning.

## Volume de données recommandé
- **Quantité minimale :** 500 000 à 1 million de mots pour un fine-tuning efficace.  
- **Quantité optimale :** 1 à 3 millions de mots pour une qualité supérieure, en particulier pour des modèles de grande taille.

---

# Modèles recommandés

## Modèles adaptés
- **Exemples :**
  - GPT-2
  - GPT-3 et ses variantes open-source
  - Versions réduites de GPT-4
- Ces modèles sont bien adaptés pour le fine-tuning orienté vers la génération de texte stylisé.

## Taille des modèles
- **Petit modèle :** 125 millions (M) de paramètres.  
- **Moyen modèle :** 1 milliard (B) de paramètres.  
- **Grand modèle :** Jusqu’à plusieurs milliards de paramètres.  

> **Impact de la taille :** Plus le modèle est grand, plus les coûts et le temps d’entraînement augmentent.

---

# Coût estimé pour le fine-tuning

## Petit modèle (125M paramètres)
- **Temps :** 5 à 10 heures  
- **Coût :** 15 $ à 30 $ sur une A100 (1,5 $ à 1,9 $/heure)

## Modèle moyen (1B paramètres)
- **Temps :** 15 à 30 heures  
- **Coût :** 45 $ à 90 $ sur une A100  
- Sur une H100, le coût peut augmenter de 50 %.

## Grand modèle (6B paramètres)
- **Temps :** 50 à 100 heures  
- **Coût :** 150 $ à 300 $ sur une A100  
- Sur une H100 : 225 $ à 450 $ (tarifs de 2,7 $ à 3,9 $/heure)

---

# Considérations matérielles

- **A100 vs H100** :
  - **H100 :** Performances plus rapides et architecture plus récente, mais coût plus élevé. Idéale pour des projets à grande échelle.  
  - **A100 :** Plus économique pour des tâches de fine-tuning modérées.

---

# Approche par **produit d'experts**

## Principe
En décomposant le processus en deux étapes et en utilisant des modèles spécialisés pour chaque tâche, on obtient un **contrôle plus fin** et des résultats de **meilleure qualité**.

## Étape 1 : Modèle de génération de texte SEO
- **Objectif :** Générer du contenu SEO optimisé (structures, mots-clés, formulations).  
- **Avantage :** Texte bien structuré et directement utilisable pour le référencement.

## Étape 2 : Modèle de transfert de style avec l’EBM
- **Fonctionnement :**
  - L’EBM (Energy-Based Model) évalue et ajuste le style du texte généré.  
  - Il reformule le texte SEO pour lui donner un **style particulier** (ex. : style humain, littéraire, etc.).
- **Avantage :** Conserve les caractéristiques SEO tout en rendant le texte plus fluide et naturel.

---

# Avantages de l'approche en deux étapes

1. **Qualité supérieure et authenticité :**  
   - Chaque modèle excelle dans sa tâche respective.  
   - Résultat : Texte SEO-friendly et authentiquement humain.

2. **Flexibilité :**  
   - Le style cible peut être modifié sans réentraîner complètement le modèle SEO.  
   - Utilisation de paramètres spécifiques dans l’EBM pour ajuster le style selon les besoins.

3. **Résistance à la détection IA :**  
   - En humanisant le texte via l’EBM, le contenu devient moins détectable comme généré par IA.

---

> Cette méthode de spécialisation par tâche offre une efficacité accrue et une flexibilité maximale, tout en garantissant des résultats de haute qualité. Chaque modèle agit comme un expert, coordonné par l’EBM pour un rendu optimal.
