# Test avec un MLM

In [6]:
# Test avec un MLM
from transformers import DataCollatorForLanguageModeling, AutoTokenizer

# Charger un tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# Cr√©er le data collator pour le Masked Language Modeling
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=True,  # Activer le masquage de mots
    mlm_probability=0.15  # Probabilit√© de masquer un jeton
)

# Exemple de phrases tokenis√©es
tokenized_sentences = [
    {"input_ids": [101, 7592, 1010, 2023, 2003, 102]},
    {"input_ids": [101, 2023, 2003, 1037, 2503, 102]}
]

# Appliquer le data collator
batch = data_collator(tokenized_sentences)

# Le 'batch' contiendra les 'input_ids' avec certains jetons masqu√©s
# et les 'labels' correspondants pour l'entra√Ænement.
print(batch)


{'input_ids': tensor([[ 101,  103, 1010, 2023, 2003,  102],
        [ 101, 2023, 2003, 1037,  103,  102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1]]), 'labels': tensor([[-100, 7592, -100, -100, -100, -100],
        [-100, -100, -100, -100, 2503, -100]])}


Dans les MLM on utilise un masquage d'un ou plusieurs tokens comme label, c'est repr√©sent√© par les labels

d√©finition : label = bonne r√©ponse dans une entr√©e

Exemple de sortie du code ci dessus avec 1 mask
```
{
'input_ids': tensor([
    [ 101, 7592, 1010, 2023, 2003,  102],
    [ 101, 2023,  103, 1037, 2503,  102]
]),
'attention_mask': tensor([
    [1, 1, 1, 1, 1, 1],
    [1, 1, 1, 1, 1, 1]
]),
'labels': tensor([
    [-100, -100, -100, -100, -100, -100],
    [-100, -100, 2003, -100, -100, -100]
])
}
```

Exemple avec 2 masks
```
{
'input_ids': tensor([
    [ 101,  103, 1010, 2023, 2003,  102],
    [ 101, 2023, 2003, 1037,  103,  102]
]),
'attention_mask': tensor([
    [1, 1, 1, 1, 1, 1],
    [1, 1, 1, 1, 1, 1]
]),
'labels': tensor([
    [-100, 7592, -100, -100, -100, -100],
    [-100, -100, -100, -100, 2503, -100]
])
}
```


principe g√©n√©ral :

| s√©quence      | 0    | 1    | 2    | 3      | 4        | 5 |
|---------------|------|------|------|--------|----------|---|
| **entr√©e**    | La   | chat | a    | quatre | papattes | ! |
| **input_ids** | La   | chat | a    | 103    | papattes | ! |
| **labels**    | -100 | -100 | -100 | quatre | -100     | ! |

Ici le 103 dans input_ids correspond au token MASK, c'est a dire la valeur a masquer.

Le -100 dans label repr√©sente que la valeur ne va pas √™tre test√©e.

Ce qu'il se passe c'est que le model essais de pr√©dire le mot masque et calcul la diff√©rence entre la prediction et la bonne r√©ponse pour d√©termin√© la grandeur de l'erreur.


# Test avec le GML

In [9]:
from transformers import AutoTokenizer, DataCollatorForLanguageModeling

# 1. Charger le tokenizer sp√©cifique au mod√®le CodeGen
#    Ce tokenizer est optimis√© pour du code Python.
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-350M-mono")

# Si le tokenizer n'a pas de jeton de padding, on lui en assigne un.
# Le jeton EOS (End Of Sentence) est souvent un bon candidat.
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# 2. Cr√©er le Data Collator pour le Causal Language Modeling
#    La seule diff√©rence est mlm=False.
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # üëà C'est le changement crucial !
)

# 3. Exemple avec des extraits de code Python
python_code_snippets = [
    "def hello_world():",
    "import numpy as np"
]

# Tokeniser les extraits de code
tokenized_code = tokenizer(python_code_snippets, truncation=True)

# 4. Appliquer le data collator pour cr√©er un lot
batch = data_collator([{"input_ids": item} for item in tokenized_code["input_ids"]])

# 5. Analyser le r√©sultat
print("--- Input IDs ---")
print(batch['input_ids'])

print("\n--- Labels ---")
print(batch['labels'])

batch

--- Input IDs ---
tensor([[ 4299, 23748,    62,  6894, 33529],
        [11748,   299, 32152,   355, 45941]])

--- Labels ---
tensor([[ 4299, 23748,    62,  6894, 33529],
        [11748,   299, 32152,   355, 45941]])


{'input_ids': tensor([[ 4299, 23748,    62,  6894, 33529],
        [11748,   299, 32152,   355, 45941]]), 'attention_mask': tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]), 'labels': tensor([[ 4299, 23748,    62,  6894, 33529],
        [11748,   299, 32152,   355, 45941]])}

Le principe est fondamentalement diff√©rent, le CML va pouvoir pr√©dire le dernier mot de la s√©quence proposer en entr√©.

Dans la sequence [ 4299, 23748, 62, 6894, 33529] le model cherchera √† deviner 33529 √† partir des token [ 4299, 23748, 62, 6894]

le masque d'attention est interne au model et se nome masque d'attention causal


# TODO

* [ ] Approfondir le masque d'attention causal, entre autre comment se d√©roule la pr√©dition du token suivant la s√©quence actuellement active.
* [ ] Role du padding mask dans le CML, c'est pas compl√©tement clair.
* [ ] V√©rifier le m√©canisme de cross attention.

# Sources

## Diff√©rence entre MLM et CLM

https://medium.com/data-science/understanding-masked-language-models-mlm-and-causal-language-models-clm-in-nlp-194c15f56a5

https://www.youtube.com/watch?v=agRyKPhsqJ4

## Cross-attention

https://datascience.stackexchange.com/questions/126187/cross-attention-mask-in-transformers

https://arxiv.org/abs/1706.03762
