In [None]:
%%capture
# Installs Unsloth, Xformers (Flash Attention) and all other packages!
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.26" trl peft accelerate bitsandbytes

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit", # Instruct version of Gemma 7b
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit", # Instruct version of Gemma 2b
    "unsloth/llama-3-8b-bnb-4bit", # [NEW] 15 Trillion token Llama-3
] # More models at https://huggingface.co/unsloth

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Phi-3-mini-4k-instruct",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


Unsloth: You passed in `unsloth/Phi-3-mini-4k-instruct` and `load_in_4bit = True`.
We shall load `unsloth/Phi-3-mini-4k-instruct-bnb-4bit` for 4x faster loading.


config.json:   0%|          | 0.00/1.16k [00:00<?, ?B/s]

==((====))==  Unsloth: Fast Mistral patching release 2024.5
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.2.1+cu121. CUDA = 7.5. CUDA Toolkit = 12.1.
\        /    Bfloat16 = FALSE. Xformers = 0.0.25.post1. FA = False.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


model.safetensors:   0%|          | 0.00/2.26G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/140 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/3.17k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth 2024.5 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


### Data preparation

In [None]:
import pandas as pd

df= pd.read_csv('dataset_v2.csv')

# Ajout d'une colonne vide
df['input'] = ''

In [None]:
EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN

def alpaca_prompt(row):
    return f"""Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande  en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:

### Instruction:
{row['INST']}

### Input:
{row['input']}

### Response:
{row['OUTPUT']}

{EOS_TOKEN}
"""

In [None]:
# Apply the formatting function to each row
formatted_array = df.apply(alpaca_prompt, axis=1)

# Create a new DataFrame with one column: 'formatted_data'
formatted_df = pd.DataFrame({'text': formatted_array})

formatted_df

Unnamed: 0,text
0,Ci-dessous se trouve une instruction qui décri...
1,Ci-dessous se trouve une instruction qui décri...
2,Ci-dessous se trouve une instruction qui décri...
3,Ci-dessous se trouve une instruction qui décri...
4,Ci-dessous se trouve une instruction qui décri...
...,...
124,Ci-dessous se trouve une instruction qui décri...
125,Ci-dessous se trouve une instruction qui décri...
126,Ci-dessous se trouve une instruction qui décri...
127,Ci-dessous se trouve une instruction qui décri...


In [None]:
from datasets import load_dataset, Dataset, DatasetDict

In [None]:
train_dict = DatasetDict({
    'train': Dataset.from_pandas(formatted_df)
})

In [None]:
train_dict

DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 129
    })
})

### Entrainement

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = train_dict["train"],
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

  self.pid = os.fork()


Map (num_proc=2):   0%|          | 0/129 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = Tesla T4. Max memory = 14.748 GB.
2.283 GB of memory reserved.


In [None]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 129 | Num Epochs = 4
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 60
 "-____-"     Number of trainable parameters = 29,884,416


Step,Training Loss
1,1.2402
2,1.2002
3,1.2206
4,1.1071
5,1.1177
6,1.1324
7,1.0378
8,0.9524
9,0.9876
10,0.9272


In [None]:
#@title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

923.9569 seconds used for training.
15.4 minutes used for training.
Peak reserved memory = 3.084 GB.
Peak reserved memory for training = 0.801 GB.
Peak reserved memory % of max memory = 20.911 %.
Peak reserved memory for training % of max memory = 5.431 %.


### Testing

In [None]:
alpaca_prompt = """Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:

### Instruction:
{}

### Input:
{}

### Response:
{}"""

In [None]:
# Exemple cas deja entrainer
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Le joueur doit reconnaître et ordonner les lettres de l'alphabet niveau facile (MD) en complétant une série de mots manquants avec les lettres manquantes (MS).", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nLe joueur doit reconnaître et ordonner les lettres de l\'alphabet niveau facile (MD) en complétant une série de mots manquants avec les lettres manquantes (MS).\n\n### Input:\n\n\n### Response:\nMC1 : Le joueur se retrouve dans une salle remplie de mots manquants, où chaque mot est composé de lettres mélangées. Pour avancer, le joueur doit reconnaître et ordonner les lettres de l\'alphabet pour compléter les mots manquants. Chaque mot correctement complété lui permettra de débloquer un passage secret et de progresser dans sa quête. En revanche, s\'il se trompe, il risque de se retrouver face à des obstacles supplémentaires qui compliqueront sa route.\nMC2 : Le joueur s

In [None]:
# Exemple nouveau cas 1
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Le joueur doit reconnaître le nom d'un artiste célèbre en regardant une œuvre d'art(MD), puis répondre à une question sur le mouvement artistique auquel l'œuvre appartient(MS).", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nLe joueur doit reconnaître le nom d\'un artiste célèbre en regardant une œuvre d\'art(MD), puis répondre à une question sur le mouvement artistique auquel l\'œuvre appartient(MS).\n\n### Input:\n\n\n### Response:\nMC1 : Le joueur se retrouve dans une salle remplie d\'œuvres d\'art de différents artistes célèbres. Chaque tableau est accompagné d\'un nom d\'artiste caché. Pour avancer, le joueur doit identifier le nom de l\'artiste en regardant l\'œuvre et en répondant correctement à une question sur le mouvement artistique auquel l\'œuvre appartient. S\'il réussit, il pourra débloquer de nouveaux défis et progresser dans sa quête. En cas d\'erreur, il risque de se retro

In [None]:
# Exemple nouveau cas 2
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Le joueur doit associer chaque avancée technologique récente à son domaine d'application correspondant (MD) en répondant à des questions dans un jeu-questionnaire interactif.(MS)", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nLe joueur doit associer chaque avancée technologique récente à son domaine d\'application correspondant (MD) en répondant à des questions dans un jeu-questionnaire interactif.(MS)\n\n### Input:\n\n\n### Response:\nMC1 : Le joueur se retrouve dans un laboratoire futuriste où des inventions récentes sont exposées. Pour avancer, il doit associer chaque invention à son domaine d\'application correspondant en répondant à des questions dans un jeu-questionnaire interactif. Par exemple, il pourrait être confronté à une machine à voyager dans le temps et devra déterminer dans quel domaine elle serait utilisée. En cas de bonne réponse, il pourra progresser, mais en cas d\'erreu

In [None]:
# Exemple nouveau cas 3
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Le joueur doit compléter les paroles manquantes de chansons marocaines populaires (MD) en écoutant des extraits musicaux et en remplissant les blancs avec les mots appropriés (MS).", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nLe joueur doit compléter les paroles manquantes de chansons marocaines populaires (MD) en écoutant des extraits musicaux et en remplissant les blancs avec les mots appropriés (MS).\n\n### Input:\n\n\n### Response:\nMC1 : Le joueur se retrouve dans une salle remplie de musique traditionnelle marocaine. Des extraits musicaux sont diffusés à l\'écran, mais certains mots manquent dans les paroles des chansons. Pour avancer, le joueur doit écouter attentivement et compléter correctement les paroles manquantes en remplissant les blancs avec les mots appropriés. Chaque parole complète permet au joueur de progresser dans sa quête, mais une erreur pourrait le ramener au point d

In [None]:
# Exemple nouveau cas 4
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Une histoire contient les personnages 'Mohcine' et 'Hind' pour un mecanique didactique les quatres saison pour voyager au Mexico", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nUne histoire contient les personnages \'Mohcine\' et \'Hind\' pour un mecanique didactique les quatres saison pour voyager au Mexico\n\n### Input:\n\n\n### Response:\nMC1 : Mohcine et Hind se retrouvent face à un défi crucial : ils doivent naviguer à travers les quatre saisons pour atteindre le Mexique. Chaque saison présente des obstacles différents, comme des tempêtes de neige en hiver, des vents violents en été, des pluies torrentielles en automne et des températures extrêmes en été. Pour réussir leur voyage, les deux personnages doivent apprendre à s\'adapter à chaque saison et à trouver des solutions pour surmonter ces défis.\nMC2 : Mohcine et Hind se retrouvent c

In [None]:
# Exemple nouveau cas 5
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Une histoire courte pour Mario", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nUne histoire courte pour Mario\n\n### Input:\n\n\n### Response:\nMC1 : Mario se retrouve face à un coffre-fort verrouillé, mais il doit résoudre un puzzle complexe pour obtenir la clé et ouvrir le coffre. En utilisant ses compétences de résolution de problèmes et de logique, Mario doit relier les pièces du puzzle de manière à ce que le coffre se déverrouille. Une fois le coffre ouvert, il découvre un trésor caché qui lui permettra de progresser dans sa quête.\nMC2 : Mario se trouve devant un mur de blocs mouvants, mais il doit les déplacer de manière à créer un passage pour avancer. En utilisant ses compétences de coordination et de précision, Mario doit déplacer les b

In [None]:
model.save_pretrained("lora_model") # Local saving
tokenizer.save_pretrained("lora_model")
model.push_to_hub("mohcinebd/lora_model_phi3_dataset_v2", token = "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") # Online saving
tokenizer.push_to_hub("mohcinebd/lora_model_phi3_dataset_v2", token = "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") # Online saving

README.md:   0%|          | 0.00/604 [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/120M [00:00<?, ?B/s]

Saved model to https://huggingface.co/mohcinebd/lora_model_phi3_dataset_v2


tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

## Push model in huggingface

In [None]:
# Save to 8bit Q8_0
#model.save_pretrained_gguf("model", tokenizer,)
model.push_to_hub_gguf("mohcinebd/gguf_model_phi3_dataset_v2", tokenizer, token = "")

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 5.38 out of 12.67 RAM for saving.


100%|██████████| 32/32 [00:01<00:00, 22.56it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Unsloth: Saving mohcinebd/gguf_model_phi3_dataset_v2/pytorch_model-00001-of-00002.bin...
Unsloth: Saving mohcinebd/gguf_model_phi3_dataset_v2/pytorch_model-00002-of-00002.bin...
Done.


Unsloth: Extending mohcinebd/gguf_model_phi3_dataset_v2/tokenizer.model with added_tokens.json.
Originally tokenizer.model is of size (32000).
But we need to extend to sentencepiece vocab size (32011).


==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp will take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GUUF 16bits will take 3 minutes.
\        /    [2] Converting GGUF 16bits to q8_0 will take 20 minutes.
 "-____-"     In total, you will have to wait around 26 minutes.

Unsloth: [0] Installing llama.cpp. This will take 3 minutes...
Unsloth: [1] Converting model at mohcinebd/gguf_model_phi3_dataset_v2 into q8_0 GGUF format.
The output location will be ./mohcinebd/gguf_model_phi3_dataset_v2-unsloth.Q8_0.gguf
This will take 3 minutes...
INFO:convert:Loading model file mohcinebd/gguf_model_phi3_dataset_v2/pytorch_model-00001-of-00002.bin
INFO:convert:Loading model file mohcinebd/gguf_model_phi3_dataset_v2/pytorch_model-00001-of-00002.bin
INFO:convert:Loading model file mohcinebd/gguf_model_phi3_dataset_v2/pytorch_model-00002-of-00002.bin
INFO:convert:model parameters count : 3821079552 (4B)
INFO:convert:params = Params(n_vocab=3206

gguf_model_phi3_dataset_v2-unsloth.Q8_0.gguf:   0%|          | 0.00/4.06G [00:00<?, ?B/s]

Saved GGUF to https://huggingface.co/mohcinebd/gguf_model_phi3_dataset_v2


In [None]:
# Exemple nouveau cas 6
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "apprendre les océans et mers (MD), Sindibad voyage et il passe des aventures (MS)", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

["<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\napprendre les océans et mers (MD), Sindibad voyage et il passe des aventures (MS)\n\n### Input:\n\n\n### Response:\nMC1 : Pour avancer dans le jeu, le joueur doit répondre à des questions sur les différentes océans et mers du monde. Par exemple, il pourrait être confronté à des énigmes basées sur les caractéristiques géographiques des océans, telles que la taille, la profondeur, ou la biodiversité. En cas de bonne réponse, le joueur pourra débloquer de nouveaux défis ou accéder à des trésors cachés. En revanche, une mauvaise réponse pourrait le conduire à des obstacles supplémentaires à surmonter.\n\nMC2 : Sindibad se retrouve face à un défi crucial : il doit naviguer 

In [None]:
# Exemple nouveau cas 6
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Les plantes et les arbres (MD), 'Jalil' cherche une plante pour faire guerir sa fille 'Alexa'(MS)", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\nLes plantes et les arbres (MD), \'Jalil\' cherche une plante pour faire guerir sa fille \'Alexa\'(MS)\n\n### Input:\n\n\n### Response:\nMC1 : \'Jalil\' se retrouve dans un jardin enchanté où toutes les plantes sont magiques. Pour trouver la bonne plante pour guérir sa fille \'Alexa\', il doit identifier les plantes qui ont des propriétés médicinales. Chaque plante qu\'il choisit devra répondre à une énigme ou un défi pour avancer dans sa quête. S\'il réussit à trouver la bonne plante, il pourra la ramener chez lui pour soigner \'Alexa\'. En cas d\'échec, il risque de laisser sa fille sans remède.\n\nMC2 : \'Jalil\' se trouve face à un jardinier mystérieux qui conserve 

In [None]:
# Exemple nouveau cas 6
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "donner l'histoire du celebre jeux 'Super Mario' qui doit sauver princesse(MS)", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 1800, use_cache = True)
tokenizer.batch_decode(outputs)

['<s> Ci-dessous se trouve une instruction qui décrit une tâche, associée à une entrée fournissant plus de contexte. Écrivez une réponse qui complète correctement la demande en français, Generer une histoire de jeu qui inclut des mini-challenges basé sur mecanique didactique et mini-scenario suivant:\n\n### Instruction:\ndonner l\'histoire du celebre jeux \'Super Mario\' qui doit sauver princesse(MS)\n\n### Input:\n\n\n### Response:\nMC1 : Le joueur se retrouve dans le royaume de Mushroom Kingdom, où la princesse est en danger. Pour sauver la princesse, le joueur doit collecter des pièces d\'or et des cristaux magiques dispersés dans les niveaux encombrés de pièges et de monstres. Chaque pièce d\'or et chaque cristal magique rapproche le joueur un peu plus de la princesse, mais il doit faire preuve de rapidité et de stratégie pour éviter les dangers et atteindre son objectif.\nMC2 : Le joueur se trouve face à un défi de résolution de puzzle pour sauver la princesse. Des portes verrouil